Beautiful Soup est un package Python pour l'analyse HTML / XML. La dernière version de ce package est la version 4, importée en tant que bs4.

Plus à propos beautifulsoup...

Basé sur le code de ici, je suis capable de crawler url pour chaque transation et de les enregistrer dans un fichier Excel qui peut être téléchargé ici. J'aimerais maintenant aller plus loin et cliquer sur le lien url: Pour chaque url, je devrai ouvrir et enregistrer des fichiers au format pdf: Co....
Contexte: Suite avec un tutoriel Udemy qui analyse certaines informations de Bing. Il prend une entrée utilisateur et l'utilise comme paramètre pour rechercher dans Bing, renvoyant tous les liens href qu'il peut trouver sur la première page Code: from bs4 import BeautifulSoup import requests as ....
5 déc. 2020 à 18:03
Url = 'https://www.premierleague.com/match/59001' Je veux connaître la date de ce match mais je ne peux pas. C'est ce que j'ai essayé soup.select('div.matchInfo div.matchDate.renderMatchDateContainer')[0].text ....
J'essaye de gratter le commentaire d'un HTML particulier mais je rencontre des problèmes. Je n'ai aucun problème à gratter tout le texte sous la balise, mais seulement les commentaires. Est-ce que quelqu'un peut m'aider. Voici mon code from bs4 import BeautifulSoup from urllib.request import urlopen....
html_text = requests.get('https://www.trustpilot.com/categories/restaurants_bars? numberofreviews=0&status=claimed&timeperiod=0').text soup = BeautifulSoup(html_text, 'lxml') restaurants = soup.find_all('a', class_ = 'internal___1jK0Z wrapper___26yB4') for index, restaurant in enumerate(restaurants....
Je ne suis pas familier avec les techniques de grattage, mais j'aurais besoin d'obtenir des informations sur les auteurs, les titres, les dates d'un site Web. J'ai essayé d'écrire du code en suivant les tutoriels et les questions précédentes sur Stackoverflow, mais j'ai toujours des difficultés à sé....
4 déc. 2020 à 01:22
Je racle google scholar avec une belle soupe. En utilisant le code ci-dessous, je n'obtiens que la première ligne du dataframe.Besoin d'obtenir les trois sorties par ligne dans le dataframe. Je ne sais pas comment m'y prendre et je suis nouveau dans le scraping. Merci Queries = ['10 .1371 / journal.....
3 déc. 2020 à 15:11
J'ai essayé de faire une analyse des sites Web de nouvelles qui compare le nombre d'articles que chaque site Web a écrits sur covid. J'ai réussi à extraire les titres d'articles de sites Web d'actualités et à faire une recherche par mot qui indique combien de tous les articles extraits contenaient l....
3 déc. 2020 à 10:44
Essayer de récupérer certaines données. Le vérifier avec impression et obtenir plusieurs impressions .. Cependant, le CSV n'a qu'une seule entrée. Pouvez-vous aider s'il vous plaît? Merci beaucoup. import csv import time import requests from bs4 import BeautifulSoup from selenium.webdriver.chrome.op....
2 déc. 2020 à 17:05
J'essaie de boucler des pages à partir de ce link et extrayez la partie intéressante. Veuillez voir le contenu dans le cercle rouge dans l'image ci-dessous. Voici ce que j'ai essayé: url = 'http://so.eastmoney.com/Ann/s?keyword=购买物业&pageindex={}' for page in range(10): r = requests.get(url.form....
Chaque matin, le comté de Multnomah indique s'il est acceptable ou non d'allumer un feu dans votre cheminée. Au lieu de me rendre sur le site tous les jours, j'essaie d'automatiser le processus avec une application qui saisit une image du serveur qui montre l'état. À l'heure actuelle, le script me d....
2 déc. 2020 à 04:47
J'essaie d'ouvrir chaque entreprise des entreprises StackOverflow et d'obtenir des informations spécifiques (comme la description complète) .Y a-t-il un moyen simple de le faire en utilisant Beautiful Soup? Pour l'instant, je reçois les liens des entreprises de la première page. import requests from....
J'essaie de récupérer la paire clé / valeur json 'inStockQty' en utilisant beautifulsoup mais j'ai des problèmes. Voici mon code jusqu'à présent: import requests from bs4 import BeautifulSoup url = "https://direct.asda.com/george/men/shoes/black-leather-lace-up-oxford-shoes/GEM830406,default,pd.htm....
1 déc. 2020 à 20:03
Je suis en train d'extraire la date d'un site Web. Je veux la date / heure de publication de l'article. Voici mon code: De bs4 import des requêtes d'importation BeautifulSoup url = "http://buchholterberg.ch/de/Gemeinde/Information/News/Newsmeldung?filterCategory=22&newsid=911" response = requests.ge....
30 nov. 2020 à 16:13
J'essaye de gratter ce site et j'utilise la requests bibliothèque et BeautifulSoup. Alors, voici l'affaire, je fais simplement un requests.get() et convertis son .content en un objet bs4. (Mon analyseur est "html5lib") Maintenant, avant cela, comme vous pouvez le voir dans l'image ici, il y a un att....
J'essaie actuellement de récupérer le site Web de Google Play Store. Plus précisément, je souhaite créer un ensemble de données contenant les évaluations de l'application disney +. Basé sur un tutoriel sur le webscraping (Construire un jeu de données de cartes graphiques sur "Newegg.com") je n'ai eu....
29 nov. 2020 à 16:35
J'utilise cette commande pour installer BeautifulSoup sous Mac OS: conda install beautifulsoup4 Puis vérifiez le résultat: $ conda list -e|grep bea beautifulsoup4=4.9.3=pyhb0f4dca_0 (pydolphin) Mais dans le PyCharm ne pouvait toujours pas utiliser ce package: Que dois-je faire pour que cela fonct....
29 nov. 2020 à 12:13
Je récupère la date de ce site Web: https://www.reuters.com/article/us-usa-banks-conference-jpmorgan/jpmorgan-ceo-dimon-sees-us-economic-expansion-continuing- idUSKCN1IX508 Lorsque j'essaye d'obtenir la date qui se trouve dans l'en-tête / zone de texte grise, la date n'est pas imprimée. page = reque....
27 nov. 2020 à 02:09
J'essaie de récupérer tous les td text pour le tableau ci-dessous en utilisant Beautiful Soup, malheureusement les noms des balises sont les mêmes et je ne peux récupérer que le premier élément ou certains éléments s'impriment à plusieurs reprises. Je ne sais donc pas vraiment comment s'y prendre. V....
26 nov. 2020 à 21:43
J'aimerais obtenir des informations du côté de la météo. https://pogoda.interia.pl/archiwum-pogody- 08-10-2019, cId, 21295 Séparément heure et minutes: <div class="entry-hour"> <span><span class="hour">0</span><span class="minutes">00</span></span> </div> Temp de prévision: <span class=....
26 nov. 2020 à 12:39
Je veux insérer une chaîne comme celle-ci {% load static %} dans la première ligne (tout en haut) des fichiers html existants en utilisant python (par Beautifulsoup si possible). Donc à partir de ceci: <!DOCTYPE html> <html> <body> </body> </html> Je veux que le résultat soit comme ça. Je peux don....
26 nov. 2020 à 03:21
Je suis en train de gratter une page de révision en utilisant Selenium en Python. Je veux extraire la note de chaque avis (c'est-à-dire. Extrait 7 de 7/10 dans un avis). L'élément HTML se construit comme ceci: <div class ="review"> <div class="rating-bar"> <span class="user-....
J'essaie d'apprendre le python en créant un petit programme de websraping pour me faciliter la vie, bien que je rencontre des problèmes avec uniquement le nombre lors de l'utilisation de BS4. J'ai pu obtenir le prix lorsque j'ai récupéré une annonce réelle, mais j'aimerais obtenir tous les prix de l....
24 nov. 2020 à 09:06
Comment obtenir tout le texte après la troisième balise p à partir de ce code dans le scraping Web BeautifulSoup. questions = soup.find('div',{'class':'entry-content'}) exp = questions.p[3].text (il y a un moyen quelque chose comme ça mais je ne peux pas l'obtenir.) n'importe qui ici peut vo....
23 nov. 2020 à 18:07
J'ai besoin d'analyser les données d'un site Web: https://finance.yahoo.com/quote/MSFT / communauté. J'essaye de gratter le temps du post. Par exemple "il y a 21 heures". Code HTML du site. J'essaye d'extraire le temps de & lt; span class = "F .... & gt; il y a 21 heures & lt; ... <li class="comme....
23 nov. 2020 à 04:48