Le scraping Web est le processus d'extraction d'informations spécifiques à partir de sites Web qui ne fournissent pas facilement une API ou d'autres méthodes de récupération automatisée de données. Les questions sur "Comment démarrer avec le scraping" (par exemple avec Excel VBA) doivent être * soigneusement étudiées * car de nombreux exemples de code fonctionnel sont disponibles. Les méthodes de grattage Web incluent des applications tierces, le développement de logiciels personnalisés ou même la collecte manuelle de données de manière standardisée.

Plus à propos web-scraping...

J'essaie de récupérer des informations sur les produits d'Etsy et je suis un tutoriel relativement simple pour le faire. Voici mon code actuel: headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/601.3.9 (KHTML, like Gecko) Version/9.0.2 Safari/601.3.9'} #opening up....
21 janv. 2021 à 08:30
J'ai créé une feuille de calcul pour suivre les ventes quotidiennes dans ma boutique Etsy et j'ai réussi à extraire le numéro en direct via une formule ImportXML. Cette semaine, la formule a soudainement commencé à renvoyer une erreur `` Le contenu importé est vide '' et je n'arrive pas à comprendr....
Je cherche à cliquer sur la page suivante pour obtenir les données produit répertoriées: https: //www.riteaid .com / shop / épicerie Lorsque je regarde l'élément HTML, le bouton Suivant n'est en fait pas un élément de bouton, mais une balise span. En regardant les outils de développement, j'ai rem....
15 janv. 2021 à 05:59
J'essaie d'obtenir cette valeur à partir de la page Web WSJ: J'utilise ce code mais il ne fonctionne pas correctement.J'obtiens un résultat nul et je ne sais pas pourquoi: import requests from bs4 import BeautifulSoup URL = 'https://www.wsj.com/market-data/bonds' HEADERS = { "User-Agent": "M....
7 déc. 2020 à 04:11
Je souhaite obtenir les coordonnées d'une page Wikipédia donnée. J'ai essayé d'utiliser l'API Wikipédia, mais la seule méthode pertinente est la geosearch () qui renvoie une page avec une paire de coordonnées et je veux exactement le contraire.....
Contexte: Suite avec un tutoriel Udemy qui analyse certaines informations de Bing. Il prend une entrée utilisateur et l'utilise comme paramètre pour rechercher dans Bing, renvoyant tous les liens href qu'il peut trouver sur la première page Code: from bs4 import BeautifulSoup import requests as ....
5 déc. 2020 à 18:03
Url = 'https://www.premierleague.com/match/59001' Je veux connaître la date de ce match mais je ne peux pas. C'est ce que j'ai essayé soup.select('div.matchInfo div.matchDate.renderMatchDateContainer')[0].text ....
Je viens de commencer avec le web scraping dans R et j'ai du mal à trouver comment récupérer des informations spécifiques d'un site Web avec plusieurs pages sans avoir à exécuter le code pour chaque URL individuelle. Jusqu'à présent, j'ai réussi à le faire pour la première page en utilisant cet exem....
5 déc. 2020 à 17:13
J'ai webscrapé ceci ['', 'Aldoar, Foz Do Douro E Nevogilde', 'Ontem 16:36', '', 'Mafamude E Vilar Do Paraíso', '3', '', 'Estela', '1', '', 'Oeiras E São Julião Da Barra, Paço De Arcos E Caxias', '30', '', 'Olivais', '29', '', 'Olivais', '29', '', 'Olivais', '29', '', 'Nogueira,....
5 déc. 2020 à 15:44
J'essaye de gratter le commentaire d'un HTML particulier mais je rencontre des problèmes. Je n'ai aucun problème à gratter tout le texte sous la balise, mais seulement les commentaires. Est-ce que quelqu'un peut m'aider. Voici mon code from bs4 import BeautifulSoup from urllib.request import urlopen....
html_text = requests.get('https://www.trustpilot.com/categories/restaurants_bars? numberofreviews=0&status=claimed&timeperiod=0').text soup = BeautifulSoup(html_text, 'lxml') restaurants = soup.find_all('a', class_ = 'internal___1jK0Z wrapper___26yB4') for index, restaurant in enumerate(restaurants....
Je travaille donc sur un grattoir Web personnalisé pour tout type de site de commerce électronique, je veux qu'il gratte les noms et les prix des annonces sur un site, puis les exporte vers csv, mais le problème est qu'il n'exporte qu'une seule ligne de (nom, prix ) et il l'imprime sur chaque ligne ....
Je veux télécharger le fichier qui se trouve dans l'onglet "Dossier" avec le texte "Module 4" ici: https://www.g-ba.de/bewertungsverfahren/nutzenbewertung/5/#dossier Je veux d'abord obtenir le lien. Mon code pour cela est le suivant: "https://www.g-ba.de/bewertungsverfahren/nutzenbewertung/5/#dossie....
4 déc. 2020 à 17:33
Je ne suis pas familier avec les techniques de grattage, mais j'aurais besoin d'obtenir des informations sur les auteurs, les titres, les dates d'un site Web. J'ai essayé d'écrire du code en suivant les tutoriels et les questions précédentes sur Stackoverflow, mais j'ai toujours des difficultés à sé....
4 déc. 2020 à 01:22
J'essaie de boucler des pages à partir de ce link et extrayez la partie intéressante. Veuillez voir le contenu dans le cercle rouge dans l'image ci-dessous. Voici ce que j'ai essayé: url = 'http://so.eastmoney.com/Ann/s?keyword=购买物业&pageindex={}' for page in range(10): r = requests.get(url.form....
Donc mon problème est que mon programme actuel gratte 1000 jeux sur Steam (y compris le titre, la critique, l'auteur, etc.) cela prend 19 minutes (1140 secondes) pour 1000 critiques. Cependant, pour 100 avis, cela prend 11,5 secondes. Mon objectif est de faire prendre 115 secondes pour 1000 révision....
2 déc. 2020 à 05:52
J'essaie d'ouvrir chaque entreprise des entreprises StackOverflow et d'obtenir des informations spécifiques (comme la description complète) .Y a-t-il un moyen simple de le faire en utilisant Beautiful Soup? Pour l'instant, je reçois les liens des entreprises de la première page. import requests from....
Je suis en train d'extraire la date d'un site Web. Je veux la date / heure de publication de l'article. Voici mon code: De bs4 import des requêtes d'importation BeautifulSoup url = "http://buchholterberg.ch/de/Gemeinde/Information/News/Newsmeldung?filterCategory=22&newsid=911" response = requests.ge....
30 nov. 2020 à 16:13
J'essaye de gratter ce site et j'utilise la requests bibliothèque et BeautifulSoup. Alors, voici l'affaire, je fais simplement un requests.get() et convertis son .content en un objet bs4. (Mon analyseur est "html5lib") Maintenant, avant cela, comme vous pouvez le voir dans l'image ici, il y a un att....
En utilisant le sélénium pour python pour gratter bet365, j'ai appris que je devais utiliser (avec succès) undetected-chromedriver Ce code a fonctionné comme un charme jusqu'à il y a quelques jours à peine import undetected_chromedriver as uc driver = uc.Chrome() driver.get('https://bet365.com') Ma....
J'essaie actuellement de récupérer le site Web de Google Play Store. Plus précisément, je souhaite créer un ensemble de données contenant les évaluations de l'application disney +. Basé sur un tutoriel sur le webscraping (Construire un jeu de données de cartes graphiques sur "Newegg.com") je n'ai eu....
29 nov. 2020 à 16:35
J'essaie de récupérer le nom d'une chaîne YouTube via un lien. Mais j'obtiens le code d'erreur: title = response.find_all('div', class_= "style-scope ytd-channel-name") AttributeError: 'Response' object has no attribute 'find_all' Lien vers le site: https://www.youtube.com/channel/UCHOgE8XeaCjlgvH0....
28 nov. 2020 à 11:32
Je connais assez bien R, mais je n'ai aucune expérience du scraping Web. J'avais regardé autour de moi et je n'arrivais pas à comprendre pourquoi mon scraping Web «échoue». Voici mon code incluant l'URL que je veux gratter (le ngs-data-table pour être précis): library(rvest) webpage <- read_html("ht....
28 nov. 2020 à 05:31
J'essaie de sélectionner les balises div qui contiennent "month-table_col" (sélectionnez par mois). ... <div class="month-table"> <div class="month-table_row"> <div class="month-table_col">Jan</div> <div class="month-table_col">Feb</div> <div class="month-table_col">Mar</....
27 nov. 2020 à 07:13
Je suis nouveau sur Scrapy et j'essaie de comprendre comment je génère des données après le scraping. J'ai lu une documentation et j'ai du mal à y donner un sens et la documentation disponible est un peu vague pour mon cas d'utilisation. Essentiellement, j'ai environ neuf araignées que je lance en m....
26 nov. 2020 à 01:58