Le scraping Web est le processus d'extraction d'informations spécifiques à partir de sites Web qui ne fournissent pas facilement une API ou d'autres méthodes de récupération automatisée de données. Les questions sur "Comment démarrer avec le scraping" (par exemple avec Excel VBA) doivent être * soigneusement étudiées * car de nombreux exemples de code fonctionnel sont disponibles. Les méthodes de grattage Web incluent des applications tierces, le développement de logiciels personnalisés ou même la collecte manuelle de données de manière standardisée.

web-scraping...

J'utilise le marionnettiste. J'ai une situation où j'ai besoin d'obtenir du contenu entre deux balises qui ne sont pas dans une relation parent-enfant. <h1>neverchangeA<h1> <span>abc<span> <span>abc2<span> <h1>neverchangeB<h1> Éléments attendus <span>abc<span> <span>abc2<span> En simple, j'ai beso....
J'essaie donc d'accéder à certaines données de cette page Web http://www.b3.com.br/pt_br/produtos-e-servicos/negociacao/renda-variavel/empresas-listadas.htm. Im essayant de cliquer sur le bouton nommé "Setor de atuação" avec du sélénium. Le problème est que la librairie de requêtes me renvoie un cod....
J'essaie de Webscrape une page Web, mais trouver des éléments par leur nom de classe ne fonctionne pas. Je peux voir le nom de classe de l'élément dans le panneau Eléments de Chrome et en le saisissant, illustré ci-dessous, il renvoie un résultat vide. from selenium import webdriver chrome_path = r"....
J'ai un fichier HTML et j'ai lu avec Python et j'aimerais le personnaliser pendant que j'imprime. Je dois d'abord imprimer le nom du pays, puis le nom du joueur auquel il appartient. Mon fichier HTML ressemble à ceci: <ul> <li> Australia <ol> <li>Steve Smith</li> <li>David Wa....
3 mai 2020 à 23:12
J'aurais besoin d'enregistrer les images de ce site Web dans un dossier: http://www.photobirdireland.com/garden-birds.html J'ai essayé en utilisant import os from lxml import html from urllib.request import urlopen from bs4 import BeautifulSoup as bs class ImageScraper: def __init__(self, url....
Mon code: soup = BeautifulSoup(driver.page_source,features="html.parser") applications_domains = [] for card in soup.find_all("div", {"class":"ant-row"}): for url in card.find_all("a"): applications_domains.append(url.get("href")) for aplications_domain in aplication_domains: try: ....
8 avril 2020 à 15:12
Eh bien, comme le titre l'indique, j'essaie de récupérer certaines données d'un site Web (exemple) en utilisant Selenium, mais j'ai du mal à masquer les données de chaque ligne du tableau des résultats Pro, celui qui s'affiche lorsque vous cliquez sur le bouton Afficher les détails (+). Voici mon co....
4 avril 2020 à 23:36
J'essaie de gratter les titres, la description, les partenaires, etc. de ce résultat de recherche en utilisant des requêtes et beautifulsoup en python. mais l'objet de réponse ne renvoie pas les données dont j'ai besoin et qui sont affichées lorsque je visite l'URL dans le navigateur. s'il vous plaî....
Je veux gratter le "prix des données" de cette URL, mais il revient indéfini. Des idées? https://i.stack.imgur.com/N9gei.png async function variant() { const response = await axios("https://extrabutterny.com/collections/release-draws/products/nike-sb-dunk-low-pro-blue-fury-bq6817-400?variant=31....
J'essaie d'écrire un simple fichier de grattage Web Py pour extraire des valeurs spécifiques d'un tableau sur une page Web, mais les résultats ne viennent pas dans le formel actuel. Je suppose que je fais quelque chose de incorrect avec la commande soup.find. URL = 'https://www.health.nsw.gov.au/new....
29 mars 2020 à 16:34
J'ai du HTML que j'analyse en Python en utilisant le package BeautifulSoup. Voici le HTML: <div class='n'>Name</div> <div class='x'>Address</div> <div class='x'>Phone</div> <div class='x c'>Other</div> Je capture les résultats en utilisant ce morceau de code: names = soup3.find_all('div', {....
28 mars 2020 à 23:26
C'est le code pour extraire les données html de la classe où se trouvent mes données. mais comment extraire les données requises ( les données d'état ) car elles ne sont pas fournies dans l'ordre site Web import requests import cloudscraper from bs4 import BeautifulSoup import re import pandas as pd....
J'ai gratté un site Web qui contient des centaines de pages de code HTML mal organisé. J'ai utilisé BeautifulSoup pour capturer tout le contenu d'une div sur chaque page. L'extrait de cette liste est: mylist = [['<div id="headingData">006951446<br/>Algonquin Gas Transmission, LLC<br/>Critical notice....
26 mars 2020 à 06:15
Il y a 41 cases à cocher de catégorie, 12 sont visibles et restent cachées, vous devez cliquer sur afficher plus pour afficher les cases à cocher cachées. Ce code fait cela: 1 boucle >> 2 clics sur afficher plus si je <= 12 >> 3 clics sur la case à cocher # -*- coding: utf-8 -*- import time from sel....
24 mars 2020 à 15:20
J'essaie de cliquer et de télécharger "Real Sector" sur le lien suivant: http://www.sbp.org. pk / reports / trimestrielle / fy19 / Second / qtr-index-fra.htm Voici ce que j'ai essayé: driver.get('http://www.sbp.org.pk/reports/quarterly/fy19/Second/qtr-index-eng.htm') try: driver.find_element_by_....
24 mars 2020 à 10:34
Je raconte pokemondb.net. J'essaie actuellement d'obtenir le texte de leurs `` types '', mais je ne peux obtenir que le premier (si vous savez quelque chose sur Pokemon, certains ont deux types, yada, yada ...). J'essaie d'utiliser find_next_sibling, mais je ne sais pas si je le fais correctement. Q....
22 mars 2020 à 15:04
J'ai cette URL: https://www.basketball-reference.com/teams / TOR / 2020 / lineups, et je veux supprimer la programmation de 5 joueurs. J'ai essayé ça: url = requests.get("https://www.basketball-reference.com/teams/TOR/2020/lineups") soup=BeautifulSoup(url.content,'html.parser') lineup=soup.find_all(....
18 mars 2020 à 06:50
J'ai écrit un code pour obtenir toutes les URL de titre, mais j'ai des problèmes comme il affiche les valeurs None. Pourriez-vous s'il vous plaît m'aider? Voici mon code: import requests from bs4 import BeautifulSoup import csv def get_page(url): response = requests.get(url) if not response....
16 mars 2020 à 10:49
J'essaie de gratter ce site Web: "https://no.unibet.com / paris / sports / filtre / échecs ". Lorsque je vérifie la variable page_soup (voir le code ci-dessous), je vois que l'élément que je recherche n'est pas là. Pourquoi? from bs4 import BeautifulSoup from selenium import webdriver url = 'https:....
15 mars 2020 à 18:45
J'ai du mal à récupérer une valeur de https://next-episode.net/star-trek-picard. Je cherche à extraire le numéro de saison de l'ID de balise "Previous__episode". Le nombre semble être entre 2 balises et je n'arrive pas à trouver un moyen de le référencer. J'ai précédemment extrait tout le texte inte....
12 mars 2020 à 18:49
J'essaie d'extraire le Coronavirus d'un site Web (https://www.trackcorona.live) mais je a obtenu une erreur. Voici mon code: response = requests.get('https://www.trackcorona.live') data = BeautifulSoup(response.text,'html.parser') li = data.find_all(class_='numbers') confirmed = int(li[0].get_text()....
9 mars 2020 à 14:35
J'ai essayé d'obtenir des informations sur ce site Web https://www.leadhome.co.za/property/poortview-ah/roodepoort/lh-95810/magnificent-masterpiece-in-poortview- et j'ai des problèmes pour obtenir tous les images de la propriété; plus précisément l'URL Voici à quoi ressemble la classe: <div class="l....
8 mars 2020 à 17:20
Comment obtenir l'avis de TripAdvisor Ce mon code en utilisant beautifulsoup review_data = data.find_all('div', attrs={'class':'reviews-tab'}) for review in review_data: namareview = review.findNext('a', attrs={'class':'ui_header_link social-member-event-MemberEventOnObjectBlock__member--35-jC'....
6 mars 2020 à 11:26
J'ai écrit un code pour obtenir la valeur suivante "Code d'examen", "Nom de l'examen" et "Question totale". Le problème est que dans le fichier CSV mis, j'obtiens la mauvaise valeur dans la colonne "Code d'examen". J'obtiens la même valeur que "Nom de l'examen". Le xPath me va bien. Je ne sais pas o....
6 mars 2020 à 11:14
J'essaie actuellement de gratter certains graphiques d'une page Web, mais je suis nouveau dans ce domaine et je ne connais pas les meilleures solutions. <font color="DarkBLUE"> g:=Graph&lt;5|{ {2, 3}, {4, 5}, {1, 3}, {1, 2}, {1, 5}, {1, 4}, {2, 4}, {3, 5}, {2, 5}, {3, 4} }&gt;;</font> J'ai besoin d....