Beautiful Soup est un package Python pour l'analyse HTML / XML. La dernière version de ce package est la version 4, importée en tant que bs4.

beautifulsoup...

Je suis super nouveau sur python, ce site m'a beaucoup aidé au cours du semestre et j'espère que vous pourrez à nouveau m'aider. J'ai besoin de gratter les tables de https://money.cnn.com/data/hotstocks/. Ces tables sont les plus actives, gagnantes et perdantes. Maintenant, j'ai pu faire fonctionne....
1 mai 2020 à 04:48
J'aurais besoin d'enregistrer les images de ce site Web dans un dossier: http://www.photobirdireland.com/garden-birds.html J'ai essayé en utilisant import os from lxml import html from urllib.request import urlopen from bs4 import BeautifulSoup as bs class ImageScraper: def __init__(self, url....
Disons que j'ai le morceau de HTML suivant: <html> <body> <p>This is a paragraph <!-- and a comment --></p> </body> </html> Je souhaite extraire tout le texte de la balise <p>, y compris <!-- and a comment -->. L'utilisation de .get_text () renvoie uniquement "Ceci est un paragraphe". Je veux le te....
24 avril 2020 à 21:42
Mon code: soup = BeautifulSoup(driver.page_source,features="html.parser") applications_domains = [] for card in soup.find_all("div", {"class":"ant-row"}): for url in card.find_all("a"): applications_domains.append(url.get("href")) for aplications_domain in aplication_domains: try: ....
8 avril 2020 à 15:12
J'essaie de réduire les données d'un site Web qui a une balise comme <a&#32;href="https: evisa.mfa.am "> par exemple, regardez ceci site Web Existe-t-il un moyen dans BeautifulSoup d'extraire des données de balises non html? Voici un extrait de toute la page html à partir du lien ci-dessus <br/>2.&....
6 avril 2020 à 20:58
Je me retrouve actuellement à utiliser beaucoup la bibliothèque bs4 / BeautifulSoup en python, et je me suis récemment demandé comment cela fonctionnait. J'aimerais voir le code source de la bibliothèque et je ne sais pas comment. Est-ce que quelqu'un sait comment faire ça? Merci.....
6 avril 2020 à 18:12
J'essaie de gratter les titres, la description, les partenaires, etc. de ce résultat de recherche en utilisant des requêtes et beautifulsoup en python. mais l'objet de réponse ne renvoie pas les données dont j'ai besoin et qui sont affichées lorsque je visite l'URL dans le navigateur. s'il vous plaî....
J'ai un besoin très particulier en ce qui concerne l'analyse de chaîne et la restructuration en Python. Ceci est très similaire à d'autres questions Stackoverflow mais nu avec moi. J'ai fait une recherche approfondie et même si je peux m'approcher, je n'arrive pas à comprendre comment faire ce dont ....
31 mars 2020 à 15:43
Bonjour j'ai écrit une fonction en utilisant du sélénium pour cliquer sur le bouton "conseiller" afin que je puisse supprimer la table cachée. lorsque je l'exécute, mon pilote chrome s'ouvre avec succès et visite la page .. mais le bouton n'est pas cliqué. J'espère que vous m'aidez à comprendre cela....
31 mars 2020 à 11:21
Je veux obtenir tous les éléments de la balise div ayant un identifiant particulier. La page que je veux gratter avec Beautiful Soup est comme ceci: <div id="scrroll-1747719577" class="wpsp_container"> <ul> <li > <p class="wpsp_img....
29 mars 2020 à 22:50
J'essaie d'écrire un simple fichier de grattage Web Py pour extraire des valeurs spécifiques d'un tableau sur une page Web, mais les résultats ne viennent pas dans le formel actuel. Je suppose que je fais quelque chose de incorrect avec la commande soup.find. URL = 'https://www.health.nsw.gov.au/new....
29 mars 2020 à 16:34
J'ai du HTML que j'analyse en Python en utilisant le package BeautifulSoup. Voici le HTML: <div class='n'>Name</div> <div class='x'>Address</div> <div class='x'>Phone</div> <div class='x c'>Other</div> Je capture les résultats en utilisant ce morceau de code: names = soup3.find_all('div', {....
28 mars 2020 à 23:26
C'est le code pour extraire les données html de la classe où se trouvent mes données. mais comment extraire les données requises ( les données d'état ) car elles ne sont pas fournies dans l'ordre site Web import requests import cloudscraper from bs4 import BeautifulSoup import re import pandas as pd....
J'ai gratté un site Web qui contient des centaines de pages de code HTML mal organisé. J'ai utilisé BeautifulSoup pour capturer tout le contenu d'une div sur chaque page. L'extrait de cette liste est: mylist = [['<div id="headingData">006951446<br/>Algonquin Gas Transmission, LLC<br/>Critical notice....
26 mars 2020 à 06:15
Je raconte pokemondb.net. J'essaie actuellement d'obtenir le texte de leurs `` types '', mais je ne peux obtenir que le premier (si vous savez quelque chose sur Pokemon, certains ont deux types, yada, yada ...). J'essaie d'utiliser find_next_sibling, mais je ne sais pas si je le fais correctement. Q....
22 mars 2020 à 15:04
from bs4 import BeautifulSoup URL = "https://www.worldometers.info/coronavirus/" r = requests.get(URL) soup = BeautifulSoup(r.content, 'html5lib') countHTML = soup.find('div', attrs = {'class':'content-inner'}) for countVar in countHTML.findAll('div', attrs = {'class':'maincounter-number'}): co....
20 mars 2020 à 22:22
J'ai cette URL: https://www.basketball-reference.com/teams / TOR / 2020 / lineups, et je veux supprimer la programmation de 5 joueurs. J'ai essayé ça: url = requests.get("https://www.basketball-reference.com/teams/TOR/2020/lineups") soup=BeautifulSoup(url.content,'html.parser') lineup=soup.find_all(....
18 mars 2020 à 06:50
J'ai écrit un code pour obtenir toutes les URL de titre, mais j'ai des problèmes comme il affiche les valeurs None. Pourriez-vous s'il vous plaît m'aider? Voici mon code: import requests from bs4 import BeautifulSoup import csv def get_page(url): response = requests.get(url) if not response....
16 mars 2020 à 10:49
J'essaie de gratter ce site Web: "https://no.unibet.com / paris / sports / filtre / échecs ". Lorsque je vérifie la variable page_soup (voir le code ci-dessous), je vois que l'élément que je recherche n'est pas là. Pourquoi? from bs4 import BeautifulSoup from selenium import webdriver url = 'https:....
15 mars 2020 à 18:45
J'essaie actuellement de gratter les données d'aviation de craigslist. Je n'ai aucun problème à obtenir toutes les informations que je veux, sauf la première image pour chaque message. Voici mon lien: https://spokane.craigslist.org/search/avo?hasPic=1 J'ai pu obtenir toutes les images grâce à un ar....
J'ai une question sur BeautifulSoup en Python 3. J'ai passé quelques heures à essayer mais je ne l'ai pas encore résolu. Voici ma soupe: print(soup.prettify()) # REMEMBER THIS SOUP IS DYNAMIC # <html> # <body> # <div class="title" itemtype="http://schema.org/FoodEstablishment"> # <div class="a....
9 mars 2020 à 19:29
J'essaie d'extraire le Coronavirus d'un site Web (https://www.trackcorona.live) mais je a obtenu une erreur. Voici mon code: response = requests.get('https://www.trackcorona.live') data = BeautifulSoup(response.text,'html.parser') li = data.find_all(class_='numbers') confirmed = int(li[0].get_text()....
9 mars 2020 à 14:35
J'ai un gros fichier HTML qui a été créé en fusionnant plusieurs fichiers HTML, donc la structure est répétée N fois <html>..</html> <html>..</html> comme ceci: <html> <head> <body> <TABLE> <TABLE> </body> </html> <html> <head> <body> <TABLE> <TABLE> </body> </html> <html> <hea....
9 mars 2020 à 10:33
J'essaie actuellement de gratter certains graphiques d'une page Web, mais je suis nouveau dans ce domaine et je ne connais pas les meilleures solutions. <font color="DarkBLUE"> g:=Graph&lt;5|{ {2, 3}, {4, 5}, {1, 3}, {1, 2}, {1, 5}, {1, 4}, {2, 4}, {3, 5}, {2, 5}, {3, 4} }&gt;;</font> J'ai besoin d....
Compte tenu de mon code ci-dessous, je ne parviens pas à obtenir la note et la date respective. Je peux obtenir la note, mais je n'utilise pas .text. Il obtient tout cela comme résultat: </div>, <div class="star-rating star-rating--medium"> <img alt="5 stars: Excellent" src="//cdn.trustpilot.net/bra....
28 janv. 2020 à 12:38