Beautiful Soup est un package Python pour l'analyse HTML / XML. La dernière version de ce package est la version 4, importée en tant que bs4.

Plus à propos beautifulsoup...

J'essaie d'écrire un grattoir qui choisit au hasard un lien d'article wiki sur une page, y va, en attrape un autre et en boucle. Je souhaite exclure les liens avec "Catégorie:", "Fichier:", & .......
17 mars 2021 à 00:06
J'ai la ligne suivante appelée depuis une zone particulière de mon script: data = [extract_func(domain, response) for domain, response, extract_func in responses] Fondamentalement, j'ai collecté un tas de réponses de page Web de manière asynchrone en utilisant aiohttp dans la variable responses qui....
Grâce à de nombreux articles sur stackoverflow, j'ai trouvé de nombreuses façons de me rapprocher de ma solution mais il semble que j'ai toujours le même problème. Je n'obtiens que la première colonne d'un tableau Objectif: Cette URL ici a .......
16 mars 2021 à 19:55
`à partir du pilote Web d'importation de sélénium à partir de l'importation bs4 BeautifulSoup comme importation bs de la classe Scraper: def init (self): self.driver = webdriver.Chrome (r'C: \ Users \ gkhat \ Downloads \ chromedriver.exe ') self.url = & .......
Je voulais chercher Skoda 2018 avec moins de 100K KM sur ce site https://www.autocenter.co.il/ mais je ne trouve pas la bonne méthode, voici ce que j'ai fait à partir de bs4 import BeautifulSoup import .......
16 mars 2021 à 07:16
J'ai du mal à extraire tout le contenu d'un site Web à l'aide du pilote Web sélénium. Le problème que j'ai, c'est qu'il n'y a pas de classe pour le bouton suivant sur la pagination, voici le html pour la section de pagination: <div> <ul class="pagination"> <li class="disabled> ....
14 mars 2021 à 22:03
J'ai un BeautifulSoup de ce format <div class='text'> <h3> text </h3> <p> some more text </p> "text here <b> is </b> important" </div> Comment extraire uniquement la chaîne "texte ici est important" en laissant de côté les éléments h3 et p, mais le texte en gras reste à l'intérieur de la sortie Mer....
14 mars 2021 à 21:31
Eh bien, je suis nouveau sur BS en Python. J'ai écrit un code qui gratte le HTML et enregistre toutes les données dont j'ai besoin dans un fichier csv. Les valeurs du fichier ALL_NUMBERS sont substituées dans l'URL et donc un .......
Salut à tous, j'ai un schéma invalide et beaucoup d'erreurs avec ce code.J'essaie juste de créer un simple téléchargeur d'image instagram à partir d'une URL donnée.Voici les demandes d'importation de code de l'importation bs4 .......
14 mars 2021 à 19:55
J'essaie d'extraire du html de table, mais cela renvoie une erreur et je n'ai aucune idée pourquoi. J'ai vraiment besoin d'aide ici Code: from bs4 import BeautifulSoup from io import BytesIO import requests import datetime import re import rows # date = datetime.datetime.strptime("2013-1-25", '%Y-....
14 mars 2021 à 13:35
J'essaie d'obtenir une boucle pour parcourir les liens plusieurs fois et cela ne fonctionne qu'une seule fois et semble ignorer tous les autres codes en plus des demandes d'importation de code Beautiful Soup import bs4 x = 0 tandis que x & .......
14 mars 2021 à 11:05
J'essaie de gratter la page Web de Tradingview avec mon propre graphique pour lire les boolstates. Voici ce que je veux dire exactement Avec ce code HTML du site Je travaille avec Debian / Linux sur un serveur et je programme avec Python. J'ai essayé d'utiliser BeautifulSoup pour lire la page et ....
13 mars 2021 à 19:48
Le code suivant fonctionne très bien pour extraire des champs d'une page Web, mais je souhaite récupérer une autre information (date de fin d'étude réelle) qui se trouve sur la page Web. Je l'ai ajouté au .......
13 mars 2021 à 06:40
Il s'agit du code html à partir duquel je souhaite extraire le lien de la vidéo youtube. Mais je ne sais pas comment faire, si quelqu'un d'entre vous le sait, répondez-moi. <button id='btnWatchLikeAndSubscribe' class='greenButton button' style='font- size: 18px;' oncl....
Auparavant, j'utilisais la méthode req = soup.find ("td", string = "tags text") (juste un exemple) pour rechercher des éléments par son texte de balise, mais dans ce cas, la chaîne de balises comporte des espaces avant et .......
11 mars 2021 à 23:56
Bonne journée. Besoin d'aide pour nettoyer un lien vers une image stockée dans la valeur "onclick =". Je fais cela, mais j'ai arrêté comment supprimer tout dans onclick à l'exception du lien. ....
11 mars 2021 à 23:14
J'essaie de gratter quelques informations de ce site Web: https://cryptoslam.io/nba-top-shot/sales Comme vous pouvez le voir, dans la première colonne, `` Vendu '', je reçois des informations sur l'heure et la date de la rangée. Le problème .......
11 mars 2021 à 19:18
J'ai un script Python qui importe une liste d'URL à partir d'un CSV nommé list.csv, les gratte et génère tout texte d'ancrage et liens href trouvés sur chaque URL du csv: (Pour référence la liste des URL .......
11 mars 2021 à 17:24
Je n'ai jamais utilisé le web scraping, mais maintenant je pense que c'est la seule chose qui peut m'aider dans ce que j'essaie de faire. J'ai donc regardé un exemple de code sur Internet. Cette réponse acceptée sur StackOverflow .......
11 mars 2021 à 14:20
Je souhaite explorer le contenu de ce lien: Comment puis-je boucler toutes les pages et explorer tous les éléments du cercle rouge? Merci. Code: à partir de bs4 importation BeautifulSoup demandes d'importation import os .......
Je viens de commencer à utiliser beautifulsoup et je suis coincé sur un problème concernant l'obtention d'attributs de balises dans d'autres balises. J'utilise le whitehouse.gov/briefing-room/ pour m'entraîner. Ce que j'essaye de faire .......
10 mars 2021 à 22:13
J'essaie de tirer la balise span réelle de «plr game4 star» dans le code HTML ci-dessous où «game4» est une variable qui pourrait être entre «game1» et «game9». J'ai réussi à tirer la classe, mais il tire le tout comme span class = "plr game4 star" data-test-id = "game-rating"> quand tout ce que ....
10 mars 2021 à 18:02
J'ai cet extrait HTML d'un document plus volumineux et je souhaite extraire la chaîne "$ 430000" de la chaîne principale div avec class="title" uniquement: <div class="title"> $ 430000 <div class="container"> <span class="price"> $ 505000 </span> <span class="discount"> (-14.9%) </sp....
10 mars 2021 à 15:13
J'essaie de transférer les données d'une longue table (24 pages) vers un Pandas Dataframe, mais je suis confronté à des problèmes avec (je pense) le code de la boucle for. import requests from bs4 import BeautifulSoup import pandas as pd base_url = 'https://scrapethissite.com/pages/forms/?page_....
9 mars 2021 à 23:45
J'essaie de gratter une image d'un marché, mais je pense que les balises de classe étranges gênent. Voici le morceau de HTML que j'essaie de gratter: HTML Quand j'exécute cet extrait: .......
9 mars 2021 à 22:27