Je recherche un bon bot open source pour déterminer une certaine qualité, souvent requise pour l'indexation google.

Par exemple

  • trouver des titres en double
  • liens invalides (jspider le fait, et je pense que beaucoup d'autres le feront)
  • exactement la même page, mais des URL différentes
  • etc, où etc est égal aux exigences de qualité google.
1
llazzaro 1 nov. 2009 à 22:26
Cette question est vraiment assez non spécifique. Qu'est-ce que l'araignée est censée faire lorsqu'elle trouve des titres en double ? Ou des liens invalides ? Ou exactement la même page ? Et "etc, où etc est égal aux exigences de qualité google." ne dit rien sur vos besoins. Pouvez-vous préciser quels sont vos besoins réels ? Qu'essayez-vous d'accomplir avec cette araignée ?
 – 
Brian Campbell
1 nov. 2009 à 22:29
En outre, cherchez-vous à consulter de nombreux sites, ou juste un site que vous gérez vous-même ?
 – 
Pekka
1 nov. 2009 à 22:54
Oui je le sais, c'est pourquoi je pense qu'un cadre comme scrapy convient mieux. C'est pour les pages Web que je maintiens... mais elles sont nombreuses !
 – 
llazzaro
2 nov. 2009 à 01:02

2 réponses

Meilleure réponse

Vos exigences sont très spécifiques, il est donc très peu probable qu'il existe un produit open source qui fasse exactement ce que vous voulez.

Il existe cependant de nombreux frameworks open source pour la création de robots d'exploration Web. Celui que vous utilisez dépend de votre préférence linguistique.

Par exemple:

Généralement, ces frameworks fourniront des classes pour explorer et gratter les pages d'un site en fonction des règles que vous donnez, mais c'est ensuite à vous d'extraire les données dont vous avez besoin en accrochant votre propre code.

1
dlamblin 1 nov. 2009 à 23:55
J'ai pensé à un hand me bot, j'en ai fait avec scrapy...Je pense que c'est la meilleure réponse pour le moment ! Connaissez-vous un bot déjà créé pour quelque chose comme ça?
 – 
llazzaro
2 nov. 2009 à 01:03

Google Webmaster Tools est un service Web (plutôt que un bot à la demande), et il ne fait pas tout ce que vous avez demandé - mais il en fait une partie et beaucoup de choses que vous n'avez pas demandées, et - étant de Google - il correspond sans aucun doute à votre impair "etc, où etc est égal aux exigences de qualité google." mieux que partout ailleurs.

0
Peter Boughton 1 nov. 2009 à 23:58
Oui je sais, et ma question s'inspire des outils pour les webmasters... mais je veux éviter ça. ma page Web contient beaucoup de pages et toutes sont dynamiques, il est donc difficile de trouver des titres en double et je veux le faire avant que Google ne le découvre !
 – 
llazzaro
2 nov. 2009 à 01:01