J'essaye d'installer les corpus nltk via ces commandes comme mentionné dans la documentation -

import nltk
nltk.download()

Cependant, je fais cela à partir de mon organisation stupide qui a bloqué github, ce à quoi la fonction de téléchargement ci-dessus essaie de se connecter.

Existe-t-il un référentiel alternatif pour les données nltk à partir duquel je peux essayer cela? Essayer de mettre en liste blanche github et les sites Web associés ne fera que s'embrouiller dans la bureaucratie.

Je vous remercie

4
Mortz 4 août 2017 à 13:49

2 réponses

Il y a eu une brève période où GitHub a bloqué toutes les récupérations de nltk_data, ce qui a entraîné le problème 1787 qui est toujours ouvert et contient de nombreuses solutions de contournement, et prévoit d'éviter de dépendre de l'hébergement GitHub.

La réponse "officielle" est:

PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA
0
John Vandenberg 5 août 2017 à 04:42

La disposition des données nltk est assez simple. Exécutez nltk.download() sur un ordinateur qui a accès à github, téléchargez les ressources qui vous intéressent (si vous ne savez pas encore, je recommande le bundle "livre"), puis recherchez le dossier nltk_data généré et copiez simplement la hiérarchie sur votre ordinateur de travail à un emplacement où le nltk peut la trouver. (Par exemple, voyez où le téléchargeur a essayé de l'installer).

0
alexis 5 août 2017 à 09:49