Le Natural Language Toolkit est une bibliothèque Python pour la linguistique informatique.

nltk...

Je souhaite trouver la fréquence (en pourcentage) d'un ensemble de mots, comme dans n_grams apparaît dans une phrase. example_txt= ["order intake is strong for Q4"] def find_ngrams(text): text = re.findall('[A-z]+', text) content = [w for w in text if w.lower() in n_grams] # you can calcula....
8 avril 2020 à 13:04
J'ai utilisé nltk pour effectuer un regroupement de k moyennes car je voudrais changer les métriques de distance en distance cosinus. Cependant, comment puis-je obtenir les centroïdes de tous les clusters? kclusterer = KMeansClusterer(8, distance = nltk.cluster.util.cosine_distance, repeats = 1) pre....
31 déc. 2019 à 04:50
J'essaie d'écrire un code qui vérifie les phrases dans un fichier csv et recherche les mots qui sont donnés à partir d'un deuxième fichier csv et les remplace, mon code est aussi bas qu'il ne retourne aucune erreur mais il ne remplace pas tous les mots pour certaines raisons et en imprimant les même....
24 déc. 2019 à 15:25
Je sais que les mots vides NLTk ont beaucoup de langues mais que se passe-t-il si je veux créer mon propre ensemble de mots vides et que je veux les utiliser dans les mots vides NLTK? import nltk from nltk.corpus import stopwords stops=set(stopwords.words('My own set')) words=["Don't", 'hesitate','t....
23 déc. 2019 à 11:06
J'ai une séquence de données que je souhaite construire à partir de celui-ci. Un extrait d'un aspect de séquence est le suivant. 8c b0 00 f0 05 fc 04 46 00 f0 fe fb 40 f2 00 05 c2 f2 00 05 28 78 00 J'utilise actuellement la fonction ngrams() de ntlk pour construire 4 grammes à partir de ces données ....
18 déc. 2019 à 07:22
J'ai suivi ce tutoriel https://stackabuse.com/python-for-nlp-sentiment-analysis-with-scikit-learn/ pour créer une analyse des sentiments en python. Cependant, voici ce que je ne comprends pas: il me semble que les données qu'ils utilisent sont déjà étiquetées? Alors, comment puis-je utiliser la for....
16 déc. 2019 à 19:25
Je ne suis pas un expert du python et j'aimerais que certains experts m'aident à comprendre la différence de sortie pour les deux méthodes que j'ai essayées ci-dessous from nltk.corpus import stopwords stop_words = stopwords.words('english') stop_words.extend(['from', 'subject']) from nltk.corpus i....
14 déc. 2019 à 21:04
Je travaille avec nltk en langue portugaise. Voilà mon texte: import numpy as np from nltk.corpus import machado, mac_morpho, floresta, genesis from nltk.text import Text ptext1 = Text(machado.words('romance/marm05.txt'), name="Memórias Póstumas de Brás Cubas (1881)") ptext2 = Text(machado.words('....
12 déc. 2019 à 19:51
Mon objectif ici est le résumé du texte, je ne sais pas si je le fais correctement, mais voici le plan. J'ai une trame de données appelée train_data. Chaque cellule de chaque ligne contient des messages. Maintenant, je cherche à parcourir chaque cellule ou chaque message dans la colonne dataframe po....
12 déc. 2019 à 06:34
Je suis récemment entré dans la PNL, Python et publie sur Stackoverflow en même temps, alors soyez patient avec moi si je peux sembler ignorant :). J'utilise SnowballStemmer dans le NLTK de Python afin d'endiguer les mots pour l'analyse textuelle. Alors que la lemmatisation semble sous-estimer mes j....
10 déc. 2019 à 14:56
J'essaie d'installer tensorflow sur Ubuntu et je reçois ce message: (base) k@k-1005:~/Documents/ClassificationTexte/src$ python tester.py Using TensorFlow backend. RUN: 1 1.1. Training the classifier... LABELS: {'negative', 'neutral', 'positive'} 2019-12-10 11:58:13.428875: I tensorflow/core/pl....
10 déc. 2019 à 14:12
J'essaie de trouver les mots anglais quadgram J'ai essayé de changer alpino qui télécharge les mots hollandais en fr ou en anglais, mais ça ne marche aucune idée? from nltk.util import ngrams from nltk.corpus import alpino print(alpino.words()) quadgrams=ngrams(alpino.words(),4) for i in quadgrams: ....
8 déc. 2019 à 14:50
j'écris du code dans jupyter et j'obtiens l'erreur suivante. j'ai bien installé nltk par http://www.nltk.org/ .Veuillez partager votre sagesse, j'apprécierais vraiment votre réponse. --------------------------------------------------------------------------- ModuleNotFoundError ....
8 déc. 2019 à 11:12
La tâche consiste à définir une grammaire et à utiliser un ChartParser pour analyser une phrase donnée à l'aide du package ChartParser dans nltk. Mon code est le suivant: import nltk your_grammar = nltk.CFG.fromstring(""" S -> NP VP NP -> NP PP Nom -> N VP -> V NP | V S | VP PP PP -> P NP Det -> '....
7 déc. 2019 à 20:40
J'ai une liste de phrases (~ 100k phrases au total) et une liste de "mots peu fréquents" (longueur ~ 20k). Je voudrais parcourir chaque phrase et remplacer tout mot qui correspond à une entrée dans "infrequent_words" par la balise "UNK". (donc à titre d'exemple, si infrequent_words = ['dog','cat'] s....
6 déc. 2019 à 04:13
J'ai un dataframe dans pandas - 1 colonne nommée 'texte'. Les textes ont une longueur différente, mais je dois symboliser chaque texte en 3 phrases, puis remplacer le cadre de données d'origine. Quelqu'un peut-il aider?....
4 déc. 2019 à 17:50
J'essaie de résumer le texte de l'url en utilisant nltk en python3 mais je ne sais pas pourquoi il montre KeyError. Voici mon code: flasexam.py import bs4 as bs import urllib.request import re import heapq import nltk scraped_data = urllib.request.urlopen('https://en.wikipedia.org/wiki/Machine_lea....
4 déc. 2019 à 10:13
Je suis nouveau en PNL et maintenant je veux analyser beaucoup de phrases (environ 10000) pour obtenir leurs arbres CFG. Avant cela, je dois construire une grammaire pour les analyser. J'essaye d'utiliser NLTK treebank, mais ils ne peuvent pas être chargés comme grammaire. Je ne sais pas pourquoi, q....
3 déc. 2019 à 14:10
J'ai formé mon modèle NER sur du texte et j'essaie de trouver des villes avec des entités personnalisées. Exemple:- ('paragraph Designated Offices Party A New York Party B Delaware paragraph pricing source calculation Market Value shall generally accepted pricing source reasonably agreed parties....
3 déc. 2019 à 09:44
J'ai une liste de deux éléments, chaque élément est une chaîne de texte. Je veux faire le tour des deux éléments et supprimer un mot s'il ne fait PAS partie d'un ensemble de mots. Cependant, le code suivant rassemble tous les mots au lieu de créer deux éléments distincts. Je souhaite que ma liste mi....
1 déc. 2019 à 02:45
Je travaille avec python2.7 et nltk sur un grand fichier txt de contenu supprimé de divers sites Web .. cependant, je reçois diverses erreurs unicode telles que UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 6: ordinal not in range(128) Ma question n'est pas tant de savoir com....
27 nov. 2019 à 23:08
Je voudrais texto le mien un fichier Excel. Je dois d'abord concaténer toutes les lignes dans un grand fichier texte. Ensuite, scannez le texte pour trouver des mots dans un dictionnaire. Si le mot est trouvé, comptez-le comme nom de clé de dictionnaire. Enfin, retournez la liste des mots comptés da....
26 nov. 2019 à 18:32
J'essaie de commencer avec PNL en utilisant Python en utilisant nltk ou spaCy . Ma question est, si j'ai la phrase, 'Barack Obama was the former President of united states', comment puis-je récupérer le mot president pour fournir la classe de l'entité?....
25 nov. 2019 à 21:56
Je ne parviens pas à télécharger les «mots vides» de la bibliothèque nltk. nltk.download('stopwords') Le dossier nltk_data n'a pas de sous-dossier appelé 'corpus', est-ce la cause du problème? si oui, comment puis-je le réparer? [nltk_data] Downloading package stopwords to [nltk_data] /Users/pra....
20 nov. 2019 à 20:04
J'ai le défi de trouver et remplacer des modèles afin de normaliser un paragraphe. C'est plus facile à comprendre avec un exemple: j'ai beaucoup de mots comme: nm5638238.tmp, nm23345.tmp, nm56382334.tmp, etc. myfile0x233454, myfile0x233124, myfile0x23AW54, etc. etc. Le fait est que je n'aime pas l'a....
19 nov. 2019 à 23:35