scikit-learn est une bibliothèque d'apprentissage automatique pour Python qui fournit des outils simples et efficaces pour l'analyse et l'exploration de données, en mettant l'accent sur l'apprentissage automatique. Il est accessible à tous et réutilisable dans différents contextes. Il est construit sur NumPy et SciPy. Le projet est open source et utilisable commercialement (licence BSD).

scikit-learn...

J'utilise sklearn pour effectuer une régression linéaire. Si je fais reg = LinearRegression() reg.fit(x_matrix, y) Ça fonctionne bien. Pour réduire le code en supprimant la variable reg, je fais LinearRegression.reg.fit(x_matrix, y) Cela me donne une erreur. Veuillez expliquer la différence. Pytho....
27 mai 2020 à 00:21
D'accord, très nouveau pour les pandas mais il faut obtenir des données de ce csv https: //www.kaggle. com / datasnaek / mbti-type dans un nouveau dataframe Pandas. Le csv est structuré comme ceci: type posts intj "hello world ||| http://linkhere ||| blah blah |||" entj "hello world ....
9 mai 2020 à 06:38
J'obtiens cette erreur lors de la mise à niveau de la bibliothèque scikit-learn....
6 mai 2020 à 13:09
J'ai un ensemble de données avec beaucoup de valeurs catégorielles manquantes et je voudrais faire un imputer personnalisé qui remplira les valeurs vides avec une valeur égale à "no-variable_name". Par exemple, si une colonne "Workclass" a une valeur Nan, remplacez-la par "No Workclass". Je le fais ....
Je ne peux pas obtenir de réponse satisfaisante à cette question. Si je comprends bien, TensorFlow est une bibliothèque de calculs numériques, souvent utilisée dans les applications d'apprentissage en profondeur, et Scikit-learn est un cadre pour l'apprentissage automatique général. Mais quelle est ....
À des fins de recherche, je me retrouve à avoir besoin de traquer SVM via SGD sur un grand DS (c'est-à-dire un grand nombre d'exemples). Cela rend l'utilisation de l'implémentation de scikit-learn (SGDClassifier) problématique, car elle nécessite le chargement de l'intégralité du DS à la fois. L'alg....
26 mars 2020 à 17:33
J'ai un classificateur de forêt aléatoire stocké dans l'objet clf. En termes vraiment simplifiés , j'ai fait ce qui suit: # Import libraries import pandas as pd from import sklearn.ensemble import RandomForestClassifier as rfc # Import data exog = pd.read_csv('train.csv') trgt = pd.read_csv('targe....
18 mars 2020 à 00:20
Je suis nouveau dans datascience et quand je passais par l'un des blog kaggle, j'ai vu que l'utilisateur utilise à la fois l'échelle et l'ajustement sur l'ensemble de données. j'ai essayé de comprendre la différence en parcourant la documentation mais je n'ai pas pu comprendre....
9 mars 2020 à 16:30
J'essaie d'implémenter l'algorithme de classification pour l'ensemble de données Iris (téléchargé depuis Kaggle). Dans la colonne Espèce, les classes (Iris-setosa, Iris-versicolor, Iris-virginica) sont triées. Comment puis-je diviser les données de formation et les données de test de telle manière q....
J'essaie de faire un modèle linéaire dans sklearn, et donc je veux tester le modèle que j'ai implémenté à l'aide de certaines fonctions d'erreur. J'ai d'abord choisi les fonctionnalités de mon axe X et y. #Predict the average parking rates per month X = df[['Number of weekly riders', 'Price per week....
J'essaie de tracer une ligne de régression sur un nuage de points, en fonction de mes données prédites. Le problème est que je suis censé avoir une seule ligne, mais mon tracé a plusieurs lignes reliant tous les points (voir photo) https://i.stack.imgur.com/VF483.png Après avoir prédit les émissions....
J'ai une situation où j'ai besoin de faire un traitement spécifique aux colonnes dans un pipeline, mais parce que les transformateurs retournent des tableaux numpy plutôt que des cadres de données pandas, je n'ai pas de noms de colonnes pour faire mon ingénierie de fonctionnalités. Voici un exemple ....
18 févr. 2020 à 06:53
Je suis nouveau dans le domaine de l'apprentissage automatique. Ma question est la suivante: j'ai construit un modèle et j'essaie d'optimiser ce modèle. En faisant quelques recherches, j'ai découvert que la validation croisée pouvait être utilisée pour m'aider à éviter d'avoir un modèle sur-ajusté. ....
Après avoir préformé l'ACP, j'ai mon tableau (redimensionné et proportion de variance expliquée) avec la somme 1. Je dois utiliser de nombreux composants pour obtenir un bon aperçu. Par conséquent, je voudrais pouvoir définir la somme cumulée souhaitée et obtenir le nombre de composants du tableau d....
12 févr. 2020 à 14:53
Je fais actuellement un projet par moi-même. Pour ce projet, j'ai essayé de comparer les résultats de plusieurs algorithmes. Mais je veux être sûr que chaque algorithme testé est configuré pour donner les meilleurs résultats. J'utilise donc la validation croisée et pour tester chaque combinaison de ....
Comme nous le savons Pour la machine à vecteurs de support, nous pouvons utiliser SVC ainsi que SGDClassifier avec implémentation de perte de charnière. Est SGDClassifier avec implémentation de perte de charnière est plus rapide que SVC. Pourquoi? Liens des deux implémentations de SVC dans scikit-l....
>>> import sklearn.model_selection.train_test_split Traceback (most recent call last): File "<stdin>", line 1, in <module> ModuleNotFoundError: No module named 'sklearn.model_selection.train_test_split' L'interpréteur ne parvient pas à trouver le module train_test_split. >>> import sklearn.model_....
3 févr. 2020 à 14:19
Je suis nouveau dans l'apprentissage automatique sans beaucoup d'expérience en python. Dans le code suivant, où les données entraînées sont-elles stockées après avoir appelé fit() et comment savoir si les données sont entraînées ou non après avoir appelé la méthode predict(). Je sais que cela pourra....
J'ai trouvé du code en ligne qui semble très, très intéressant. J'essaie de le faire fonctionner; obtenir une erreur sur cette ligne. # create a DataFrame aligning labels & companies df = pd.DataFrame({'labels': labels, 'companies': companies}) Message d'erreur: ValueError: arrays must all be same ....
Je veux évaluer un système d'apprentissage automatique en calculant le f1_score avec Scikit-learn sur mes prédictions. Cependant, les résultats ne sont pas comme prévu. L'appel des spectacles confusion_matrix [[ 3 11] [ 5 31]] Si je calcule le score f1 à la main comme 2 * (précision * rappel) / (p....
11 janv. 2020 à 18:39
Supposons que j'ai un train comme celui-ci: Name | day ------------ First | 0 Second | 1 Third | 1 Forth | 2 Et un ensemble de test qui ne contient pas tous ces noms ou jours. Ainsi: Name | day ------------ First | 2 Second | 1 Forth | 0 J'ai le code suivant pour transformer ces co....
J'essaie de former un RandomForestClassifier pour prédire si une critique est bonne (1) ou mauvaise (0) en fonction du nombre de mots. Mes données d'entraînement nommées all_train_set ressemblent à ceci: Reviews Labels 0 For fans of Chris Farley....
8 janv. 2020 à 06:52
Maintenant, je suis coincé avec le problème de la mise à l'échelle de nouvelles données. Dans mon schéma, j'ai formé et testé le modèle, avec tous les x_train et x_test ont été mis à l'échelle en utilisant sklearn.MinMaxScaler (). Ensuite, en appliquant au processus en temps réel, comment puis-je me....
3 janv. 2020 à 11:47
J'ai une trame de données comme indiqué ci-dessous: vector_a vector_b [1,2,3] [2,5,6] [0,2,1] [2,9,1] [4,7,1] [1,7,4] Je voudrais faire cosine_similarity de sklearn entre les colonnes vector_a et vector_b pour obtenir une nouvelle colonne appelée 'cosi....
J'ai fait un algorithme Kmeans et tracé le résultat. Tout se passe bien mais je veux savoir quels individus sont dans quel groupe. existe-t-il un moyen (et de quoi il s'agit) d'obtenir des individus d'un groupe particulier? Merci pour vos réponses.....