La science des données consiste à extraire des connaissances ou des idées des données, sous quelque forme que ce soit. Il peut contenir des analyses prédictives et prend généralement beaucoup de conflits de données. Envisagez de publier sur https://datascience.stackexchange.com/

data-science...

Vous ne savez pas comment calculer les conditions IF sur une trame de données comme vous le feriez dans un code python standard. J'ai le df suivant: Les valeurs de 'Label' correspondent à la valeur maximale de chaque ligne. Par exemple, ligne (0) la valeur maximale correspond à NO_2. Je souhaite re....
24 avril 2020 à 23:15
C'est le code pour extraire les données html de la classe où se trouvent mes données. mais comment extraire les données requises ( les données d'état ) car elles ne sont pas fournies dans l'ordre site Web import requests import cloudscraper from bs4 import BeautifulSoup import re import pandas as pd....
J'ai un dossier de formation (/ train) avec plus de ~ 100K images de différentes classes. La classe de l'image est donnée dans un fichier csv séparé qui ressemble à ceci: hashed_id,country,continent,scientific_name,filename fd148672d8,United States of America,North America,nerodia-sipedon,fd148672d....
9 mars 2020 à 20:00
Je suis nouveau dans datascience et quand je passais par l'un des blog kaggle, j'ai vu que l'utilisateur utilise à la fois l'échelle et l'ajustement sur l'ensemble de données. j'ai essayé de comprendre la différence en parcourant la documentation mais je n'ai pas pu comprendre....
9 mars 2020 à 16:30
J'ai des données comme celle-ci: Je souhaite supprimer les lignes de la colonne ID_2 de l'utilisateur dont les données sont à plus et moins de 5 chiffres....
J'ai des données numériques dans les notes Etudiant et je voudrais les regrouper en 3 catégories A, B et C. df = pd.DataFrame([('Adel', 3.5), ('Betty', 2.75), ('Djamel', 2.10), ('Ramzi', 1.75), ('Alexa', 3.15)], ....
12 janv. 2020 à 10:50
Je suis nouveau à la PNL et j'essaie les étapes de prétraitement de base tout en apprenant. J'essaie de séparer les ponctuations au début et à la fin des mots pour les intégrations. En faisant cela, je ne veux pas endommager des mots comme can't, I'm, etc. parce que je les traite séparément. s = 'Th....
5 janv. 2020 à 17:55
J'ai un dataframe: subject A_target_word_gd A_target_word_fd B_target_word_gd B_target_word_fd subject_type 1 1 2 3 4 mild 2 11 12 ....
J'ai fait un algorithme Kmeans et tracé le résultat. Tout se passe bien mais je veux savoir quels individus sont dans quel groupe. existe-t-il un moyen (et de quoi il s'agit) d'obtenir des individus d'un groupe particulier? Merci pour vos réponses.....
J'essaie de tracer un histogramme pour les valeurs NaN manquantes sur toutes les fonctionnalités d'une trame de données Pour cela, j'ai créé une trame de données pour les valeurs NaN manquantes Valeur manquante Dataframe 0 ----- 0 0 1 14 2 800 . . 84 2344 Ensuite, j'ai ce cadre de données p....
27 déc. 2019 à 18:32
Récemment, je suis tombé sur un extrait de code. Veuillez m'expliquer que cela fonctionne. arr = np.arange(9).reshape(3,3) a1 = np.array([[1,2],[0,1]]) a2 = np.array([[0,2],[1,2]]) #please explain this line out = arr[a1,a2] print(out.sum()) ....
je suis nouveau dans la science des données et je veux faire une classification à partir de données catégoriques. Je souhaite le faire avant d'utiliser les algorithmes K-means, mais j'ai cette «erreur ValueError: mauvaise forme d'entrée (2835, 18)» lorsque j'utilise fit_transform () et je ne sais pa....
23 déc. 2019 à 13:54
j'utilise pd.get_dummies pour transformer un vecteur catégorique avec 4 étiquettes (chaînes) en tableau 2d avec 4 colonnes. Cependant, après je n'ai pas trouvé de moyen de revenir aux valeurs d'origine par la suite. Je ne pouvais pas non plus le faire en utilisant sklearn.preprocessing.OneHotEncoder....
Selon ma connaissance, les boucles Python sont lentes, il est donc préférable d'utiliser des fonctions intégrées de pandas. Dans mon problème, une colonne aura différentes devises, je dois les convertir en dollar. Comment puis-je les détecter et les convertir en dollars en utilisant les fonctions in....
En utilisant "kmeans.cluster_centers_", j'obtiens les centroïdes finaux de chaque cluster, mais que se passe-t-il si je veux suivre tous les centroïdes de toutes les itérations et stocker le résultat dans une liste.....
Je voulais créer un modèle qui prédit la demande future de chaque produit en plusieurs semaines à chaque étape (prédire la demande hebdomadaire de l'année prochaine pour chaque produit) J'ai quelques petites tailles (environ 100-200 enregistrements) csv. ici des informations sur les colonnes CSV: - ....
Je cherche quelques exemples qui montrent la différence entre numpy.asanyarray () et numpy.asarray () ? Et à quelles conditions dois-je utiliser spécifiquement asanyarray ()?....
16 déc. 2019 à 06:54
Je suis donc encore un débutant dans les pandas et scikit-learn et j'ai reçu des devoirs pour trouver un aperçu des données d'échantillonnage fournies. Le seul indice qui m'a été donné est qu'une partie des informations devrait être liée à l'apprentissage automatique. Après avoir vérifié les données....
16 déc. 2019 à 06:18
J'ai df comme ci-dessous: day value Friday 32 Friday 32 Monday 11 Monday 22 Saturday 44 Saturday 25 Sunday 77 Sunday 88 Thursday 88 Thursday 88 Tuesday 88 Tuesday 88 Wednesday 88 Wed....
16 déc. 2019 à 05:49
J'essaie de définir de nouvelles variables «not_good», «good» et «very good» en fonction de la qualité de la colonne. Donc, à chaque ligne de l'ensemble de données, je n'aurai que «1» dans l'une d'entre elles et deux «0» dans les deux autres variables. J'ai utilisé le code ci-dessus, for i in range(....
16 déc. 2019 à 03:38
Sélectionnez un nombre au hasard avec une probabilité proportionnelle à sa magnitude dans le tableau donné de n éléments. Envisagez une expérience, en sélectionnant un élément dans la liste A au hasard avec une probabilité proportionnelle à sa magnitude. supposons que nous faisons la même expérience....
J'ai 2 ensembles de coordonnées de latitude / longitude, 4 tableaux au total. Mon objectif était de trouver la distance entre un groupe (airbnb_coord) et le membre le plus proche du deuxième groupe (station_coord). J'ai écrit une boucle imbriquée pour accomplir cela shortest_distance = make_array() ....
15 déc. 2019 à 17:01
J'ai une colonne comme time 1508089361 1508065388 1508011482 Je veux convertir cela en un horodatage local définissant le fuseau horaire pour une région particulière, donc j'utilise le code ci-dessous: df['time'] = pd.to_datetime(df['time'], unit='s').dt.tz_localize('UTC').dt.tz_convert('Europe/B....
15 déc. 2019 à 04:13
J'ai un tableau 2D. Chaque ligne du tableau est une recette de cuisine et chaque colonne contient les ingrédients de la recette. Je veux créer une matrice binaire normalisée des ingrédients. La matrice binaire normalisée aura le même nombre de lignes que la matrice de recette (pour chaque recette) e....
Je travaille sur le concours Titanic Dataset (Kaggle). L'une des colonnes de l'ensemble de données est Fare, qui contient des valeurs flottantes. Pour EDA, j'ai converti les colonnes tarifaires en bacs et attribué des étiquettes aux bacs. Le problème est que certaines des étiquettes sont attribuées ....
14 déc. 2019 à 14:11