La science des données consiste à extraire des connaissances ou des idées des données, sous quelque forme que ce soit. Il peut contenir des analyses prédictives et prend généralement beaucoup de conflits de données. Envisagez de publier sur https://datascience.stackexchange.com/

data-science...

Supposons que j'ai un dataframe comme: Column1 Column2 Column3 Column4 1 I am abc 3 on weekend holidays 1 I do business 2 I am xyz 3 I do nothing 2 I ....
16 juin 2020 à 06:51
| 1st Most Common Value | 2nd Most Common Value | 3rd Most Common Value | 4th Most Common Value | 5th Most Common Value | |-----------------------|-----------------------|-----------------------|-----------------------|-----------------------| | Grocery Store | Pub | Coffee....
3 juin 2020 à 00:13
Ceci est pour une application de science des données numériques. J'ai besoin de créer une matrice de zéros, dans un fichier, séparés par des virgules (dans une ligne) et se terminant par une nouvelle ligne (à la fin de chaque ligne). Ce code bash était le plus proche: l=`python -c "print(f'{\"0, \" ....
2 juin 2020 à 21:05
Est-il possible de créer un nouveau dataFrame à l'aide de pandas qui contient une ligne contenant NaN dans une colonne d'un datafram existant à examiner par une personne? Je peux obtenir des lignes contenant NaN dans une colonne spécifique avec: df_nan = df[pd.isna(df["sales_person"])] Mais y a-t-il....
1 juin 2020 à 23:48
Je veux comparer df et df_equal. df contient plusieurs trames de données individuelles import pandas as pd df1 = pd.DataFrame([[ 'b', 'b', 'b' ]], columns=['a', 'b', 'c']) Output: a b c 0 b b b df2 = pd.DataFrame([[ 'x', 'x', 'x' ]], columns=['a', 'b', 'c....
17 mai 2020 à 18:47
J'ai 2 dataframe c'est-à-dire df1 et df2 comme suit df1=pd.read_csv("abc.csv") print (df1.head(10)) df2=pd.read_csv("xyz.csv") print (df2.head(10)) A B 0 2019-01-01 03:56:29 197.199997 1 2019-01-01 04:02:29 197.186142 2 2019-01-02....
9 mai 2020 à 14:00
Vous ne savez pas comment calculer les conditions IF sur une trame de données comme vous le feriez dans un code python standard. J'ai le df suivant: Les valeurs de 'Label' correspondent à la valeur maximale de chaque ligne. Par exemple, ligne (0) la valeur maximale correspond à NO_2. Je souhaite re....
24 avril 2020 à 23:15
Je ne peux pas le faire moi-même, l'essayer pendant au moins 2 heures ... J'ai le data.frame suivant importé à partir d'un fichier CSV: > asyl_continents 2010 2011 2012 2013 2014 2015 2016 Europe 1411 1352 2047 3277 5105 7647 5296 Asia 2832 3229 3903 4418 7123 32152 18002 Ameri....
24 avril 2020 à 16:20
J'ai les coordonnées de la ville: (52.2319581, 21.0067249) et le dictionnaire Python avec les villes autour de la ville mentionnée. Comment obtenir les 3 villes les plus proches à partir de coordonnées données: ({'Brwinów': (52.133333, 20.716667), 'Warszawa Bielany': (52.283333, 20.966667), 'Legiono....
19 avril 2020 à 15:13
Voici un exemple de mon dictionnaire: {'Fiction Books 2019': ['The Testaments by Margaret Atwood', 'Normal People by Sally Rooney', 'Where the Forest Meets the Stars by Glendy Vanderah', 'Ask Again, Yes by Mary Beth Keane', 'Queenie by Candice Carty-Williams', "On Earth We're Briefly Gorgeous by Oce....
14 avril 2020 à 05:11
C'est le code pour extraire les données html de la classe où se trouvent mes données. mais comment extraire les données requises ( les données d'état ) car elles ne sont pas fournies dans l'ordre site Web import requests import cloudscraper from bs4 import BeautifulSoup import re import pandas as pd....
J'ai un dossier de formation (/ train) avec plus de ~ 100K images de différentes classes. La classe de l'image est donnée dans un fichier csv séparé qui ressemble à ceci: hashed_id,country,continent,scientific_name,filename fd148672d8,United States of America,North America,nerodia-sipedon,fd148672d....
9 mars 2020 à 20:00
Je suis nouveau dans datascience et quand je passais par l'un des blog kaggle, j'ai vu que l'utilisateur utilise à la fois l'échelle et l'ajustement sur l'ensemble de données. j'ai essayé de comprendre la différence en parcourant la documentation mais je n'ai pas pu comprendre....
9 mars 2020 à 16:30
J'ai des données comme celle-ci: Je souhaite supprimer les lignes de la colonne ID_2 de l'utilisateur dont les données sont à plus et moins de 5 chiffres....
J'ai plusieurs types d'images dans un dossier et je veux enregistrer chaque type d'images dans une variable différente par le nom et les 6 premiers caractères du nom sont les mêmes et le caractère principal est le 7e. Je sais comment importer les images mais mon problème est de savoir comment les sé....
26 févr. 2020 à 10:10
J'essaie d'extraire uniquement des nombres et uniquement des chaînes dans deux trames de données différentes. J'utilise l'expression régulière pour extraire les nombres et la chaîne. import pandas as pd df_num = pd.DataFrame({ 'Colors': ['lila1.5', 'rosa2.5', 'gelb3.5', 'grün4', 'rot5', 'sc....
J'ai une trame de données: df = col1 col2 col3 1 2 3 1 4 6 3 7 2 Je souhaite modifier df, de telle sorte que lorsque la valeur de col1 est inférieure à 2, prenez la valeur de col3. Je vais donc obtenir: new_df = col1 col2 col3 3 2 3 6 4 6 3 ....
17 févr. 2020 à 17:15
J'ai un bloc de données composé de la colonne 1, c'est-à-dire de l'événement et la colonne 2 est Datetime: Exemples de données Event Time 0 2020-02-12 11:00:00 0 2020-02-12 11:30:00 2 2020-02-12 12:00:00 1 2020-02-12 12:30:00 0 2020-02-12 13:00:00 0 2020-02-12 ....
Je travaille avec des données de séries chronologiques, mais à des fins SO je vais simplement inventer des données de séries chronologiques: import pandas as pd import numpy as np from numpy.random import randint rng = pd.date_range('10/9/2018 00:00', periods=500, freq='6H') df = pd.DataFrame({'Ra....
11 févr. 2020 à 19:11
J'essaie de filtrer les données d'une trame de données qui sont inférieures à une certaine valeur. S'il n'y a pas de NaN, cela fonctionne bien. Mais quand il y a un nan, il ignore la valeur NaN. Je veux inclure tout le temps son n'importe pas moins ou plus grand que la valeur de comparaison. import ....
6 févr. 2020 à 12:32
J'ai des données sur la consommation d'électricité. Pendant les coupures de courant, les données sont «0». Je veux remplacer ces 0 par les données de la même heure au cours de la semaine dernière. Soit 168 index devant ou derrière dans l'ensemble de données. Dans le code ci-dessous, je sauvegarde l'....
Je ne parviens pas à exécuter KMeans () dans mon bloc-notes Jupyter. Le même morceau de code fonctionne correctement si je l'utilise dans un script Python. J'ai déjà installé KMeans / Sklearn en utilisant. !pip3 install KMeans Alors quel est le problème?....
J'ai des données numériques dans les notes Etudiant et je voudrais les regrouper en 3 catégories A, B et C. df = pd.DataFrame([('Adel', 3.5), ('Betty', 2.75), ('Djamel', 2.10), ('Ramzi', 1.75), ('Alexa', 3.15)], ....
12 janv. 2020 à 10:50
Je suis nouveau à la PNL et j'essaie les étapes de prétraitement de base tout en apprenant. J'essaie de séparer les ponctuations au début et à la fin des mots pour les intégrations. En faisant cela, je ne veux pas endommager des mots comme can't, I'm, etc. parce que je les traite séparément. s = 'Th....
5 janv. 2020 à 17:55
J'ai un dataframe: subject A_target_word_gd A_target_word_fd B_target_word_gd B_target_word_fd subject_type 1 1 2 3 4 mild 2 11 12 ....