Le nettoyage des données est le processus de suppression ou de réparation des erreurs et de normalisation des données utilisées dans les programmes informatiques. Par exemple, des valeurs aberrantes peuvent être supprimées, des échantillons manquants peuvent être interpolés, des valeurs non valides peuvent être marquées comme indisponibles et des valeurs synonymes peuvent être fusionnées. Une approche du nettoyage des données est le cadre des «données bien rangées» de Wickham, ce qui signifie que chaque ligne est une observation et chaque colonne est une variable.

data-cleaning...

J'ai un df (data frame) en Python avec avec une variable postal_code qui a des codes postaux canadiens. Tous les codes postaux sont rassemblés dans une ligne telle que k1b6j2. Mais, pour que j'utilise le package 'pgeocode', j'ai besoin du code postal sous une forme standard qui est comme k1b 6j2 (il....
2 juin 2020 à 22:06
J'essaye de nettoyer mon code pour nettoyer les données manquantes. J'ai un ensemble de données avec 6 colonnes et le code fonctionne si je devais les faire individuellement comme ceci: mammographic_masses <- mammographic_masses %>% mutate(birad = replace(birad, birad== "na", NA)) %>% mutate(bir....
2 juin 2020 à 18:47
J'ai le jeu de données suivant structure(list(a = c(2, 1, 9, 2, 9, 8), b = c(4, 5, 1, 9, 12, NA), c = c(50, 34, 77, 88, 33, 60)), class = "data.frame", row.names = c(NA, -6L)) a b c 1 2 4 50 2 1 5 34 3 9 1 77 4 2 9 88 5 9 12 33 6 8 NA 60 De la colonne b, je ne veux que des valeurs compri....
2 juin 2020 à 13:19
Quelqu'un peut-il m'aider, je suis nouveau sur Python alors supportez-moi. Mes données ressemblent à ceci, mais toutes les informations sur la région sont disponibles. J'essaie de créer une nouvelle colonne «prix réel» qui calcule le prix en fonction de la région. comme pour chaque entrée, j'ai chaq....
1 juin 2020 à 17:29
J'ai un dataframe avec une colonne contenant du texte. Je souhaite effectuer trois étapes de prétraitement des données: 1) supprimer les mots qui n'apparaissent qu'une seule fois 2) supprimer les mots à faible fréquence inverse de document (IDF) et 3) supprimer les mots les plus fréquents Voici un e....
27 mai 2020 à 15:48
J'essaye de nettoyer une colonne appelée «historique_rank» dans un dataframe pandas. Il contient des données de chaîne. Voici un échantillon du contenu: historical_rank ... ... 122 1908 123 O' 124 125 1911 126 1912 127 1913 * * * 2010 * * * 128 129 1914 130 ....
25 mai 2020 à 23:29
Je nettoie certaines données, j'ai des données de plusieurs sujets pour plusieurs sujets sur plusieurs pistes. SubNo Trails Score 1 1 4 1 2 4 1 3 8 7 1 9 7 2 8 7 3 8 19 : : Pour le même sujet, j'ai un autre jeu de données pour un or....
J'ai un big dataframe où de nombreux noms de colonnes de colonnes ont . dans leurs noms. Voici mon approche dans l'exemple ci-dessous: #this somewhat resembles what we have in hand df <- data.frame(id= c("HD1", "HD2", "HD3", "HD4"), mon.1= c(1, 0, 1, 4), mon.2= c("a....
13 mai 2020 à 23:06
J'ai un index de séries chronologiques avec peu de variables et de lecture d'humidité. J'ai déjà formé un modèle ML pour prédire les valeurs d'humidité basées sur X, Y et Z. Maintenant, lorsque je charge le modèle enregistré à l'aide de pickle, je voudrais remplir les valeurs d'humidité manquantes e....
J'ai un jeu de données simplifié comme ci-dessous: il y a plusieurs clients et chaque CLIENT peut avoir plusieurs prêts. Un CUSTOMER avec au moins 1 LOAN_DEFAULT est marqué comme CUSTOMER_DEFAULT, et le DEFAULT_DATE est la première fois par défaut. CUSTOMER LOAN DATE AMOUNT LOAN_DEFAULT CUSTOME....
20 avril 2020 à 09:31
Kaggle Dataset (en cours d'élaboration) - New York Airbnb Créé avec un code de données brutes pour une meilleure explication du problème `airbnb= pd.read_csv("https://raw.githubusercontent.com/rafagarciac/Airbnb_NYC-Data-Science_Project/master/input/new-york-city-airbnb-open-data/AB_NYC_2019.csv") ....
15 avril 2020 à 22:10
J'ai un ensemble de données dt au format data.table qui ressemble à type id val 1 m 1 5 2 m 1 3 3 m 1 NA 3 e 2 7 4 e 3 7 5 m 4 4 6 m 4 2 7 m 4 NA Je veux remplacer val de la dernière entrée (dans mon exemple NA) de chaque groupe par id de type m par ....
22 mars 2020 à 15:35
J'ai une liste d'adresses que je dois nettoyer. Le but est d'ajouter un espace avant les nombres comme indiqué dans les exemples ci-dessous. 16AVCHARLESDAGAULLECS10525 16 Avcharlesdagaullecs 10525 1BDHIPPOLYTEMARQUES 1 Bdhippolytemarques 20GARRICKSTREET4THFLOOR ....
11 mars 2020 à 14:04
J'ai mis en place une classification d'analyse des émotions en utilisant la méthode lstm. J'ai déjà formé mon modèle et l'ai enregistré. J'ai chargé le modèle de train et je fais la partie de classification où je l'enregistre dans une trame de données. Je dois supprimer les crochets ainsi que son co....
7 mars 2020 à 20:58
J'ai des données d'enquête sur lesquelles je travaille dans R qui comprend des questions où les répondants ont reçu une liste d'options et ont été invités à classer leurs cinq premiers. Les données ressemblent à ceci: head(data) responseid ChoiceA ChoiceB ChoiceC ChoiceD Choic....
5 mars 2020 à 00:01
Je suis relativement nouveau dans la science des données et l'apprentissage automatique et je travaille actuellement sur mon premier projet avec un très grand ensemble de données, avec plus d'un million de lignes et 88 colonnes ». Je suis actuellement en train de nettoyer les données et d'essayer d'....
24 févr. 2020 à 23:04
Je veux définir plusieurs expressions régulières qui, une fois mises en correspondance, doivent remplacer par une certaine valeur. Par exemple, j'écris une expression régulière re.search('QuickPay with Zelle payment to *', re.IGNORECASE), et si elle est mise en correspondance dans une colonne DataFr....
24 févr. 2020 à 07:21
J'ai une colonne de chaîne alphanumérique dans la trame de données pandas. L'objectif est de supprimer uniquement la virgule des séparateurs de nombres. Par exemple: Hello, world! -> Hello, world! Mais Warhammer 40,000 -> Warhammer 40000 Codename 1,337 -> Codename 1337 Je peux en déduire que ce n'....
20 févr. 2020 à 13:48
Si j'avais un ensemble de données contenant les éléments suivants: 0-3 0-3 0-3 2-6 2-6 2-6 2-6 2-6 1-3 Comment pourrais-je convertir cela en un seul nombre, disons la valeur supérieure, ou encore mieux la moyenne des deux nombres de chaque côté du trait d'union? Toute aide serait très appréciée!....
17 févr. 2020 à 18:02
Je travaille actuellement avec des données catégorielles dans data.frame où deux des colonnes sont un facteur de type. Il compte environ 9000 lignes au total avec plus de 40 niveaux. Actuellement, je change d'abord ces colonnes en caractères parce que j'obtenais des valeurs NA lorsque j'essayais de ....
7 févr. 2020 à 01:49
Quelqu'un peut-il me suggérer comment créer des valeurs vraies ou fausses dans une trame de données? Par exemple, j'ai une trame de données comme ci-dessous: df = pd.DataFrame({"a":[0, 1, 2, 3], "b":[1, 4, 7, 9],"c":["In, Out", "Out", "In, Out", "In, Out"]}) print(df) a b c 0 1 In, Out 1 4 ....
Salut, je suis nouveau dans la vectorisation des fonctions dans R. J'ai un code similaire au suivant. library(truncnorm) library(microbenchmark) num_obs=10000 Observation=seq(1,num_obs) Obs_Type=sample(1:4, num_obs, replace=T) Upper_bound = runif(num_obs,0,1) Lower_bound=runif(num_obs,2,4) mean = r....
25 janv. 2020 à 21:51
[{'complete': True, 'volume': 116, 'time': '2020-01-17T19:15:00.000000000Z', 'mid': {'o': '1.10916', 'h': '1.10917', 'l': '1.10906', 'c': '1.10912'}}, {'complete': True, 'volume': 136, 'time': '2020-01-17T19:30:00.000000000Z', 'mid': {'o': '1.10914', 'h': '1.10922', 'l': '1.10908', 'c': '1.10919'}},....
Je voudrais remplacer certaines valeurs de mon cadre de données qui ont été saisies au mauvais format. Par exemple, 850 / 07-498745 devrait être 07-498745. Maintenant, j'ai utilisé le partage de chaîne avec succès pour le faire. Cependant, il transforme toutes les chaînes précédemment correctement f....
14 janv. 2020 à 19:35
J'ai donc un ensemble de données sur le nom du film, la date, les revenus accumulés. il y a plusieurs lignes pour le même film et il y a une colonne qui montre les revenus accumulés. Je veux extraire le dernier revenu accumulé pour un certain film et créer une nouvelle colonne et insérer la valeur ....