Le nettoyage des données est le processus de suppression ou de réparation des erreurs et de normalisation des données utilisées dans les programmes informatiques. Par exemple, des valeurs aberrantes peuvent être supprimées, des échantillons manquants peuvent être interpolés, des valeurs non valides peuvent être marquées comme indisponibles et des valeurs synonymes peuvent être fusionnées. Une approche du nettoyage des données est le cadre des «données bien rangées» de Wickham, ce qui signifie que chaque ligne est une observation et chaque colonne est une variable.

Plus à propos data-cleaning...

J'utilise Tabula-py pour lire mon fichier PDF d'horaire de classe en Python et la valeur de retour "Données" a beaucoup de valeurs "Nan" que je ne peux pas sembler nettoyer. Quelqu'un peut-il suggérer une solution? Dois-je utiliser quelque chose au lieu de tabula-py? J'ai joint un lien vers l'im....
30 mai 2021 à 17:05
J'ai un Pandas DataFrame comme celui-ci: a b c x a1 b1 c1 x1 0 aa ba ca 9 NaN NaN NaN 1 1 ab bb cb 9 NaN NaN NaN NaN 2 ac bc cd NaN NaN NaN NaN NaN 3 ad bd cd 9 1 NaN NaN NaN 4 ....
J'ai deux grands dataframes, mais je ne montrais qu'un petit sous-ensemble d'entre eux pour plus de commodité. L'un est sous la forme suivante (tableau 1): | Country | Date | flag | M | notes | V | |--------------------------------------------------| | UK | 20210319 | 1 | 3.0 | No....
Je devrais avoir ' \\n, *, ' ==> '\n *' Mais j'ai essayé d'utiliser df['Course_content']=df['Course_content'].replace(' \\n, *, ','\n *',regex=True) Mais ça ne marche pas pour moi >>> df['Course_content'][0] 'The syllabus for this course will cover the following:, \\n, *, The nature and purpos....
26 mai 2021 à 07:07
Le cadre de données, DF: ID status year 1 0 2000 1 1 2000 2 0 2001 3 1 2002 3 0 2002 4 1 2002 Je veux laisser tomber le statut "0" lorsque le statut "1" est disponible pour le même identifiant de la même année, de telle sorte que: ID status year 1 1 ....
26 mai 2021 à 04:27
Cadre de données df inclut deux vecteurs de caractères. Voici les 10 premières lignes: rowid codes_raw a 15-1132, 15-1133 b 21-1091, 21-1094, 21-1099 c 25-9011, 25-9021, 25-9031, 25-9099 d 31-9093, 31-9099 ....
24 mai 2021 à 20:06
À BigQuery, j'ai une table avec une colonne produisant de longues valeurs de chaîne similaires à celle fournie ci-dessous. Il y a deux parties principales de la chaîne: cust_no and comp_no. Chaque partie contient une "valeur" et "mise à jour_at_ms". J'essaie d'extraire ces deux "Cust_no et Comp_no a....
18 mai 2021 à 10:53
Je suis misérablement coincé au nettoyage des données Pandas. J'ai fait un exemple très simple pour démontrer mon problème. Pour chaque rangée, je veux supprimer / modifier le double et garder le dernier. Actuellement, mon Dataframe est "Animaux". Et je veux que ce soit le Dataframe 'Anims_Clean' Im....
J'ai des données cliniques qui enregistre un patient à quatre heures de points avec un résultat de la maladie indiqué par une variable binaire pour chaque point de temps. Ça ressemble à quelque chose comme ça patientid <- c(100,101,102) outcome_t1 <- c(1,1,1) outcome_t2 <- c(0,1,1) outcome_t3 <- c(....
17 mai 2021 à 19:16
Je suis un codeur relativement inexpérimenté en utilisant R pour essayer de nettoyer certaines données. Ce faisant, j'essaie d'écrire du code qui fera la même chose à plusieurs feuilles de calcul et créera des sorties avec des noms correspondant à leur feuille de calcul respective. Je veux que la pa....
14 mai 2021 à 22:07
Bonjour, je voulais appliquer une fonction mod de la colonne% 24 à l'heure de la colonne de temps. Je crois que la colonne de temps est dans un format de chaîne, Je me demandais comment je devrais faire de l'opération. sales_id,date,time,shopping_cart,price,parcel_size,Customer_lat,Customer_long,isL....
14 mai 2021 à 09:00
Je travaille sur le nettoyage des données Twitter contenant la colonne "user_location". Je tiens à faire cette uniforme de données de colonne en supprimant les noms des régions, villes, états et en les remplaçant avec le pays respectif . Je faisais ça manuellement. Y a-t-il une autre façon de faire....
Je raclage des commentaires de Reddit et essaye de supprimer des lignes / commentaires vides. Un certain nombre de lignes semblent vides, même si je ne peux pas sembler les supprimer. Quand j'utilise is_empty, ils n'apparaissent pas vide. > Reddit[25,] [1] "​" > is_empty(Reddit$text[25]) [1] FALSE ....
11 mai 2021 à 20:06
Je suis assez nouveau à R et j'espère savoir s'il existe une manière plus propre d'écrire le code ci-dessous. Fondamentalement, je dépose quelques-uns des doublons de DF1 et les a ajoutés à DF2. Je rejoint ensuite les valeurs de Count_DF à DF2 et renommer certaines colonnes dans DF2. J'aimerais vrai....
9 mai 2021 à 02:28
Je travaillais sur une maladie cardiaque UCI et j'ai modifié toutes les valeurs mesurables dans les scores Z et je veux remplacer les valeurs supérieures à 3 ou inférieures à -3 avec 3 et 3 respectivement ou avec une moyenne. Mon exemple de code est: > import pandas as pd import numpy as np > > df=....
9 mai 2021 à 00:36
Je travaille actuellement sur un jeu de données Kaggle Prédiction de prix de la maison Il a des erreurs dans la colonne latitude et latitude, alors j'ai décidé d'utiliser Geopy pour obtenir des valeurs correctes pour ces deux colonnes. Et cela fonctionne bien si je l'utilise sur une seule adresse ma....
8 mai 2021 à 17:57
J'essaie de parcourir un fichier de données de Pandas pour créer des conditions de filtre et ci-dessous est mon code qui fonctionne bien: - categories_lst = [ ["BEER/ALE/ALCOHOLIC CIDER"], ["CIGARETTES", "CIGARS", "ELECTRONIC SMOKING DEVICES"], ["COLD CEREAL"], ["YOGU....
J'ai une trame de données pour les données de la NBA que j'ai du mal à manipuler. J'aimerais changer DF1 à DF2 en faisant appel à des équipes et à leurs scores dans un jeu le long de la même ligne: df1 GameID TeamID TeamAbb PTS 0 1001 TOR 99 0 1023 ....
À titre d'exemple, un fichier de données qui ressemble à ceci: date price ticker volume 0 2018-01-01 1.323 AI 2000 1 2018-01-02 1.525 AI 1500 2 2018-01-03 1.045 AI 500 3 2018-01-04 1.845 AI 600 4 2018-01-05 1.045 AI 500 5 2018-01-02 ....
4 mai 2021 à 05:23
J'ai rampé des données de voiture et non je veux le nettoyer pour travailler avec ces données. Le cadre de données ressemble à ceci: > head(cars_clean) car_name car_prize ps km kraftstoff baujahr 1 Volkswagen Lupo \n€ 399,-\n \n37 kW (50 PS)\n \n215....
1 mai 2021 à 12:51
Donc, je recevrai un fichier XLMS contenant des noms de personnes avec différents titres tels que MR, MS, DR, MRS, Juge, etc. Cependant, certains de ces noms contiennent plusieurs titres dans un exemple de nom "Mme Ronderval", "Dr Rev Johns M. ", etc., j'essaie donc de les supprimer à l'exception d'....
1 mai 2021 à 08:57
J'espère que tous les gars sont en bonne santé et bien. Je suis nouveau dans le monde de la NLP et ma question peut sembler stupide, alors je m'excuse à l'avance.Je souhaiterait effectuer une NLP sur certaines données texte étiquetées et exécutez un modèle prédictif de texte minier. J'ai quatre colo....
30 avril 2021 à 00:11
J'ai une colonne qui est de format H: M: S: MS DD / mm / yy (mais pas cohérent) Les valeurs uniques de la colonne sont comme vous pouvez le voir que le format n'est pas cohérent d'une année 04 et d'une autre en 2004 . quelque .......
26 avril 2021 à 07:55
J'ai une trame de données dans R avec des données de niveau étudiant. Voici quelques échantillons de données pour montrer comment il est structuré: student.data <- data.frame( "CourseNumber" = c(101, 101, 101, 102, 102, 102, 103, 103, 104, 104, 104, 105, 106, 106, 106), ....
24 avril 2021 à 22:45
J'ai un fichier de données avec deux colonnes, l'une des colonnes contient de nombreuses cellules vides. J'ai essayé toute la méthode que je pouvais penser à laisser tomber ces rangées, mais aucune n'a travaillé. Par exemple: FGS_data[FGS_data['Ins ISIN code']==''] = np.nan FGS_data[FGS_data['Ins IS....
24 avril 2021 à 12:31