Pandas est une bibliothèque Python pour la manipulation et l'analyse de données, par ex. cadres de données, séries chronologiques multidimensionnelles et ensembles de données transversales que l'on trouve couramment dans les statistiques, les résultats des sciences expérimentales, l'économétrie ou la finance. Pandas est l'une des principales bibliothèques de science des données en Python.

pandas...

J'ai un tel DataFrame: df = pd.DataFrame(data={ 'col0': [11, 22,1, 5] 'col1': ['aa:a:aaa', 'a:a', 'a', 'a:aa:a:aaa'], 'col2': ["foo", "foo", "foobar", "bar"], 'col3': [True, False, True, False], 'col4': ['elo', 'foo', 'bar', 'dupa']}) Je veux obtenir la longueur de la liste aprè....
20 janv. 2020 à 17:46
J'ai un DataFrame de plages de dates (le DataFrame réel a plus de données attachées mais a les mêmes colonnes start et end). Les données doivent finalement être analysées semaine par semaine du dimanche au samedi. Ainsi, je voudrais parcourir le DataFrame et diviser toutes les plages de dates (start....
17 janv. 2020 à 20:02
J'ai six valeurs différentes dans la colonne de trame de données 'index_val' que j'ai importées dans chacune des nouvelles feuilles de calcul pour le même classeur. df_dict = {} for zone in df['index_val'].unique(): zone_df = df[df['index_val'] == zone] df_dict[zone] = zone_df ....
14 janv. 2020 à 09:01
J'ai une trame de données comme la sienne import pandas as pd lst = [['A', '1','1', 25, 5], ['A', '1','0', 3,7], ['A', '0','1', 5, 9], ['A', '0','0', 5, 10], ['B', '1','1', 15, 18], ['B', '1','0', 2, 20], ['B', '0','1', 2, 60], ['B', '0','0', 55, 60]] df1=pd.DataFrame(lst, c....
14 janv. 2020 à 05:53
Je veux calculer le pourcentage mais tout ce que je reçois est la somme. S'il vous plaît, aidez-moi à obtenir le pourcentage dans les cellules plutôt que le nombre en python dans le cadre de données pandas. Code: ds_data = data[(data.JobTitle == 'Data Analyst') | (data.JobTitle == 'Data Engineer') ....
J'ai de nombreux fichiers .txt dans un dossier. Par exemple, chaque fichier .txt est comme ci-dessous. FileA = pd.DataFrame({'Id':["a","b","c"],'Id2':["a","b","z"],'Amount':[10, 30,50]}) FileB= pd.DataFrame({'Id':["d","e","f","z"],'Id2':["g","h","i","j"],'Amount':[10, 30,50,100]}) FileC= pd.DataFram....
14 janv. 2020 à 03:42
Je sais que vous pouvez utiliser pandas.DataFrame.fillna pour remplacer toutes les valeurs nulles par une série, mais existe-t-il un moyen facile de remplacer toutes les valeurs non nulles par une série? Alternativement, j'ai vu df.loc[~df.isnull()] pour remplacer toutes les valeurs nulles par une s....
14 janv. 2020 à 02:57
J'ai 30 fichiers .bz2 que je veux lire. Chaque fichier est trop volumineux pour être lu, donc un bloc de taille x est suffisant pour chaque fichier. Je veux ensuite joindre tous ces 30 fichiers ensemble. import pandas as pd import numpy as np import glob path = r'/content/drive/My Drive/' ....
14 janv. 2020 à 02:15
J'ai une trame de données qui ressemble à ceci: ID Unit Semester Note BNF 0 3537 143066.0 4010 2.3 5 1 3537 143067.0 4010 m.E. E 2 75 113142.0 4011 5.0 5 3 3726 113142.0 4011 3.3 5 4 5693 113142.0 4011 5.0 5 cette trame de donné....
14 janv. 2020 à 01:57
Je voudrais savoir comment trouver la séquence de dates ininterrompue la plus longue (formatée en 2016-11-27) dans une colonne publish_date (les dates ne sont pas l'index, bien que je suppose qu'elles pourraient l'être). Il y a un certain nombre de questions de débordement de pile qui sont similaire....
14 janv. 2020 à 00:51
J'ai un document Excel avec des valeurs comme: 0.0000595628 Lorsque j'utilise print(float(row['% of total failures2'])), j'obtiens la valeur 5.95628e-05 Même en le lisant en utilisant uniquement print(row['% of total failures2']), j'obtiens le même 5.95628e-05 Comment puis-je convertir cette v....
13 janv. 2020 à 23:13
J'essaie d'écrire ma propre méthode read_csv sur pandas.read_csv. # pandas_custom.py module import pandas as pd def read_csv(**kwargs): df = pd.read_csv(**kwargs) df = df.apply(my_function) return df # main_module.py module import pandas_custom as pdF df = pdF.read_csv(filepath_or_buffe....
13 janv. 2020 à 21:27
J'ai un certain nombre de séquences stockées dans un tableau 2D [[first_seq,first_seq],[first_seq,first_seq],[sec_seq,sec_seq]],... Chaque séquence de vecteur varie en longueur. Certaines font 55 lignes de long d'autres sont 68 lignes de long. La séquence 2D-array (features) a la forme (427,227) (, ....
13 janv. 2020 à 16:14
J'ai un DataFrame qui ressemble à celui ci-dessous. A B C Timestamp 2019-01-12 00:00:00 43.73 28.95 25.31 2019-01-12 00:15:00 44.08 29.34 25.25 2019-01-12 00:30:00 44.39 29.59 25.12 2019-01-12 00:45:00 44.34 29.48 24.96 2019....
13 janv. 2020 à 15:17
Mon objectif est d'obtenir le pourcentage de plusieurs colonnes, qui sont divisées par une autre colonne. Les colonnes résultantes doivent être conservées dans la même trame de données. A B Divisor 2000 8 31 166 2001 39 64 108 2002 68 8 142 2003 28 2 130 2004 55....
13 janv. 2020 à 14:00
J'ai une trame de données comme ci-dessous à laquelle je veux appliquer une logique SQL mentionnée ci-dessous df.head(25) ORDER_ID CODE STATUS_DATE RNK 19837715 0400 22/10/19 08:11:08.000000000 AM GMT 2 19837715 0400 22/10/19 10:00:03.000000000 AM GMT 1 198....
13 janv. 2020 à 08:21
J'ai une trame de données pandas et je voudrais ajouter une ligne à la fin de la trame de données pour montrer la moyenne de chaque colonne; cependant, en raison des valeurs de NaN dans Col2, Col3 et Col4, la fonction moyenne ne peut pas renvoyer la moyenne correcte des colonnes. Comment puis-je rés....
12 janv. 2020 à 13:09
Normalement, pour créer un DataFrame avec le code ci-dessous df= pd.DataFrame({'a':[1],'b':[2]}) df Production: a b 0 1 2 Mais pendant que j'essaye de créer un DataFrame avec un nom de colonne de 'start', son ordre change df1 = pd.DataFrame({'start':[2],'end':[4]}) df1 Production: end star....
12 janv. 2020 à 07:58
J'ai un cadre de données dans Pandas qui contient une colonne (type de données = objet) remplie de valeurs \ N. J'ai essayé de supprimer les lignes en utilisant le code ci-dessous et j'ai reçu l'erreur unicode. df = df.drop(df['birth_year'] == '\N') File "<ipython-input-17-91f65c6f54c3>", line 1 ....
12 janv. 2020 à 05:31
Si j'ai le code ci-dessous, df['variance'] = (pd.to_datetime(df.last_date) - pd.to_datetime(df.first_date)) / np.timedelta64(1, 'M') Cela me donne un nombre de mois, mais si l'une des colonnes n'a pas de date et que le résultat de ce code pour cette valeur est NaN, y a-t-il un moyen où je peux attr....
12 janv. 2020 à 02:31
Group Col2 Col3 Grp1 1 Grp1 1 Grp1 1 Grp1 2 Grp1 3 Grp1 3 Grp2 1 Grp2 1 Grp2 1 Grp3 1 Grp3 2 Grp3 3 Grp4 1 Et je voudrais grouper des groupes et supprimer tous les groupes de la trame de données où le nombre dans Col2 dépasse 2 Ici, je devrais obtenir: Group Col2 Grp2 1 Grp2 1 Grp2 1 Grp4 1 est-ce....
11 janv. 2020 à 15:31
J'ai un fichier contenant des données comme, {"cid": "ABCD", "text": "alphabets", "time": "1 week", "author": "xyz"} {"cid": "EFGH", "text": "verb", "time": "2 week", "author": "aaa"} {"cid": "IJKL", "text": "noun", "time": "3 days", "author": "nop"} Je souhaite lire ce fichier et créer une trame d....
10 janv. 2020 à 21:31
J'ai besoin de limiter un ensemble de données pour qu'il ne renvoie que des lignes qui contiennent une chaîne spécifique, cependant, cette chaîne peut exister dans de nombreuses (8) des colonnes. Comment puis-je faire ceci? J'ai vu des méthodes str.isin, mais elle renvoie une seule série pour une se....
10 janv. 2020 à 20:51
Je suis nouveau aux Pandas Mon DataFrame: df A B C 1 2 3 4 5 6 7 8 9 5 2 4 True False False True False True False True False 2 2 1 True True False False False True ....
10 janv. 2020 à 16:54
Je recherche un moyen efficace de supprimer tous les caractères après le premier "|" Les données ressemblent à: category qty 1 abc|xyz 23 2 dfs|oif 43 3 fds|fd|a 34 4 qwe|lf 34 5 fds|fa|fds 21 J'ai besoin de couper ces données pour: category ....
10 janv. 2020 à 08:48