Un bloc de données est une structure de données tabulaire. Habituellement, il contient des données où les lignes sont des observations et les colonnes sont des variables de différents types. Alors que "data frame" ou "dataframe" est le terme utilisé pour ce concept dans plusieurs langues (R, Apache Spark, deedle, Maple, la bibliothèque pandas en Python et la bibliothèque DataFrames en Julia), "table" est le terme utilisé dans MATLAB et SQL.

dataframe...

J'ai un DataFrame de plages de dates (le DataFrame réel a plus de données attachées mais a les mêmes colonnes start et end). Les données doivent finalement être analysées semaine par semaine du dimanche au samedi. Ainsi, je voudrais parcourir le DataFrame et diviser toutes les plages de dates (start....
17 janv. 2020 à 20:02
Je veux calculer le pourcentage mais tout ce que je reçois est la somme. S'il vous plaît, aidez-moi à obtenir le pourcentage dans les cellules plutôt que le nombre en python dans le cadre de données pandas. Code: ds_data = data[(data.JobTitle == 'Data Analyst') | (data.JobTitle == 'Data Engineer') ....
Je sais que vous pouvez utiliser pandas.DataFrame.fillna pour remplacer toutes les valeurs nulles par une série, mais existe-t-il un moyen facile de remplacer toutes les valeurs non nulles par une série? Alternativement, j'ai vu df.loc[~df.isnull()] pour remplacer toutes les valeurs nulles par une s....
14 janv. 2020 à 02:57
J'ai une trame de données qui ressemble à ceci: ID Unit Semester Note BNF 0 3537 143066.0 4010 2.3 5 1 3537 143067.0 4010 m.E. E 2 75 113142.0 4011 5.0 5 3 3726 113142.0 4011 3.3 5 4 5693 113142.0 4011 5.0 5 cette trame de donné....
14 janv. 2020 à 01:57
Je voudrais savoir comment trouver la séquence de dates ininterrompue la plus longue (formatée en 2016-11-27) dans une colonne publish_date (les dates ne sont pas l'index, bien que je suppose qu'elles pourraient l'être). Il y a un certain nombre de questions de débordement de pile qui sont similaire....
14 janv. 2020 à 00:51
J'ai une trame de données comme ci-dessous à laquelle je veux appliquer une logique SQL mentionnée ci-dessous df.head(25) ORDER_ID CODE STATUS_DATE RNK 19837715 0400 22/10/19 08:11:08.000000000 AM GMT 2 19837715 0400 22/10/19 10:00:03.000000000 AM GMT 1 198....
13 janv. 2020 à 08:21
J'ai une trame de données pandas et je voudrais ajouter une ligne à la fin de la trame de données pour montrer la moyenne de chaque colonne; cependant, en raison des valeurs de NaN dans Col2, Col3 et Col4, la fonction moyenne ne peut pas renvoyer la moyenne correcte des colonnes. Comment puis-je rés....
12 janv. 2020 à 13:09
Normalement, pour créer un DataFrame avec le code ci-dessous df= pd.DataFrame({'a':[1],'b':[2]}) df Production: a b 0 1 2 Mais pendant que j'essaye de créer un DataFrame avec un nom de colonne de 'start', son ordre change df1 = pd.DataFrame({'start':[2],'end':[4]}) df1 Production: end star....
12 janv. 2020 à 07:58
J'ai besoin de limiter un ensemble de données pour qu'il ne renvoie que des lignes qui contiennent une chaîne spécifique, cependant, cette chaîne peut exister dans de nombreuses (8) des colonnes. Comment puis-je faire ceci? J'ai vu des méthodes str.isin, mais elle renvoie une seule série pour une se....
10 janv. 2020 à 20:51
Supposons que j'ai des milliers de points de données (x, y) aléatoires et que je stocke les x et y s dans deux colonnes dans une trame de données. Il est important de noter que tous les x sont des nombres entiers, mais les y sont des nombres continus. Si je les trace dans un nuage de points en utili....
10 janv. 2020 à 17:01
import pandas as pd ind = pd.date_range('01/01/2000', periods = 4, freq ='W') df = pd.DataFrame({"A":[14, 4, 5, 4]},index = ind) df.pct_change() A 2000-01-02 NaN 2000-01-09 -0.714286 2000-01-16 0.250000 2000-01-23 -0.200000 Nous obtenons le taux de croissance de l....
10 janv. 2020 à 16:42
Je voulais filtrer les lignes qui ont des valeurs nulles pour toutes les colonnes d'une liste. Supposons par exemple que nous ayons le df suivant, df = spark.createDataFrame([(0, 1, 1, 2,1), (0, 0, 1, 0, 1), (1, 0, 1, 1 ,1)], ['a', 'b', 'c', 'd', 'e']) +---+---+---+---+---+ ....
J'ai passé en revue de nombreuses questions similaires aux miennes, mais je n'ai pas encore trouvé de solution claire pour ce que je recherche (je serais heureux si vous liez à une réponse s'il s'agit d'un doublon ou si une telle question a déjà été répondu). J'ai une trame de données comme celle-ci....
9 janv. 2020 à 02:51
J'essaie d'utiliser la fonction groupby dans Pandas pour calculer la différence dans la quantité d'achat et de vente échangée à l'aide de la fonction groupby. J'ai essayé beaucoup de méthodes différentes mais je n'ai pas pu trouver de solution. df = pd.DataFrame({'Security Name':['Max Pro','Max Pro'....
8 janv. 2020 à 19:15
J'ai ce df: ID Date Time Lat Lon Time_1 Lat_1 Lon_1 A 07/16/2019 08:00 29.39291 -98.50925 09:00 29.39923 -98.51256 A 07/16/2019 09:00 29.39923 -98.51256 10:00 29.40147 -98.51123 A 07/16/2019 10:00 29.40147 -98.51123 10:00 29.40147 -98.51123 A 07/1....
8 janv. 2020 à 15:47
J'ai des données qui sont importées dans une trame de données Pandas où les éléments qui sont des listes sont automatiquement séparés dans de nouvelles colonnes. Mes données étaient à l'origine .racine fichiers et je les importe dans Pandas avec Déraciner Voici des exemples de données où la physique....
8 janv. 2020 à 02:58
Je suis coincé sur cette voie depuis trop longtemps. Tout ce que j'essaie de faire est de créer une nouvelle colonne appelée Duration Target Date qui dérive de Standard Duration Days + Date/Time Created. Voici mon code jusqu'à présent: De mon POV, je pense que ce code itérera de 0 à la longueur de l....
7 janv. 2020 à 19:44
J'ai une trame de données qui pourrait être générée par: import pandas as pd data = [['tom', 10, '20190202',5], ['nick', 15,'20190202',7], ['juli', 16,'20190203',8], ['tom', 17,'20190204',6], ['tom', 10,'20190204',9], ['nick', 15,'20190207',3]] df = pd.DataFrame(data, columns = ['Employee',....
7 janv. 2020 à 08:36
J'ai deux trames de données avec des horodatages à différents intervalles et valeurs, et je veux regrouper les valeurs dans la première trame de données par les plages dans la deuxième trame de données. Ma première trame de données ressemble à ceci: Ma deuxième trame de données ressemble à ceci: P....
7 janv. 2020 à 02:16
Je souhaite décaler les valeurs des colonnes d'un espace vers la gauche. Je ne veux pas enregistrer les valeurs d'origine de la colonne 'average_rating'. J'ai utilisé la commande shift: data3 = data3.shift(-1, axis=1) Mais la sortie que j'obtiens a des valeurs manquantes pour deux colonnes - 'num_....
6 janv. 2020 à 15:04
J'ai une trame de données contenant deux colonnes. La première colonne est l'indice de date. Chaque ligne de la deuxième colonne est une liste de 60 nombres qui incluent des valeurs négatives. Spc 1976-10-31 15:00:00 [0.0124, 0.0096, 0.0325, 0.1562, 0.4494, 0.738...-1., -1., -1.,....
4 janv. 2020 à 23:06
J'applique plusieurs filtres sur une trame de données en même temps. data_df[(data_df['1']!=0) & (data_df['2']==0) & (data_df['3']==0) & (data_df['4']==0) & (data_df['5']==0)] Je devais savoir s'il existe un moyen optimisé de procéder? Comme je veux comparer la valeur d'une colonne comme! = 0 et d'....
4 janv. 2020 à 18:49
J'ai un DataFrame ressemblant à quelque chose comme ça - Maintenant, comment extraire tous les éléments de la ligne A ayant une valeur supérieure à 2? Dans le cas ci-dessus, ce serait la valeur 2.706850 J'ai fait quelque chose comme ça- df.loc['A']>2 Mais j'ai une série contenant des valeurs boolée....
4 janv. 2020 à 08:15
J'essaie d'assigner un dict imbriqué à une position particulière, mais cela ne fonctionne pas. Voici ce que j'ai écrit: def history_current(df): df_this = df.copy() leid_val = {} leid_index = {} run_seq_min = min(df.run_seq.values) for idx, row in df.iterrows(): if row.ru....
4 janv. 2020 à 01:13
J'ai 2 DataFrames: df0 et df1 et df1.shape[0] > df1.shape[0]. df0 et df1 ont exactement les mêmes colonnes. La plupart des lignes de df0 se trouvent dans df1. Les indices de df0 et df1 sont df0.index = range(df0.shape[0]) df1.index = range(df1.shape[0]) J'ai ensuite créé dft dft = pd.concat([df0, d....
3 janv. 2020 à 13:10