Pandas est une bibliothèque Python pour la manipulation et l'analyse de données, par ex. cadres de données, séries chronologiques multidimensionnelles et ensembles de données transversales que l'on trouve couramment dans les statistiques, les résultats des sciences expérimentales, l'économétrie ou la finance. Pandas est l'une des principales bibliothèques de science des données en Python.

pandas...

J'ai une trame de données avec des noms de colonne, et je veux trouver celle qui contient une certaine chaîne, mais ne la correspond pas exactement. Je recherche 'spike' dans des noms de colonnes comme 'spike-2', 'hey spike', 'spiked-in' (la partie 'spike' est toujours continue). Je souhaite que le ....
22 janv. 2014 à 18:17
Je me demandais s'il existe un moyen élégant et abrégé dans Pandas DataFrames de sélectionner des colonnes par type de données (dtype). c'est-à-dire sélectionner uniquement les colonnes int64 dans un DataFrame. Pour élaborer, quelque chose dans le sens de df.select_columns(dtype=float64) Merci d'av....
22 janv. 2014 à 03:59
Est-il possible de masquer l'index lors de l'affichage des cadres de données pandas, de sorte que seuls les noms des colonnes apparaissent en haut du tableau? Cela devrait fonctionner à la fois pour la représentation html dans le bloc-notes ipython et la fonction to_latex () (que j'utilise avec nbco....
21 janv. 2014 à 14:52
Étant donné une trame de données avec différentes variables catégorielles, comment puis-je retourner un tableau croisé avec des pourcentages au lieu de fréquences? df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 6, 'B' : ['A', 'B', 'C'] * 8, 'C' : ['fo....
21 janv. 2014 à 04:57
Chez les pandas, étant donné un DataFrame D: +-----+--------+--------+--------+ | | 1 | 2 | 3 | +-----+--------+--------+--------+ | 0 | apple | banana | banana | | 1 | orange | orange | orange | | 2 | banana | apple | orange | | 3 | NaN | NaN | NaN | | 4 |....
20 janv. 2014 à 14:26
J'ai deux trames de données, qui contiennent toutes deux une colonne d'horodatage de résolution en millisecondes irrégulièrement espacée. Mon objectif ici est de faire correspondre les lignes afin que pour chaque ligne correspondante, 1) le premier horodatage soit toujours plus petit ou égal au deux....
18 janv. 2014 à 12:00
Je souhaite définir les dtype s de plusieurs colonnes dans pd.Dataframe (j'ai un fichier que j'ai dû analyser manuellement dans une liste de listes, car le fichier n'était pas compatible avec {{X2} }) import pandas as pd print pd.DataFrame([['a','1'],['b','2']], dtype={'x':'object....
18 janv. 2014 à 03:16
Je souhaite sélectionner uniquement les lignes contenant moins de 3 répétitions totales d'un élément dans une colonne. Pour être précis, j'ai un grand répertoire de numéros de téléphone, de noms et de villes. Je souhaite exporter une liste des seules "petites villes", de sorte que toute ligne avec u....
18 janv. 2014 à 00:34
Je concatène deux cadres de données Pandas comme ci-dessous. part1 = pd.DataFrame({'id' :[100,200,300,400,500], 'amount': np.random.randn(5) }) part2 = pd.DataFrame({'id' :[700,100,800,500,300], 'amount': np.random.randn(5) ....
17 janv. 2014 à 16:05
Je voudrais filtrer certaines lignes qui contiennent une chaîne au lieu d'un flottant pour 2 colonnes particulières. Voici l'en-tête: DATE,OPTION,SELL,BUY Voici comment je regroupe et écris mes données pour les diviser en petits fichiers csv par "option": grouped = df.groupby('OPTION') for name, g....
17 janv. 2014 à 10:47
J'ai actuellement un dataframe composé de colonnes avec 1 et 0 comme valeurs, je voudrais parcourir les colonnes et supprimer celles qui ne sont composées que de 0. Voici ce que j'ai essayé jusqu'à présent: ones = [] zeros = [] for year in years: for i in range(0,599): if year[str(i)].va....
16 janv. 2014 à 18:43
Chers experts en puissance Pandas: J'essaie d'implémenter une fonction pour aplatir une colonne d'une trame de données qui a un élément de type liste, je veux pour chaque ligne de la trame de données où la colonne a un élément de type liste, toutes les colonnes sauf la colonne désignée à aplatir ser....
16 janv. 2014 à 15:12
J'ai du mal à obtenir la sortie de pandas dataframe.to_csv(...) citant correctement les chaînes. import pandas as pd text = 'this is "out text"' df = pd.DataFrame(index=['1'],columns=['1','2']) df.loc['1','1']=123 df.loc['1','2']=text df.to_csv('foo.txt',index=False,header=False) La sortie est: 12....
16 janv. 2014 à 00:01
Je voudrais générer une série qui est la moyenne incrémentielle d'une série temporelle. Cela signifie que, à partir de la première date (index 0), la moyenne stockée dans la ligne x est la moyenne des valeurs [0: x] data index value mean formula 0 4 1 5 2 6 3 7 ....
15 janv. 2014 à 19:58
Comment peut-on modifier le format de sortie d'une opération groupby dans des pandas qui produit une notation scientifique pour de très grands nombres? Je sais comment faire le formatage des chaînes en python, mais je ne sais pas quand il s'agit de l'appliquer ici. df1.groupby('dept')['data1'].sum()....
J'ai un fichier csv que j'essaie d'importer dans des pandas. Il y a deux colonnes d'intérêt. date et heure et sont les deux premiers cols. E.g. date,hour,... 10-1-2013,0, 10-1-2013,0, 10-1-2013,0, 10-1-2013,1, 10-1-2013,1, Comment puis-je importer à l'aide de pandas afin que cette heure et cette d....
14 janv. 2014 à 19:14
Suivi d'une question précédente concernant l'analyse des données avec les pandas. Je veux maintenant tracer mes données, qui ressemblent à ceci: PrEST ID Gene Sequence Ratio1 Ratio2 Ratio3 HPRR12 ATF1 TTPSAXXXXXXXXXTTTK 6.3222 4.0558 4.958 HPRR23 CREB1 KIXXXXXXXXP....
14 janv. 2014 à 13:05
Ce que j'essaie de faire est d'extraire les données d'altitude d'une API Google Maps le long d'un chemin spécifié par les coordonnées de latitude et de longitude comme suit: from urllib2 import Request, urlopen import json path1 = '42.974049,-81.205203|42.974298,-81.195755' request=Request('http://....
14 janv. 2014 à 05:32
Je construis une nouvelle méthode pour analyser un DataFrame dans un format compatible avec Vincent. Cela nécessite un Index standard (Vincent ne peut pas analyser un MultiIndex). Existe-t-il un moyen de détecter si un Pandas DataFrame a un MultiIndex? In: type(frame) Out: pandas.core.index.MultiInd....
13 janv. 2014 à 02:20
Dans R, lors de l'ajout de nouvelles données de longueur inégale à un bloc de données, les valeurs se répètent pour remplir le bloc de données: df <- data.frame(first=c(1,2,3,4,5,6)) df$second <- c(1,2,3) Rendement: first second 1 1 1 2 2 2 3 3 3 4 4 1 5 5 ....
12 janv. 2014 à 02:57
Quelle est la meilleure façon de lire un csv, mais seulement une colonne spécifique, comme title? ID | date| title | ------------------- 1| 2013| abc | 2| 2012| cde | La colonne doit ensuite être stockée dans un tableau comme celui-ci: data = ["abc", "cde"] C'est ce que j'ai jusqu'à pré....
11 janv. 2014 à 22:07
Il est assez facile d'écrire une fonction qui calcule le rabattement maximal d'une série chronologique. Il faut un peu de réflexion pour l'écrire en O(n) temps au lieu de O(n^2) temps. Mais ce n'est pas si mal. Cela fonctionnera: import numpy as np import pandas as pd import matplotlib.pyplot as plt....
11 janv. 2014 à 07:52
J'ai deux cadres de données Pandas, à savoir: habitat_family et habitat_species. Je souhaite remplir habitat_species en fonction de la lookupMap taxinomie et des valeurs de habitat_family: import pandas as pd import numpy as np species = ['tiger', 'lion', 'mosquito', 'ladybug', 'locust', 'seal', 'se....
10 janv. 2014 à 18:24
Je fais un histogramme assez simple avec des pandas en utilisant results.val1.hist(bins=120) Ce qui fonctionne bien, mais je veux vraiment avoir une échelle logarithmique sur l'axe y, ce que je fais normalement (probablement incorrectement) comme ceci: fig = plt.figure(figsize=(12,8)) ax = fig.add_s....
10 janv. 2014 à 03:58
Si j'utilise type sur un DataFrame dont je sais qu'il a un index datetime, j'obtiens: In [17]: type(df.index) Out[17]: pandas.tseries.index.DatetimeIndex Mais quand je le teste, j'obtiens: In [18]: type(df.index) == 'pandas.tseries.index.DatetimeIndex' Out[18]: False Je sais que j'ai supposé que l....
10 janv. 2014 à 00:11