J'ai un ensemble de données quelque chose comme,

S.No       Country            Budget                      Technology

 1     Israel                   100                 javascript,css,html 
 2     United States            450               python,css3,database 
 3     Australia                300               javascript,angular,node 
 4     Russia                   250               javascript,php,python 
 5     Israel                   700                    python, php
 .       .                       .                          .
 .       .                       .                          .

J'ai symbolisé la colonne Technologie et compté la technologie la plus populaire. J'ai également calculé les pays avec les budgets les plus élevés.

Maintenant, j'essaie de trouver les combinaisons de technologies .. Comme, Javascript est utilisé quelles technologies plus souvent? Depuis que j'ai symbolisé l'ensemble de données et que je l'ai divisé, je n'ai pas été en mesure de le combiner à nouveau et de l'utiliser à cette fin.

Je veux calculer, Javascript est utilisé le plus souvent avec css3 le plus souvent puis avec html puis avec node, etc etc (juste un exemple). Une approche pour le faire? De plus, je dois voir quels pays utilisent plus souvent quelles technologies? Par exemple, JavaScript est davantage utilisé en Australie, en Israël et en Russie, tandis que Python est utilisé aux États-Unis. Cela devrait être calculé sur la base des chiffres.

2
Arjun Bhasin 17 avril 2018 à 09:22

3 réponses

Meilleure réponse

IIUC:
Cela vous indique les autres technologies utilisées avec et sans js

df.Technology.str.get_dummies(',').groupby('javascript').sum()

             php  angular  css  css3  database  html  node  php  python
javascript                                                             
1              0        1    1     0         0     1     1    1       1
0              1        0    0     1         1     0     0    0       2
1
piRSquared 17 avril 2018 à 06:43

Vous pouvez utiliser un dictionnaire. Parcourez votre jeu de données en vérifiant si javascript est mentionné. Dans ce cas, pour chaque incrément technologique, c'est un compteur. En conséquence, vous aurez un dictionnaire des technologies mentionnées avec javascript avec leurs fréquences.

1
Seer.The 17 avril 2018 à 06:33

J'ai essayé ça et ça marche. Il vous suffit de vérifier si la chaîne contient un ensemble particulier de caractères. Cela vous donnera quels pays utilisent une technologie particulière. Veuillez commenter ce dont vous avez besoin et je vous aiderai. :

from collections import Counter
df['Technology'] = df['Technology'].apply(lambda x: Counter(x.split(',')))
print(df['Technology'])
>>> df['Technology']
0        {u'javascript': 1, u'html': 1, u'css': 1}
1    {u'node': 1, u'javascript': 1, u'angular': 1}
2      {u'python': 1, u'javascript': 1, u'php': 1}
1
pissall 17 avril 2018 à 07:02