J'ai un ensemble de données quelque chose comme,
S.No Country Budget Technology
1 Israel 100 javascript,css,html
2 United States 450 python,css3,database
3 Australia 300 javascript,angular,node
4 Russia 250 javascript,php,python
5 Israel 700 python, php
. . . .
. . . .
J'ai symbolisé la colonne Technologie et compté la technologie la plus populaire. J'ai également calculé les pays avec les budgets les plus élevés.
Maintenant, j'essaie de trouver les combinaisons de technologies .. Comme, Javascript est utilisé quelles technologies plus souvent? Depuis que j'ai symbolisé l'ensemble de données et que je l'ai divisé, je n'ai pas été en mesure de le combiner à nouveau et de l'utiliser à cette fin.
Je veux calculer, Javascript est utilisé le plus souvent avec css3 le plus souvent puis avec html puis avec node, etc etc (juste un exemple). Une approche pour le faire? De plus, je dois voir quels pays utilisent plus souvent quelles technologies? Par exemple, JavaScript est davantage utilisé en Australie, en Israël et en Russie, tandis que Python est utilisé aux États-Unis. Cela devrait être calculé sur la base des chiffres.
3 réponses
IIUC:
Cela vous indique les autres technologies utilisées avec et sans js
df.Technology.str.get_dummies(',').groupby('javascript').sum()
php angular css css3 database html node php python
javascript
1 0 1 1 0 0 1 1 1 1
0 1 0 0 1 1 0 0 0 2
Vous pouvez utiliser un dictionnaire. Parcourez votre jeu de données en vérifiant si javascript est mentionné. Dans ce cas, pour chaque incrément technologique, c'est un compteur. En conséquence, vous aurez un dictionnaire des technologies mentionnées avec javascript avec leurs fréquences.
J'ai essayé ça et ça marche. Il vous suffit de vérifier si la chaîne contient un ensemble particulier de caractères. Cela vous donnera quels pays utilisent une technologie particulière. Veuillez commenter ce dont vous avez besoin et je vous aiderai. :
from collections import Counter
df['Technology'] = df['Technology'].apply(lambda x: Counter(x.split(',')))
print(df['Technology'])
>>> df['Technology']
0 {u'javascript': 1, u'html': 1, u'css': 1}
1 {u'node': 1, u'javascript': 1, u'angular': 1}
2 {u'python': 1, u'javascript': 1, u'php': 1}
Questions connexes
De nouvelles questions
python
Python est un langage de programmation multi-paradigme, typé dynamiquement et polyvalent. Il est conçu pour être rapide à apprendre, comprendre, utiliser et appliquer une syntaxe propre et uniforme. Veuillez noter que Python 2 est officiellement hors support à partir du 01-01-2020. Néanmoins, pour les questions Python spécifiques à la version, ajoutez la balise [python-2.7] ou [python-3.x]. Lorsque vous utilisez une variante Python (par exemple, Jython, PyPy) ou une bibliothèque (par exemple, Pandas et NumPy), veuillez l'inclure dans les balises.