L'API Spark Python (PySpark) expose le modèle de programmation apache-spark à Python.

pyspark...

J'ai une colonne de dataframe pyspark qui contient des données comme ci-dessous. event_list PL:1547497782:1547497782~ST:1548593509:1547497782 PU:1547497782:1547497782~MU:1548611698:1547497782:1~MU:1548612195:1547497782:0~ST:1548627786:1547497782 PU:1547497782:1547497782~PU:1547497782:1547497782~ST:1....
J'ai besoin de rechercher une valeur dans toutes les colonnes Spark DataFrame. J'ai essayé ça; for col_name in df.columns: filter_df = df.where(df[col_name].like('%searchterm%')) Mais il n'y a pas de correspondance dans filter_df (filter.df.count() = 0) Si je le teste avec un nom de colonne dont ....
26 mai 2020 à 09:46
Je suis nouveau sur pyspark. Je travaille généralement avec des pandas. I pour parcourir ligne par ligne en utilisant une colonne dans pyspark. Mon ensemble de données ressemble à: - +-------------------+--------------------+--------+-----+ | DateTime| user_name|keyboard|mouse| +....
Condition: ici, lorsque la dernière occurrence de loyal avec la valeur est 1, définissez le drapeau sur 1 sinon 0 Contribution: +-----------+----------+----------+-------+-----+---------+-------+---+ |consumer_id|product_id| TRX_ID|pattern|loyal| trx_date|row_num| mx| +-----------+----------+----....
10 mai 2020 à 22:34
Je suis assez nouveau dans PySpark et j'ai du mal à effectuer ce que je pense devrait être une tâche simple ... J'ai un dataframe PySpark, où 1 colonne se compose de listes de chaînes. Je voudrais compter le nombre d'instances de chaque élément dans chaque liste de chaînes sur toutes les lignes. Le ....
8 mai 2020 à 18:43
Scénario 1 lorsque l'indicateur 1: pour la ligne où l'indicateur vaut 1 Copiez trx_date vers la destination Scénario 2 lorsque l'indicateur 0: pour la ligne où l'indicateur vaut 0, copiez la valeur de destination précédente Contribution : +-----------+----+----------+ |customer_id|Flag| trx_date| +....
J'ai une trame de données: +------------+------------+-------------+ | id| column1| column2| +------------+------------+-------------+ | 1| 1| 5| | 1| 2| 5| | 1| 3| 5| | 2| ....
7 mai 2020 à 00:33
J'ai une liste de phrases dans un dataframe pyspark (v2.4.5) avec un ensemble de scores correspondant. Les phrases et les scores sont sous forme de liste. df=spark.createDataFrame( [ (1, ['foo1','foo2','foo3'],[0.1,0.5,0.6]), # create your data here, be consistent in the types. (....
5 mai 2020 à 11:58
J'essaie de lire les messages Kafka en JSON dans Spark Structured Streaming. Voici un exemple des messages dans Kafka: { "_id": { "$oid": "5eb292531c7d910b8c98dbce" }, "Id": 37, "Timestamp": { "$date": 1582889068616 }, "TTNR": "R902170286", "SNR": 91177446, "State": 0, "I_A....
J'ai une trame de données: +---------+---------------------+ | id| Name| +---------+---------------------+ | 1| 'Gary'| | 1| 'Danny'| | 2| 'Christopher'| | 2| ....
1 mai 2020 à 17:47
Donc, je veux créer une nouvelle colonne dans mon dataframe, dont les lignes dépendent des valeurs de deux colonnes, et implique également une condition. J'ai essayé ça, mais ça ne marche pas. some_value = ... df = df.withColumn("new_col", col("col1") if col("col2") == some_value else None) Quelle ....
Voici le code actuel: from pyspark.sql import SparkSession park_session = SparkSession\ .builder\ .appName("test")\ .getOrCreate() lines = spark_session\ .readStream\ .format("socket")\ .option("host", "127.0.0.1")\ .option("port", 9998)\ .load() The 'lines' looks ....
20 avril 2020 à 17:10
J'ai actuellement le code suivant: def _join_intent_types(df): mappings = { 'PastNews': 'ContextualInformation', 'ContinuingNews': 'News', 'KnownAlready': 'OriginalEvent', 'SignificantEventChange': 'NewSubEvent', } return df.withColumn('Categories', posexplode('Categories').ali....
17 avril 2020 à 12:35
J'ai une colonne avec la valeur * NZ, je veux supprimer le *, df.groupBy('State1').count().show() (5) Spark Jobs +-----------+-----+ | State1|count| +-----------+-----+ | NT| 1423| | ACT| 2868| | SA|12242| | TAS| 4603| | WA|35848| | *NZ| 806| | ....
16 avril 2020 à 04:31
Je suis nouveau sur pyspark et je ne sais pas comment regrouper certaines données par quelques colonnes, les classer par une autre colonne, puis ajouter une colonne pour chacun des groupes, puis l'utiliser comme dénominateur pour chaque ligne de données à calculer un poids dans chaque rangée constit....
14 avril 2020 à 17:56
J'ai commencé à jouer avec pyspark RDD et DF. Connaissant SQL, j'étais à l'aise avec DF et son module SQL. Cependant, j'ai du mal à filtrer les lignes dans un RDD simple sans le convertir en DF. Dans l'exemple ci-dessous, je veux trouver la troisième colonne la plus élevée pour la première colonne e....
14 avril 2020 à 10:31
J'ai une trame de données pyspark avec une colonne à partir de laquelle j'essaie d'extraire des informations. Pour vous donner un exemple, la colonne est une combinaison de 4 clés étrangères qui pourrait ressembler à ceci: Ex 1: 12345-123-12345-4 Ex 2: 5678-4321-123-12 J'essaie d'extraire le dernier....
J'utilise SQL avec pyspark et hive, et je suis nouveau dans tout cela. J'ai une table de ruche avec une colonne de type chaîne, comme ceci: id | values 1 | '2;4;4' 2 | '5;1' 3 | '8;0;4' Je veux créer une requête pour obtenir ceci: id | values | sum 1 | '2.2;4;4' | 10.2 2 | '5;1.2' | 6.2 3....
27 mars 2020 à 22:11
J'ai '|' délimité d'énormes fichiers texte, je veux fusionner tous les fichiers texte et créer un énorme dataframe spark, il sera utilisé plus tard pour le processus ETL, en utilisant pyspark. Manière inefficace 1) Créer une trame de données Spark vide, df 2) Dans une boucle, lisez le fichier text....
J'essaie de filtrer les données dans le dataframe. La trame de données df comprend 2 colonnes - query + href. Sur une ligne: query est une chaîne aléatoire et href est une liste de chaînes. J'ai une autre liste appelée urls avec des chaînes. Recherche d'une URL dans la liste urls à l'intérieur de la....
27 mars 2020 à 13:43
J'ai un Dataframe comme celui-ci Studentname Speciality Alex ["Physics","Math","biology"] Sam ["Economics","History","Math","Physics"] Claire ["Political science,Physics"] Je veux trouver tous les étudiants qui se sont spécialisés dans [Physique, Math], donc la sortie devrai....
Lorsque je charge un fichier texte dans un RDD, il est par défaut divisé par chaque ligne. Par exemple, considérez le texte suivant: Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s. When an unkn....
11 mars 2020 à 23:14
Cela semble être une tâche simple, mais j'ai du mal à trouver les documents pour voir si c'est possible. Fondamentalement, j'ai un travail de collage qui s'exécute toutes les heures et recherche dans un dossier pour voir si les données ont été téléchargées. À certaines occasions, aucune donnée n'a é....
J'ai le dataframe suivant dans pyspark: Name | Seconds |Enviar solicitud ...| 1415 |Analizar mapa de ...| 1209| |Modificar solicit...| 591| |Entregar servicio...|91049| Je souhaite convertir la colonne seconds en date ou en horodatage (j'espère à ce jour), j'essaie d'utiliser l....
Comment calculer les agrégations par ligne lorsqu'il y a des valeurs «Aucune»? Par exemple, le code suivant me donne des résultats «Aucun» lorsque j'essaie de faire la somme: columns = ['US', 'UK', 'Can'] countries.withColumn('sum', sum(countries[col] for col in columns)) +--+--+-----+---+ |id|US| ....
26 févr. 2020 à 02:32