Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs. Les cas d'utilisation d'Apache Spark sont souvent liés à la machine / apprentissage en profondeur, au traitement graphique.

Plus à propos apache-spark...

J'essaie d'extraire le dernier numéro défini de ce type de données: urn:fb:candidateHiringState:(urn:fb:contract:187236028,10342800535) Dans cet exemple, j'essaye d'extraire 10342800535 sous forme de chaîne. Ceci est mon code en scala, def extractNestedUrn(urn: String): String = { val arr = urn....
3 nov. 2020 à 06:03
Ce que j'essaie d'accomplir, c'est exactement ce sur quoi porte cette question (Ici) cependant; Dans mon cas, j'utilise Python / Pyspark Not Scala. J'essaie d'extraire une partie "payload" du message de connexion Kafka qui inclut également le schéma. Exemple de message: {"schema":{"type":"struct","....
Je recherche une approche soignée pour trouver la valeur maximale de chaque colonne et la collecter dans une carte comme {col name:max value of col}. Voici jusqu'où j'arrive dans un exemple de jouet. Dans mes données complètes, il y a des centaines de colonnes, donc la conversion manuelle de chaque ....
12 juin 2020 à 05:18
J'ai un dataframe comme ci-dessous et je veux ajouter une colonne 'Ratings_list' qui regroupe par identifiant et place les évaluations dans une liste où l'index de la liste est le numéro de l'article id | item | rating 1 | 1 | 5 1 | 2 | 4 1 | 4 | 5 1 | 7 | 3 2 | 5 | 3 2 | 2 |....
11 juin 2020 à 20:05
La colonne a plusieurs utilisations du délimiteur dans une seule ligne, par conséquent split n'est pas aussi simple. Lors du fractionnement, seule l'occurrence du 1er délimiteur doit être prise en compte dans ce cas. À partir de maintenant, je fais cela. Cependant, je pense qu'il peut y avoir un....
11 juin 2020 à 08:30
J'analyse les chaînes JSON d'un RDD[String] donné et j'essaye de le convertir en un Dataset avec un case class donné. Cependant, lorsque la chaîne JSON ne contient pas tous les champs obligatoires du case class, j'obtiens une exception indiquant que la colonne manquante n'a pas pu être trouvée. Comm....
10 juin 2020 à 15:17
Comment puis-je sélectionner un case class basé sur une valeur String? Mon code est val spark = SparkSession.builder()... val rddOfJsonStrings: RDD[String] = // some json strings as RDD val classSelector: String = ??? // could be "Foo" or "Bar", or any other String value case class Foo(foo: String) ....
9 juin 2020 à 16:04
Dans Scala Spark, vous devez remplacer efficacement {0} de la colonne Description par la valeur disponible dans la colonne States, comme indiqué dans la sortie. Ce sera plus appréciable si vous répondez à cela sans utiliser spark udf. Contribution : Entrée DF Production : Output DF....
6 juin 2020 à 12:22
Quelqu'un peut-il m'aider à créer une trame de données où la valeur d'horodatage de début et de fin est donnée et nous devons imprimer toutes les heures par incrément? Exemple d'horodatage de début: 02-05-2020 01:00 Horodatage de fin: 03-05-2020 02:00 Donc, le df devrait avoir toutes ces valeurs: 0....
2 juin 2020 à 10:18
J'ai un fichier texte comme ci-dessous 1234_4567_DigitalDoc_XRay-01.pdf 2345_5678_DigitalDoc_CTC-03.png 1234_5684_DigitalDoc_XRay-05.pdf 1234_3345_DigitalDoc_XRay-02.pdf J'attends la sortie comme | catg|sub_catg| doc_name |revision_label|extension| |1234| 4567|DigitalDoc_XRay-01.pdf....
1 juin 2020 à 13:26
val df_read_old = spark.read.format("csv").option("header", "true").option("delimiter","^").schema(old_schema).load("D:\\TESTSCALA\\"+"${lstfile}") // is not able to read file from variable. Toute autre façon de faire cela ou il me manque quelque chose. Obtenir l'erreur ci-dessous alors que le fich....
27 mai 2020 à 18:26
J'ai une colonne de dataframe pyspark qui contient des données comme ci-dessous. event_list PL:1547497782:1547497782~ST:1548593509:1547497782 PU:1547497782:1547497782~MU:1548611698:1547497782:1~MU:1548612195:1547497782:0~ST:1548627786:1547497782 PU:1547497782:1547497782~PU:1547497782:1547497782~ST:1....
J'ai besoin de rechercher une valeur dans toutes les colonnes Spark DataFrame. J'ai essayé ça; for col_name in df.columns: filter_df = df.where(df[col_name].like('%searchterm%')) Mais il n'y a pas de correspondance dans filter_df (filter.df.count() = 0) Si je le teste avec un nom de colonne dont ....
26 mai 2020 à 09:46
Le problème se résume à ce qui suit: je veux générer un DataFrame dans pyspark en utilisant une collection d'entrées parallélisée existante et une fonction qui, étant donné une entrée, peut générer un lot de lignes relativement important. Dans l'exemple ci-dessous, je souhaite générer une trame de d....
25 mai 2020 à 20:35
Je suis nouveau sur pyspark. Je travaille généralement avec des pandas. I pour parcourir ligne par ligne en utilisant une colonne dans pyspark. Mon ensemble de données ressemble à: - +-------------------+--------------------+--------+-----+ | DateTime| user_name|keyboard|mouse| +....
J'essaie de lire à partir d'une table en utilisant com.microsoft.azure. Voici l'extrait de code import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession import com.microsoft.azure.sqldb.spark.config.Config import com.microsoft.azure.sqldb.spark.connect._ import com.microsoft.....
20 mai 2020 à 00:06
J'essaie d'accéder au fichier hadoop dans spark mais j'obtiens cette erreur org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost:9000/ex1/cen.csv at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287) Je peux afficher....
18 mai 2020 à 19:00
val data = Seq( ("India","Pakistan","India"), ("Australia","India","India"), ("New Zealand","Zimbabwe","New Zealand"), ("West Indies", "Bangladesh","Bangladesh"), ("Sri Lanka","Bangladesh","Bangladesh"), ("Sri Lanka","Bangladesh","Bangladesh"), ("Sri Lanka","Bangladesh","Bangladesh") )....
Actuellement, le schéma de ma table est: root |-- product_id: integer (nullable = true) |-- product_name: string (nullable = true) |-- aisle_id: string (nullable = true) |-- department_id: string (nullable = true) Je veux appliquer le schéma ci-dessous sur le tableau ci-dessus et supprimer tout....
14 mai 2020 à 01:14
Selon les documents: Pour le type d'étape, choisissez l'application Spark. Mais dans Amazon EMR -> Clusters -> mycluster -> Steps -> Add step -> Step type, les seules options sont: ....
Je suis assez nouveau dans PySpark et j'ai du mal à effectuer ce que je pense devrait être une tâche simple ... J'ai un dataframe PySpark, où 1 colonne se compose de listes de chaînes. Je voudrais compter le nombre d'instances de chaque élément dans chaque liste de chaînes sur toutes les lignes. Le ....
8 mai 2020 à 18:43
J'essaye de créer un tableau de carte basé sur quelques conditions. Voici ma fonction. Même si je suis fourni Map scala me force à avoir un tuple comme type de retour. Y a-t-il un moyen de résoudre ce problème? def getSchemaMap(schema: StructType): Array[(String, String)] ={ schema.fields.flatM....
8 mai 2020 à 00:14
Je lis un fichier csv en utilisant l'option inferschema activée dans le cadre de données en utilisant la commande ci-dessous. df2 = spark.read.options(Map("inferSchema"->"true","header"->"true")).csv("s3://Bucket-Name/Fun/Map/file.csv") df2.printSchema() Output: root |-- CC|Fun|Head|Country|Send....
7 mai 2020 à 12:11
J'ai une trame de données: +------------+------------+-------------+ | id| column1| column2| +------------+------------+-------------+ | 1| 1| 5| | 1| 2| 5| | 1| 3| 5| | 2| ....
7 mai 2020 à 00:33
J'essaie de lire les messages Kafka en JSON dans Spark Structured Streaming. Voici un exemple des messages dans Kafka: { "_id": { "$oid": "5eb292531c7d910b8c98dbce" }, "Id": 37, "Timestamp": { "$date": 1582889068616 }, "TTNR": "R902170286", "SNR": 91177446, "State": 0, "I_A....