Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

Plus à propos apache-spark...

J'ai exécuté l'exemple dans delta doc : SELECT * FROM delta.`/delta/events` VERSION AS OF 1 Mais j'ai l'erreur suivante: mismatched input ‘AS’ expecting {<EOF>, ‘;’}(line 3, pos 44) Est-ce que quelqu'un sait quelle est la syntaxe correcte ? Version Spark : 3.1.2 Version delta : 1.0.0 Configurez Sp....
27 nov. 2021 à 07:20
Je suis nouveau sur Apache Spark et je ne parviens pas à le faire fonctionner. J'ai un RDD de la forme (Int,(Int,Int)), et j'aimerais résumer le premier élément de la valeur tout en ajoutant le deuxième élément. Par exemple, j'ai le RDD suivant : [(5,(1,0)), (5,(1,2)), (5,(1,5)))] Et je veux pouvoi....
26 nov. 2021 à 05:05
J'essaie d'ajouter une nouvelle colonne supplémentaire de fausses données à mon ensemble de données. Dites celui-ci comme exemple (cela ne fait aucune différence ce qu'est le cadre de données - j'ai besoin d'une nouvelle colonne supplémentaire avec des noms uniques et faux ; c'est juste un mannequi....
25 nov. 2021 à 13:00
J'exécute le Spark SQL suivant et il obtiendra toutes les données : scala> spark.sql("select * from t1").show() +------+----+-------+ | 名稱|年齡|address| +------+----+-------+ |jeremy| 33| Taipei| | Mary| 18| Taipei| | John| 28| XXX| | 大明| 29| YYY| | 小黃| 19| ZZZ| +------+----+-------....
25 nov. 2021 à 05:37
Travailler avec le fichier marketing JSON suivant { "request_id": "xx", "timeseries_stats": [ { "timeseries_stat": { "id": "xx", "timeseries": [ { "start_time": "xx", "end_....
J'ai une table dans Hive dont j'aimerais supprimer ses clés de partition pour utiliser plus tard d'autres clés de partition. L'emplacement du fichier parquet est dans Amazon S3. La table sur laquelle je travaille est partitionnée par les colonnes date_year et date_month. Il y a 143 partitions au t....
J'essaie de convertir une liste en une base de données dans pyspark afin que je puisse ensuite la joindre à une base de données plus grande en tant que colonne. Les données de la liste sont des noms générés aléatoirement, ainsi : from faker import Faker from pyspark.sql.functions import * import py....
24 nov. 2021 à 21:06
J'ai un DataFrame comme celui-ci (mais beaucoup plus gros): id start end 0 10 20 1 11 13 2 14 18 3 22 30 4 25 27 5 28 31 J'essaie de fusionner efficacement les intervalles qui se chevauchent dans PySpark, tout en sauvegardant dans une nouve....
24 nov. 2021 à 19:24
J'ai un fichier CSV comme indiqué : name,age,languages,experience 'Alice',31,['C++', 'Java'],2 'Bob',34,['Java', 'Python'],2 'Smith',35,['Ruby', 'Java'],3 'David',36,['C', 'Java', 'R']4 Lors du chargement des données, par défaut, toutes les colonnes sont chargées sous forme de chaînes. scala> val d....
Je suis nouveau dans Spark, Scala, désolé pour cette question stupide. J'ai donc plusieurs tableaux : table_a, table_b, ... Et nombre de types correspondants pour ces tableaux classe de cas classeA(...), classe de cas classeB(...), ... Ensuite, je dois écrire une méthode qui lit les données de ces ....
24 nov. 2021 à 00:17
Je suis cette section d'un didacticiel sur Apache Spark de l'équipe Azure. Mais lorsque j'essaie d'utiliser la fonction BroupBy de DataFrame, j'obtiens l'erreur suivante : Erreur : NameError : le nom 'TripDistanceMiles' n'est pas défini Question : Quelle peut être la cause de l'erreur dans le code....
22 nov. 2021 à 03:18
J'ai un dataframe avec une colonne string d'heures : +-------+ |DepTime| +-------+ | 13:43| | 11:25| | 20:09| | 09:03| | 14:23| | 20:24| | 17:53| | 06:22| | 19:44| | 14:53| +-------+ Je veux transformer cette colonne en tenant compte de ces intervalles : From 06:00 to 11:59 -> Morning Fro....
21 nov. 2021 à 17:23
J'ai le dataframe suivant avec une colonne sig et N d'autres colonnes. sig contient N nombre de colonnes intégrées comme indiqué ci-dessous. Les noms de colonnes incorporés peuvent être de n'importe quel nombre présent dans la trame de données. Je souhaite mettre à jour la colonne sig avec les vale....
20 nov. 2021 à 16:35
Cela peut être une question de niche, mais imaginez que vous ayez un udf défini comme ceci : import pyspark.sql.functions as sf import pyspark.sql.types as st @sf.udf(returnType=st.ArrayType(st.StringType())) def some_function(text: str) -> List[str]: return text.split(' ') Cela renvoie un udf,....
20 nov. 2021 à 13:17
Contexte/scénario : J'ai deux tables : une table d'entrées de 1 à 2 millions avec des transactions de la forme TRX-ID , PROCESS-ID , ACTOR-ID De plus un tableau de recherche de participants (une des multiples catégories d'utilisateurs du système) du formulaire USER-ID , PARTICIPANT-ID Le tableau t....
19 nov. 2021 à 17:24
Tenter de lire un view qui a été créé sur AWS Athena (basé sur une table Glue qui pointe vers un fichier parquet de S3) à l'aide de pyspark sur un cluster Databricks renvoie l'erreur suivante pour une raison inconnue : java.lang.IllegalArgumentException: Can not create a Path from an empty string; ....
Comment faire la différence entre les deux dernières versions d'une Delta Table ? Voici jusqu'où je suis allé en utilisant des dataframes : val df1 = spark.read .format("delta") .option("versionAsOf", "0001") .load("/path/to/my/table") val df2 = spark.read .format("delta") .option("versi....
17 nov. 2021 à 16:44
J'essaie de suivre ce Python notebook. J'ai installé Spark directement dans le notebook (!pip install pyspark), mais quand je le fais : spark = SparkSession \ .builder \ .appName("question recommendation") \ .config("spark.driver.maxResultSize", "96g") \ .config("spark.driver.memory....
17 nov. 2021 à 10:35
Énoncé du problème : lors de la mise à niveau de la version d'exécution de Databricks, les colonnes en double génèrent une erreur lors de la création du cadre de données. Dans le temps d'exécution inférieur, le cadre de données a été créé et comme la colonne dupliquée n'était pas requise en aval, e....
J'ai la fonction simple suivante où je remplis toutes les colonnes de valeurs manquantes avec un 0, puis je calcule l'écart type. Je sais que je pourrais utiliser la fonction de description, mais je voulais utiliser celle-ci pour mon objectif. def stdDevAllColumns(df: DataFrame): DataFrame = { df....
Poursuite de la Gestion de fichiers zip volumineux dans dataBricks Databricks se bloque après 30 fichiers. Que faire? J'ai divisé un énorme zip de 32 Go en 100 morceaux autonomes. J'ai séparé l'en-tête du fichier et je peux donc le traiter comme n'importe quel fichier CSV. Je dois filtrer les don....
Je souhaite charger le modèle Machine Learning déjà enregistré en tant que fichier .sav dans Spark que j'ai utilisé val loaded_model = Pipeline.load("model_final.sav") Ou val loaded_model = PipelineModel.load("model_final.sav") Je rencontre une exception Exception in thread "main" java.lang.re....
13 nov. 2021 à 23:52
Quelqu'un peut-il me dire où je me trompe avec ma tentative de concaténer un champ JSON imbriqué. J'utilise le code suivant: df = (df .withColumn("ingestion_date", current_timestamp()) .withColumn("name", concat(col("name.forename"), lit(" "), col("name.surname")))) ....
13 nov. 2021 à 19:41
J'espère que quelqu'un pourra vous aider avec une simple analyse des sentiments dans Pyspark. J'ai un dataframe Pyspark où chaque ligne contient un word. J'ai aussi un dictionnaire de stopwords commun. Je veux supprimer les lignes où le word (valeur de la ligne) se trouve dans le dict stopwords. C....
Actuellement, j'ai cette situation: signal_name timestamp signal_value 0 alert 1632733513 on 1 alert 1632733515 off 2 alert 1632733518 on Je veux renommer la colonne signal_value avec le signal_name. Le df a été filtré après le nom du signal alert, il n'y a donc pa....