Vous cherchez à enregistrer la sortie pyspark dans parquet et csv ensemble.

En ce moment, j'ai cette ligne pour parquet:

self.func().coalesce(1).write.parquet(outputDir)

Existe-t-il un moyen de l'enregistrer ensemble dans plusieurs fichiers? Ou dois-je lire le fichier de sortie et l'enregistrer au format csv ?

Merci!

0
Leemosh 12 nov. 2020 à 14:53

1 réponse

Meilleure réponse

Vous devrez exécuter save deux fois. df.coalesce(x).write.format("parquet").save(path1) et df.coalesce(x).write.format("csv").save(path2) où chemin1 est /data_parquet et chemin2 est /data_csv. Vous ne pouvez pas enregistrer les deux formats dans le même dossier en une seule opération

0
Dharman 12 nov. 2020 à 12:10