Je suis nouveau chez Spark et mapreduce. Je veux demander de l'aide. Y a-t-il une manière élégante de faire comme ci-dessous. Comme j'ai une trame de données A. Ensuite, je veux avoir la trame de données R dont ses enregistrements sont fusionnés par des clés spécifiques entre la trame de données A et la nouvelle trame de données B avec une condition comme A's record.createdTime
1 réponse
Vous pouvez utiliser join
sur DataFrame pour obtenir le résultat souhaité
En Python
dfA.join(dfB, (dfA.key == dfB.key) & (dfA.createdTime < dfB.createdTime) ).show()
Vous pouvez également suivre vieille question
De nouvelles questions
apache-spark
Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs pour le traitement par lots et en continu. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.