Je sais qu'en interne, il utilise MapReduce pour obtenir des entrées de Hadoop, mais qui peut l'expliquer avec plus de détails? Merci.

0
user7428330 17 janv. 2017 à 06:32

2 réponses

Meilleure réponse

Ce que vous pensez être juste. HadoopRDD RDD qui fournit des fonctionnalités de base pour la lecture des données stockées dans Hadoop (par exemple, des fichiers en HDFS, * sources dans HBase ou S3). il utilise HadoopPartition. Lorsqu'un HadoopRDD est calculé, vous pouvez voir les journaux Input split:

Exemple: INFO HadoopRDD: Input split: file:/Users/jacek/dev/oss/spark/README.md:0+1784

Les propriétés sont définies lors de l'exécution de la partition:

  1. ID de tâche de la tentative de cette tâche mapred.tip.id
  2. ID de la tentative de tâche mapred.task.id
  3. mapred.task.is.map true
  4. mapred.task.partition identifiant partagé
  5. mapred.job.id

Ce HadoopRDD ne peut rien faire quand checkpoint() est appelé.

Vous pouvez voir la section des commentaires dans HadoopRDD.scala chaque propriété est assez explicative.

0
Indrajit Swain 17 janv. 2017 à 04:47

Le nouveau RDD Hadoop fournit des fonctionnalités de base pour la lecture des données stockées dans Hadoop (par exemple, les fichiers HDFS, les sources dans HBase ou S3), à l'aide de la nouvelle API MapReduce (org.apache.hadoop.mapreduce).

Il fournit également diverses autres méthodes pour connaître les détails de configuration des partitions, des divisions d'entrées, etc.

Vous pouvez visiter la documentation pour un aperçu plus détaillé https: // spark. apache.org/docs/1.4.0/api/java/org/apache/spark/rdd/NewHadoopRDD.html

J'espère que cela résoudra votre requête

0
siddhartha jain 17 janv. 2017 à 04:49