Cours 02 Intro Hadoop
Cours 02 Intro Hadoop
Cours 02 Intro Hadoop
INTRODUCTION A HADOOP
AHCENE BENDJOUDI, PHD
AHCENE.BENDJOUDI@BDEB.QC.CA
BIG DATA – TOUT LE MONDE EST CONCERNÉ
HADOOP 3.0
Hadoop 1.x
Stockage Traitement
HDFS MapReduce
Master
NameNode JobTracker
DataNode DataNode
Slaves
TaskTracker TaskTracker
Slave 1 Slave n
DataNodes:
Slaves déployés sur chaque machine et qui fournissent le stockage
Responsable pour servir les demandes de read et write en provenance des clients
JobTracker
Gestionnaire des TaskTrackers qui sont sur les datanodes
TaskTracker
Disponible au niveau de chaque datanode et s'occupe du suivi de la tache d'exécution
dédiée au datanode
Envoi en continu un feedback au JobTracker
Hadoop 2.x
Stockage Traitement
HDFS YARN
Master
DataNode DataNode
Slaves
Node Manager Node Manager
Slave 1 Slave n
DataNodes:
Slaves déployés sur chaque machine et qui fournissent le stockage
Responsable pour servir les demandes de read et write en provenance des clients
Resource Manager
Gestionnaire de ressources au niveau du Cluster
Long Life, High Quality Hardware
Node Manager
Un node manager par datanode
Effectue le monitoring des ressources sur le datanode
HDFS
Système
Infrastructure matérielle
Chaque fichier, répertoire et bloc dans HDFS occupe 150 octets dans la ménoire. Si on a 10
millions de fichiers à gérer, le NameNode devra disposer d'un minimum de 1,5 Go de mémoire.
C'est donc un point important à prendre en compte lors du dimensionnement d’un cluster.
MapReduce
MapReduce est un modèle de programmation parallèle sur une
infrastructure de calcul distribuée
Framework
Implémentation Open-Source Java dans Hadoop Traitement distribué
de données en deux fonctions (Map et Reduce)
Fonctionnement
Map : Décompose le problème initial en sous-problèmes de taille
réduites. Les sous-problèmes sont traités d’une manière distribuée
sur l’ensemble des nœuds slaves.
Reduce : Aggrège les résultats obtenus par l’opération Map et
construit la solution finale
© AHCENE BENDJOUDI & DOMINIQUE TESSIER
MapReduce – JOB TRACKER ET TASK TRACKER
JobTracker
Determines the execution plan for the job
Assigns individual tasks
Splits up data into smaller tasks(“Map”) and sends it
to the TaskTracker process in each node
TaskTracker
Keeps track of the performance of an individual
mapper or reducer
reports back to the JobTracker node and reports on
job progress, sends data (“Reduce”) or requests
new jobs
Est un mécanisme qui permet de gérer des tâches (jobs) sur un cluster
Permet aux utilisateurs de lancer des jobs MapReduce sur des données
présentes dans HDFS, de suivre (monitor) leur avancement, récupérer les
messages (logs) affichés par les programmes.
Peut déplacer un processus d’une machine à l’autre en cas de défaillance ou
d’avancement jugé trop lent.
Est transparent pour l’utilisateur. On lance l’exécution d’un programme
MapReduce et YARN fait en sorte qu’il soit exécuté le plus rapidement possible
Fichier Description