Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

TP Map Red

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 3

ATELIER BIG DATA

INITIATION A HADOOP ET MAP-REDUCE

Objectif : Installation de Hadoop Ecosystème et découverte de quelques


composantes

1. Déplacez-vous sous le répertoire ~/TP/data, et y importer le fichier


purchases.txt fourni avec cet atelier

Toutes les commandes interagissant avec le système Hadoop commencent par hadoop
fs. Ensuite, les options rajoutées sont très largement inspirées des commandes Unix
standard.

1. Créer un répertoire dans HDFS, appelé myinput. Pour cela, taper:

hadoop fs –mkdir myinput

2. Pour copier le fichier purchases.txt dans HDFS sous le répertoire myinput, taper
la commande:

hadoop fs –put purchases.txt myinput/

3. Pour afficher le contenu du répertoire myinput, la commande est:

hadoop fs –ls myinput

On obtiendra alors le résultat suivant :

4. Pour visualiser les dernières lignes du fichier, taper:


hadoop fs –tail purchases.txt

Dans le tableau suivant, nous résumons les commandes les plus utilisées dans
Hadoop:

Afficher le contenu du répertoire


hadoop fs –ls  racine

Upload un fichier dans hadoop (à partir


hadoop fs –put file.txt
du répertoire courant linux)
Download un fichier à partir de hadoop
hadoop fs –get file.txt
sur votre disque local
hadoop fs –tail file. txt  Lire les dernières lignes du fichier
hadoop fs –cat file.txt Affiche tout le contenu du fichier
hadoop fs –mv file.txt newfile.txt Renommer le fichier
hadoop fs –rm newfile.txt Supprimer le fichier
hadoop fs –mkdir myinput Créer un répertoire
hadoop fs –cat file.txt | less Lire le fichier page par page

II. MapReduce

MapReduce est un patron d’architecture de développement permettant de traiter les


données volumineuses de manière parallèle et distribuée. Il se compose
principalement de deux types de programmes:
• Les Mappers : permettent d’extraire les données nécessaires sous forme de
clef/valeur, pour pouvoir ensuite les trier selon la clef
• Les Reducers : prennent un ensemble de données triées selon leur clef, et
effectuent le traitement nécessaire sur ces données (somme, moyenne,
total…)

Exercice 1
Nous continuons à travailler avec le même fichier en entrées (purchases.txt), mais
pour obtenir des résultats différents. Le but est donc d’écrire des Mappers et
Reducers.

1. Donner la liste des ventes par catégorie de produits.


2. Quelle est la valeur des ventes pour la catégorie Toys? 
3. Et pour la catégorie Consumer Electronics?

Exercices 2

1. Donnez la liste des ventes par catégorie de produits. 


2. Quelle est la valeur des ventes pour la catégorie Toys ? 
3. Et pour la catégorie Consumer Electronics ? 
4. Donnez le montant de la vente le plus élevé pour chaque magasin 
5. Quelle est cette valeur pour les magasins suivants : Reno ? Toledo ?
Chandler ?
6. Quel est le nombre total des ventes et la valeur totale des ventes de tous
magasins confondus ?
7. Quelle est la somme des ventes par jour de la semaine?
8. Quelle est la moyenne des ventes par jour de la semaine?

Vous aimerez peut-être aussi