TP1 - Talend - D - IITWM - S2 (F)
TP1 - Talend - D - IITWM - S2 (F)
TP1 - Talend - D - IITWM - S2 (F)
Entrepôts de données
TP n°1 : Intégration des données avec Talend
A. Rappel :
Le Système d’Information (SI) est un élément central d’une entreprise ou d'une
organisation. C’est un ensemble de ressources matérielles, humaines et logicielles
permettant aux différents acteurs de véhiculer des informations et de communiquer.
Ce système permet la création, la collecte, le stockage, le traitement et la modification
des informations sous divers formats.
Les directeurs opérationnels et les décideurs d'une entreprise ont un besoin crucial sur
le déroulement de leurs activités et ils cherchent à répondre à des questions du genre:
Page 1 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
Page 2 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
A travers le processus ETL, les données sont extraites à partir des sources
hétérogènes (Extract), consolidées (Transform) puis chargeés après intégration dans
un référentiel unique qui est l’entrepôt de données.
Les sources des données peuvent être une base de données (BD), un fichier CSV, un
fichier TXT, un service Web, etc.
Cet outil intervient lors du processus d’intégration des données à une base de données
relationnelle qui sera utilisée comme un entrepôt de données (composé d’une ou plusieurs
tables de faits entourées de plusieurs tables de dimension), destiné aux processus analytiques
de l’entreprise : reporting, tableaux de bords, fouille de données, etc.
C. Objectifs du TP
Nous allons effectuer des tâches d’intégration de données avec Talend Open Studio.
Notre support sera une base de données de location de films. La BD englobe les
données des films, des réalisateurs, des acteurs ainsi que des clients.
Nous allons entamer le processus ETL avec Talend Studio Data Integration dans le
but de:
Page 3 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
2
1
Référentiel:
1 L’endroit où Talend Studio représente les
données relatifs aux éléments techniques
des différents jobs
Espace de modélisation graphique:
Page 4 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
Onglet de configuration:
3 Affiche les propriétés des composants, la
console d’exécution, les erreurs, etc.
Palette:
4 Montre les différents composants
techniques à utiliser pour construire un
Job (groupés en catégories)
Avant d’entamer nos différentes activités nous allons commencer par la création d’un
nouveau Project TOS Data Integration en suivant les étapes suivantes:
Page 5 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
Activité 1
Dans cette activité, vous allez trier la table des «movies» par «gender» puis par
«year».
Page 6 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
5. Triez le même fichier délimité par ordre ascendant (asc) et afficher le résultat
dans la console
Dans une deuxième partie de cette activité, vous allez procéder de même afin de trier
les Movies par «year», bien que les résultats seront affichés dans un fichier CSV:
Page 7 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
Activité 2
Dans cette activité, vous allez remplir les cases vides dans la colonne «gender» de la
table «Movies» par le mot «Empty» et afficher les résultats dans deux sorties
différentes: la console de Talend et un fichier CSV
Page 8 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
6. Une erreur apparaît sur «tMap», double clique ce composant pour afficher les
paramètres de transformation:
routines.Replace.replace_gender(row1.gender)
if (s.equals(""))
return "Empty";
else
Page 9 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
return s;
Activité 3
Dans cette activité, vous allez transformer les identifiants des réalisateurs dans la table
«Directors» pour qu'ils soient les mêmes que ceux renseignés dans le fichier
«Movies»: enlevez les 0 devant les numéros de directors inférieurs à 10
Page 10 | 11
Institut Supérieur d'Informatique Auditoire : 2ème année IITWM
et de Multimédia de Sfax Responsable de cours : Faiza GHOZZI, Inès ZOUARI
Enseignante de TP : Mouna KTARI
Année universitaire : 2022-2023
Page 11 | 11