Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

5-Ed Cours-Integration Ed

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 8

Chapitre 5

Intégration dans un entrepôt de


données

5.1 Introduction
L'intégration de données est l'étape la plus fastidieuse et la plus longue dans
la mise en place d'un système d'information décisionnel. Intégrer un ensemble de
données hétérogènes et disparate tant par la forme que par le format, dans un
environnement homogène, est une étape bien complexe. Lors de cette étape les
données sont transformées et ltrées pour représenter une source d'information
homogène, commune et able. la performance du SID est étroitement liée à
la qualité d'intégration de données. Il est à noter que l'étape d'intégration de
données ne se limite pas au domaine décisionnel. Elle est plus générale et peut
être appliquée pour diérents besoins : réunir et requêter plusieurs systèmes
d'informations opérationnels, faire communiquer des applications qui ont été faites
en silo (indépendamment les unes des autres), etc.

5.2 Approches d'intégration


Plusieurs approches ont été développées en fonction des besoins d'intégration.
Nous présentons dans cette section les approches les plus utilisées.

5.2.1 Extract Transform and Load (ETL)


C'est l'approche la plus utilisée dans la mise en place d'un entrepôt de données.
Dans cette approche, l'intégration se fait en trois étapes :
 L'extraction des données à partir des sources.
 La transformation des données qui consiste à nettoyer, agréger les données
pour les intégrer dans un schéma prédéni.
 Le chargement de données dans la cible (l'entrepôt de données).
33
34 CHAPITRE 5. INTÉGRATION DANS UN ENTREPÔT DE DONNÉES

Sources ETL Entrepôt de données

Source de
données

Extraction

Source de
données
Cible/Data Warehouse

Transformation

Source de
données

Loading

Figure 5.1: Extract, Transform and Load

Avantages et inconvénients
+Peut traiter une quantité importante de données dans une même exécution.
+Permet des transformations et des agrégations complexes sur les données.
+Productivité améliorée grâce aux diérents outils proposés (interfaces
graphiques simpliées...).
− Exige de l'espace mémoire pour eectuer les transformations.
− Latence des données entre la source et la cible.
− Unidirectionnel (des sources vers la cible).
Nous nous intéresserons dans ce polycopié plus en détails à cette approche qui
est la plus utilisée pour l'intégration dans un entrepôt de données.
5.2.2 Entreprise Information Integration(EII)
Dans l'approche EII, aucune intégration physique n'est eectuée. Les sources
de données hétérogènes sont consolidées à l'aide d'une base de données virtuelle,
de manière transparente aux applications utilisant les données. La base de données
virtuelle ore une vue uniée des données. Les utilisateurs envoient directement leur
requête sur la base de données. La requête est par la suite décomposée en sous-
requêtes qui seront envoyées aux sources respectives. Les réponses sont assemblées
en un résultat nal.
Base de données Virtuelle

Source de Source de Fichiers


données données Plats
structurée existante

Figure 5.2: Entreprise Information Integration


5.3. ETL 35
Avantages et inconvénients
+ Fournit un accès en temps réel en lecture et en écriture (bidirectionnel).
+ Aucun déplacement de données.
+ Accélère le déploiement de la solution.
− Surcharge les systèmes opérationnels (sources).
− Transformations limitées sur les données.
− Consommation d'une grande bande passante du réseau.
− Réécritures des requêtes à chaque exécution.

5.2.3 Entreprise Application Integration(EAI)


Dans le but de faire communiquer des applications qui ont été construites dans
des environnements diérents et avec des technologies diérentes, l'approche EAI
repose sur l'intégration et le partage de données des applications à l'aide de services
web (architecture SOA). Cette approche permet une communication en temps réel.
Elle est utilisée également pour alimenter des entrepôts de données. Cette approche
ne remplace pas un ETL.

interpréter
transformer
router

Figure 5.3: Entreprise Application Integration

Avantages et inconvénients
+ Facilite l'interopérabilité des applications.
+ Permet l'accès en temps-réel.
+ Permet de contrôler le ux d'information.
− Ne supporte quasiment pas de transformation et d'agrégations de données.
− Consommation de la bande passante du réseau.

Le tableau 5.1 résume les diérentes approches et leurs caractéristiques.


5.3 ETL
Avant de se lancer dans l'étape d'intégration de données, il est important de
dénir la feuille de route et les éléments importants à prendre en considération.
Nous présentons dans ce qui suit le déroulement dans l'ordre de la mise en place de
cette intégration.
36 CHAPITRE 5. INTÉGRATION DANS UN ENTREPÔT DE DONNÉES

Critère ETL EII EAI


Flux de données Unidirectionnel Bidirectionnel Bidirectionnel
Latence Journalier à mensuel Temps réel Temps réel
Transformation Grande capacité Moyenne capacité Faible capacité
de données
Contexte Consolidation d'une Relier un entrepôt existant Sources non accessibles
d'utilisation grande quantité de avec des sources de données directement
données spéciques
Transformations Données sources volatiles Requêtes simples
complexes et accessibles à l'aide de
requêtes simples
Table 5.1: Comparaison entre les diérentes approches d'intégration

1. Déterminer les données nécessaires qui serviront à alimenter l'entrepôt de


données.
2. Déterminer les sources contenant ces données.
3. Préparer le staging area ou l'ODS (détaillé ci-dessous).
4. Dénir les règles d'extraction des données.
5. Dénir les règles de transformation et de nettoyage des données.
6. Planier les agrégations des données.
7. Dénir les procédures pour le chargement de données.
8. Chargement des tables de dimensions.
9. Chargement des tables de faits.
5.3.1 Operating Data Store et Staging Area
L'Operating Data Store (ODS) et le staging area sont des composants de
l'architecture pour le stockage et la transformation de données en vue de faciliter
l'intégration dans un entrepôt de données. Plusieurs dénitions sont présentes dans
la littérature sur le but de chacun. Ils existent, par ailleurs, plusieurs sources qui
les dénissent comme étant un même concept représenté sous diérents noms. Il
apparait que l'utilisation de l'un ou de l'autre, ou les deux en même temps dépend
de la vision de l'organisation qui met en place le SID. Nous présentons par conséquent
une dénition (parmi tant d'autres) de ces deux concepts.
Operating Data Store L'ODS représente la zone de stockage des données
sources, provenant des systèmes d'information opérationnels ou autres. Cette zone
permet d'unier les données dans un même format. Il ne sera plus question de
chiers délimités, chiers XML ou autres. Toutes les données seront représentées
sous forme de tables. L'ODS utilise le même SGBD que l'entrepôt de données. Les
tables au niveau de l'ODS ne doivent subir aucune contrainte sur les données. Cette
caractéristique permet de s'assurer qu'il n'y a aucun ltre pour récupérer les données.
Par exemple, dans un SIO, les champs d'une table ont une taille prédénie (Le nom
d'un client par exemple ne doit pas dépasser 30 caractères). Dans un ODS, cette
contrainte ne doit pas être représentée. Les champs doivent avoir une taille maximale
pour pouvoir récupérer toutes les données peu importe les changements appliqués
au niveau du SIO.
5.3. ETL 37
Staging Area La zone Staging Area englobe tout le processus de transformation
et de chargement eectués sur les données : (1) les transformations eectuées sur
les données sources pour intégrer l'ODS et (2) les transformations eectuées sur les
données de l'ODS pour être intégrées dans l'entrepôt.
Systeme Entrepôt de
Staging Area Datamarts
Opératinel données

Source 1 Datamart 1

ETL ETL

Datamart 2
Source 2
ODS Entrepôt de données

Source n Datamart n

Figure 5.4: ODS et Staging Area

5.3.2 Extraction
L'extraction de données intervient après l'étape de conception. En eet, il faudra
construire le schéma cible (tables de dimensions et faits) pour pouvoir identier les
sources potentielles pour l'alimentation de l'entrepôt. Pour chaque attribut cible,
il est nécessaire de trouver la ou les sources qui correspondent. Plusieurs cas sont
rencontrés lors de l'identication des sources :
 Plusieurs sources peuvent correspondre à une seule cible. Dans ce cas, il faudra
choisir la source la plus pertinente et complète.
 La cible est une combinaison de plusieurs sources. Il faudra alors dénir les
règles de consolidation (jointure, ltre...etc).
 La cible est représentée par une partie d'une source. Il faudra alors dénir les
règles d'extraction et de découpage. Par exemple, la cible est le nom de la ville
alors que la source contient l'adresse complète.
Après l'identication et la dénition des règles de consolidation, deux modes
d'extraction s'orent à nous :
Extraction complète
Il s'agit comme son nom l'indique d'extraire toutes les données pertinentes à
partir des sources. L'étape peut être coûteuse en temps, vu le nombre de données
manipulées. Ce mode est généralement appliquée dans deux cas :
 Chargement initial des données dans l'entrepôt.
 Rafraîchissement complet des données dans le cas de modication dans les
sources.
38 CHAPITRE 5. INTÉGRATION DANS UN ENTREPÔT DE DONNÉES

Extraction incrémentale
Dans ce mode, sont concernées seulement les données qui ont subit une
modication ou ont été ajoutées depuis la dernières extraction. L'extraction
incrémentale peut se faire de deux manières :
1. Extraction en temps réel L'extraction en temps réel se fait au moment où les
changements surviennent dans les sources. Les transactions eectuées sur les sources
peuvent être capturées de diérentes manières :
 Utilisation des logs de transactions des bases de données. Ces logs sont à la
base utilisés pour la récupération en cas de pannes.
 Utilisation des triggers (procédures déclenchées lors d'un évènement) pour
recopier les données à extraire dans un chier de sortie.
 Modication des applications sources pour transcrire tout les changements
eectués dans un chier d'extraction.

Figure 5.5: Extraction en temps réel

Chaque technique connaît des avantages et des inconvénients. L'utilisation de logs de


transactions et de triggers ne peut malheureusement être appliquée que si les sources
proviennent de bases de données, mais ont l'avantage de ne nécessiter que peu voir
aucun changement dans les sources. La modication des applications sources quant
à elle entraîne des coûts additionnels de développement et de maintenance, mais a
l'avantage de pouvoir être utilisée sur n'importe quelle source.
2. Extraction en diérée (en lot) L'extraction en diérée permet de récupérer
les changements réalisés sur les sources durant un intervalle prédéni (par exemple,
par heure, jour, mois...). Il est possible de capturer les modications comme suit :
 Utilisation des timestamp : Pour chaque ajout dans le système, une estampille
(timestamp) est ajoutée à la ligne. Lors de l'extraction, seulement les lignes,
qui ont un timestamp plus récent que la dernière extraction, sont concernées.
Cette méthode n'est pas très pratique dans le cas de suppression de lignes.
 Comparaison de chiers : Il s'agit de comparer entre deux états successifs des
sources pour pouvoir extraire seulement les diérences (ajouts, modications
5.4. ELT 39
et suppressions). Cette méthode exige de garder une copie de l'état des données
sources de la dernière extraction et peut donc être coûteuse.
5.3.3 Transformation
C'est à cette étape du processus que les règles sont dénies pour relier une cible à
une ou plusieurs sources. Plusieurs types de transformations peuvent être appliqués
sur les données sources pour correspondre au format des données cibles. Ci-dessous
une liste non exhaustive des transformations possibles dans un outil ETL :
 Changement de format des données : changement de type, taille, etc.
 Codication des valeurs : dénir des normes pour les valeurs de diérentes
sources. Exemple : ['homme','femme']vs['M','F'] vs ['1','0'].
 Pré-calcul des valeurs dérivées.
 Découpage de champs complexes.
 Fusion de plusieurs champs.
 Conversion des unités de mesure.
 Conversion de dates.
 Pré-calcul des agrégations.
 Etc.
5.3.4 Chargement
Le chargement consiste à transférer les données transformées vers la cible.
Plusieurs options de chargements existent :
 Chargement initial : S'eectue une seule fois lors de l'activation de l'entrepôt
de données. Ce chargement peut durer plusieurs heures.
 Chargement incrémental : S'eectue après un chargement initial. Il permet de
charger les données extraites en temps réel ou en lots. Respecte la nature des
changements (changements lents et rapides).
 Rafraîchissement complet : Est utilisé lorsque le nombre de changements est
assez grand et rend par conséquent le chargement incrémental complexe.
5.4 ELT
L'ELT (Extract Load and Transform) est une solution d'intégration de données.
La nalité est la même qu'une solution d'ETL mais la manière d'arriver au résultat
est diérente. L'étape de transformation dans une approche ETL est réalisée sur un
serveur intermédiaire par des moteurs (engine) autres que ceux des SGBDs (exemple,
moteur JAVA pour Talend). L'ELT quant à lui prote des fonctionnalités proposées
par les SGBDs pour eectuer les transformations. Autrement dit, les données sont (1)
extraites des sources, (2) chargées dans l'environnement cible puis (3) transformées.
L'un des principaux attraits des outils ELT est la réduction des temps de chargement
par rapport au outils ETL. Tirer parti de la capacité de traitement intégrée à une
infrastructure d'entreposage de données réduit le temps de transit des données et
est plus rentable.
40 CHAPITRE 5. INTÉGRATION DANS UN ENTREPÔT DE DONNÉES

Actuellement, la plupart des solutions d'ETL proposent des composants dits


ELT.
Sources Entrepôt de données

ETL

SIO

Extract Transform Load

ERP

Autres
Extract Load
Transform

ELT

Figure 5.6: ETL VS ELT

Critère ETL ELT


Environnements Hétérogènes Homogènes
Transformations Moteurs autres que SGBD Seulement les moteurs SGBDs
Types de transformation Très variés Variés
Performances Performant Très performant
Taille de données Importante Très importante
Table 5.2: Comparaison entre les approches ETL et ELT

Vous aimerez peut-être aussi