5-Ed Cours-Integration Ed
5-Ed Cours-Integration Ed
5-Ed Cours-Integration Ed
5.1 Introduction
L'intégration de données est l'étape la plus fastidieuse et la plus longue dans
la mise en place d'un système d'information décisionnel. Intégrer un ensemble de
données hétérogènes et disparate tant par la forme que par le format, dans un
environnement homogène, est une étape bien complexe. Lors de cette étape les
données sont transformées et ltrées pour représenter une source d'information
homogène, commune et able. la performance du SID est étroitement liée à
la qualité d'intégration de données. Il est à noter que l'étape d'intégration de
données ne se limite pas au domaine décisionnel. Elle est plus générale et peut
être appliquée pour diérents besoins : réunir et requêter plusieurs systèmes
d'informations opérationnels, faire communiquer des applications qui ont été faites
en silo (indépendamment les unes des autres), etc.
Source de
données
Extraction
Source de
données
Cible/Data Warehouse
Transformation
Source de
données
Loading
Avantages et inconvénients
+Peut traiter une quantité importante de données dans une même exécution.
+Permet des transformations et des agrégations complexes sur les données.
+Productivité améliorée grâce aux diérents outils proposés (interfaces
graphiques simpliées...).
− Exige de l'espace mémoire pour eectuer les transformations.
− Latence des données entre la source et la cible.
− Unidirectionnel (des sources vers la cible).
Nous nous intéresserons dans ce polycopié plus en détails à cette approche qui
est la plus utilisée pour l'intégration dans un entrepôt de données.
5.2.2 Entreprise Information Integration(EII)
Dans l'approche EII, aucune intégration physique n'est eectuée. Les sources
de données hétérogènes sont consolidées à l'aide d'une base de données virtuelle,
de manière transparente aux applications utilisant les données. La base de données
virtuelle ore une vue uniée des données. Les utilisateurs envoient directement leur
requête sur la base de données. La requête est par la suite décomposée en sous-
requêtes qui seront envoyées aux sources respectives. Les réponses sont assemblées
en un résultat nal.
Base de données Virtuelle
interpréter
transformer
router
Avantages et inconvénients
+ Facilite l'interopérabilité des applications.
+ Permet l'accès en temps-réel.
+ Permet de contrôler le ux d'information.
− Ne supporte quasiment pas de transformation et d'agrégations de données.
− Consommation de la bande passante du réseau.
Source 1 Datamart 1
ETL ETL
Datamart 2
Source 2
ODS Entrepôt de données
Source n Datamart n
5.3.2 Extraction
L'extraction de données intervient après l'étape de conception. En eet, il faudra
construire le schéma cible (tables de dimensions et faits) pour pouvoir identier les
sources potentielles pour l'alimentation de l'entrepôt. Pour chaque attribut cible,
il est nécessaire de trouver la ou les sources qui correspondent. Plusieurs cas sont
rencontrés lors de l'identication des sources :
Plusieurs sources peuvent correspondre à une seule cible. Dans ce cas, il faudra
choisir la source la plus pertinente et complète.
La cible est une combinaison de plusieurs sources. Il faudra alors dénir les
règles de consolidation (jointure, ltre...etc).
La cible est représentée par une partie d'une source. Il faudra alors dénir les
règles d'extraction et de découpage. Par exemple, la cible est le nom de la ville
alors que la source contient l'adresse complète.
Après l'identication et la dénition des règles de consolidation, deux modes
d'extraction s'orent à nous :
Extraction complète
Il s'agit comme son nom l'indique d'extraire toutes les données pertinentes à
partir des sources. L'étape peut être coûteuse en temps, vu le nombre de données
manipulées. Ce mode est généralement appliquée dans deux cas :
Chargement initial des données dans l'entrepôt.
Rafraîchissement complet des données dans le cas de modication dans les
sources.
38 CHAPITRE 5. INTÉGRATION DANS UN ENTREPÔT DE DONNÉES
Extraction incrémentale
Dans ce mode, sont concernées seulement les données qui ont subit une
modication ou ont été ajoutées depuis la dernières extraction. L'extraction
incrémentale peut se faire de deux manières :
1. Extraction en temps réel L'extraction en temps réel se fait au moment où les
changements surviennent dans les sources. Les transactions eectuées sur les sources
peuvent être capturées de diérentes manières :
Utilisation des logs de transactions des bases de données. Ces logs sont à la
base utilisés pour la récupération en cas de pannes.
Utilisation des triggers (procédures déclenchées lors d'un évènement) pour
recopier les données à extraire dans un chier de sortie.
Modication des applications sources pour transcrire tout les changements
eectués dans un chier d'extraction.
ETL
SIO
ERP
Autres
Extract Load
Transform
ELT