Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

2.chapitre 2 - Les Entrepots de Données

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 50

Institut Supérieur d’Informatique et de Mathématiques de Monastir

Cours : Entrepôt de Données

Chapitre2:
Les Entrepôts de
Données (ED)
Enseignante: Dr. Aljia BOUZIDI
aljia.bouzidi95@gmail.com

2ème Licence en Sciences d’Informatique


Année Universitaire :2023-2024
Objectifs
Le but de ce chapitre est de:
• Introduire le concept d’entrepôt de données
• Introduire L’architecture des systèmes à base d’entrepôt de données
• Présenter le concept d’entreposage des données
Contenu du Chapitre 2
1. Partie 1: Le Fondement des Entrepôts de Données
2. Partie 2: Architecture Générale d’un Entrepôt de Données
3. Partie 3: Entreposage des Données
4. Solutions Informatiques pour les Entrepôts de Données
5. Quelques Solutions Open source
6. Limites des Entrepôts de Données
Institut Supérieur d’Informatique et de Mathématiques
de Monastir

Partie 1: Le Fondement
des Entrepôts de
Données
Contenu de la Partie 1

1. Introduction
2. Les Fondateurs de Data Warehouse
3. Définition d’un Entrepôt de Données
4. Caractéristiques d’un Entrepôt de Données
5. Base de données Versus Data Warehouse
6. Approche Traditionnelle Versus Approche Analytique
7. Datamart
8. Intérêt des Datamarts
Introduction (1/3):
Objectifs du Décisionnel
Tout commence dans le monde applicatif…

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 6/49


Introduction (2/3):
Besoins Métiers
Besoin Métier 1 Besoin Métier 2 Besoin Métier 3

Historisation Centralisation Analyse

D’où le besoin d’un data Warehouse


Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 7/49
Introduction(3/3):
Du Transactionnel au Décisionnel

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 8/49


Les Fondateurs de Data Warehouse
Edgar Frank Codd
• Fondateur du modèle relationnelle (1970)
• Ecrit les douze lois du traitement analytique en ligne
(1993)

Bill Inmon
• Formalisé du concept d’entrepôt de
données (1994)
• Proposé le modèle Top-down

Ralph Kimball
• Des premiers travaux sur la informatique décisionnelle
’70’
• Proposé le modèle Bottom-up

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 9/49


Définition d’un Entrepôt de Données

Le Data Warehouse est une collection de données orientées sujet,


intégrées, non volatiles et historisées, organisées pour le support
d’un processus d’aide à la décision

Bill Inmon (1994)

« Un entrepôt de données ne s’achète pas, il se construit… »

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 10/49


Caractéristiques d’un Entrepôt de Données(1/4):
Données Orientées Sujet
o Les données sont organisées par sujet bien précis, ex:
(client, produit, ventes).
o S’intéresse à la modélisation et l’analyse des données pour
aider les décideurs, non pas pour des activités quotidiennes
ou traitement transactionnel
o Fournit une vue simple et concise concernant un sujet
particulier en excluant les données qui ne servent pas à la
prise de décision
Orientées sujet Exemple

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 11/49


Caractéristiques d’un Entrepôt de Données(2/4):
Données Intégrées
o Les données qui proviennent de diverses sources
hétérogènes, sont consolidées et intégrées dans l’entrepôt.

Exemple

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 12/49


Caractéristiques d’un Entrepôt de Données (3/4):
Données Historisées
o La portée temporelle des données dans un data warehouse est plus
longue que celle des bases opérationnelles
• Base opérationnelle: valeur courante des données.
• Data warehouse: fournit des infos sous une perspective historique (ex: 5 à 10
dernières années)
o Dans un data warehouse, en général, chaque donnée fait référence au
temps
• Mais dans une base opérationnelle les données peuvent ne pas faire référence au
temps

Historisées
Base de données

Entrepôt de données

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 13/49


Caractéristiques d’un Entrepôt de Données (4/4):
Données Non Volatiles
o Un support de stockage séparé
o Les mises à jour de la base opérationnelle n’ont pas lieu au
niveau de la data warehouse
• N’a pas besoin de modules de gestion de transactions
(concurrence, reprise sur panne …)
• N’a besoin que de deux opérations pour accéder aux données
1. Chargement initial des données
2. et interrogation (lecture).

Non Volatiles

On Line Transaction Processing (OLTP) vs Online Analytical Processisng (OLAP)


Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 14/49
Base de données Versus Data Warehouse(1/3)

o Sachant qu’un data warehouse est, généralement une base


données:

Base de données Entrepôt de données

Objectif Stockage et MAJ des Données Facilite l’expression et la compréhension


des questions qui aident à la prise de
décisions
Sous-système OLTP OLAP
Type d’accès Lecture/Ecriture Lecture seul
Stockage Structure à deux dimensions Structures à n dimensions
(tables)
Taille Faible Importante
Requêtes Facile à écrire et à De groupement multiple: montant des
comprendre: Montant des ventes d’un produit par vendeur,
ventes d’un produit vendeur région, mois, …

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 15/49


Base de données Versus Data Warehouse(2/3)

Base de données Entrepôt de données

Langage de SQL SQL/MDX


Requête
Réponse aux Immédiate Moins rapide
requêtes
Utilisateurs • Nombreux, • Peu nombreux,
• Variés, • Décideurs,
• Concurrents • Non concurrents
Modèle de E/A relationnel Flocon, étoile, en constellation
données
Données Saisies (et MAJ) par les Obtenues et actualisées depuis les
utilisateurs bases de production

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 16/49


Base de données Versus Data Warehouse(3/3)

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 17/49


Approche Traditionnelle Versus
Approche Analytique (1/2)
o OLTP :On Line Transaction Processing:
• Systèmes informatiques destinés à offrir le moyen à une application
d’utiliser de façon transactionnelle un serveur de base de données.
C’est un ensemble de logiciels que l’utilisateur peut employer de façon
interactive pour accéder aux données de la manière la plus rapide et
simple possible.
• Exemple : Le 15/01/2012 à 13h12, le client X a retiré 500dt du compte Y

o OLAP : On Line Analytical Processing :


• Systèmes informatiques permettant aux analystes, managers et
décideurs d’accéder de manière rapide, consistante et interactive à
une large variété d’information, transformée pour refléter la
dimension réelle d’une entreprise.
• Exemple : Quel est le volume des ventes par produit et par région durant
le deuxième trimestre de 2012?

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 18/49


Approche Traditionnelle Versus
Approche Analytique (2/2)

OLTP OLAP

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 19/49


Datamart

o Sous-ensemble d’un entrepôt de données


o Destiné à répondre aux besoins d’un secteur ou d’une fonction
particulière de l’entreprise
o Point de vue spécifique selon des critères métiers

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 20/49


Intérêt des Datamarts

o Nouvel environnement structuré et formaté en fonction des besoins


d’un métier ou d’un usage particulier
o Moins de données que DW
o Plus facile à comprendre, à manipuler
o Amélioration des temps de réponse
o Utilisateurs plus ciblés:
o DM plus facile à définir que DW

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 21/49


Institut Supérieur d’Informatique et de Mathématiques
de Monastir

Partie 2: Architecture
Générale d’un Entrepôt
de Données
Contenu de la Partie 2

1. Architecture Générale d’un SID


2. Source de Données
3. Stockage de Données
4. Le Serveur ETL
5. Serveur OLAP
Architecture Générale d’un SID

o Il n’existe pas de consensus sur une typologie d’architectures


pour les SID.
o L’architecture type d’un système décisionnel basé sur l’entrepôt de
données peut être représentée comme suite

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 24/49


Source de Données(1/2)
o Les systèmes décisionnels peuvent nécessiter des données
provenant de différentes sources et stockées dans différents
formats afin de répondre aux requêtes du système d’aide à la
décision:
• Fichiers texte,
• Les rapports,
• Les fichiers de base de données issus de différents SGBD
• etc.

Comment organiser ces différentes données dans un ensemble


cohérent afin de procéder à toutes les analyses nécessaires pour
construire les indicateurs indispensables au pilotage de l’entreprise
?

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 25/49


Source de Données(2/2)

o Pour ce faire ces données doivent passer par le processus


d’Extraction, Transformation et chargement (ETL) pour qu’elles
soient exploitables.

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 26/49


Le Serveur ETL (1/6)

Définition d’un ETL :

o Il s'agit d'une technologie informatique intergicielle


permettant d'effectuer des synchronisations massives
d'information d'une banque de données vers une autre.
Selon le contexte.

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 27/49


Le Serveur ETL (2/6):
Les Etapes
1.Extraction des données
o L’extraction des données des différentes BDs de productions
(internes et externes ) peut se faire à travers un outil
d’alimentation:
• par applications d’ interfaces entre les sources de données et l’ED ;
• par serveurs de réplication du SGBD: SQL native
• par outils spécialisés
• ou créer des programmes extracteurs/connecteurs :
 ODBC
o Périodique et répétée
• Dater ou marquer les données envoyées.
o Difficulté:
• le risque de faire des extractions erronées, incomplètes et qui
peuvent biaiser l’ED.
• Ne pas perturber les applications OLTP
• Il faut gérer les anomalies en les traitant et en gardant une
trace.
Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 28/49
Le Serveur ETL (3/6):
Les Etapes (suite)
2.Transformation des données
o Etape très importante qui garantit la cohérence et la fiabilité des
données
o C’est une suite d’opérations qui a pour but de rendre les données
cibles homogènes et puissent être traitées de façon cohérente.
o Transformer, nettoyer, trier unifier des données
o Exemple

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 29/49


Le Serveur ETL(4/6):
Les Etapes (suite)
Transformation des données (suite)
o Rendre cohérentes les données issues de différentes sources
o Unifier les données
• Ex. dates : MM/JJ/AA -> JJ/MM/AA
• Ex. noms : D_Naiss, Naissance, Date-N -> « Date_Naissance »

o Trier, Nettoyer
• Eliminer les doubles
• Jointures, projection, agrégation (SUM, AVG, …)
• Gestion des valeurs manquantes (NULL) (ignorer ou corriger ?)
• Gestion des valeurs erronées ou inconsistantes (détection et
correction)
• Vérification des contraintes d’intégrité (pas de violation)
o Inspection manuelle de certaines données possible

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 30/49


Le Serveur ETL (5/6):
Les Etapes (suite)
3.Chargement des données (source)
o C’est l’opération qui consiste à charger les données nettoyées
et préparées dans le DW.
o Alimentation incrémentale ou totale?, offline ou online?, fréquence
des chargements? Taille de l’historique? Etc.
o Si pas de MAJ
o Insertion de nouvelles données
o Archivage des données anciennes
o Sinon (attention en cas de gros volumes)
• Périodicité parfois longues
• MAJ des indexes et des résumés
o Utilisation des connecteurs:
• ODBC
• SQL native
• Etc.

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 31/49


Le Serveur ETL (6/6):
Aperçu d’un ETL

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 32/49


Stockage de Données

o On y transfère les données nettoyées


o Stockage permanent des données
o Le stockage de données se fait dans:
• Entrepôt de données :
 C’est le lieu de stockage centralisé et extrait des
sources. Il intègre et «historise » l’ensemble des
données utiles pour les prises de décisions.
 Son organisation doit faciliter la gestion des données
et la conservation des évolutions.
• Magasins de données (datamarts)
 Chaque magasin est un extrait de l’entrepôt.
 Les données extraites sont adaptées à un groupe de
décideurs ou à un usage particulier.
 L’organisation des données doit suivre un modèle
spécifique qui facilite les traitements décisionnels.

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 33/49


Serveur OLAP

o Sur la base de ce type de structure (ED), les


systèmes OLAP sont utilisés pour définir un
modèle analytique transformant les
données entreposées en informations d’aide à
la décision.

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 34/49


Institut Supérieur d’Informatique et de Mathématiques
de Monastir

Partie 2: Entreposage
des Données
Contenu de la Partie 3

1. Qu’est ce que l’Entreposage


2. Phases d’Entreposage
Qu’est ce que l’Entreposage

o Définition 1: La copie périodique


et coordonnée de données provenant
de diverses sources, internes et
externes à l’entreprise, dans un
environnement optimisé pour
l’analyse.
o Définition 2: est le processus de collecte, d'organisation et de
gestion des données provenant de sources de données
disparates afin de fournir des informations et des prévisions
commerciales significatives aux utilisateurs respectifs.
o Les différentes phases :
1. Conception
2. Construction
3. Alimentation
4. Administration
5. Restitution
Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 37/49
Phases d’Entreposage (1/9):
Conception de l’ Entrepôt

o Définir la finalité du ED :
• Piloter quelle activité de l’entreprise ;
• Déterminer et recenser les données à entreposer ;
• Définir les aspects techniques de la réalisation ;
• Modèle de données ;
• Démarches d’alimentation ;
• Stratégies d’administration ;
• Définition des espaces d’analyse ;
• Mode de restitution…

o Définir le modèle de données :


• Modèle en étoile/facon?
• Et/ou cube?
• Et/ou vues matérialisées?

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 38/49


Phases d’Entreposage (2/9):
Construction de l’Entrepôt

o Après avoir conçu le modèle des


données, comment construire
l’ED ?

Processus d’ETL ( Extracting –


Transforming – Loading )

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 39/49


Phases d’Entreposage (3/9):
Construction de l’Entrepôt

o Le principe de l’entreposage des données est de


rassembler de multiples données sources qui souvent
sont hétérogènes en les rendant homogènes afin de les
analyser.
o Ce travail d’homogénéisation nécessite des règles précises
servant de dictionnaire (ou de référentiel) et qui seront
mémorisées sous forme de méta-données (information sur les
données).
o Ces règles permettent d’assurer des tâches d’administration et
de gestion des donnés entreposées.

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 40/49


Phases d’Entreposage (4/9)
Construction de l’Entrepôt

Dictionnaire de données

o Le dictionnaire (ou référentiel) de données est constitué de


l’ensemble des méta-données.
o Il renferme des informations sur toutes les données de l’ED.
o Il renferme également des informations sur chaque étape lors de la
construction du DW ; sur le passage d’un niveau de données à un
autre lors de l’exploitation du DW.
o Le rôle des méta-données est de permettre :
• La définition des données ,
• La fabrication des données
• Le stockage des données,
• L’accès aux données
• La présentation des données.
Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 41/49
Phases d’Entreposage (5/9):
Alimentation de l’Entrepôt

o Plusieurs étapes :
• Sélection des données sources
• Extraction des données
• Transformation
• Chargement
o Pour l’alimentation ou la mise à jour de l’entrepôt
o
MAJ régulière

Besoin d’un outil pour automatiser les chargements de l’entrepôt


ETL (Extract, Transforma, Load)

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 42/49


Phases d’Entreposage (6/9):
Administration de l’Entrepôt

o La fonction d’administration porte sur un aspect


fonctionnel (qualité et pérennité des données) mais aussi sur un
aspect technique (maintenance, optimisation, sécurisation,...)
Elle concerne l’ensemble des tâches du processus
d’entreposage de la sélection des données de
production à la mise à disposition pour construire
les espaces d’analyse.
o L’administrateur de l’ED doit maîtriser la gestion des
données (données, provenance des données, méta-données).

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 43/49


Phases d’Entreposage (7/9):
Administration de l’Entrepôt

o Elle est constituée de plusieurs tâches pour assurer :


•la maintenance ;
•la gestion de configuration ;
•les mises à jour ;
•l’organisation, l ’optimisation du SI ;
•la mise en sécurité du SI.

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 44/49


Phases d’Entreposage(8/9):
Administration de l’Entrepôt

o Les données agrégées ( Donnée ERP) sont


aussi une production (information) de
l’entreprise comme les données de
production, et doivent être entreposées.
o Ainsi le développement de l’ED
témoignera, aussi bien de la production de
base que de l’activité informationnelle
(pilotage de l’entreprise).
o Les requêtes portent plus souvent sur les
agrégats que sur les données de base. (80%
- 20%)
Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 45/49
Phases d’Entreposage(9/9):
Restitution de l’Entrepôt

o C’est le but du processus d’entreposage des données.


o Elle conditionne le choix de l’architecture de l’ED et de sa
construction.
o Elle doit permettre toutes la analyses nécessaires pour la
construction des indicateurs recherchés.
o Types d’outils de restituions:
• Raquetteurs et outils d’analyse
• Outils de data mining

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 46/49


Solutions Informatiques pour les Entrepôts
de Données
o Plusieurs solutions informatiques pour les Entrepôts de Données sont
fragmentées dans les différentes étapes du cycle décisionnel.
o On trouve :
• des outils pour la construction et l’administration de l’Entrepôt,
• des outils ETL pour l’extraction et le chargement des données (depuis les
sources transactionnelles vers l’Entrepôt),
• des outils pour la génération des cubes OLAP,
• des outils pour la restitution et la présentation des résultats issues de
l’exécution des questions décisionnels,
• etc.

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 47/49


Quelques Solutions Open Source

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 48/49


Limites des Entrepôts de Données

o Rationalisation excessive et processus complexes


o Sélectivité des données et organisations humaines
o L’interprétation est humaine
o L’erreur est informatique
o De par sa taille, le DW est rarement utilisé directement par les
décideurs car il contient plus que nécessaire pour une classe de
décideurs

Dr. A. BOUZIDI L2INF Cours: Entrepôts de Données Chap 2 49/49


Fin

aljia.bouzidi95@gmail.com

Vous aimerez peut-être aussi