1. Institut National des Sciences Appliquées et de Technologie
Business Intelligence
Chp3 – Modélisation des Données Décisionnelles
Dr. Lilia SFAXI
GL5 - 2013-2014
1
2. Modélisation des Données
Décisionnelles
Utilisation de concepts pour :
o
Optimiser la restitution de données selon les axes métiers de l’entreprise
o
Gérer et visualiser les données de manière rapide et intuitive
o
Retrouver et analyser rapidement les données à partir de diverses sources
o
Intégrer plusieurs bases de données
o
2
Extraire, grouper, organiser et corréler et transformer les données
Deux types de modélisations: Entité-Relation et Multidimensionnelle
Business Intelligence
27/02/2014
4. 4
Plan du Chapitre
Modélisation Entité-Relation
Modélisation Multidimensionnelle
Conception des Data Warehouses : Etapes et Exemple
Modèles d’un Data Warehouse
Aspects Fondamentaux de la Modélisation Multidimensionnelle
Business Intelligence
27/02/2014
6. 6
Modélisation Entité-Relation
Discipline permettant d’éclairer les relations microscopiques entre les données
o
o
Simplifier le traitement des transactions
o
Supprimer la redondance des données
Aider le concepteur dans la répartition des propriétés entre les entités
Principes
o
Notion d’identifiant
o
Dépendance fonctionnelle
o
Décomposition
o
Formes normales
Business Intelligence
27/02/2014
7. 7
Normalisation dans les BDR
Forme normale :
o
o
Permet d’éviter les anomalies transactionnelles dues à une mauvaise modélisation des
données
o
Type de relation particulier entre les entités
Permet de vérifier la robustesse de la conception des modèles de données pour éviter les
problèmes de redondance et de mise à jour du contexte
Dans le modèle OLTP, il existe 8 formes normales
o
Elles s’emboitent les unes dans les autres
o
Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux inférieurs
o
On va présenter les 3 premières (les plus utilisées)
Business Intelligence
27/02/2014
8. 8
Première Forme Normale (1FN)
Relation dont tous les attributs :
o
Contiennent une valeur scalaire (les valeurs ne peuvent pas être divisées en plusieurs sousvaleurs dépendant également individuellement de la clé primaire)
o
Contiennent des valeurs non répétitives (le cas contraire consiste à mettre une liste dans un
seul attribut).
o
Sont constants dans le temps (utiliser par exemple la date de naissance plutôt que l'âge).
Problème
Produit
Téléviseur
Solution
Fournisseur
Fournisseur
Téléviseur
Vidéo SA
Téléviseur
Business Intelligence
Vidéo SA, Hitek LTD
Produit
Hitek LTD
27/02/2014
9. 9
Deuxième Forme Normale (2FN)
Les attributs d'une relation sont divisés en deux groupes :
o
o
Le premier groupe est composé de la clé (une ou plusieurs).
Le deuxième groupe est composé des autres attributs (éventuellement vides).
Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble
(strict) d'attribut(s) du premier groupe.
o
« Un attribut non clé ne dépend pas que d'une partie de la clé »
Problème
Pdt
Fournisseur
Solution
Adresse
Fournisseur
Produit
Fournisseur
Fournisseur
Adresse
Télé
Vidéo SA
13 rue Midi
Télé
Vidéo SA
Vidéo SA
13 rue Midi
Ecran
Vidéo SA
13 rue Midi
Ecran
Vidéo SA
Hitek LTD
25 rue Bond
Télé
Hitek LTD
25 rue Bond
Télé
Hitek LTD
27/02/2014
10. 10
Troisième Forme Normale (3FN)
Les attributs d'une relation sont divisés en deux groupes :
o
o
Le premier groupe est composé de la clé (une ou plusieurs).
Le deuxième groupe est composé des autres attributs (éventuellement vides).
Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble
(strict) d'attribut(s) du deuxième groupe.
o
« Un attribut non clé ne dépend pas d'un ou plusieurs attributs ne participant pas à la clé ».
Problème
Fournisse
ur
Adresse
Vidéo SA
13 rue Midi
Paris
Hitek LTD
25 rue
Bond
London
Business Intelligence
Ville
Solution
Pays
Fournisse
ur
Adresse
Ville
France
Vidéo SA
13 rue Midi
Paris
England
Hitek LTD
25 rue
Bond
London
Ville
Pays
Paris
France
London
England
27/02/2014
11. 11
Modélisation Entité-Relation
Le succès du traitement des transactions dans les BDR est essentiellement dû à
l’apport de la modélisation entité/relation
Exemple
o
simple recherche dans une table principale d'adresses clients.
une
o
Cette recherche est contrôlée par une clé d'adresse client, qui définit l'unicité de
l'enregistrement et permet une recherche indexée extrêmement rapide.
o
Le respect des formes normales fait que cette mise à jour soit faite en une itération, sans
risque d’oublier des enregistrements
Business Intelligence
27/02/2014
12. 12
Limites de la Modélisation E/R
Modèle complexe
o
Plusieurs tables et jointures mises en œuvre
Pas de compréhension pour l’utilisateur
Données historiques difficilement représentées
Business Intelligence
Risque de dégradation des performances
Contraire aux objectifs du DW
27/02/2014
14. Modélisation Multidimensionnelle :
Notions de Base
14
Méthode de conception logique qui vise à présenter les données sous une forme
standardisée, intuitive et qui permet des accès hautement performants
Permet de considérer un sujet analysé comme point dans un espace à plusieurs
dimensions
Les données sont organisées de manière à mettre en évidence:
o
Le Sujet
Le Fait
o
Les perspectives de l’analyse
La table des dimensions
Business Intelligence
27/02/2014
15. 15
Faits – Table des Faits
Fait
o
o
Grain de mesure de l’activité
o
Résultat d’une opération d’agrégation des données
o
Exemple: Chiffre d’affaires, nombre de vente, gain, nombre de transaction… en général : une
valeur numérique
o
Sujet d’analyse
Les mesures sont stockées dans la table des faits
Table des faits
o
Clé composite référencent des clés primaires des tables de dimensions
o
Contient les valeurs des mesures et des clefs vers les tables de dimensions traduit une relation
(n,m) entre les dimensions
o
Plusieurs tables de fait dans un DW
o
Les faits les plus utiles d’une table des faits sont numériques et additifs
Business Intelligence
27/02/2014
16. 16
Faits – Table des Faits
Exemple:
o
Fait: Montant des ventes, chaque jour pour chaque produit dans chaque magasin
A en général plusieurs lignes et peu de colonnes
Date
Dimensions
Produit
Business Intelligence
Ventes Journalières
Clé Date
Clé Produit
Clé Magasin
Quantité vendue
Montant des ventes
Table des Faits
Magasin
Faits
27/02/2014
17. 17
Table des Dimensions
Contient une clé primaire unique qui correspond à l’un des
composants de la clé multiple de la table des faits
Les tables dimensionnelles sont les points d’entrée de
l’entrepôt de données
Les dimensions
o
o
En général sous forme textuelle
o
Thème (ou axe) selon lequel les données sont analysées
Parfois discrète (ensemble limité de valeurs): couleurs, parfums
A en général plusieurs colonnes et peu de lignes
Business Intelligence
Produit
Clé Produit
Description produit
Description marque
Description catégorie
Description type emballage
Taille emballage
Poids
Unité de mesure du poids
Type de stockage
Type de durée rayon
Largeur sur étagère
Hauteur sur étagère
Profondeur sur étagère
27/02/2014
18. 18
Vue
Représentation d’une ou plusieurs requêtes de l’utilisateur du SID
o
o
À une requête correspond une et une seule vue
À une vue peuvent correspondre plusieurs requêtes
Une vue correspond également à un hyper-cube dont :
o
Chaque dimension est décrite par une entité dont le contenu est décrit par l’association de ces entités
o
Les propriétés de l’association sont des faits ou mesures
o
Les propriétés des entités intervenant dans la vue sont des conditions
Les combinaisons des conditions sont les coordonnées qui déterminent des valeurs de faits, comme
une combinaison de valeurs numériques peut déterminer la position d’un point dans l’espace
Un fait n’est pas seulement un élément du résultat de la requête, mais il doit être déterminé par
l’association des conditions
Business Intelligence
27/02/2014
19. 19
Vue
Exemple 1:
o
Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux de la
région nord ayant des véhicules de 10 à 14 CV en avril 2004?
o
Vue:
Faits
Kilométrage
Par Employé (fonction)
Par Véhicule (puissance)
Par Région
Véhicule
Business Intelligence
Frais de déplacement
Par Mois
Marque
Puissance
Employé
Nom
Fonction
Clé Employé
Clé Véhicule
Clé Région
Clé Mois
Frais de déplacement
Kilométrage
Région
Mois
27/02/2014
20. 20
Vue
Exemple 2:
o
Requête: Quelles ont été les marges sur les ventes du produit ‘P023’ pour le client Ben Salah
Ahmed à Hammamet durant le mois de Janvier?
o
Vue:
Client
Nom
Fonction
Produit
Client
Région
Produit
Business Intelligence
Marge
Mois
Région
Nom
Vue 1
Marge
Mois
27/02/2014
21. 21
Vue
Exemple 3:
o
Requête: Quels ont été les revenus sur les ventes de la marque ‘Teams’ en Tunisie durant
l’année 2011?
Marque
o
Vue:
Pays
Business Intelligence
Marque
Vue 2
Revenu
Année
Pays
Année
Revenu
27/02/2014
22. 22
Vue
Exemple 4:
o
Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le Trimestre 2
pour la région du nord ?
Gamme
o
Vue:
Trimestre
Business Intelligence
Gamme
Vue 3
Quantité
Région
Région
Trimestre
Quantité
27/02/2014
23. 23
Domaine et Contexte
Domaine
o
o
Concerne un utilisateur ou un ensemble cohérent d’utilisateurs
Implique un vocabulaire commun et une manière commune d’appréhender l’information
Contexte
o
Ensemble de faits et dimensions assemblées selon des critères sémantiques formels de
cohérence
o
Caractérisé par une association unique, groupant tous les faits relevés dans les vues
Business Intelligence
27/02/2014
24. 24
Contexte : Activité des Ventes
En opérant une relation superficielle entre les trois vues des exemples 2, 3 et 4, on
détecte deux sortes d’éléments de rapprochement
o
Certaines informations (entités ou faits) se retrouvent dans plusieurs vues
o
Certaines entités, appartenant à des vues différentes, sont fonctionnellement liées les unes
aux autres.
o
On peut intégrer ces vues en un seul contexte comportant une association porteuse des
faits: Marge, Revenu, Quantité, qui comporte neuf entités distinctes
Business Intelligence
27/02/2014
25. 25
Contexte : Activité des Ventes
Contexte : Activité des Ventes
Client
Région
Année
Vue 1
Marge
Produit
Trimestre
Mois
Vue 2
Année
Produit
Revenu
Pays
Marge
Revenu
Quantité
Région
Gamme
Gamme
Vue 3
Région
Client
Mois
Marque
Trimestre
Pays
Marque
Quantité
27/02/2014
26. 26
Hiérarchie
Élément fondamental dans la structure d’un contexte
Représente pour l’utilisateur des chemins de consolidation d’indicateurs (faits)
Chaque niveau est représenté par une entité
Certaines entités sont rattachées à d’autres par des liens d’appartenance ou de
regroupement hiérarchique
Certains de ces chemins sont connus (Jour, Mois, Année), d’autres doivent être
repérés par une analyse précise du vocabulaire des utilisateurs
(Produit, Gamme, Marque)
Business Intelligence
27/02/2014
27. 27
Hiérarchie : Activité des Ventes
…
…
…
…
Business Intelligence
Mois
Trimestre
Année
Produit
Gamme
Marque
Région
Pays
Client
Catégorie
Temps
Produit
Territoire
Client
27/02/2014
28. 28
Granularité
Le « grain » d’une dimension est le niveau de sélection le plus fin possible de cette
dimension
o
Le grain de la dimension Temps est Mois
o
Le grain de la dimension Territoire est Région
L’intégration de chaque nouvelle vue est donc susceptible de modifier le grain sur
une ou plusieurs dimensions
Le grain d’un contexte découle de la combinaison des grains de toutes les
dimensions. Il définit le niveau de détail pouvant être obtenu par la requête la plus
sélective et la plus fine possible mettant en jeu toutes les dimensions.
Business Intelligence
27/02/2014
29. 29
Granularité (Exemple)
Grain du contexte: combinaison Produit-Mois-Client-Région
o
S’applique à tous les faits
Règle: Tous les faits d’un contexte doivent être définis pour le grain de ce contexte
o
Si les 3 indicateurs marge, revenu et quantité sont dans le contexte, alors ils ont un sens à
tous les niveaux.
o
Exemple: si la marge n’est définie que par Pays et par Mois, alors que les autres le sont par
Région et par Trimestre, il y aurait décalage de grain entre les faits
o
Décalage les faits n’appartiennent pas tous au même contexte facteur
d’incohérence
Business Intelligence
27/02/2014
30. 30
Grain du contexte Vente
Temps
Année
Client
Trimestre
Catégorie
Mois
Produit
Gamme
Produit
Région
Mois
Client
Marge
Revenu
Quantité
Client
Région
Pays
Marque
Territoire
Produit
Business Intelligence
27/02/2014
31. Modélisation Multidimensionnelle:
Caractéristiques
Lisibilité
Performances (chargement + exécution des requêtes)
Évolutivité
31
Redondances envisageables
o
o
Pas de problème d’intégrité des données (contrôles à l’acquisition)
o
Pas de mise à jour en ligne (chargement uniquement)
Privilégier l’accessibilité plutôt que la normalisation
Requêtes ensemblistes, portant sur de gros volumes de données
o
o
Adaptation du modèle pour des requêtes ad-hoc
o
Projections, restrictions, regroupements, agrégations
Techniques d’optimisation basées sur les chemins d’accès
Pré-calcul de certains agrégats + dé-normalisation
Business Intelligence
27/02/2014
32. Modélisation Multidimensionnelle:
Avantages
Structure prévisible et standardisée
Diminution du nombre de tables et de jointures
32
Modèle évolutif qui peut être modifié sans peine
o
Ajout de nouveaux faits non prévus initialement, à partir du moment où ils sont cohérents
avec la granularité de la table des faits existante
o
Ajout de nouvelles dimensions, à partir du moment où une seule valeur de la dimension est
définie pour chaque enregistrement factuel existant
o
Ajout d’attributs dimensionnels nouveaux
o
Changement de granularité: Décomposition des enregistrements d’une dimension
existante en un niveau de détail plus fin à partir d’une date déterminée
Business Intelligence
27/02/2014
34. Règles d’Élaboration et d’Intégration
des Vues
34
La structure des vues externes se déduit directement des requêtes des
utilisateurs, non des connexions possibles entre les entités
Dans un domaine, il existe un ou plusieurs sous-ensembles de vues liées entre elles
par des critères de cohérence sémantique et structurelles. Contextes
La liste exhaustive des vues n’est jamais figée
La normalisation du MDD permet d’anticiper et d’intégrer automatiquement dans
chaque contexte le plus grand nombre possible de vues probables d’après la
structure vue connues.
Entre deux entités intervenant dans une vue, il doit exister un et un seul chemin de
navigation sémantique et ce chemin doit être le plus court possible
Business Intelligence
27/02/2014
35. Démarche de Synthèse des VuesContextes
Identifier les faits de l’association
Identifier les liens de dépendance entre les entités
Regrouper les entités dépendantes dans une même dimension
35
Nommer les dimensions
o
Les dimensions pour lesquelles on trouve facilement un nom sont dites « Dimensions fortes »
o
Celles pour lesquelles on doute du nom associé sont dites « Dimensions douteuses »
Business Intelligence
La structure d’une dimension douteuse peut varier à terme
27/02/2014
36. 36
Normalisation des Contextes
Un contexte regroupant un nombre élevé de dimensions a peu de chances de
correspondre à une réalité et serait d’un maniement trop complexe
o
o
En général, le nombre de dimensions d’un contexte varie entre 4 et 12 dimensions
Au delà de ce nombre, la probabilité de redondance dimensionnelle devient de plus en
plus importante
Un contexte est dit cohérent lorsque toutes les vues qu’il autorise ont une signification
dans le domaine de l’utilisateur
Business Intelligence
27/02/2014
37. 37
Règles de Normalisation
Dimensionnelle
Règle 1:
o
o
Il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des
dimensions différentes d’un même contexte
Conséquence: Regroupement des entités dépendantes dans une même dimension
Exemple: Si les produits sont organisés par région, on doit intégrer l’entité Région
dans la dimension Produit
Id_produit
Id_région
Id_mois
Id_client
Marge
Revenu
Quantité
Business Intelligence
Produit
Id_produit
Région
Id_produit
Id_mois
Id_client
Marge
Revenu
Quantité
Produit
Id_produit
région
27/02/2014
38. 38
Règles de Normalisation
Dimensionnelle
Règle 2:
o
o
Tous les faits d’un contexte doivent être définis d’une manière cohérente pour toutes les
combinaisons dimensionnelles de ce contexte
Conséquence: Les faits qui ne sont valables que pour certaines dimensions nécessitent
l’éclatement du contexte
Exemple:
Mois
Client
Business Intelligence
Id_produit
Id_région
Id_mois
Id_client
Marge_ventes
Marge_achats
Revenu
Quantité
Produit
Id_produit
Région
La marge des achats ne correspond
pas à un client et région. Il faut donc
l’intégrer dans un autre contexte
27/02/2014
39. 39
Règles de Normalisation
Dimensionnelle
Règle 3:
o
Tous les faits d’un contexte doivent être définis pour le grain de ce contexte
Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions
Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension
Règle 4:
o
Le graphe de chaque dimension doit être acyclique
o
Conséquence: Il faut rompre les cycles
Gamme
Gamme
Marque
Produit
Région
Pays
Pays
Produit
Id_produit
Marque
Id_produit
Région
Business Intelligence
Pays
27/02/2014
40. 40
Forme Dimensionnelle Normale
Le MDD correspond à un domaine qui se présente sous forme d’une constellation ou
galaxie dans laquelle chaque étoile correspond à un contexte
Une même entité ou un même fait peut appartenir à plus d’un contexte, à condition
de conserver une définition unique
Pour ces raisons pratiques, il est préférable de représenter les contextes sous une
forme déconnectée
Business Intelligence
27/02/2014
43. 43
Modèle Étoile
Une (ou plusieurs) table(s) de faits comprenant une ou plusieurs mesures
Plusieurs tables de dimension dé-normalisées: descripteurs des dimensions.
Les tables de dimension n'ont pas de lien entre elles.
Avantages
o
o
Performances : nombre de jointures limité ; gestion des données creuses.
o
Facilité de navigation.
Gestion des agrégats
Inconvénients
o
Redondances dans les dimensions.
o
Alimentation complexe..
Business Intelligence
27/02/2014
44. 44
Modèle en Étoile - Exemple
Produit
Code_pdt
Description
Couleur
Marque
Créateur
Période
Code_per
Année
Trimestre
Mois
Jour
Business Intelligence
Ventes
Code_produit
Code_période
Code_Magasin
Unités_vendues
Montant_ventes
Montant_coût
Magasin
Code_ma
g
Nom_mag
Ville
Téléphone
Manager
27/02/2014
45. 45
Modèle en Flocon de Neige
Dérivé du schéma en étoile où les tables de dimensions sont normalisées
o
La table des faits reste inchangée
Chacune des dimensions est décomposée selon sa (ou ses) hiérarchie(s)
Exemple : Commune, Département, Région, Pays, Continent
Utilisé lorsque les tables sont très volumineuses
Avantages
o
o
Réduction du volume
Permettre des analyses par pallier (drill down) sur la dimension hiérarchisée
Inconvénients
o
Navigation difficile
o
Nombreuses jointures
Business Intelligence
27/02/2014
46. 46
Modèle en Flocon de Neige - Exemple
Marque
Code_marque
Nom
Description
Créateur
Produit
Code_pdt
Description
Couleur
Code_marque
Période
Code_per
Année
Trimestre
Mois
Jour
Business Intelligence
Ventes
Code_produit
Code_période
Code_Magasin
Unités_vendues
Montant_ventes
Montant_coût
Magasin
Code_ma
g
Nom_mag
Ville
Téléphone
Manager
27/02/2014
47. 47
Constellation
Fusionner plusieurs modèles en étoile qui utilisent des dimensions communes
Un modèle en constellation comprend donc :
o
Plusieurs tables de faits
o
Des tables de dimensions communes ou non à ces tables de faits.
Business Intelligence
27/02/2014
48. 48
Modèle en Constellation - Exemple
Produit
Fournisseur
Code_four
Nom
Adresse
Catégorie
Achats
Code_produit
Code_période
Code_fournisseur
Unités_achetées
Montant_achats
Montant_remises
Business Intelligence
Code_pdt
Description
Couleur
Marque
Créateur
Période
Code_per
Année
Trimestre
Mois
Jour
Ventes
Code_produit
Code_période
Code_Magasin
Unités_vendues
Montant_ventes
Montant_coût
Magasin
Code_ma
g
Nom_mag
Ville
Téléphone
Manager
27/02/2014
49. 49
Synthèse
Modèle en étoile
o
Modèle en flocon de neige
o
Taille de dimension plus grosse
Jointures pour reconstruire
Modèle en étoile >> Modèle en flocon
o
Business Intelligence
car tables de dimension << tables de fait
27/02/2014
51. 51
Dimension
Une dimension peut être définie comme :
o
un thème, ou un axe (attributs), selon lequel les données
seront analysées.
Ex : Temps, Découpage administratif, Produits.
Une dimension contient des membres organisés en hiérarchie :
o
Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité)
particulier
o
Ex : pour la dimension Temps: année –semestre – mois – jour
Business Intelligence
27/02/2014
52. 52
Dimensions - Caractéristiques
Dimension
o
Temps, Produit, Géographie, ...
Niveau : hiérarchisation des dimensions
o
o
Produit : Rayon, Catégorie, Nature,...
o
Temps : Année, Semestre, Trimestre, Mois, Semaine, ...
Géographie : Région, Département, Ville, Magasin, …
Membres d'un Niveau
o
o
Produit::
gorie
: Frais.Laitage, ... , Liquide.Jus
o
Produit::Rayon
Produit::
gorie.Nature
: Frais.Laitage.Yaourt, ... , Liquide.Jus.Orange
Cellule
o
: Frais, Surgelé, ... , Liquide
Intersection des membres des différentes dimensions
Formule
o
calcul, expression, règle, croisement des dimensions
Business Intelligence
Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-PrixAchat)), ...
27/02/2014
53. 53
Faits
Une mesure est un élément de donnée sur lequel portent les analyses, en fonction
des différentes dimensions
o
Ex : coût des travaux, nombre d’accidents, ventes
Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre
de chacune des dimensions
Exemple :
o
Business Intelligence
« 250 000 euros » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le
membre « 2002 » du niveau année de la dimension « temps » et le membre « Versailles » du
niveau « ville » de la dimension « découpage administratif »
27/02/2014
54. 54
Faits – Table des Faits
Fait additif :
o
o
Additionnable suivant toutes les dimensions
Exemples: quantité vendue, chiffre d’affaire, coût
Fait semi-additif :
o
o
Additionnable selon certaines dimensions
Exemples: Niveau de stock (excepté sur la dimension temps), Nombre de transactions, de clients
(excepté sur la dimension produit)
Fait non-additif :
o
Non additionnable
o
Exemple: attribut ratio (marge brute = 1- Coût/CA)
Business Intelligence
27/02/2014
55. 55
Dimension Temps
tout entrepôt
Reliée
toute table de fait
2 choix d ’implantation
o
Type SQL DATE
o
Calendrier + Table Temps
Informations supplémentaires
Jours fériés, vacances, période fiscale,
Business Intelligence
Évènement (match de finale de coupe du monde)
saison haute ou basse, …
27/02/2014
62. 62
ROLAP (Relational OLAP)
OLAP relationnel
Données obtenues à partir de tables relationnelles et de jointures entre celles-ci
En fonction de la granularité, la requête générée est plus ou moins complexe
A chaque consultation, la requête est recalculée
o
Les résultats ne sont pas stockés
Langage : SQL
Avantages
o
Faible coût (car tire partie des ressources existantes)
Inconvénients
o
Business Intelligence
Temps de réponse long car sollicitation de la base à chaque relance d’un rapport
27/02/2014
63. 63
MOLAP (Multi-Dimentional OLAP)
OLAP multi-dimentionnel
Données stockées dans une base de données multi-dimentionnelle appelée CUBE
o
Exemple : Essbase…
Plus de relationnel!
Tous les croisements possibles sont précalculés
o
Restitution des données instantanée
Langage : MDX
Avantages
o
Temps de réponse très court (toutes les données et résultats sont stockés)
Inconvénients
o
Coût élevé des licences pour les bases multi-dimentionnelles
o
Coût élevé de développement des cubes
o
Difficile à mettre en place pour les gros volumes de données, à cause de tous les résultats précompilés
Business Intelligence
27/02/2014
64. 64
HOLAP (Hybrid OLAP)
Association du ROLAP et du MOLAP
Concept de Drill-Through
o
o
Accès aux données agrégées avec MOLAP (Cube)
Accès aux détails avec le ROLAP (tables relationnelles)
Étapes :
o
Données agrégées stockées dans une table multi-dimentionnelle
o
Restitution de ces données à partir d’un outil de reporting
Affichage des données agrégées extraites à partir des tables multi-dimentionnelles
Affichage des détails des opérations issus des bases relationnelles
Avantages
o
o
Temps de réponse assez court
Moins coûteux que MOLAP car moins de développement
Inconvénients
o
Business Intelligence
Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de croisements de données
27/02/2014
65. 65
DOLAP (Desktop OLAP)
Ce n’est pas une technologie de stockage, mais un mode de fonctionnement.
Base de donnée OLAP limitée en taille
Permet à l’utilisateur d’enregistrer une partie de la base de données multidimentionnelle en local
Business Intelligence
27/02/2014
66. 66
H-OLAP
Nouvelles fonctions pour SQL
o
BREAK BY (SAS)
o
RANK
o
TOP / BOTTOM : Requête de type « Top Ten » (les dix meilleurs, les dix moins bons)
o
Extension du Group By (SQL99)
un agrégat
Rollup: réduire progressivement
Grouping Sets : Partitionnement selon plusieurs dimensions
Cube : Partitionnement selon tous les sous-ensembles possibles de Grouping Sets
MS MDX
o
Langage d’expression OLAP pour MS SQL Server
o
Exemples
Business Intelligence
SELECT NON EMPTY {[Time].[1997], [Time].[1998]} ON COLUMNS, [Promotion Media].[Media Type].Members
ON ROWS FROM Sales
27/02/2014
68. 68
Conception d’un Data Warehouse
Étape 1
o
Choisir le processus à modéliser
Étape 2
o
Choisir le grain des faits
o
Décider de ce que représente une ligne de la table de faits
Étape 3
o
Identifier les dimensions qui s’appliquent aux lignes de la table des faits
Niveau de détail : transactions individuelles, récapitulatifs journaliers, mensuels…
Typiquement le temps, le client, le foyer, le produit, magasin, agence, compte…
Étape 4
o
Identifier les mesures de fait qui renseignent la table de faits
Business Intelligence
De préférence des quantités numériques additives
27/02/2014
69. Conception d’un Data Warehouse
Exemple : La Distribution
Processus :
o
Comprendre les achats des clients saisis aux Terminaux Points de Vente (TPV)
o
69
Modéliser les ventes au niveau des TPV
Etape 1 : Le premier modèle dimensionnel
o
Doit répondre aux questions les plus pressantes de l’utilisateur
o
Ses données doivent être les plus faciles à extraire
o
Quels produits se vendent dans quel magasin, à quel prix, quand, dans quelles
conditions de promotion?
Business Intelligence
27/02/2014
70. Conception d’un Data Warehouse
Exemple : La Distribution
70
Etape 2 :
o
Quel niveau de détail doit être disponible dans le modèle?
o
Principe: Obtenir un schéma basé sur les données les plus atomiques
o
Donnée atomique : une ligne individuelle de transaction saisie sur un TPV pour mieux
anticiper les requêtes ad-hoc des utilisateurs
Business Intelligence
27/02/2014
71. Conception d’un Data Warehouse
Exemple : La Distribution
71
Etape 3 :
o
o
Principe: l’énoncé précis du grain détermine les dimensions principales
o
Choix des dimensions
Les dimensions supplémentaires qui peuvent être ajoutées doivent prendre une valeur unique
pour chaque combinaison de valeurs des dimensions principales
Dimensions principales
o
Temps
o
Produit
o
Promotion
Date
Magasin
o
Faits de Transaction TPV
Clé Date
Attributs
Produit
Clé Produit
Attributs
Business Intelligence
Clé date
Clé Produit
Clé Magasin
Clé Promotion
…
Magasin
Clé magasin
Attributs
Promotion
Clé Promo
Attributs
27/02/2014
72. 72
Conception d’un Data Warehouse
Exemple : La Distribution
Produit
Clé Produit
Description produit
Etape 3 (Suite):
Description marque
Description catégorie
o Dimension Produit
Description type emballage
Attributs obtenus à partir du fichier Produits de l’application opérationnelle Taille emballage
Poids
Unité de mesure du poids
Type de stockage
Type de durée rayon
Largeur sur étagère
Hauteur sur étagère
Profondeur sur étagère
…
Business Intelligence
27/02/2014
73. Conception d’un Data Warehouse
Exemple : La Distribution
73
Etape 4 : Identifier les faits
o
Quantité vendue, montant de la vente en euros, coût standard en euro
o
Questions: stocker le bénéfice? La marge brute?
o
Principe: pourcentage et ratios sont non-additifs Ne pas les stocker, mais stocker le numérateur et
dénominateur
Faits de Transaction TPV
Date
Clé Date
Attributs
Produit
Clé Produit
Attributs
Business Intelligence
Magasin
Clé date
Clé Produit
Clé Magasin
Clé Promotion
Numéro de trans. TPV
Quantité vendue
Montant des ventes
Coût
Bénéfice Brut
Clé magasin
Attributs
Promotion
Clé Promo
Attributs
27/02/2014
74. 74
Bibliographie
Supports de Cours
o
Karima Tekaya – « Informatique Décisionnelle » - INSAT
o
Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT
o
Didier Donsez – « Conception de Bases Décisionnelles » - Université Joseph Fourier
o
E. Grislin-Le Strugeon – «
mes d’information
Mining) » - Université de Valenciennes
Business Intelligence
cisionnels (Data Warehouse / Data
27/02/2014