Cours - SID
Cours - SID
Cours - SID
d’Information Décisionnels
Pegdwendé Sawadogo
sawadogonicholas44@gmail.com
http://eric.univ-lyon2.fr/sawadogop/
1
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion
2
1. Introduction
3
Motivations
Les décideurs ont besoins d’avoir une vision globale de leur activité. Cela se
fait grâce à des tableaux de bord
Les données produites par les systèmes de gestion dans les entreprises
croissent de façon exponentielle : il est désormais question de tirer partie de
ces données pour détecter, expliquer et prédire les performances.
Exemples:
• Augmentation des ventes d’un produit
→ due à une campagne publicitaire
• Diminution du chiffre d’affaire d’une boutique
→ due à l’arrivée d’un concurrent
• Diminution des ventes d’une alimentation
→ due à l’arrivée d’une caissière peu sympatique
4
Motivations
A l’ère de l’IA/machine learning et des big data, les organisations ont besoin
de créer des systèmes intelligent permettant d’anticiper et de prédire ces
phénomènes, et bien d’autres.
5
Objectifs
Ce cours vise à donner aux étudiants les éléments pour :
● Réaliser des analyses à partir du SID à travers :des opérateurs OLAP, des
outils d’analyse et de visualisation de données (Excel, QlikSense)
6
Quelques references
7
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion
8
2. Généralités
9
Contexte
● Avec la diminution des coûts de stockage, les entreprises conservent de plus
en plus de données.
Il est moins coûteux de conserver toutes les données, que de les trier.
II s’agit très souvent de données opérationnelles, issues de logiciels de
gestion (gestion de la comptabilité, ventes, stocks, etc.)
10
Contexte
● L’émergence de “banques de donnée” (réseaux sociaux, open data) donne
de nouvelles sources de données externes
Volume
Vélocité
Variété
Véracité
Valeur
11
Contexte
Définition
Les big data, ou mégadonnées (ou encore données massives), désignent des
ensembles de données si complexes qu’elles surpassent les capacités des outils
informatiques classiques pour leur traitement et leur exploitation.
Volume: chaque seconde, 253k textos sont échangés, 18k vidéos sont
visionnées sur Youtube, 60k requêtes sont lancées sur Google, etc. (2017)
Vélocité: les données proviennent de flux en temps réel comme les réseaux
sociaux et les capteurs (IOT)
12
Contexte
Définition
Les big data, ou mégadonnées (ou encore données massives), désignent des
ensembles de données si complexes qu’elles surpassent les capacités des outils
informatiques classiques pour leur traitement et leur exploitation.
Variété: seulement 20% des big data sont structurées. La majorité est semi-
structurée (XML, JSON) et non structurées (textes, images, vidéos).
Valeur: Il faut arriver à extraire des informations des données, faute de quoi, elles
ne servent pas.
13
Problématique
● Les données dont disposent les entreprises constituent alors une opportunité,
mais aussi une problématique à savoir « comment transformer ces données en
informations pouvant orienter la prise de décisions »
14
Problématique
En résumé les entreprises ont besoin de:
● Organiser une grande masse de données volumineuses, très détaillées et
parfois hétérogènes en les normalisant, en vue d’analyses futures
16
Informatique décisionnelle vs. Data science
Informatique décisionnelle
Encore appelée business intelligence, désigne les moyens, les outils et méthodes
qui permettent de collecter, organiser et restituer les données d’une entreprise en
vue d’offrir une aide à la décision
Data science
La science des données est une discipline s’appuyant sur un ensemble de
traitements informatiques et statistiques, permettant d’extraire des information à
partir de données.
17
Informatique décisionnelle vs. Data science
18
Architecture d’un SID
● Les données du SID proviennent
surtout du SI opérationnel
19
Entrepôt de données: définition
Définition – Entrepôt de données
L’entrepôt de données est une collection de données orientées sujet, intégrées, non
volatiles, historisées, organisées pour le support d’un processus d’aide à la décision
SI Opérationnel
SI Décisionnel (ED)
26
3. Concepts de base
27
Modélisation multi-dimensionnelle
Définition
La conception d’un entrepôt de données est également connue sous
l’apellation “modélisation multi-dimensionnelle”.
Cela consiste à mettre en évidence un sujet d’intérêt, suivant plusieurs axes
d’analyse
28
Concepts de base: le fait
Définition
Le fait représente le sujet d’analyse. Il est composé d’un ensemble de mesures
(indicateurs) qui représentent les différentes valeurs de l’activité analysée.
● Lors de l’analyse, les mesures sont agrégées pour donner des statistiques
descriptives sur les données analysée.
Exemples d’agrégations : minimum, maximum, moyenne, écart-type, etc.
● Ici, les ventes sont le sujet d’analyse, et donc le fait. Autrement dit, une
nouvelle ligne doit être ajoutée dans l’ED à chaque nouvelle vente. FAIT_VENTE
● Ici, la météo est le sujet d’analyse, et donc le fait. Autrement dit, une FAIT_METEO
nouvelle ligne doit être ajoutée dans l’ED à chaque nouvel
Température
enregistrement météo. Pluviométrie
…
● Chaque enregistrement météo est caractérisée par la température,
et la pluviométrie. Ces éléments représentent donc les mesures.
● Pour chaque opération de vente, les valeurs de toutes les dimensions associées
doivent être renseignées : temps (jour/mois/année), magasin (ouaga/bobo) et
produit (savon/biscuits/boisson/...) 33
Concepts de base: hiérarchie de dimensions
Définition
Une hiérarchie représente une relation de type “est plus fin” entre deux dimensions.
La hiérarchie est représentée par une flèche du niveau de granularité le plus fin au
niveau le plus grand.
DIM_TRIMESTRE DIM_PAYS
DIM_MARQUE
DIM_MOIS DIM_REGION
● Une mesure est considérée comme étant non-additive lorsque son addition sur
chacune des dimensions n’a pas de sens (ex. température)
Exercice
La pluviométrie est-elle une mesure additive, semi-additive ou non-additive ?
Et le taux de scolarisation ?
Autres exemples de mesures semi ou non-additives ? 35
Concepts de base: exercices
Exercice 1
Représenter la hiérarchie temporelle en considérant les dimensions numéro du jour,
jour de la semaine, mois, et année.
Exercice 2
Reprendre l’exercice 1 en ajoutant la semaine, le trimestre, le quadrimestre et le
semestre
Exercice 3
Représenter une hiérarchie géographique correspondant au cas du Burkina en
incluant, le quartier, l’arrondissement, la ville, la province et la région.
36
Concepts de base: exercices
Exercice 4
Un pharmacien désire mettre en place un entrepôt de données pour analyser la vente
des produits dans l’ensemble de ses pharmacies.
Les produits sont catégorisés en médicaments de spécialité, et génériques. Une autre
catégorisation distingue les produits pouvant être vendus sans ordonnance, de ceux
pour lesquels une ordonnance est indispensable.
Enfin, chaque produit est associé à un fournisseur pouvant être burkinabè, ivoirien,
français ou américain (USA).
37
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion
38
4. Modélisation et mise en
oeuvre
39
Modélisation conceptuelle
● La modélisation conceptuelle répond à la question « quoi? » (quelles données)
● Il existe trois principaux types de modèles conceptuels:
Le modèle en étoile
Le modèle en flocons de neige
Le modèle en constellation
● La table de fait inclue une ou plusieurs mesures, qui doivent être observables
sur l’ensemble des dimensions.
Il n’ y a pas de relations directes entre les tables de dimensions, et les
dimensions ne sont pas normalisées.
41
Modélisation conceptuelle: modèle en étoile
Avantages
Le modèle est très simple de compréhension
Les requêtes sont peu coûteuses
L’intégration des données est simple
Inconvénients
Le stockage est très coûteux
L’alimentation est plutôt complexe
Le schéma est plutôt ambiguë, et laisse
difficilement percevoir les hiérarchies
42
Modélisation conceptuelle: modèle en étoile
43
Modélisation conceptuelle: modèle en flocons de neige
● C’est un dérivé du modèle en étoile. Il se différencie par la normalisation des
dimensions (3FN).
Il est obtenu en organisant les dimensions du modèle en étoile classique en
hiérarchies de dimensions.
44
Modélisation conceptuelle: modèle en flocons de neige
Avantages
Le stockage est très peu coûteux
Les hiérarchies sont clairement et facilement
perceptibles
Inconvénients
Les requêtes sont très coûteuses
Le modèle est plutôt complexe à modéliser et à
mettre en œuvre
45
Modélisation conceptuelle: modèle en flocons de neige
46
Modélisation conceptuelle: modèle en constellation
● C’est une série de modèle en étoile, ou en flocons, reliés entre eux par des
dimensions.
47
Modélisation conceptuelle: modèle en constellation
48
Modélisation logique
● La modélisation logique répond à la question « comment? » (quelle représentation
des données)
49
Modélisation logique: modèle ROLAP
● La modélisation logique ROLAP consiste à utiliser un SGBDR pour
l’implémentation de l’entrepôt de données.
Chaque fait correspond à une table relationnelle, de même que chaque
dimension.
Avantages Inconvénients
Approche est facile et peu coûteuse Requêtes très coûteuses
Elle passe à l’échelle Affichage des données peu intuitif
Évolution facile
50
Modélisation logique: modèle ROLAP
Exercice 4
Représenter graphiquement le modèle ci-dessous
51
Modélisation logique: modèle ROLAP
Exercice 5
Représenter graphiquement le modèle ci-dessous
52
Modélisation logique: modèle MOLAP
● La modélisation MOLAP consiste à implémenter l’entrepôt de données sur la
base d’un tableau multidimensionnel (encore appelé cube ou hypercube).
Les mesures sont stockées, dans des cellules.
Avantages Inconvénients
Temps d’accès aux données optimisé Solutions souvent propriétaires
Visualisation intuitive Problème d’eparsité des données
Passe mal à l’échelle
53
Modélisation logique: modèle MOLAP
54
Concept de magasin de données (rappel)
Définition
Le magasin de données est un sous-ensemble de l’entrepôt de données,
constitué de tables au niveau détail et à des niveaux plus agrégés, permettant
de restituer tout le spectre d’une activité métier.
L’ensemble des magasins de données de l’entreprise constitue l’entrepôt de
données.
● Autrement dit, les magasins de données sont des extraits de l’entrepôt de
données orientés métiers. Ex : ventes, RH, stocks, etc.
L’objectif d’un magasin de données est de servir un besoin métier spécifique,
avec un outil d’analyse ou de reporting qui lui est propre
56
Approches de conception d’un ED
1. Approche Top-down (Bill Inmon)
Cette approche consiste à concevoir tout l’entrepôt intégralement apriori, pour
ensuite créer les magasins de données à partir de là.
Avantages Inconvénients
Vision globale du système d’information Difficile et lent à mettre en œuvre
décisionnel Mise en œuvre coûteuse
Données normalisées et uniformisées
Maintenance facile
57
Approches de conception d’un ED
2. Approche Bottom-up (Ralph Kimball)
Il s’agit ici de concevoir d’abord les magasins de données un par un, pour
ensuite les regrouper suivant des dimensions communes pour constituer
l’entrepôt de données
Avantages Inconvénients
Rapide à mettre en œuvre Maintenance difficile : redondances
Mise en œuvre peu coûteuse à priori Problèmes d’intégration des magasins
de données
58
Cycle de vie d’un SID
1. Conception (définir la finalité de l’entrepôt, choisir le modèle)
59
Exercices
Exercice 6 (Enoncé)
Une société de distribution de carburant souhaite mettre en place un entrepôt de
données pour suivre son chiffre d’affaire. Les ventes sont réalisées par des
commerciaux et concernent plusieurs types de carburant : essence, pétrole et
gasoil. La société dispose de sites de distributions à Somgandé, Dassasgho et
Zogona.
L’entrepôt de données devrait permettre d’identifier les commerciaux les plus
performants, les types de carburant, ainsi que les sites les plus rentables.
1. Identifier le fait analysé et les axes d’analyse.
2. De quel type de modèle s’agit-il ? Pourquoi ?
3. Modéliser le modèle correspondant
60
Exercices
Exercice 6 (Corrigé)
● Proposition de modélisation
61
Exercices
Exercice 6 (Corrigé)
62
Exercices
Exercice 7 (Enoncé)
Une ONG intervenant dans la santé infantile souhaite faire une cartographie des
naissances dans les différentes localités du Burkina Faso. Pour cela, elle
souhaite intégrer les enregistrements journaliers de naissances obtenus à partir
de l’état civil de chaque commune dans un entrepôt de données.
La cartographie devrait ainsi permettre d’obtenir des statistiques par commune,
province et région. Une catégorisation des naissances par sexe est également
prévue.
1. Identifier le fait analysé et les axes d’analyse.
2. De quel type de modèle s’agit-il ? Pourquoi ?
3. Modéliser le modèle correspondant
63
Exercices
Exercice 7 (Corrigé)
● Proposition de modélisation
64
Exercices
Exercice 7 (Corrigé)
65
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion
66
5. Alimentation (ETL)
67
Processus ETL
E comme… Extract
● Elle doit suivre une planification précise, prenant en compte les données
cycliques. Il est également indispensable de mettre en place une stratégie de
marquage des données déjà extraites afin d’éviter les doublons.
68
Processus ETL
T comme… Transform
69
Processus ETL
L comme… Load
70
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion
71
6. Analyses : OLAP
72
Analyse OLAP: définition
Définition
L’OLAP (On-Line Analytical Processing) est une technologie permettant
d’extraire, comparer et analyser des données de façon interactive, à partir
d’une base de données conçue à cet effet.
74
Analyse OLAP: 12 règles de Codd
7. Gestion complète: le serveur OLAP doit assurer la gestion des
données clairsemées.
8. Multi-Utilisateurs: le serveur OLAP doit offrir un support multi-
utilisateurs (gestion des mises à jour,intégrité, sécurité).
9. Inter-Dimension: le serveur OLAP doit permettre la réalisation
d’opérations inter dimensions sans restriction.
10. Intuitivité: le serveur OLAP doit favoriser une manipulation intuitive des
données.
11. Flexibilité: la souplesse de l’édition des rapports est intrinsèque au
modèle.
12. Analyses sans limites: le nombre de dimensions et de niveaux
d’agrégation possibles doit être suffisant pour autoriser toute analyse
75
Analyse OLAP: opérateurs
Opérateur « cube »
76
Analyse OLAP: opérateurs
Opérateur « cube » (MOLAP)
● Eparsité: Un cube est considéré comme étant éparse si plus de 60%de ses
cellules sont vides.
● Exemple pour le cube VENTES
Nombre de cellules vides : 0
Nombre total de cellules : 3*3 = 9
Eparsité=0/9=0% →le cube n’est pas éparse
77
Analyse OLAP: opérateurs
Opérateur « cube » (ROLAP)
78
Analyse OLAP: opérateurs
Opérateur « cube » (ROLAP)
79
Analyse OLAP: opérateurs
Forage vers le haut (ROLL-UP)
engineers2018.wordpress.com 80
Analyse OLAP: opérateurs
Forage vers le bas (DRILL-DOWN)
engineers2018.wordpress.com
81
Analyse OLAP: opérateurs
Sélection/projection (SLICE)
engineers2018.wordpress.com
82
Analyse OLAP: opérateurs
Sélection/projection (DICE)
engineers2018.wordpress.com
83
Analyse OLAP: opérateurs
Réorientation (PIVOT)
engineers2018.wordpress.com
84
Analyse OLAP: opérateurs
Réorientation (SWITCH)
engineers2018.wordpress.com
85
Analyse OLAP: requêtes SQL
Syntaxe générale
86
Analyse OLAP: requêtes SQL
GROUP BY ROLLUP
● Cette clause calcule les agrégats (SUM, COUNT, MAX, MIN, AVG) à différents
niveaux d’agrégation
87
Analyse OLAP: requêtes SQL
GROUP BY CUBE
● La clause CUBE est similaire à ROLLUP mais permet de calculer toutes les
combinaisons d’agrégations possibles
88
Analyse OLAP: requêtes MDX
Syntaxe générale
89
Analyse OLAP: requêtes MDX
Exemple
[Espinasse, 2015]
90
Analyse OLAP: Exercices
Exercice 1
1. Compléter les cubes ROLAP suivants puis les représenter suivant
l’approche MOLAP
2. Calculer leur éparsité
91
Analyse OLAP: Exercices
Exercice 2
1. Représenter en mode ROLAP le cube suivant
2. Calculer son éparsité
92
Bonus: Métiers du la BI/Data science
Chief data officer
Il dirige la collecte des données, leur valorisation ainsi que la manière
stratégique dont l’entreprise va les utiliser.
C’est avant tout un manager mais il a une certaine expérience dans le
domaine de la data et a souvent commencé par analyser des données avant
de diriger une équipe.
Data scientist
C’est un profil assez généraliste. Il est capable de construire des modèles
d’interprétation de données en utilisant les outils de statistiques, les langages
de programmation, l’IA et des techniques propres au traitement des Big Data
lorsqu’il y a besoin
93
Bonus: Métiers du la BI/Data science
Data architect
Il intervient dans la mise en place d’architectures décisionnelles, et définit la
façon dont les données vont être stockées. Il maîtrise donc les outils Big Data
comme Hadoop mais gère aussi les solutions cloud.
Data analyst
C’est un spécialiste de l’analyse de données. Il arrive à la fin des projets en
support du data scientist. Il est chargé d’extraire les métriques les plus
importantes et de les présenter de manière pertinente.
94
Plan
1. Introduction
2. Généralités
3. Concepts de base
4. Modélisation et mise en oeuvre
5. Alimentation (ETL)
6. Analyses: OLAP
7. Conclusion
95
7. Conclusion
96
Conclusion
Au delà des SID classiques
● Solutions:
Entrepôts de données avec du NoSQL (MongoDB)
Lacs de données
97
Conclusion
Cette fois, c’est fini!
98