Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

COURS SI Decisionnel

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 9

Concepts de l'informatique décisionnelle

Business Intelligence : Informatique Décisionnelle
On appelle «  aide à la décision  », «  décisionnel  » , ou encore  «  business  intelligence  », un 
ensemble   de   solutions   informatiques   permettant   l’analyse   des   données   de   l’entreprise,   afin   d’en 
dégager   des   informations   qualitatives   nouvelles,   qui   seront   la   base   de   décisions   tactiques   ou 
stratégiques.
Une entreprise brasse dans son système d’information d’immenses volumes de données, auxquelles 
il est très difficile de donner un sens, de comprendre ce qu’elles expriment (tendances sous­jacentes, 
faiblesses   ou   forces   cachées,   toutes   choses   que   l’on   devrait   connaître   pour  prendre   de   bonnes 
décisions).
Ainsi, les outils d’aide à la décision, avant d’aider la décision, aident d’abord à analyser les données 
afin de déceler des informations macroscopiques cachées dans de gros volumes de données.

Infocentre
L'infocentre  est un concept  commercial IBM de la fin des années 1970. Les informaticiens et les 
utilisateurs spécialisés dans la rédaction de requêtes pouvaient accéder rapidement à des données 
demandées par les dirigeants.
Avant   l'infocentre,   la   réponse   à   une   requête   supposait   le   développement   d'un   programme 
informatique   qui   générait   des   délais   d'attente   importants   et   l'incompréhension   des   décideurs   qui 
avaient le sentiment que leurs demandes étaient pourtant plutôt simples. 
Dans l'infocentre les requêtes étaient réalisées sur des réplicats des bases de production  à l'aide de 
langage de requêtes graphiques tel le le QBE, query by example.

La chaîne décisionnelle

Les informations issues  ..sont collectées, stockées et agrégées dans  ...sous le format de 


des applications de  un Datawarehouse afin de fournir les  restitution le plus 
gestion... indications souhaitées ... adapté

Collecte des données
Le système d'information de l'entreprise est souvent bâti sur des données réparties sur des systèmes 
hétérogènes.   Bien   que   la   standardisation   des   échanges   entre   les   divers   outils   informatiques   se 
développe, la disparité des formats des données est une réalité.

Jacques Chambon  1/9
Concepts de l'informatique décisionnelle

Avant de pouvoir exploiter ces données il faut les nettoyer, les formater et les consolider. Les outils 
d'ETL   (Extract   Transform   load)   permettent   d'automatiser   ces   traitements   et   de   gérer   les   flux   de 
données alimentant l'entrepôt de données.
Les outils d'ETL (Extract Transform Load) ont en charge de collecter et de préparer des données. 
• Extraire : Accéder à la majorité des systèmes de stockage de données (SGBD, ERP, fichiers 
à plat...) afin de récupérer les données identifiées et sélectionnées. Prendre en compte les 
questions de synchronisation et de périodicité des rafraîchissements. 
• Transformer : Toutes les données ne sont pas utilisables telles qu'elles. Elle méritent d'être 
vérifiées,  reformatées,   nettoyées afin  d'éliminer  les valeurs  aberrantes  et  les  doublons,  et 
consolidées. 
• Charger : Insérer les données dans le Data Warehouse. 
La gestion des données est une des fonctions primordiales de l'entreprise. Il est en effet important de 
garantir la qualité des données circulant au sein du système d'information et plus particulièrement du 
système décisionnel. 
Avant d'utiliser une information, le décideur se posera les questions suivantes : 
• Quelle est cette information ? 
• D'où provient­elle ? 
• Comment est­elle calculée ? 
• De quand date la dernière mise à jour? 
• Quelles sont les précautions d'usage ?... 
Toutes ces informations sur la donnée sont contenues dans un référentiel global : le référentiel de 
méta­données   utilisant   le   standard   « CWM »(Common   Warehouse   Metamodel),   specification 
décrivant les échanges de meta données entre les applications formant un SIAD (Système d'Aide à la 
Décision).

Stockage des Données
Les bases de données de production ne sont pas utilisables pour une exploitation décisionnelle. Les 
données brutes ne sont pas prêtes à cet usage et les requêtes décisionnelles sont particulièrement 
gourmandes en ressources machines.
Data­warehouse
Un   entrepôt   de   données   est   une   base   de   données   dans   laquelle   sont   recopiées   des   données 
opérationnelles, mais à laquelle aucune application opérationnelle (système opérant) n'accède. 
Le   DataWarehouse   (Entrepôt   de   Données)   est   le   lieu   de   stockage   intermédiaire   des   différentes 
données en vue de la constitution du système d'information décisionnel.
Le créateur du concept de DataWareHouse, Bill Inmon, le définit comme suit : 
« Un datawarehouse est une collection de données thématiques, intégrées, non volatiles et  
historisées pour la prise de décisions. »
Caractéristiques des données
Orienté sujet 
Orienté sujet 
Les  données  sont   organisées   pour  répondre   à  des  besoins   « métiers »  :   elles  sont   classées   par 
thème. Les données propres à un thème, les ventes par exemple, seront rapatriées des différentes 
bases OLTP  (Online transaction processing) de production et regroupées. 
Intégré 
Intégré 
Les données proviennent  de sources hétérogènes utilisant chacune un type de format.  Elles sont 
intégrées   avant   d'être   proposées   à   utilisation.   Un   « nettoyage »   préalable   des   données   est 
nécessaire dans un souci de rationalisation et de normalisation.
Non volatile 
Non volatile 
Les données une fois intégrée dans l'entrepôt ne sont pas appelées à être supprimées. (Read­Only) 

Jacques Chambon  2/9
Concepts de l'informatique décisionnelle

Historisé 
Historisé 
Les données mémorisées sont datées. Il est ainsi possible de visualiser leur évolution dans le temps. 
Le   degré   de   détail   de   l'archivage   est   bien   entendu   relatif   à   la   nature   des   données.   Toutes   les 
données ne méritent pas d'être archivées. 
Datamart
Les « entrepôts de données» partiels, limités à un domaine particulier sont qualifiés de « datamart ». 
Par exemple, dans le domaine marketing, se trouvent des datamart contenant une base clients et 
prospects. 
Les datamarts, peuvent être considérés comme des sous­référentiels de données ou vues par métier 
de   l'entreprise   (service   client,   etc.).   Cet   éclatement   permet   aux   outils   d'analyse   d'accéder   plus 
facilement au datawarehouse.
Les enjeux de l'approche entrepôt de données
Les bénéfices peuvent être très différents suivant les entreprises et les contextes.
Avantages
En séparant les systèmes opérationnels des systèmes décisionnels, les entrepôts de données offrent 
aux entreprises plusieurs avantages:
• Consolidation de données disparates et dispersées.
• Amélioration des flux de données en permettant une homogénéité des informations pour 
l'ensemble des utilisateurs.
• Assurer des gains de productivité par une meilleure connaissance du fonctionnement interne 
et des coûts de l'entreprise.
• Plus grande autonomie des utilisateurs.
Principaux facteurs de risques
Les   facteurs   de   risques   sont   multiples   et   l'entreprise   doit   impérativement   les   intégrer   dans   son 
diagnostic initial:
• L'approche entrepôt de données engage l'entreprise dans un véritable saut technologique qui 
devra être abordé par un réel changement culturel.
• Il existe un risque au niveau de la non utilisation ou de la mauvaise utilisation. D'où la 
nécessité de mise en place d'une politique de communication et de formation de l'ensemble 
des acteurs (informaticiens, opérationnels et décideurs).
• Le risque de sécurité des informations est également à prendre en compte en raison de la 
diffusion élargie de données. L'entreprise devra mettre en place de nouvelles procédures 
permettant la sécurité du système d'information.
• Risques liés à l'actualisation du système : les applications décisionnelles évoluent en 
permanence et .l' entreprise doit être capable d'anticiper et d'actualiser son système 
d'information.
Exploitation des Données
Une fois les données stockées, nettoyées, consolidées et accessibles, elles sont utilisables. Selon les 
besoins, différents types d'outils d'extraction et d'exploitation seront envisagés. 
Analyse multidimensionnelle
L'analyse multidimensionnelle consiste à modéliser des données selon plusieurs axes. L'exemple 
le plus classique : le calcul du chiffre d'affaires par catégorie de client sur une gamme de produit 
donnée   combine   trois   axes   (le   chiffre   réalisé,   la   catégorie   de   clients   et   la   ligne   de   produits).   De 
nombreux   autres   axes   supplémentaires   peuvent   être   définis :   zone   géographique   ou   équipe 
commerciale   en   charge   des   opérations   par   exemple.   Le   cube   "OLAP"   (pour  Online   analytical  
processing) désigne la technologie analytique qui s'applique à ce modèle de représentation.
Les structures multidimensionnelles OLAP (On Line Analytical Processing) permettent d'analyser des 
indicateurs (ventes, chiffre d'affaires, transactions...) et de les explorer suivants plusieurs dimensions 

Jacques Chambon  3/9
Concepts de l'informatique décisionnelle

(temps,   produit,   Catégorie...).   Les   choix   de   l'architecture   OLAP   vont   influer   sur   toutes   les 
composantes du système décisionnel : performance, volumétrie, temps de requête.

Evolution   du   chiffre   d'affaire   réalisé   pour   un  Evolution   du   chiffre   d'affaire   réalisé   pour   une 
produit par catégorie de client catégorie de client

Répartition du chiffre d'affaire par produit et par  Chiffre   d'affaire   pour   un   produit   avec   une 


catégorie de client sur une période catégorie de client à une période donnée.
Les différents modes de stockage OLAP
MOLAP (Multidimentional OLAP), est une solution de stockage qui garantit les temps de réponses, 
mais se traduit par des temps d'alimentation et de stockage plus importants. 
ROLAP  (Relational   OLAP)   stocke   les   données   dans   une   base   de   données   relationnelle,   mais 
détériore les temps de réponse, puisque les calculs sont effectués en dynamique lors de l'analyse. 
Le stockage est optimisé  et laisse une plus grande liberté de requête.
Les plates­formes décisionnelles évoluées permettent aujourd'hui une solution de continuité entre ces 
choix, en prévoyant notamment un choix hybride (HOLAP) où seule une partie des données sont pré­
calculées et stockées.

Jacques Chambon  4/9
Concepts de l'informatique décisionnelle

Recherches corrélatives : datamining, forage de données
« Le  data mining désigne  l’ensemble des algorithmes et des méthodes destinés à l’exploration et 
l’analyse de grandes bases de données informatiques en vue de détecter dans ces données, des 
règles, des associations, des tendances inconnues (non fixées a priori ), des structures particulières 
restituant   de   façon   concise   l’essentiel   de   l’information   utile   pour   l’aide   à   la   décision »   (Stéphane 
Tufféry : http://data.mining.free.fr)
En bout de course, les applications analytiques se chargent de recueillir les requêtes de l'utilisateur 
dans le langage de ce dernier puis de les communiquer à l'entrepôt, avant de produire les indicateurs 
de performance voulus. Au final, les résultats issus de ce traitement sont restitués et diffusés par le 
biais d'outils de reporting.
Tableaux de bord
« Un tableau de bord est un instrument de mesure de la performance facilitant le pilotage "pro­actif" 
d'une ou plusieurs activités dans le cadre d'une démarche de progrès. Le tableau de bord contribue à 
réduire  l'incertitude  et  facilite  la  prise  de  risque   inhérente  à  toutes décisions.   C'est   un instrument 
d'aide à la décision  qui dynamise la réflexion et facilite la communication »  
Reporting
Les outils de reporting proposent la réalisation de rapports selon un format prédéterminé. Les bases 
de données sont interrogées selon les requêtes SQL préparées lors de l'élaboration du modèle. Le 
rapport peut ensuite être diffusé sur l'Intranet, périodiquement en automatique ou ponctuellement à la 
demande.  
L'outil d'élaboration du modèle du rapport offre des fonctions spécifiques de calcul et de présentation 
(graphiques) afin de concevoir des comptes rendus adaptés et pertinents. 

OLTP et OLAP
Le terme OLTP On Line Transaction Processus regroupe les concepts mis en place par un système 
destiné   à   l'automatisation   d'un   processus.   On   utilise   pour   cela   une   base   de   données 
transactionnelles, dont la mise à jour est faite en ligne.
Le terme OLAP On Line Analysis Processus regroupe les concepts mis en place par un système 
d'analyse en ligne des données. On utilise pour cela une base de données décisionnelles, destinée à 
la prise de décision.
Les deux systèmes diffèrent pour :
•les utilisateurs ;
•le contenu des données ;
•la structure de la base de données ;
•l'administration du système.

OLTP OLAP

Utilisateurs

Les utilisateurs sont les rouages de l'entreprise Les   utilisateurs   observent   les   rouages   de 


l'entreprise

Beaucoup d'utilisateurs concurrents Peu d'utilisateurs (décideurs)

Une seule vision métier Traite plusieurs visions métier

Exécutent   un   grand   nombre   de   fois   la   même  Lisent uniquement les données qui sont souvent 


tâche récapitulées.

Lisent et modifient les données (système vivant) Les demandes sont similaires mais différentes.

Exigent   des   performances   (temps   réel   pour 


augmenter la productivité) ERP, GPAO, RH...  

Jacques Chambon  5/9
Concepts de l'informatique décisionnelle

OLTP OLAP

Contenu des données

Nécessaire au fonctionnement de l'entreprise Utilisé   pour   analyser   le   fonctionnement   de 


l'entreprise.

Normalisation en 3FN Agrégée (dénormalisée)

Non historisé Le temps est fondamental

Structures

Beaucoup de tables Peu de tables mais de grande taille

Petites requêtes sur sur une seule table Requêtes   larges   sur   une   grosse   quantité   de 


données

Temps de réponses instantanés (temps réel) Temps   de   réponse   de   quelques   secondes   à 


plusieurs minutes.

Administration

Forte disponibilité Disponibilité faible

Sauvegardes fréquentes  Sauvegardes   peu   fréquentes,   mais   très 


volumineuses.

Beaucoup de petites transactions En règle générale, une transaction par jour.

Peu de maintenance off­line Beaucoup de maintenance off­line

Modèle dimensionnel
La   modélisation   consiste   à   transformer   les   résultats   de   l'analyse   des   besoins   en   un   modèle 
dimensionnel. Ce type de modélisation diffère fortement de la modélisation entité­association.
La modélisation entité­association vise à éliminer les redondances et est particulièrement bien adapté 
aux   transactions;   Le   modèle   dimensionnel   est   lui   conçu   pour   être   interrogé   de   manière 
particulièrement efficace.

Le schéma en étoile

Jacques Chambon  6/9
Concepts de l'informatique décisionnelle

Table des faits
Une table des faits est une table qui contient les données à analyser. Ce type de table comporte un 
grand nombre de clés étrangères afin de la lier avec des tables de dimension.

Finesse ou grain
L'unité de temps la plus petite est appelée grain ou finesse de la table des faits. Si le grain est trop 
fin, la table résultante est gigantesque. Si le grain est trop petit, on ne peut revenir en arrière et on 
perd de l'information.

Les faits
Les champs qui ne sont pas clés étrangères sont les faits. Ils doivent être valorisés de façon continue 
et être additifs. 
Les valeurs discrètes sont réservées aux dimensions.

Table de dimensions
Les tables qui entourent la table des faits sont appelées « tables de dimension ». Ces tables sont 
composées d'attributs qui sont la plupart du temps de type caractère et discret. Ces attributs servent 
à stocker la description des dimensions et sont utilisés comme source de contraintes et d'en­tête de 
ligne dans le jeu de réponses de l'utilisateur.

Dimension et hiérarchie
Une   dimension   est   un   ensemble   de   valeurs   décomposables.   Les   valeurs   d'une   dimension   sont 
généralement   organisées   à   l'intérieur   d'une   hiérarchie.   L'accès   au   niveau   supérieur   dans   une 
hiérarchie est appelé « rolling up », et au niveau inférieur « drill down ».
Une hiérarchie peut être simple ou multiple.
Elle est réputée « simple », lorsque chaque enfant n'a qu'un seul père.

Hiérarchie Simple     Hiérarchie multiple

Jacques Chambon  7/9
Concepts de l'informatique décisionnelle

Exercices
Chiffre d'affaire
Une société vend des marchandises selon plusieurs canaux (provenance). Après avoir réfléchi à ses 
besoins en matière d'information décisionnelle, elle est arrivée au modèle dimensionnel suivant :

Vous trouverez, pour illustrer le modèle, une extraction des données, dans le fichier CA.mdb
Travail à faire
1. Quelle est la table des faits?
2. Quels sont les faits?
3. Combien de dimensions ont été retenues?
4. Quelles sont ces dimensions?
5. Comment peut­on qualifier la topologie de ce modèle?
6. A partir de la Base CA.mdb, élaborez le référentiel des méta­données.
7. Quelles sont les hiérarchies des dimensions? Dessinez les!
8. Dans la chaîne du décisionnel, où positionnez­vous la base CA.mdb
9. En utilisant le vocabulaire du décisionnel, comment pourriez­vous la qualifier?
10.Faites une représentation du cube OLAP sans tenir compte des hiérarchies.

Agence de voyages
Compagnies aériennes
Une agence de voyage   désire connaître le chiffre d’affaires (CA) par client,   par date de voyage 
( mois, trimestre et  année), par compagnie aérienne, par ville de  destination ? 
Les  tableaux  de   bord   doivent     pouvoir   présenter   les   totaux  et  sous   totaux    de   CA   :   tous  clients 
confondus, et/ou toutes  dates, et/ou toutes compagnies, et/ou toutes  destinations. 

Location voiture
La même agence de voyage pour sa branche location de voiture souhaite éditer le CA, le nombre de 
jours de location, et le kilométrage pour chaque : client, date de réservation, ville, loueur, et catégorie 
de véhicule, ainsi que les totaux et sous totaux  de CA : tous clients confondus, et/ou toutes  dates, 
et/ou tous loueurs, et/ou toutes  destinations. 

Jacques Chambon  8/9
Concepts de l'informatique décisionnelle

Hotellerie
La branche   Hotellerie  veut  des tableaux  de bord  par  client,  hôtel,   ville,   date de  début  de séjour, 
faisant apparaître le nombre de nuitées et le prix total payé . 

Cliniques
Un groupe de cliniques traite des patients qui viennent passer des examens. Les examens sont d’un 
type donnés et donne lieu à des résultats. Un examen est effectué par un médecin, qui est d’une 
spécialité donnée. Chaque spécialité est d’un type particulier. Enfin, chaque patient et chaque 
clinique est d’une ville donnée.
Travail à faire :
1. Présentez le modèle Conceptuel de Données
2. Présentez le modèle Dimensionnel

Jacques Chambon  9/9

Vous aimerez peut-être aussi