Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Fiche de TD N°1 Entrepôt de Données

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 7

Fiche de TD N°1 Entrepôt de données 2020-2021

Exercice 1 :

Un chef d'un grand groupe regroupant plusieurs compagnies situées dans plusieurs pays souhaite
réaliser une étude sur ses employés. Pour cela il a à sa disposition les données du service des
ressources humaines sur les employés. Voici quelles sont les données à sa disposition et comment
est organisée l'entreprise : Pour chaque employé on conserve son nom, sa date de naissance,
son sexe et sa situation familiale. Lorsqu'il est engagé dans le groupe chaque employé se voit attribuer
un numéro d'employé, il est affecté dans un service d'une compagnie du groupe. On enregistre sa
data d'engagement. Un employé est engagé avec un type de contrat particulier. Chaque employé
est engagé à un grade particulier qui caractérise son niveau d'avancement dans l'entreprise, ce
grade peut évoluer au cours de sa carrière. Les grades vont de 1 à 25. Un employé devient cadre
lorsque son grade est supérieur à 20. Chaque année les employés peuvent recevoir une prime de
performance plus ou moins importante selon le travail qu'ils ont effectué.

Le décideur de ce groupe souhaite analyser un certain nombre de variables :


- Le nombre d'employés
- Le % d'employés (nombre d'employé considéré / nombre total d'employé)
- Le salaire moyen
- Le nombre de jours d'absence
- Les primes de performance moyennes
Il souhaite analyser ces variables en fonction de plusieurs paramètres : le numéro d'employé,
le type de contrat, le sexe, l'âge, le grade, le statut marital, l'ancienneté.
Il souhaite pouvoir notamment répondre aux questions suivantes :
- Quels pays et quelles compagnies ont le plus d'employés, les plus hauts salaires… ?
- Quel était le nombre d'employé de la compagnie X au premier trimestre de 2004 ?
- Quel est le profil (sexe, âge, grade) des employés les plus "dynamiques" ?
- Y a-t-il un rapport entre l'ancienneté des employés et leur performance ?
- Quels sont les mois de l'année où les employés sont les plus absents ?

1. Identifier tout d’abord les faits et les dimensions pour cette application et proposer éventuellement
une hiérarchie pour ces dimensions (on pourra par exemple regrouper certaines valeurs comme
l’âge: 20-30 ans, 30-40…).

2. Indiquer pour chaque fait s’il est additif, semi-additif (sur quelles dimensions) ou non additif ?

3. Proposer un modèle en étoile et en flocon pour cette application.

4. Le groupe compte en moyenne 15 000 salariés par mois, évaluer la taille de l’entrepôt avec un suivi
sur 40 ans.

Exercice 2 :

Une compagnie d’assurance possède une application de production qui permet de gérer les
polices (contrats) de ses clients ainsi que les sinistres (accidents) déclarés par ces clients.
Gestion des polices
Pour gérer les polices, les agents d’assurance peuvent effectuer les transactions suivantes :
- Créer, mettre à jour ou supprimer une police d’assurance
- Créer, mettre à jour ou supprimer un risque pour une police donnée (3 types de risque :
automobile, immobilier, responsabilité civile)
- Créer, mettre à jour ou supprimer des biens assurés (voiture, maison) sur un risque
- Chiffrer le coût pour le client pour l’assurance d’un bien et les échéances mensuelles de
paiement.
Fiche de TD N°1 Entrepôt de données 2020-2021

Différentes informations sont enregistrées : client(personne privée ou morale), agent qui « crée » le
bien, type de risque, date de début et date de clôture de l’assurance pour un bien donné, date et
montant des paiements dus et réalisés par les clients, note pour le bien (1 : probabilité de cout
élevé, 2 : moyen, 3 : faible).
Gestion des sinistres
Pour gérer les sinistres déclarés par les clients, les agents d’assurance ont à leur disposition les
transactions suivantes :
- Créer, mettre à jour ou supprimer une déclaration de sinistre
- Créer, mettre à jour ou supprimer une expertise
- Créer, mettre à jour ou supprimer des paiements
- Clore le sinistre
Différentes informations sont enregistrées : date de début et date de clôture du sinistre, client, agent,
biens sinistrés, risque et police associées, les tiers impliqués dans le sinistre, date et montant des
paiements dus, réalisés et perçus par la banque.
Taille de l’entrepôt :
- Nombre de polices : 2 millions
- Moyenne de biens couverts par police : 10
- Pourcentage de biens assurés donnant lieu à un sinistre par an : 5%
- Temps d’ouverture d’un sinistre : 1 an
- Nombre d’années : 3
- Taille d’une variable (clé ou indicateur) de table de faits : 8 octets
A partir de cette application, on veut créer un entrepôt de données permettant de répondre aux
questions suivantes :
- on ne s’intéresse qu’à la globalisation par mois des transactions.
- pour chaque bien assuré, on veut connaître le montant de la prime associée (somme payée par le
client pour assurer le bien).
- On veut aussi l’état de la police : sinistre en cours, pas de sinistre.
- On veut sortir des tableaux par client, agent, mois, état, avec toutes les sommations possibles.
- De même on veut pouvoir sortir des tableaux de bord par sinistre avec le total payé dans le mois et
le total reçu dans le mois pour ce sinistre.
- Les tableaux de bord sinistre doivent pouvoir être édités par client, agent, mois, avec toutes les
sommations possibles.
- On veut pouvoir établir des tableaux de bord par client et bien assuré, du nb et du taux de sinistres,
du chiffre d’affaire et du rendement (versements/prime) et tous les totaux et sous-totaux
correspondants.
1) Tracer quelques tableaux de bord à titre d’exemple de ce que peut éditer l’entrepôt, par
exemple, l’évolution du chiffre d’affaire selon plusieurs dimensions.
2) Faire le schéma en étoile pour la partie gestion des polices. Tracer au moins un cube à trois
dimensions.
3) De même, faire le schéma en étoile pour la partie gestion des sinistres.
4) Faire un seul schéma regroupant ces deux tables de faits. Y a-t-il des dimensions conformes?
5) Evaluer la taille de l’entrepôt.

Exercice 3 :

On vous donne le cube Quadrant Analyse qui a la structure suivante :


<?xml version="1.0"?>
<Schema name="SampleData">
<!-‐-‐ Shared dimensions -‐-‐>
<Dimension name="Region">
<Hierarchy hasAll="true" allMemberName="All Regions">
Fiche de TD N°1 Entrepôt de données 2020-2021

<Table name="QUADRANT_ACTUALS"/>
<Level name="Region" column="REGION" uniqueMembers="true"/>
</Hierarchy>
</Dimension>
<Dimension name="Department">
<Hierarchy hasAll="true" allMemberName="All Departments">
<Table name="QUADRANT_ACTUALS"/>
<Level name="Department" column="DEPARTMENT" uniqueMembers="true"/>
</Hierarchy>
</Dimension>
<Dimension name="Positions">
<Hierarchy hasAll="true" allMemberName="All Positions">
<Table name="QUADRANT_ACTUALS"/>
<Level name="Positions" column="POSITIONTITLE" uniqueMembers="true"/>
</Hierarchy>
</Dimension>
<Cube name="Quadrant Analysis">
<Table name="QUADRANT_ACTUALS"/>
<DimensionUsage name="Region" source="Region"/>
<DimensionUsage name="Department" source="Department" />
<DimensionUsage name="Positions" source="Positions" />
<Measure name="Actual" column="ACTUAL" aggregator="sum" formatString="#,###.00"/>
<Measure name="Budget" column="BUDGET" aggregator="sum" formatString="#,###.00"/>
<Measure name="Variance" column="VARIANCE" aggregator="sum" formatString="#,###.00"/>
<!-‐-‐ <CalculatedMember name="Variance Percent" dimension="Measures"
formula="([Measures].[Variance]/[Measures].[Budget])*100" /> -‐-‐>
</Cube>
</Schema>

QUESTIONS :
1. Quels tableaux de la base de données sont utilisés dans ce schéma ?
2. Quelles sont les dimensions ?
3. Quelles sont les indicateurs proposés dans le schéma précédent ?

Exercice 4 :

On veut construire un entrepôt de données afin de stocker les informations sur les consultations d’un
pays. On veut notamment connaître le nombre de consultations, par rapport à différents critères
(personnes, médecins, spécialités, etc). Ces informations sont stockées dans les relations suivantes:

PERSONNE (id, nom, tel, adresse, sexe)

MEDECIN (id, tel, adresse, spécialité)

CONSULTATION (id_med, id_pers, date, prix)

1. Proposer un schéma relationnel qui tienne compte de la date, du jour de la semaine, du mois,
du trimestre et de l’année.
2. Quel est la table des faits ?
3. Quels sont les faits ?
4. Combien de dimensions ont été retenues ? Quelles sont-elles ?
5. Quelles hiérarchies peut-on observer entre ces dimensions ?
6. Faites une représentation du cube OLAP sans tenir compte des hiérarchies.
Fiche de TD N°1 Entrepôt de données 2020-2021

Exercice 5 :

Linaprice Hôtels est une petite chaîne d’hôtels ayant des propriétés dans plusieurs états
en Afrique. L’entreprise possède une base de données centralisée pour stocker et faire le suivi
des réservations de ses clients. En 2016, ils ont installé des restaurants appelés Café in the Hotel
dans plusieurs de leurs hôtels. Un système est employé pour faire le suivi des commandes et les
relayer aux employés dans les cuisines.

Linaprice Hôtels aimerait utiliser les données qu’ils ont emmagasinées pour mieux comprendre
la performance de leurs hôtels et restaurants. Ils ont également accès à une base de données de
critiques de clients provenant du site web HotelComplainer.com.

La tâche est de faire la conception de deux magasins de données (datamarts) utilisant les
données provenant des trois sources mentionnées ci-haut. Vous devrez faire un schéma
en étoile pour chaque magasin de données en choisissant les dimensions, les faits, et les attributs
à partir des sources, dont le schéma est fourni ci-dessous.

La table suivante présente les questions analytiques auxquelles devra répondre vos
magasins de données :

Datamart 1: Performance des hôtels Datamart 2: Performance des restaurants

• Durant quel mois y a-t-il le plus grand • Quels restaurants génèrent le plus de

nombre de réservations de chambre? revenus?

• Quelle est la saison morte pour les • Les restaurants les mieux cotés

hôtels situés dans une région génèrent-ils plus de revenus?

particulière? • Quel est l’item commandé le plus


souvent dans une région particulière?
• Quels hôtels génèrent le plus de

revenus (non attribuables aux

restaurants)?

• Quel est la durée moyenne des séjours

dans les hôtels de 4.5 étoiles ou plus?

• Les fumeurs restent-ils plus longtemps

que les non-fumeurs?

• Pour un hôtel donné, combien y a-t-il de

clients provenant d’un autre état?


Fiche de TD N°1 Entrepôt de données 2020-2021

1. Identifiez le principal évènement d’affaires pour chaque magasin de données; Posez-


vous la question suivante : “Quel est l’évènement d’affaires qui génère la (les)
métrique(s) de performance?
2. Identifiez les attributs associés aux faits. Posez-vous la question suivante : “Comment
l’évènement d’affaires est-il mesuré?”
3. Identifiez les dimensions et leurs attributs. Posez-vous la question suivante : “Quelles
données caractérisent les différents aspects de l’évènement d’affaires?”
4. Élaborez le schéma en étoile selon les principes vus en classe.

ANNEXE :
Hotel Reservation Database
Fiche de TD N°1 Entrepôt de données 2020-2021

Exercice 6 :
On dispose d’un outil OLAP pour analyser les salaires selon l’âge et le niveau d’étude des personnes et
la situation géographique des entreprises. L’analyse selon l’âge peut se faire par année ou par décade
(tranches de 10 années à partir de 14 ans et jusqu’à 73 ans). L’analyse du niveau d’étude peut se faire
par le niveau d’enseignement atteint en fin d’études (primaire, secondaire, supérieur) ou par le dernier
diplôme obtenu (certificat de fin d’étude primaire, BEPC, Bac, Licence, Master). L’analyse de la
situation géographique peut se faire par ville, département, région ou pays.
1. Quel est le schéma relationnel en étoile le plus approprié pour cette analyse.
2. Quel est la table des faits ?
3. Quels sont les faits ?
4. Combien de dimensions ont été retenues ? Quelles sont-elles ?
5. Quelles hiérarchies peut-on observer entre ces dimensions ?
6. Faites une représentation du cube OLAP sans tenir compte des hiérarchies.
Exercice 7 :
Une banque distribue une carte de paiement « carte de crédit » à ses clients. Elle décide de réaliser un
Datawarehouse (DW) afin de faire le suivi des paiements suivants effectués avec la carte :
a) Voyages en avion,
b) Locations de voiture,
c) Hôtellerie.
Elle veut faire un suivi indépendant de chacun des paiements a, b ou c, mais aussi avoir la possibilité
d’un suivi global.
A chaque déplacement en avion, la compagnie aérienne lui envoie un fichier contenant les éléments
suivants: identification de la carte de paiement, coordonnées du client et de la compagnie aérienne; ville
de départ, ville d’arrivée, n° du vol, date du vol, n° du billet, classe du siège, distance parcourue, date
d’achat et prix payé.
Les loueurs de véhicule transmettent après chaque location: identification de la carte de paiement,
coordonnées du client et de la société de location de véhicules, catégorie du véhicule, date de début de
location, date de fin de location, nombre de jours, distance parcourue, date de réservation et prix payé.
Fiche de TD N°1 Entrepôt de données 2020-2021

L’hôtel transmet à chaque séjour: identification de la carte de paiement, coordonnées du client et de


l’hôtel, catégorie de chambre, date de début de séjour, date de fin de séjour, nombre de nuitées, date de
réservation, prix de l’hébergement et prix de la restauration.
1. Un premier DW ne concerne que les déplacements en avion. Etablir le modèle dimensionnel.
Faire clairement apparaître les dimensions et les indicateurs. Ce DW doit permettre de répondre
aux questions suivantes : quel est le chiffre d’affaires (CA) par client, par date de voyage (et par
mois, trimestre et année), par compagnie aérienne, par ville de destination?
2. De même, établir deux autres modèles dimensionnels, l’un pour les locations de voiture, l’autre
pour l’hôtellerie. Dans le cas de la location de voiture, on souhaite éditer le CA, le nombre de
jours de location, et le kilométrage pour chaque: client, date de réservation, ville, loueur, et
catégorie de véhicule. Dans le cas de l’hôtellerie, on veut des tableaux de bord par client, hôtel,
ville, date de début de séjour, catégorie de chambre, faisant apparaître le nombre de nuitées, le
prix total payé.
3. On veut maintenant regrouper ces trois DW en un seul, afin de répondre aux questions
supplémentaires suivantes : Quel est le CA total induit par un déplacement en avion ? Quelle
est la durée du séjour ? Quel est le CA en location de voiture ? En hôtellerie ? On désire ici
pouvoir éditer les détails de CA par période de temps et par client, ville de destination, ville de
location (si différente), ville d’hébergement (si différente), compagnie aérienne, loueur
et hôtelier, et faire tous les regroupements utiles. Faire ressortir le modèle dimensionnel
d’un tel DW, en faisant clairement apparaître les dimensions et les indicateurs.

Vous aimerez peut-être aussi