Chapitre 1 Fouille de Données
Chapitre 1 Fouille de Données
Chapitre 1 Fouille de Données
Cours : DataMining
Chapitre 1 : La fouille de données
1
Exemple introductif
Mais …
2
Exemple introductif
3
Méthodes classiques
Les statistiques:
Analyse de données:
4
Augmentation sans cesse des données générées:
Twitter: 50 M tweets /jour = 7 To
Facebook: 10 To /jour
YouTube: 50h de vidéos chargées /mn
2,9 M de mail /Seconde
Contexte actuel:
Solution:
5
Définition de la fouille de données
• Les clients ayant tels comportement, qui n’ont pas acheté tels produits dans tel
intervalle de temps, risquent de nous quitter pour la concurrence
On voit dans les deux derniers exemples : il nous faut un historique des données
relatives à chaque client.
8
Domaines d’application du DM (1)
9
Domaines d’application du DM (2)
• Activités Scientifiques :
• Diagnostic médical
• Santé publique
• Etude du génome
• Exploitation de données astronomiques
• Activités Industrielles :
• détection et diagnostic des pannes et des défauts
•Analyse des flux dans les réseaux de distribution
10
Exemples commerciaux
e-commerce
11
Exemples médicaux
➢Mettre en évidence des facteurs de risque ou de rémission dans certaines maladies
(infarctus et des cancers) –Choisir le traitement le plus approprié –Ne pas prodiguer des
soins inutiles
➢Décryptage du génome
Le génome est l'ensemble du matériel génétique d'un individu ou d'une espèce codé
dans son ADN
12
CRM Architecture d'une
DataWarehouse Reporting
Billing
Data
Warehouse
ETLR Analytics
ERP
Data
Summary
Synchronisation Mining
Data
Data
Raw
Data
massive Mart
Flat Files d'informations
Exploitation
et analyse
Centralisation
des données
des données
Sources
13
Data Mining vs informatique
décisionnelle (suite)
L’informatique décisionnelle (… BI pour Business Intelligence) :
moyens, outils et méthodes permettant de collecter, consolider, modéliser et
restituer les données d'une entreprise
en vue d'offrir une aide à la décision et de permettre aux responsables de la
stratégie d'une entreprise d’avoir une vue d’ensemble de l’activité traitée.
La BI permet de :
• Sélectionner les données (par rapport à un sujet et/ou une période)
• Trier, regrouper ou répartir ces données selon certains critères
• Élaborer des calculs récapitulatifs « simples » (totaux, moyennes
conditionnelles, etc.)
• Présenter les résultats de manière synthétique (graphique et/ou tableaux de
bord) REPORTING
Le Data Mining est proche de ce cadre, mais il introduit une dimension supplémentaire
qui est la modélisation « exploratoire » (détection des liens de cause à effet, validation de
leur reproductibilité)
14
Le Data Mining repose sur des algorithmes complexes et sophistiqués
permettant de segmenter les données et d’évaluer les probabilités futures.
Data Visualization
l’induction de règle
15
Types de relation
Classes
Associations
Les données
stockées sont Les données peuvent
utilisées pour être minées pour
localiser les identifier des
données en associations.
groupes Types de
prédéterminés
relations
dégagées
Clusters Patterns
Les données sont séquentiels
regroupées par
rapport à des Les données sont
relations logiques minées pour
ou aux préférences anticiper les patterns
des clients de comportements et
16
les tendances
Processus de fouille de données
17
Processus de fouille de données (suite)
18
Processus de fouille de données (suite)
• obtention des données en accord avec les objectifs que l'on s'impose.
• Ces données proviennent
• d'entrepôts de données
• bases de données relationnelles
• fichiers plats
• etc.
19
Processus de fouille de données (suite)
21
Processus de fouille de données (suite)
22
Processus de fouille de données (suite)
→interprétation et validation
Interpréter un modèle revient à lui trouver une explication. Les méthodes de validation
vont déprendre de la nature de la tâche et du problème considéré. Nous distinguerons
deux modes de validation : statistique et/ou par expertise.
ensemble d’apprentissage
Validation statistique par le test
ensemble de test
Construction d’un modèle sur l’ensemble d’apprentissage et test du modèle sur le jeu
de test pour lequel les résultats sont connus
23
Les classes des techniques de DM
Il existe sept classes de techniques de DM. Chaque classe est composée d’un
ensemble d’algorithmes permettant d’extraire à partir d’un grand volume de données
des relations pertinentes. Ces classes sont :
La classification
Le clustering
L’association
La régression
La prévision
D’autres techniques
24
Les classes des techniques de DM
(suite)
La classification
permet de définir les caractéristiques de certains groupes (tels que les clients qu’a
perdu une entreprise). Ces méthodes permettent de prédire l’appartenance d’une
instance de données à des classes déjà connues. On veut par exemple savoir si la
journée de demain sera « pluvieuse » ou « ensoleillée ». Parmi les techniques de
classification on trouve les arbres de décision et les réseaux de neurones artificiels.
25
Les classes des techniques de DM
(suite)
Exemple de techniques de classification
26
Les classes des techniques de DM
(suite)
Le clustering ou la segmentation
27
Les classes des techniques de DM
(suite)
Exemple de techniques de segmentation
28
Les classes des techniques de DM
(suite)
La régression
utilisée pour effectuer des prédictions. La régression utilise les données pour générer une
prévision. Les techniques utilisées peuvent être linéaires ou non linéaires. L’objectif
consiste à trouver, dans un premier temps, des variables explicatives dont dépend un
phénomène donné appelé variable expliquée et ensuite à calculer les coefficients de
dépendance.
30
Les classes des techniques de DM
(suite)
observation
Droite de régression
Y= aX+b
31
Les classes des techniques de DM
(suite)
La prévision
Il s’agit là de prévoir les valeurs futures d’un phénomène sur la base de
ses valeurs antérieures (on parle de prévision de la demande). Il s’agit là
d’une autre forme d’estimation où on utilise les méthodes statistiques des
séries temporelles.
D’autres modèles
ils sont essentiellement basées sur des méthodes avancées d’intelligence
artificielle. Elles incluent le raisonnement à base de cas, la logique floue,
les algorithmes génétiques.
32
Apprentissage supervisé vs techniques
Apprentissage non supervisé
Apprentissage supervisé
La classification, la prévision sont des tâches supervisées.
→ DM Prédictif (on dispose d’une variable dépendante à prédire ou à estimer )
33
34
Le text Mining
Text Mining
• méthodes, de techniques et d'outils pour exploiter les documents non
structurés (les fichiers bureautiques de type word, les emails, les propos
échangés sur les forums et médias sociaux, les documents de présentation de
type powerpoint , etc.)
35
Le Web Mining- image mining
web mining
• ensemble des techniques qui visent à explorer, traiter et analyser les grandes
masses d’informations consécutives à une activité Internet.
web mining permet
• l’optimisation des sites internet,
• une meilleure connaissance de l’internaute
• Croisement avec les bases de données l’entreprise (BD, wiki, fichier log)
Image mining
•reconnaissance automatique des formes ou d’un visage
•détection d’une échographie normale, d’une tumeur)
36