Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Chapitre 1 Fouille de Données

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 36

Ecole Centrale Polytechnique

Cours : DataMining
Chapitre 1 : La fouille de données

Elaboré par : Houcine ESSID

Niveau : 2ème année ING Affaires et Projets

1
Exemple introductif

On ne veut plus seulement savoir:

Combien de clients ont acheté tel produit, pendant tel période?

Mais …

Quel est le profit des clients?

Quels autres produits les intéresseront?

Quand seront-ils intéressés?

2
Exemple introductif

• Données Coûteuses en stockage


• Inexploitées

Problème de l’explosion de données


Les outils automatiques de collecte de données font que les Bases de
Données contiennent énormément de données (Ex: La base de données
des transactions d’un super marché)
Beaucoup de données mais peu de connaissances !

3
Méthodes classiques

Les statistiques:

Quelques centaines d’individus


Quelques variables (Echantillonnage)
Test d’hypothèse et lois statistiques

Analyse de données:

Quelques milliers d’individus


Plusieurs dizaines de variables
Construction de tableaux individu x variables
Importance de la représentation visuelle

4
Augmentation sans cesse des données générées:
Twitter: 50 M tweets /jour = 7 To
Facebook: 10 To /jour
YouTube: 50h de vidéos chargées /mn
2,9 M de mail /Seconde

Contexte actuel:

Quelques millions d’individus


Quelques centaines de variables
Types de variables (numériques ou symboliques)
2,9 M de mail /Seconde

Solution:

Data-Mining = Fouille de données

5
Définition de la fouille de données

La fouille de données ou l’extraction des connaissances à partir des données


(ECD) respectivement en anglais data mining (DM) ou knowledge discovery in
databases (KDD)

C’est l’ensemble des méthodes et techniques destinées


➢ à l’exploration et l’analyse
➢ de (grandes) bases de données de façon automatique ou semi
automatique
➢ en vue de détecter dans ces données des règles, des associations, des
tendances inconnues ou cachées, des structures particulières restituant
l’essentiel de l’information utile
➢ pour aider à la prise de décisions

Le DM est l’art d’extraire des informations ou même des connaissances à partir


des données
6
Définition de la fouille de données (suite)
Les règles à trouver sont du genre:

• Les clients ayant tel profil achètent tel type de produit

• Les clients ayant tel profil arrivent plus souvent au contentieux

•Les acheteurs de couches pour bébés dans un supermarché le samedi après 18


heures sont souvent aussi acheteurs de bières

• Les clients ayant acquis le produit A et le produit B acquièrent plus souvent le


produit C, en même temps ou n mois plus tard

• Les clients ayant tels comportement, qui n’ont pas acheté tels produits dans tel
intervalle de temps, risquent de nous quitter pour la concurrence

On voit dans les deux derniers exemples : il nous faut un historique des données
relatives à chaque client.

Le DM est un élément clé de la gestion de la relation client et du


marketing one-to-one
7
Domaines d’application du DM

8
Domaines d’application du DM (1)

• Activité commerciales : grandes distribution, vente par


correspondance, banque, assurance
• Segmentation de la clientèle
• Détermination du profil du consommateur (pour mieux le servir, pour augmenter sa
satisfaction, pour augmenter sa fidélité) car il est plus coûteux d’acquérir un client que de le
conserver.
• Analyse du panier de la ménagère
• Mise au point de stratégies de rétention de la clientèle
•Prédiction des ventes
•Détection des fraudes au niveau des banques et des assurances
•Identification des clients à risque

9
Domaines d’application du DM (2)

• Activités Scientifiques :
• Diagnostic médical
• Santé publique
• Etude du génome
• Exploitation de données astronomiques

• Activités Industrielles :
• détection et diagnostic des pannes et des défauts
•Analyse des flux dans les réseaux de distribution

10
Exemples commerciaux

e-commerce

➢ personnalisation des pages du site web de l’entreprise, en fonction du profil de


chaque internaute
➢ optimisation de la navigation sur un site web

11
Exemples médicaux
➢Mettre en évidence des facteurs de risque ou de rémission dans certaines maladies
(infarctus et des cancers) –Choisir le traitement le plus approprié –Ne pas prodiguer des
soins inutiles

➢Déterminer des segments de patients susceptibles d’être soumis à des protocoles


thérapeutiques déterminés, chaque segment regroupant tous les patients réagissant
identiquement

➢Décryptage du génome

Le génome est l'ensemble du matériel génétique d'un individu ou d'une espèce codé
dans son ADN

➢Tests de médicaments, de cosmétiques


Prédire les effets sur la peau humaine de nouveaux cosmétiques

12
CRM Architecture d'une
DataWarehouse Reporting

Billing
Data
Warehouse
ETLR Analytics

ERP

Data

Summary
Synchronisation Mining

Data
Data
Raw
Data
massive Mart
Flat Files d'informations

Exploitation
et analyse
Centralisation
des données
des données
Sources
13
Data Mining vs informatique
décisionnelle (suite)
L’informatique décisionnelle (… BI pour Business Intelligence) :
moyens, outils et méthodes permettant de collecter, consolider, modéliser et
restituer les données d'une entreprise
en vue d'offrir une aide à la décision et de permettre aux responsables de la
stratégie d'une entreprise d’avoir une vue d’ensemble de l’activité traitée.
La BI permet de :
• Sélectionner les données (par rapport à un sujet et/ou une période)
• Trier, regrouper ou répartir ces données selon certains critères
• Élaborer des calculs récapitulatifs « simples » (totaux, moyennes
conditionnelles, etc.)
• Présenter les résultats de manière synthétique (graphique et/ou tableaux de
bord) REPORTING

Le Data Mining est proche de ce cadre, mais il introduit une dimension supplémentaire
qui est la modélisation « exploratoire » (détection des liens de cause à effet, validation de
leur reproductibilité)

14
Le Data Mining repose sur des algorithmes complexes et sophistiqués
permettant de segmenter les données et d’évaluer les probabilités futures.

Data Visualization

l’induction de règle

La méthode du Exemples d'algorithmes


voisin le plus
proche

Les réseaux de neurones artificiels les arbres décisionnels

15
Types de relation
Classes
Associations
Les données
stockées sont Les données peuvent
utilisées pour être minées pour
localiser les identifier des
données en associations.
groupes Types de
prédéterminés
relations
dégagées

Clusters Patterns
Les données sont séquentiels
regroupées par
rapport à des Les données sont
relations logiques minées pour
ou aux préférences anticiper les patterns
des clients de comportements et
16
les tendances
Processus de fouille de données

17
Processus de fouille de données (suite)

→ Définition des objectifs


choix ou définition
• du sujet à étudier (exemple : quel est le profil des clients ayant acheté un
produit donné)
• de la population cible (les prospects et les clients ou les clients uniquement,
tous les malades ou seulement les malades curables par traitement testé…)
• définir l’entité statistique étudiée ( la personne, le foyer réduit aux
conjoints, le foyer)
• de certains critères essentiels et en particulier le phénomène à prédire,
planifier le projet et spécifier les résultats attendus

18
Processus de fouille de données (suite)

→ Sélection des données

• obtention des données en accord avec les objectifs que l'on s'impose.
• Ces données proviennent
• d'entrepôts de données
• bases de données relationnelles
• fichiers plats
• etc.

19
Processus de fouille de données (suite)

→ Préparation des données


Il s’agit en fait de nettoyer les données. Une fois le projet bien défini et précis, les
données doivent être les plus adaptées possibles. Il faut :
• enlever les erreurs et les doublons,
• contrôler le domaine des valeurs,
• compléter les informations manquantes
- ignorer l’observation,
- utiliser une valeur moyenne,
- utiliser la valeur moyenne pour les exemples d’une même classe,
- utiliser la régression
• coder et normaliser les données.
- agrégation (somme, moyenne)
- discrétisation (rendre discrète une variable continue)
- uniformisation d’échelle ou standardisation
-Construction de nouvelles variables
20
Processus de fouille de données (suite)
→Data mining
La fouille de données est le cœur du processus car elle permet d'extraire de l'information
des données. C'est une étape difficile à mettre en œuvre, coûteuse et dont les résultats
doivent être interprétés et relativisés. Une approche traditionnelle pour découvrir ou
expliquer un phénomène est de
1. regarder, explorer,
2. établir un modèle ou une hypothèse,
3. essayer de le contredire ou le vérifier comme en 1 ; recommencer le point 2
jusqu'à obtenir une réponse de qualité satisfaisante

21
Processus de fouille de données (suite)

→Data mining (suite)

la qualité du modèle obtenu se mesure selon les critères suivants :


•Rapide à créer ;
•rapide à utiliser ;
•compréhensible pour l'utilisateur ;
•les performances sont bonnes ; Le modèle est fiable ;
•les performances ne se dégradent pas dans le temps ;

22
Processus de fouille de données (suite)

→interprétation et validation

Interpréter un modèle revient à lui trouver une explication. Les méthodes de validation
vont déprendre de la nature de la tâche et du problème considéré. Nous distinguerons
deux modes de validation : statistique et/ou par expertise.

ensemble d’apprentissage
Validation statistique par le test
ensemble de test

Construction d’un modèle sur l’ensemble d’apprentissage et test du modèle sur le jeu
de test pour lequel les résultats sont connus

23
Les classes des techniques de DM
Il existe sept classes de techniques de DM. Chaque classe est composée d’un
ensemble d’algorithmes permettant d’extraire à partir d’un grand volume de données
des relations pertinentes. Ces classes sont :

La classification

Le clustering

L’association

Les modèles séquentiels

La régression

La prévision

D’autres techniques

24
Les classes des techniques de DM
(suite)
La classification

permet de définir les caractéristiques de certains groupes (tels que les clients qu’a
perdu une entreprise). Ces méthodes permettent de prédire l’appartenance d’une
instance de données à des classes déjà connues. On veut par exemple savoir si la
journée de demain sera « pluvieuse » ou « ensoleillée ». Parmi les techniques de
classification on trouve les arbres de décision et les réseaux de neurones artificiels.

25
Les classes des techniques de DM
(suite)
Exemple de techniques de classification

26
Les classes des techniques de DM
(suite)
Le clustering ou la segmentation

permet l’identification de groupes d’éléments partageant certaines caractéristiques


(dans ce cas les classes ne sont pas prédéfinies). Les approches de clustering
peuvent résoudre les problèmes de segmentation. Les algorithmes de clustering
peuvent être utilisés pour l’identification des classes de clients ayant de besoins
donné.

27
Les classes des techniques de DM
(suite)
Exemple de techniques de segmentation

Algorithme des k-means

28
Les classes des techniques de DM
(suite)

Les règles d’association


identifie des relations entre les évènements qui surviennent en même temps. Les
approches d’association s’attaquent à des classes de problèmes tels que l’analyse du
panier de la ménagère. Dans ce cas on essaye de répondre à la question suivante
« Quels sont les produits qui sont achetés ensembles » quel est le degré de fiabilité
de ces réponses. Dans ce cas, il y a utilisation des méthodes statistiques.
Exemple de règle: si pizza alors coca

Les modèles séquentiels


similaire à l’association sauf que les relations ont lieu sur une période de temps (par
exemple les visites répétée au supermarché, …)
29
Les classes des techniques de DM
(suite)

La régression

utilisée pour effectuer des prédictions. La régression utilise les données pour générer une
prévision. Les techniques utilisées peuvent être linéaires ou non linéaires. L’objectif
consiste à trouver, dans un premier temps, des variables explicatives dont dépend un
phénomène donné appelé variable expliquée et ensuite à calculer les coefficients de
dépendance.

30
Les classes des techniques de DM
(suite)

observation

Droite de régression
Y= aX+b

31
Les classes des techniques de DM
(suite)

La prévision
Il s’agit là de prévoir les valeurs futures d’un phénomène sur la base de
ses valeurs antérieures (on parle de prévision de la demande). Il s’agit là
d’une autre forme d’estimation où on utilise les méthodes statistiques des
séries temporelles.
D’autres modèles
ils sont essentiellement basées sur des méthodes avancées d’intelligence
artificielle. Elles incluent le raisonnement à base de cas, la logique floue,
les algorithmes génétiques.

32
Apprentissage supervisé vs techniques
Apprentissage non supervisé

Apprentissage non supervisé ou apprentissage automatique


La segmentation, les règles d’association sont des tâches non supervisées où la
fouille de données n’a pas un objectif à priori.
→ DM explicatif ou descriptif (on cherche plus à expliquer les relations entre les
variables sans disposer d’une variable dépendante)

Apprentissage supervisé
La classification, la prévision sont des tâches supervisées.
→ DM Prédictif (on dispose d’une variable dépendante à prédire ou à estimer )

33
34
Le text Mining

Text Mining
• méthodes, de techniques et d'outils pour exploiter les documents non
structurés (les fichiers bureautiques de type word, les emails, les propos
échangés sur les forums et médias sociaux, les documents de présentation de
type powerpoint , etc.)

• utilisé pour classer des documents, réaliser des résumés de synthèse


automatique ou encore pour assister la veille stratégique ou technologique
selon des pistes de recherches prédéfinies.

•utilisé dans la mesure de l’e-réputation.

35
Le Web Mining- image mining

web mining
• ensemble des techniques qui visent à explorer, traiter et analyser les grandes
masses d’informations consécutives à une activité Internet.
web mining permet
• l’optimisation des sites internet,
• une meilleure connaissance de l’internaute
• Croisement avec les bases de données l’entreprise (BD, wiki, fichier log)
Image mining
•reconnaissance automatique des formes ou d’un visage
•détection d’une échographie normale, d’une tumeur)

Fouille sonore, etc.

36

Vous aimerez peut-être aussi