Chapitre 1 Fouille de Données

Ecole Centrale Polytechnique
Cours : DataMining
Chapitre 1 : La fouille de données
Elaboré par : Houcine ESSID
Niveau : 2ème année ING Affaires et Projets
1
Exemple introductif
On ne veut plus seulement savoir:
Combien de clients ont acheté tel produit, pendant tel période?
Mais …
Quel est le profit des clients?
Quels autres produits les intéresseront?
Quand seront-ils intéressés?
2
Exemple introductif
• Données Coûteuses en stockage

• Inexploitées
Problème de l’explosion de données

Les outils automatiques de collecte de données font que les Bases de
Données contiennent énormément de données (Ex: La base de données
des transactions d’un super marché)
Beaucoup de données mais peu de connaissances !
3
Méthodes classiques
Les statistiques:
Quelques centaines d’individus

Quelques variables (Echantillonnage)
Test d’hypothèse et lois statistiques
Analyse de données:
Quelques milliers d’individus

Plusieurs dizaines de variables
Construction de tableaux individu x variables
Importance de la représentation visuelle
4
Augmentation sans cesse des données générées:
Twitter: 50 M tweets /jour = 7 To
Facebook: 10 To /jour
YouTube: 50h de vidéos chargées /mn
2,9 M de mail /Seconde
Contexte actuel:
Quelques millions d’individus

Quelques centaines de variables
Types de variables (numériques ou symboliques)
2,9 M de mail /Seconde
Solution:
Data-Mining = Fouille de données
5
Définition de la fouille de données
La fouille de données ou l’extraction des connaissances à partir des données

(ECD) respectivement en anglais data mining (DM) ou knowledge discovery in
databases (KDD)
C’est l’ensemble des méthodes et techniques destinées

➢ à l’exploration et l’analyse
➢ de (grandes) bases de données de façon automatique ou semi
automatique
➢ en vue de détecter dans ces données des règles, des associations, des
tendances inconnues ou cachées, des structures particulières restituant
l’essentiel de l’information utile
➢ pour aider à la prise de décisions
Le DM est l’art d’extraire des informations ou même des connaissances à partir

des données
6
Définition de la fouille de données (suite)
Les règles à trouver sont du genre:
• Les clients ayant tel profil achètent tel type de produit
• Les clients ayant tel profil arrivent plus souvent au contentieux
•Les acheteurs de couches pour bébés dans un supermarché le samedi après 18

heures sont souvent aussi acheteurs de bières
• Les clients ayant acquis le produit A et le produit B acquièrent plus souvent le

produit C, en même temps ou n mois plus tard
• Les clients ayant tels comportement, qui n’ont pas acheté tels produits dans tel
intervalle de temps, risquent de nous quitter pour la concurrence
On voit dans les deux derniers exemples : il nous faut un historique des données
relatives à chaque client.
Le DM est un élément clé de la gestion de la relation client et du

marketing one-to-one
7
Domaines d’application du DM
8
Domaines d’application du DM (1)
• Activité commerciales : grandes distribution, vente par

correspondance, banque, assurance
• Segmentation de la clientèle
• Détermination du profil du consommateur (pour mieux le servir, pour augmenter sa
satisfaction, pour augmenter sa fidélité) car il est plus coûteux d’acquérir un client que de le
conserver.
• Analyse du panier de la ménagère
• Mise au point de stratégies de rétention de la clientèle
•Prédiction des ventes
•Détection des fraudes au niveau des banques et des assurances
•Identification des clients à risque
9
Domaines d’application du DM (2)
• Activités Scientifiques :
• Diagnostic médical
• Santé publique
• Etude du génome
• Exploitation de données astronomiques
• Activités Industrielles :
• détection et diagnostic des pannes et des défauts
•Analyse des flux dans les réseaux de distribution
10
Exemples commerciaux
e-commerce
➢ personnalisation des pages du site web de l’entreprise, en fonction du profil de

chaque internaute
➢ optimisation de la navigation sur un site web
11
Exemples médicaux
➢Mettre en évidence des facteurs de risque ou de rémission dans certaines maladies
(infarctus et des cancers) –Choisir le traitement le plus approprié –Ne pas prodiguer des
soins inutiles
➢Déterminer des segments de patients susceptibles d’être soumis à des protocoles

thérapeutiques déterminés, chaque segment regroupant tous les patients réagissant
identiquement
➢Décryptage du génome
Le génome est l'ensemble du matériel génétique d'un individu ou d'une espèce codé
dans son ADN
➢Tests de médicaments, de cosmétiques

Prédire les effets sur la peau humaine de nouveaux cosmétiques
12
CRM Architecture d'une
DataWarehouse Reporting
Billing
Data
Warehouse
ETLR Analytics
ERP
Data
Summary
Synchronisation Mining
Data
Data
Raw
Data
massive Mart
Flat Files d'informations
Exploitation
et analyse
Centralisation
des données
des données
Sources
13
Data Mining vs informatique
décisionnelle (suite)
L’informatique décisionnelle (… BI pour Business Intelligence) :
moyens, outils et méthodes permettant de collecter, consolider, modéliser et
restituer les données d'une entreprise
en vue d'offrir une aide à la décision et de permettre aux responsables de la
stratégie d'une entreprise d’avoir une vue d’ensemble de l’activité traitée.
La BI permet de :
• Sélectionner les données (par rapport à un sujet et/ou une période)
• Trier, regrouper ou répartir ces données selon certains critères
• Élaborer des calculs récapitulatifs « simples » (totaux, moyennes
conditionnelles, etc.)
• Présenter les résultats de manière synthétique (graphique et/ou tableaux de
bord) REPORTING
Le Data Mining est proche de ce cadre, mais il introduit une dimension supplémentaire
qui est la modélisation « exploratoire » (détection des liens de cause à effet, validation de
leur reproductibilité)
14
Le Data Mining repose sur des algorithmes complexes et sophistiqués
permettant de segmenter les données et d’évaluer les probabilités futures.
Data Visualization
l’induction de règle
La méthode du Exemples d'algorithmes

voisin le plus
proche
Les réseaux de neurones artificiels les arbres décisionnels
15
Types de relation
Classes
Associations
Les données
stockées sont Les données peuvent
utilisées pour être minées pour
localiser les identifier des
données en associations.
groupes Types de
prédéterminés
relations
dégagées
Clusters Patterns
Les données sont séquentiels
regroupées par
rapport à des Les données sont
relations logiques minées pour
ou aux préférences anticiper les patterns
des clients de comportements et
16
les tendances
Processus de fouille de données
17
Processus de fouille de données (suite)
→ Définition des objectifs

choix ou définition
• du sujet à étudier (exemple : quel est le profil des clients ayant acheté un
produit donné)
• de la population cible (les prospects et les clients ou les clients uniquement,
tous les malades ou seulement les malades curables par traitement testé…)
• définir l’entité statistique étudiée ( la personne, le foyer réduit aux
conjoints, le foyer)
• de certains critères essentiels et en particulier le phénomène à prédire,
planifier le projet et spécifier les résultats attendus
18
→ Sélection des données
• obtention des données en accord avec les objectifs que l'on s'impose.
• Ces données proviennent
• d'entrepôts de données
• bases de données relationnelles
• fichiers plats
• etc.
19
→ Préparation des données

Il s’agit en fait de nettoyer les données. Une fois le projet bien défini et précis, les
données doivent être les plus adaptées possibles. Il faut :
• enlever les erreurs et les doublons,
• contrôler le domaine des valeurs,
• compléter les informations manquantes
- ignorer l’observation,
- utiliser une valeur moyenne,
- utiliser la valeur moyenne pour les exemples d’une même classe,
- utiliser la régression
• coder et normaliser les données.
- agrégation (somme, moyenne)
- discrétisation (rendre discrète une variable continue)
- uniformisation d’échelle ou standardisation
-Construction de nouvelles variables
20
→Data mining
La fouille de données est le cœur du processus car elle permet d'extraire de l'information
des données. C'est une étape difficile à mettre en œuvre, coûteuse et dont les résultats
doivent être interprétés et relativisés. Une approche traditionnelle pour découvrir ou
expliquer un phénomène est de
1. regarder, explorer,
2. établir un modèle ou une hypothèse,
3. essayer de le contredire ou le vérifier comme en 1 ; recommencer le point 2
jusqu'à obtenir une réponse de qualité satisfaisante
21
→Data mining (suite)
la qualité du modèle obtenu se mesure selon les critères suivants :

•Rapide à créer ;
•rapide à utiliser ;
•compréhensible pour l'utilisateur ;
•les performances sont bonnes ; Le modèle est fiable ;
•les performances ne se dégradent pas dans le temps ;
22
→interprétation et validation
Interpréter un modèle revient à lui trouver une explication. Les méthodes de validation
vont déprendre de la nature de la tâche et du problème considéré. Nous distinguerons
deux modes de validation : statistique et/ou par expertise.
ensemble d’apprentissage
Validation statistique par le test
ensemble de test
Construction d’un modèle sur l’ensemble d’apprentissage et test du modèle sur le jeu
de test pour lequel les résultats sont connus
23
Les classes des techniques de DM
Il existe sept classes de techniques de DM. Chaque classe est composée d’un
ensemble d’algorithmes permettant d’extraire à partir d’un grand volume de données
des relations pertinentes. Ces classes sont :
La classification
Le clustering
L’association
Les modèles séquentiels
La régression
La prévision
D’autres techniques
24
(suite)
La classification
permet de définir les caractéristiques de certains groupes (tels que les clients qu’a
perdu une entreprise). Ces méthodes permettent de prédire l’appartenance d’une
instance de données à des classes déjà connues. On veut par exemple savoir si la
journée de demain sera « pluvieuse » ou « ensoleillée ». Parmi les techniques de
classification on trouve les arbres de décision et les réseaux de neurones artificiels.
25
(suite)
Exemple de techniques de classification
26
(suite)
Le clustering ou la segmentation
permet l’identification de groupes d’éléments partageant certaines caractéristiques

(dans ce cas les classes ne sont pas prédéfinies). Les approches de clustering
peuvent résoudre les problèmes de segmentation. Les algorithmes de clustering
peuvent être utilisés pour l’identification des classes de clients ayant de besoins
donné.
27
(suite)
Exemple de techniques de segmentation
Algorithme des k-means
28
(suite)
Les règles d’association

identifie des relations entre les évènements qui surviennent en même temps. Les
approches d’association s’attaquent à des classes de problèmes tels que l’analyse du
panier de la ménagère. Dans ce cas on essaye de répondre à la question suivante
« Quels sont les produits qui sont achetés ensembles » quel est le degré de fiabilité
de ces réponses. Dans ce cas, il y a utilisation des méthodes statistiques.
Exemple de règle: si pizza alors coca
Les modèles séquentiels

similaire à l’association sauf que les relations ont lieu sur une période de temps (par
exemple les visites répétée au supermarché, …)
29
(suite)
La régression
utilisée pour effectuer des prédictions. La régression utilise les données pour générer une
prévision. Les techniques utilisées peuvent être linéaires ou non linéaires. L’objectif
consiste à trouver, dans un premier temps, des variables explicatives dont dépend un
phénomène donné appelé variable expliquée et ensuite à calculer les coefficients de
dépendance.
30
(suite)
observation
Droite de régression
Y= aX+b
31
(suite)
La prévision
Il s’agit là de prévoir les valeurs futures d’un phénomène sur la base de
ses valeurs antérieures (on parle de prévision de la demande). Il s’agit là
d’une autre forme d’estimation où on utilise les méthodes statistiques des
séries temporelles.
D’autres modèles
ils sont essentiellement basées sur des méthodes avancées d’intelligence
artificielle. Elles incluent le raisonnement à base de cas, la logique floue,
les algorithmes génétiques.
32
Apprentissage supervisé vs techniques
Apprentissage non supervisé
Apprentissage non supervisé ou apprentissage automatique

La segmentation, les règles d’association sont des tâches non supervisées où la
fouille de données n’a pas un objectif à priori.
→ DM explicatif ou descriptif (on cherche plus à expliquer les relations entre les
variables sans disposer d’une variable dépendante)
Apprentissage supervisé
La classification, la prévision sont des tâches supervisées.
→ DM Prédictif (on dispose d’une variable dépendante à prédire ou à estimer )
33
34
Le text Mining
Text Mining
• méthodes, de techniques et d'outils pour exploiter les documents non
structurés (les fichiers bureautiques de type word, les emails, les propos
échangés sur les forums et médias sociaux, les documents de présentation de
type powerpoint , etc.)
• utilisé pour classer des documents, réaliser des résumés de synthèse

automatique ou encore pour assister la veille stratégique ou technologique
selon des pistes de recherches prédéfinies.
•utilisé dans la mesure de l’e-réputation.
35
Le Web Mining- image mining
web mining
• ensemble des techniques qui visent à explorer, traiter et analyser les grandes
masses d’informations consécutives à une activité Internet.
web mining permet
• l’optimisation des sites internet,
• une meilleure connaissance de l’internaute
• Croisement avec les bases de données l’entreprise (BD, wiki, fichier log)
Image mining
•reconnaissance automatique des formes ou d’un visage
•détection d’une échographie normale, d’une tumeur)
Fouille sonore, etc.
36

Chapitre 1 Fouille de Données

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 1 Fouille de Données

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 1 Fouille de Données

Transféré par

Droits d'auteur :

Formats disponibles

Ecole Centrale Polytechnique

Elaboré par : Houcine ESSID

Niveau : 2ème année ING Affaires et Projets

On ne veut plus seulement savoir:

Combien de clients ont acheté tel produit, pendant tel période?

Quel est le profit des clients?

Quels autres produits les intéresseront?

Quand seront-ils intéressés?

• Données Coûteuses en stockage

Problème de l’explosion de données

Quelques centaines d’individus

Quelques milliers d’individus

Quelques millions d’individus

Data-Mining = Fouille de données

La fouille de données ou l’extraction des connaissances à partir des données

C’est l’ensemble des méthodes et techniques destinées

Le DM est l’art d’extraire des informations ou même des connaissances à partir

• Les clients ayant tel profil achètent tel type de produit

• Les clients ayant tel profil arrivent plus souvent au contentieux

•Les acheteurs de couches pour bébés dans un supermarché le samedi après 18

• Les clients ayant acquis le produit A et le produit B acquièrent plus souvent le

Le DM est un élément clé de la gestion de la relation client et du

• Activité commerciales : grandes distribution, vente par

➢ personnalisation des pages du site web de l’entreprise, en fonction du profil de

➢Déterminer des segments de patients susceptibles d’être soumis à des protocoles

➢Tests de médicaments, de cosmétiques

La méthode du Exemples d'algorithmes

Les réseaux de neurones artificiels les arbres décisionnels

→ Définition des objectifs

→ Sélection des données

→ Préparation des données

→Data mining (suite)

la qualité du modèle obtenu se mesure selon les critères suivants :

Les modèles séquentiels

permet l’identification de groupes d’éléments partageant certaines caractéristiques

Algorithme des k-means

Les règles d’association

Les modèles séquentiels

Apprentissage non supervisé ou apprentissage automatique

• utilisé pour classer des documents, réaliser des résumés de synthèse

•utilisé dans la mesure de l’e-réputation.

Fouille sonore, etc.

Vous aimerez peut-être aussi