Cours5 Slides

Cours 5 : Classification (non supervisée)
Nathalie Villa-Vialaneix - nathalie.villa@math.univ-toulouse.fr

http://www.nathalievilla.org
Université Toulouse 1
M2 Statistique & Économétrie

Data Mining 1
Année 2008/2009
M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 1 / 21

Plan du cours
1 Motivations, tableaux de distances
2 Classification par moyennes mobiles
3 Classification hiérarchique (ascendante)

Motivations, tableaux de distances
Plan du cours

Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;

formes :
j
X = (xi )i =1,...,n, j =1,...,p ;
2 Un tableau de distances (ou de dissimilarités) de taille n × n
d’individus pris deux à deux.

formes :
j
X = (xi )i =1,...,n, j =1,...,p ;
Dans le premier cas, on se ramène au premier en calculant une
distance adéquate entre individus.

formes :
j
X = (xi )i =1,...,n, j =1,...,p ;
But : Recherche d’une partition des individus, en groupes d’individus
similaires. Ce problème s’appelle la classification (non supervisée) (car
aucune partition a priori des individus n’est fournie), qu’il ne faut pas
confondre avec la discrimination (“supervised classification” en anglais).

formes :
j
X = (xi )i =1,...,n, j =1,...,p ;
But : Recherche d’une partition des individus, en groupes d’individus
similaires. Ce problème s’appelle la classification (non supervisée) (car
aucune partition a priori des individus n’est fournie), qu’il ne faut pas
confondre avec la discrimination (“supervised classification” en anglais).
Remarque : Le nombre de partitions en k classes de n individus est
j
Sn,k = kj=0 (−1)k −j Ck j n . Les partitions ne peuvent donc être testées de
P
manière exhaustive ! (Problème NP-complet)
Distances et dissimilarités
La base de la classification est la définition d’une mesure de

ressemblance ou dissemblance entre individus. Soit
δ : {x1 , . . . , xn } × {x1 , . . . , xn } → R+ .
1 δ est appelée dissimilarité si ∀ i , i = 1, . . . , n,
0
• δ(xi , xi 0 ) = δ(xi 0 , xi ) ;
• δ(xi , xi ) = 0.


δ : {x1 , . . . , xn } × {x1 , . . . , xn } → R+ .
0
• δ(xi , xi 0 ) = δ(xi 0 , xi ) ;
• δ(xi , xi ) = 0.
2 δ est appelée distance si, de plus, ∀ i , i , l = 1, . . . , n,
0
• δ(xi , xi 0 ) = 0 ⇒ xi = xi 0 ;
• δ(xi , xi 0 ) ≤ δ(xi , xl ) + δ(xl , xi 0 ).


δ : {x1 , . . . , xn } × {x1 , . . . , xn } → R+ .
0
• δ(xi , xi 0 ) = δ(xi 0 , xi ) ;
• δ(xi , xi ) = 0.
2 δ est appelée distance si, de plus, ∀ i , i , l = 1, . . . , n,
0
• δ(xi , xi 0 ) = 0 ⇒ xi = xi 0 ;
• δ(xi , xi 0 ) ≤ δ(xi , xl ) + δ(xl , xi 0 ).
De plus, δ est dite euclidienne si il existe une norme sur l’espace des
variables telle que : δ(xi , xi 0 ) = kxi − xi 0 k.

Exemple de mesures de dissemblance utilisées
• Les variables X 1 , . . . , X p sont toutes quantitatives :

1 produit scalaire usuel de Rp (métrique Ip ) ;

2 produit scalaire sur variables réduites (métrique Diag σ , . . . , σ ) ;
1 1
1 p
3 métrique de Mahalanobis pour diminuer les effets de la structure de

corrélation (métrique (Var(X))−1 ).

Exemple de mesures de dissemblance utilisées
• Les variables X 1 , . . . , X p sont toutes quantitatives :

1 produit scalaire usuel de Rp (métrique Ip ) ;

2 produit scalaire sur variables réduites (métrique Diag σ , . . . , σ ) ;
1 1
1 p
3 métrique de Mahalanobis pour diminuer les effets de la structure de

corrélation (métrique (Var(X))−1 ).
• Les variables X 1 , . . . , X p sont toutes quanlitatives : on utilise la
métrique du χ2 des profils lignes du tableau disjonctif complet
p cj
n X X jl 1
δ2χ2 (xi , xi 0 ) = δii 0 j .
p n
j =1 l =1 l
δjlii 0 vaut 0 si les deux individus xi et xi 0 présentent une discordance

pour la l ème modalité de la variable j et 1 sinon.

Cas particulier où toutes les variables sont qualitatives

binaires (présence absence d’un caractère)
On introduit alors les quantités suivantes :
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés simultanéments
par xi et par xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés par xi et pas par
xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés ni par xi ni par xi 0 .


xi 0 ;
On a : C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) = p.


xi 0 ;

On peut alors introduire les mesures de similarité suivantes : s (xi , xi 0 ) =
|C(i )∩C(i 0 )|+ C(i )∩C(i 0 )
• indice de concordance : p ;
|C(i )∩C(i 0 )| |C(i )∩C(i 0 )|
• indice de Jaccard : = ;
|C(i )∩C(i 0 )|+ C(i )∩C(i 0 ) + C(i )∩C(i 0 ) C(i )∪C(i 0 )
2|C(i )∩C(i 0 )|
• indice de Dice : .
2|C(i )∩C(i )|+ C(i )∩C(i 0 ) + C(i )∩C(i 0 )
0


xi 0 ;

À partir d’une mesure de similarité, on définit une mesure de dissimilarité
par :
δ(xi , xi 0 ) = 0max s (xl , xl 0 ) − s (xi , xi 0 ).
l ,l =1,...,n
Par exemple, pour l’indice de concordance, on obtient :
δ(xi , xi 0 ) = 1 − s (xi , xi 0 ).

Cas où les variables sont quantitatives et qualitatives
On peut envisager deux stratégies :

• Rendre toutes les variables qualitatives en découpant les
variables quantitatives en classes (à partir des quantiles) ;


• Rendre toutes les variables quantitatives en effectuant une AFCM
(AFC des profils lignes du tableau disjonctif complet) et en
conservant les composantes principales de l’AFCM en guise de
“compression” des données qualitatives initiales.


• Rendre toutes les variables quantitatives en effectuant une AFCM
(AFC des profils lignes du tableau disjonctif complet) et en
conservant les composantes principales de l’AFCM en guise de
“compression” des données qualitatives initiales.
D’une manière générale, les Analyses Factorielles étudiées dans les
chapitres précédents (ACP, AFC et AFCM) peuvent constituer une étape
préliminaire à la classification, notamment si le nombre de variables
explicatives est élevé.

Un exemple jouet
Cet exemple s’intéresse aux distances kilométriques par route (Source :

IGN) entre 47 grandes villes en France et dans les pays limitrophes.
Amien Andorre Angers Bale Laval ...

Amien 0 1020 440 560 590 ...
Andore 1020 0 760 1130 830 ...
Angers 440 760 0 770 160 ...
Bale 560 1130 770 0 940 ...
Laval 590 830 160 940 0 ...
Besançon 560 970 620 160 770 ...
...

Classification par moyennes mobiles
Plan du cours

Idées et principe général
Le but de ses méthodes est de :

• obtenir une partition des individus en k classes où k est fixé a
priori ;


priori ;
• obtenir une partition optimisant un critère mathématique
mesurant sa qualité.


priori ;
Méthode des centres mobiles : le critère de qualité est la minimisation
de l’inertie intra-classes.


priori ;
Méthode des centres mobiles : le critère de qualité est la minimisation
de l’inertie intra-classes. Dans la suite, on considère n individus et une
distance ou une dissimilarité δ entre ces individus. De plus, on considère
que les valeurs de variables numériques sont connues pour chaque
individu : dans ce cas, les individus sont des éléments de Ω = Rp .

Algorithme
Pour l = 1, 2, . . .,
1 On tire aléatoirement k points de Ω, c1 , . . . , ck
2 Pour i = 1, . . . , n,
• on affecte l’individu i à la classe c (i ) = arg minj =1,...,k δ(xi , ck )
3 Pour j = 1, . . . , k ,
• On définit Cj = {i : c (i ) = j } et on calcule le centre de gravité de Cj :
X
gj = xi .
i ∈Cj
δ2 (xi , gj )
1 Pk
On calcule l’inertie intra-classes Iwl =
P
4 n j =1 i ∈Cj
5 Si Iwl , Iwl +1
• Définir ∀ j = 1, . . . , k , cj = gj
• Revenir en 2
6 STOP !

Variantes
1 k -means : les centres de gravité (et donc les représentants des

classes, cj ) sont recalculés après chaque affectation d’une nouvelle
valeur.

Variantes

valeur.
2 Nuées dynamiques : on remplace les centres de gravités (comme
représentants des classes) par un des points de la classe choisi pour
sa “centralité”.

Variantes

valeur.
2 Nuées dynamiques : on remplace les centres de gravités (comme
représentants des classes) par un des points de la classe choisi pour
sa “centralité”.
3 Même si cela n’a pas de fondement théorique réel, on peut appliquer
ces algorithmes sur la base de la donnée d’un tableau de
dissimilarités en considérant chaque individu comme un élément de
Ω = Rn .

Exemple
k -means avec k = 5 sur le tableau de distances entre les villes

Classification hiérarchique (ascendante)
Plan du cours

Principe
L’algorithme consiste à aggréger itérativement les deux individus “les

plus proches” en partant d’un ensemble de n singletons et jusqu’à
obtention d’une seule classe.

Dissimilarité entre ensembles

On définit, à partir de la distance ou de la dissimilarité δ entre individus,
une distance ou dissimilarité entre les ensembles A , B ⊂ {x1 , . . . , xn },
δ(A , B ) :


δ(A , B ) :
• Stratégie du saut minimal : δ(A , B ) = min{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;


δ(A , B ) :
• Stratégie du diamètre (ou saut maximal) :
δ(A , B ) = max{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;


δ(A , B ) :
• Stratégie du saut moyen : δ(A , B ) = |A1||B | δ(xi , xi 0 ) ;
P P
x i ∈A x i 0 ∈B


δ(A , B ) :
• Stratégie du saut moyen : δ(A , B ) = |A1||B | xi ∈A xi0 ∈B δ(xi , xi 0 ) ;
P P
• Pour une distance euclidienne, le saut de Ward :

δ(A , B ) = n(||AA|+|
||B |
B |)
δ(gA , gB ) où gA et gB sont les barycentres de A et
B, respectivement. C’est la perte d’inertie inter-classes du
regroupement des ensembles A et B.


δ(A , B ) :
P P

δ(A , B ) = n(||AA|+|
||B |
B |)
• Pour une distance euclidienne, la distance entre barycentres :
δ(A , B ) = δ(gA , gB ).


δ(A , B ) :
P P

δ(A , B ) = n(||AA|+|
||B |
B |)
• Pour une distance euclidienne, la distance entre barycentres :
δ(A , B ) = δ(gA , gB ).
En pratique, on utilise le plus souvent le saut de Ward ou le saut moyen.

Algorithme
• Initialisation : la classification initiale est C0i = {xi } pour i = 1, . . . , n.

• Répéter, pour L = 0, 1, 2, . . .,
1 Rechercher i et i 0 tels que :
n o
δ(CLi , CLi0 ) = arg min δ(CLl , CLl0 ) .
0 l ,l
Les nouvelles classes sont alors : CLi +1 = Ci ∪ Ci 0 et ClL +1 = CLl pour

l , i, i0.
2 Mettre à jour le tableau de distances entre classes en calculant
δ(CLl +1 , CLi +1 )
pour tout l , i , i 0 .
3 Si le nombre de classes est supérieur (strictement) à 1, retourner à
l’étape 1. Sinon, STOP !

Choix du nombre de classes : Évolution de l’aggrégation

Pour choisir le nombre de classes, on recherche le coude du graphique
représentant la distance moyenne entre classes en fonction du
nombre de classes.


nombre de classes.
Saut moyen

nombre de classes.
Saut moyen

nombre de classes.
ACP du tableau de distances


nombre de classes.
Saut de Ward sur l’ACP


nombre de classes.

Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.

Dendrogramme
d’arbre binaire.
Saut moyen

Dendrogramme
d’arbre binaire.
Saut moyen

Dendrogramme
d’arbre binaire.

Dendrogramme
d’arbre binaire.

Exemple
CAH du tableau de distances avec le saut moyen

Exemple
CAH du tableau de distances avec le saut de Ward

Cours5 Slides

Transféré par

Droits d'auteur :

Formats disponibles

Cours5 Slides

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours5 Slides

Transféré par

Droits d'auteur :

Formats disponibles

Cours 5 : Classification (non supervisée)

Nathalie Villa-Vialaneix - nathalie.villa@math.univ-toulouse.fr

M2 Statistique & Économétrie

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 1 / 21

1 Motivations, tableaux de distances

2 Classification par moyennes mobiles

3 Classification hiérarchique (ascendante)

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 2 / 21

1 Motivations, tableaux de distances

2 Classification par moyennes mobiles

3 Classification hiérarchique (ascendante)

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 3 / 21

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21

La base de la classification est la définition d’une mesure de

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 5 / 21

La base de la classification est la définition d’une mesure de

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 5 / 21

La base de la classification est la définition d’une mesure de

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 5 / 21

Exemple de mesures de dissemblance utilisées

• Les variables X 1 , . . . , X p sont toutes quantitatives :

3 métrique de Mahalanobis pour diminuer les effets de la structure de

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 6 / 21

Exemple de mesures de dissemblance utilisées

• Les variables X 1 , . . . , X p sont toutes quantitatives :

3 métrique de Mahalanobis pour diminuer les effets de la structure de

δjlii 0 vaut 0 si les deux individus xi et xi 0 présentent une discordance

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 6 / 21

Cas particulier où toutes les variables sont qualitatives

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 7 / 21

Cas particulier où toutes les variables sont qualitatives

On a : C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) = p.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 7 / 21

Cas particulier où toutes les variables sont qualitatives

On a : C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) = p.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 7 / 21

Cas particulier où toutes les variables sont qualitatives

On a : C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) = p.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 7 / 21

Cas où les variables sont quantitatives et qualitatives

On peut envisager deux stratégies :

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 8 / 21

Cas où les variables sont quantitatives et qualitatives

On peut envisager deux stratégies :

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 8 / 21

Cas où les variables sont quantitatives et qualitatives

On peut envisager deux stratégies :

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 8 / 21

Cet exemple s’intéresse aux distances kilométriques par route (Source :

Amien Andorre Angers Bale Laval ...

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 9 / 21

1 Motivations, tableaux de distances

2 Classification par moyennes mobiles

3 Classification hiérarchique (ascendante)

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 10 / 21

Idées et principe général