Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Cours5 Slides

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 54

Cours 5 : Classification (non supervisée)

Nathalie Villa-Vialaneix - nathalie.villa@math.univ-toulouse.fr


http://www.nathalievilla.org

Université Toulouse 1

M2 Statistique & Économétrie


Data Mining 1
Année 2008/2009

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 1 / 21


Plan du cours

1 Motivations, tableaux de distances

2 Classification par moyennes mobiles

3 Classification hiérarchique (ascendante)

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 2 / 21


Motivations, tableaux de distances

Plan du cours

1 Motivations, tableaux de distances

2 Classification par moyennes mobiles

3 Classification hiérarchique (ascendante)

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 3 / 21


Motivations, tableaux de distances

Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21


Motivations, tableaux de distances

Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;
2 Un tableau de distances (ou de dissimilarités) de taille n × n
d’individus pris deux à deux.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21


Motivations, tableaux de distances

Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;
2 Un tableau de distances (ou de dissimilarités) de taille n × n
d’individus pris deux à deux.
Dans le premier cas, on se ramène au premier en calculant une
distance adéquate entre individus.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21


Motivations, tableaux de distances

Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;
2 Un tableau de distances (ou de dissimilarités) de taille n × n
d’individus pris deux à deux.
Dans le premier cas, on se ramène au premier en calculant une
distance adéquate entre individus.
But : Recherche d’une partition des individus, en groupes d’individus
similaires. Ce problème s’appelle la classification (non supervisée) (car
aucune partition a priori des individus n’est fournie), qu’il ne faut pas
confondre avec la discrimination (“supervised classification” en anglais).

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21


Motivations, tableaux de distances

Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;
2 Un tableau de distances (ou de dissimilarités) de taille n × n
d’individus pris deux à deux.
Dans le premier cas, on se ramène au premier en calculant une
distance adéquate entre individus.
But : Recherche d’une partition des individus, en groupes d’individus
similaires. Ce problème s’appelle la classification (non supervisée) (car
aucune partition a priori des individus n’est fournie), qu’il ne faut pas
confondre avec la discrimination (“supervised classification” en anglais).
Remarque : Le nombre de partitions en k classes de n individus est
j
Sn,k = kj=0 (−1)k −j Ck j n . Les partitions ne peuvent donc être testées de
P
manière exhaustive ! (Problème NP-complet)
M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21
Motivations, tableaux de distances

Distances et dissimilarités

La base de la classification est la définition d’une mesure de


ressemblance ou dissemblance entre individus. Soit
δ : {x1 , . . . , xn } × {x1 , . . . , xn } → R+ .
1 δ est appelée dissimilarité si ∀ i , i = 1, . . . , n,
0

• δ(xi , xi 0 ) = δ(xi 0 , xi ) ;
• δ(xi , xi ) = 0.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 5 / 21


Motivations, tableaux de distances

Distances et dissimilarités

La base de la classification est la définition d’une mesure de


ressemblance ou dissemblance entre individus. Soit
δ : {x1 , . . . , xn } × {x1 , . . . , xn } → R+ .
1 δ est appelée dissimilarité si ∀ i , i = 1, . . . , n,
0

• δ(xi , xi 0 ) = δ(xi 0 , xi ) ;
• δ(xi , xi ) = 0.
2 δ est appelée distance si, de plus, ∀ i , i , l = 1, . . . , n,
0

• δ(xi , xi 0 ) = 0 ⇒ xi = xi 0 ;
• δ(xi , xi 0 ) ≤ δ(xi , xl ) + δ(xl , xi 0 ).

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 5 / 21


Motivations, tableaux de distances

Distances et dissimilarités

La base de la classification est la définition d’une mesure de


ressemblance ou dissemblance entre individus. Soit
δ : {x1 , . . . , xn } × {x1 , . . . , xn } → R+ .
1 δ est appelée dissimilarité si ∀ i , i = 1, . . . , n,
0

• δ(xi , xi 0 ) = δ(xi 0 , xi ) ;
• δ(xi , xi ) = 0.
2 δ est appelée distance si, de plus, ∀ i , i , l = 1, . . . , n,
0

• δ(xi , xi 0 ) = 0 ⇒ xi = xi 0 ;
• δ(xi , xi 0 ) ≤ δ(xi , xl ) + δ(xl , xi 0 ).
De plus, δ est dite euclidienne si il existe une norme sur l’espace des
variables telle que : δ(xi , xi 0 ) = kxi − xi 0 k.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 5 / 21


Motivations, tableaux de distances

Exemple de mesures de dissemblance utilisées

• Les variables X 1 , . . . , X p sont toutes quantitatives :


1 produit scalaire usuel de Rp (métrique Ip ) ;
 
2 produit scalaire sur variables réduites (métrique Diag σ , . . . , σ ) ;
1 1
1 p

3 métrique de Mahalanobis pour diminuer les effets de la structure de


corrélation (métrique (Var(X))−1 ).

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 6 / 21


Motivations, tableaux de distances

Exemple de mesures de dissemblance utilisées

• Les variables X 1 , . . . , X p sont toutes quantitatives :


1 produit scalaire usuel de Rp (métrique Ip ) ;
 
2 produit scalaire sur variables réduites (métrique Diag σ , . . . , σ ) ;
1 1
1 p

3 métrique de Mahalanobis pour diminuer les effets de la structure de


corrélation (métrique (Var(X))−1 ).
• Les variables X 1 , . . . , X p sont toutes quanlitatives : on utilise la
métrique du χ2 des profils lignes du tableau disjonctif complet
p cj
n X X jl 1
δ2χ2 (xi , xi 0 ) = δii 0 j .
p n
j =1 l =1 l

δjlii 0 vaut 0 si les deux individus xi et xi 0 présentent une discordance


pour la l ème modalité de la variable j et 1 sinon.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 6 / 21


Motivations, tableaux de distances

Cas particulier où toutes les variables sont qualitatives


binaires (présence absence d’un caractère)
On introduit alors les quantités suivantes :
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés simultanéments
par xi et par xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés par xi et pas par
xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés ni par xi ni par xi 0 .

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 7 / 21


Motivations, tableaux de distances

Cas particulier où toutes les variables sont qualitatives


binaires (présence absence d’un caractère)
On introduit alors les quantités suivantes :
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés simultanéments
par xi et par xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés par xi et pas par
xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés ni par xi ni par xi 0 .

On a : C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) = p.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 7 / 21


Motivations, tableaux de distances

Cas particulier où toutes les variables sont qualitatives


binaires (présence absence d’un caractère)
On introduit alors les quantités suivantes :
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés simultanéments
par xi et par xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés par xi et pas par
xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés ni par xi ni par xi 0 .

On a : C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) = p.


On peut alors introduire les mesures de similarité suivantes : s (xi , xi 0 ) =
|C(i )∩C(i 0 )|+ C(i )∩C(i 0 )
• indice de concordance : p ;
|C(i )∩C(i 0 )| |C(i )∩C(i 0 )|
• indice de Jaccard : = ;
|C(i )∩C(i 0 )|+ C(i )∩C(i 0 ) + C(i )∩C(i 0 ) C(i )∪C(i 0 )
2|C(i )∩C(i 0 )|
• indice de Dice : .
2|C(i )∩C(i )|+ C(i )∩C(i 0 ) + C(i )∩C(i 0 )
0

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 7 / 21


Motivations, tableaux de distances

Cas particulier où toutes les variables sont qualitatives


binaires (présence absence d’un caractère)
On introduit alors les quantités suivantes :
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés simultanéments
par xi et par xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés par xi et pas par
xi 0 ;
• C(i ) ∩ C(i 0 ) est le nombre de caractères possédés ni par xi ni par xi 0 .

On a : C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) + C(i ) ∩ C(i 0 ) = p.


À partir d’une mesure de similarité, on définit une mesure de dissimilarité
par :
δ(xi , xi 0 ) = 0max s (xl , xl 0 ) − s (xi , xi 0 ).
l ,l =1,...,n
Par exemple, pour l’indice de concordance, on obtient :
δ(xi , xi 0 ) = 1 − s (xi , xi 0 ).

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 7 / 21


Motivations, tableaux de distances

Cas où les variables sont quantitatives et qualitatives

On peut envisager deux stratégies :


• Rendre toutes les variables qualitatives en découpant les
variables quantitatives en classes (à partir des quantiles) ;

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 8 / 21


Motivations, tableaux de distances

Cas où les variables sont quantitatives et qualitatives

On peut envisager deux stratégies :


• Rendre toutes les variables qualitatives en découpant les
variables quantitatives en classes (à partir des quantiles) ;
• Rendre toutes les variables quantitatives en effectuant une AFCM
(AFC des profils lignes du tableau disjonctif complet) et en
conservant les composantes principales de l’AFCM en guise de
“compression” des données qualitatives initiales.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 8 / 21


Motivations, tableaux de distances

Cas où les variables sont quantitatives et qualitatives

On peut envisager deux stratégies :


• Rendre toutes les variables qualitatives en découpant les
variables quantitatives en classes (à partir des quantiles) ;
• Rendre toutes les variables quantitatives en effectuant une AFCM
(AFC des profils lignes du tableau disjonctif complet) et en
conservant les composantes principales de l’AFCM en guise de
“compression” des données qualitatives initiales.
D’une manière générale, les Analyses Factorielles étudiées dans les
chapitres précédents (ACP, AFC et AFCM) peuvent constituer une étape
préliminaire à la classification, notamment si le nombre de variables
explicatives est élevé.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 8 / 21


Motivations, tableaux de distances

Un exemple jouet

Cet exemple s’intéresse aux distances kilométriques par route (Source :


IGN) entre 47 grandes villes en France et dans les pays limitrophes.

Amien Andorre Angers Bale Laval ...


Amien 0 1020 440 560 590 ...
Andore 1020 0 760 1130 830 ...
Angers 440 760 0 770 160 ...
Bale 560 1130 770 0 940 ...
Laval 590 830 160 940 0 ...
Besançon 560 970 620 160 770 ...
...

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 9 / 21


Classification par moyennes mobiles

Plan du cours

1 Motivations, tableaux de distances

2 Classification par moyennes mobiles

3 Classification hiérarchique (ascendante)

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 10 / 21


Classification par moyennes mobiles

Idées et principe général

Le but de ses méthodes est de :


• obtenir une partition des individus en k classes où k est fixé a
priori ;

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 11 / 21


Classification par moyennes mobiles

Idées et principe général

Le but de ses méthodes est de :


• obtenir une partition des individus en k classes où k est fixé a
priori ;
• obtenir une partition optimisant un critère mathématique
mesurant sa qualité.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 11 / 21


Classification par moyennes mobiles

Idées et principe général

Le but de ses méthodes est de :


• obtenir une partition des individus en k classes où k est fixé a
priori ;
• obtenir une partition optimisant un critère mathématique
mesurant sa qualité.
Méthode des centres mobiles : le critère de qualité est la minimisation
de l’inertie intra-classes.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 11 / 21


Classification par moyennes mobiles

Idées et principe général

Le but de ses méthodes est de :


• obtenir une partition des individus en k classes où k est fixé a
priori ;
• obtenir une partition optimisant un critère mathématique
mesurant sa qualité.
Méthode des centres mobiles : le critère de qualité est la minimisation
de l’inertie intra-classes. Dans la suite, on considère n individus et une
distance ou une dissimilarité δ entre ces individus. De plus, on considère
que les valeurs de variables numériques sont connues pour chaque
individu : dans ce cas, les individus sont des éléments de Ω = Rp .

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 11 / 21


Classification par moyennes mobiles

Algorithme
Pour l = 1, 2, . . .,
1 On tire aléatoirement k points de Ω, c1 , . . . , ck
2 Pour i = 1, . . . , n,
• on affecte l’individu i à la classe c (i ) = arg minj =1,...,k δ(xi , ck )
3 Pour j = 1, . . . , k ,
• On définit Cj = {i : c (i ) = j } et on calcule le centre de gravité de Cj :
X
gj = xi .
i ∈Cj

δ2 (xi , gj )
1 Pk
On calcule l’inertie intra-classes Iwl =
P
4 n j =1 i ∈Cj

5 Si Iwl , Iwl +1
• Définir ∀ j = 1, . . . , k , cj = gj
• Revenir en 2
6 STOP !

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 12 / 21


Classification par moyennes mobiles

Variantes

1 k -means : les centres de gravité (et donc les représentants des


classes, cj ) sont recalculés après chaque affectation d’une nouvelle
valeur.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 13 / 21


Classification par moyennes mobiles

Variantes

1 k -means : les centres de gravité (et donc les représentants des


classes, cj ) sont recalculés après chaque affectation d’une nouvelle
valeur.
2 Nuées dynamiques : on remplace les centres de gravités (comme
représentants des classes) par un des points de la classe choisi pour
sa “centralité”.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 13 / 21


Classification par moyennes mobiles

Variantes

1 k -means : les centres de gravité (et donc les représentants des


classes, cj ) sont recalculés après chaque affectation d’une nouvelle
valeur.
2 Nuées dynamiques : on remplace les centres de gravités (comme
représentants des classes) par un des points de la classe choisi pour
sa “centralité”.
3 Même si cela n’a pas de fondement théorique réel, on peut appliquer
ces algorithmes sur la base de la donnée d’un tableau de
dissimilarités en considérant chaque individu comme un élément de
Ω = Rn .

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 13 / 21


Classification par moyennes mobiles

Exemple
k -means avec k = 5 sur le tableau de distances entre les villes

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 14 / 21


Classification hiérarchique (ascendante)

Plan du cours

1 Motivations, tableaux de distances

2 Classification par moyennes mobiles

3 Classification hiérarchique (ascendante)

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 15 / 21


Classification hiérarchique (ascendante)

Principe

L’algorithme consiste à aggréger itérativement les deux individus “les


plus proches” en partant d’un ensemble de n singletons et jusqu’à
obtention d’une seule classe.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 16 / 21


Classification hiérarchique (ascendante)

Dissimilarité entre ensembles


On définit, à partir de la distance ou de la dissimilarité δ entre individus,
une distance ou dissimilarité entre les ensembles A , B ⊂ {x1 , . . . , xn },
δ(A , B ) :

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 17 / 21


Classification hiérarchique (ascendante)

Dissimilarité entre ensembles


On définit, à partir de la distance ou de la dissimilarité δ entre individus,
une distance ou dissimilarité entre les ensembles A , B ⊂ {x1 , . . . , xn },
δ(A , B ) :
• Stratégie du saut minimal : δ(A , B ) = min{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 17 / 21


Classification hiérarchique (ascendante)

Dissimilarité entre ensembles


On définit, à partir de la distance ou de la dissimilarité δ entre individus,
une distance ou dissimilarité entre les ensembles A , B ⊂ {x1 , . . . , xn },
δ(A , B ) :
• Stratégie du saut minimal : δ(A , B ) = min{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;
• Stratégie du diamètre (ou saut maximal) :
δ(A , B ) = max{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 17 / 21


Classification hiérarchique (ascendante)

Dissimilarité entre ensembles


On définit, à partir de la distance ou de la dissimilarité δ entre individus,
une distance ou dissimilarité entre les ensembles A , B ⊂ {x1 , . . . , xn },
δ(A , B ) :
• Stratégie du saut minimal : δ(A , B ) = min{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;
• Stratégie du diamètre (ou saut maximal) :
δ(A , B ) = max{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;
• Stratégie du saut moyen : δ(A , B ) = |A1||B | δ(xi , xi 0 ) ;
P P
x i ∈A x i 0 ∈B

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 17 / 21


Classification hiérarchique (ascendante)

Dissimilarité entre ensembles


On définit, à partir de la distance ou de la dissimilarité δ entre individus,
une distance ou dissimilarité entre les ensembles A , B ⊂ {x1 , . . . , xn },
δ(A , B ) :
• Stratégie du saut minimal : δ(A , B ) = min{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;
• Stratégie du diamètre (ou saut maximal) :
δ(A , B ) = max{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;
• Stratégie du saut moyen : δ(A , B ) = |A1||B | xi ∈A xi0 ∈B δ(xi , xi 0 ) ;
P P

• Pour une distance euclidienne, le saut de Ward :


δ(A , B ) = n(||AA|+|
||B |
B |)
δ(gA , gB ) où gA et gB sont les barycentres de A et
B, respectivement. C’est la perte d’inertie inter-classes du
regroupement des ensembles A et B.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 17 / 21


Classification hiérarchique (ascendante)

Dissimilarité entre ensembles


On définit, à partir de la distance ou de la dissimilarité δ entre individus,
une distance ou dissimilarité entre les ensembles A , B ⊂ {x1 , . . . , xn },
δ(A , B ) :
• Stratégie du saut minimal : δ(A , B ) = min{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;
• Stratégie du diamètre (ou saut maximal) :
δ(A , B ) = max{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;
• Stratégie du saut moyen : δ(A , B ) = |A1||B | xi ∈A xi0 ∈B δ(xi , xi 0 ) ;
P P

• Pour une distance euclidienne, le saut de Ward :


δ(A , B ) = n(||AA|+|
||B |
B |)
δ(gA , gB ) où gA et gB sont les barycentres de A et
B, respectivement. C’est la perte d’inertie inter-classes du
regroupement des ensembles A et B.
• Pour une distance euclidienne, la distance entre barycentres :
δ(A , B ) = δ(gA , gB ).

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 17 / 21


Classification hiérarchique (ascendante)

Dissimilarité entre ensembles


On définit, à partir de la distance ou de la dissimilarité δ entre individus,
une distance ou dissimilarité entre les ensembles A , B ⊂ {x1 , . . . , xn },
δ(A , B ) :
• Stratégie du saut minimal : δ(A , B ) = min{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;
• Stratégie du diamètre (ou saut maximal) :
δ(A , B ) = max{δ(xi , xi 0 ) : xi ∈ A , xi 0 ∈ B } ;
• Stratégie du saut moyen : δ(A , B ) = |A1||B | xi ∈A xi0 ∈B δ(xi , xi 0 ) ;
P P

• Pour une distance euclidienne, le saut de Ward :


δ(A , B ) = n(||AA|+|
||B |
B |)
δ(gA , gB ) où gA et gB sont les barycentres de A et
B, respectivement. C’est la perte d’inertie inter-classes du
regroupement des ensembles A et B.
• Pour une distance euclidienne, la distance entre barycentres :
δ(A , B ) = δ(gA , gB ).
En pratique, on utilise le plus souvent le saut de Ward ou le saut moyen.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 17 / 21


Classification hiérarchique (ascendante)

Algorithme

• Initialisation : la classification initiale est C0i = {xi } pour i = 1, . . . , n.


• Répéter, pour L = 0, 1, 2, . . .,
1 Rechercher i et i 0 tels que :
n o
δ(CLi , CLi0 ) = arg min δ(CLl , CLl0 ) .
0 l ,l

Les nouvelles classes sont alors : CLi +1 = Ci ∪ Ci 0 et ClL +1 = CLl pour


l , i, i0.
2 Mettre à jour le tableau de distances entre classes en calculant

δ(CLl +1 , CLi +1 )

pour tout l , i , i 0 .
3 Si le nombre de classes est supérieur (strictement) à 1, retourner à
l’étape 1. Sinon, STOP !

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 18 / 21


Classification hiérarchique (ascendante)

Choix du nombre de classes : Évolution de l’aggrégation


Pour choisir le nombre de classes, on recherche le coude du graphique
représentant la distance moyenne entre classes en fonction du
nombre de classes.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 19 / 21


Classification hiérarchique (ascendante)

Choix du nombre de classes : Évolution de l’aggrégation


Pour choisir le nombre de classes, on recherche le coude du graphique
représentant la distance moyenne entre classes en fonction du
nombre de classes.

Saut moyen
M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 19 / 21
Classification hiérarchique (ascendante)

Choix du nombre de classes : Évolution de l’aggrégation


Pour choisir le nombre de classes, on recherche le coude du graphique
représentant la distance moyenne entre classes en fonction du
nombre de classes.

Saut moyen
M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 19 / 21
Classification hiérarchique (ascendante)

Choix du nombre de classes : Évolution de l’aggrégation


Pour choisir le nombre de classes, on recherche le coude du graphique
représentant la distance moyenne entre classes en fonction du
nombre de classes.

ACP du tableau de distances


M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 19 / 21
Classification hiérarchique (ascendante)

Choix du nombre de classes : Évolution de l’aggrégation


Pour choisir le nombre de classes, on recherche le coude du graphique
représentant la distance moyenne entre classes en fonction du
nombre de classes.

Saut de Ward sur l’ACP


M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 19 / 21
Classification hiérarchique (ascendante)

Choix du nombre de classes : Évolution de l’aggrégation


Pour choisir le nombre de classes, on recherche le coude du graphique
représentant la distance moyenne entre classes en fonction du
nombre de classes.

Saut de Ward sur l’ACP


M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 19 / 21
Classification hiérarchique (ascendante)

Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 20 / 21


Classification hiérarchique (ascendante)

Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.

Saut moyen

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 20 / 21


Classification hiérarchique (ascendante)

Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.

Saut moyen

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 20 / 21


Classification hiérarchique (ascendante)

Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.

Saut de Ward sur l’ACP

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 20 / 21


Classification hiérarchique (ascendante)

Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.

Saut de Ward sur l’ACP

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 20 / 21


Classification hiérarchique (ascendante)

Exemple
CAH du tableau de distances avec le saut moyen

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 21 / 21


Classification hiérarchique (ascendante)

Exemple

CAH du tableau de distances avec le saut de Ward

M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 21 / 21

Vous aimerez peut-être aussi