Cours5 Slides
Cours5 Slides
Cours5 Slides
Université Toulouse 1
Plan du cours
Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;
Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;
2 Un tableau de distances (ou de dissimilarités) de taille n × n
d’individus pris deux à deux.
Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;
2 Un tableau de distances (ou de dissimilarités) de taille n × n
d’individus pris deux à deux.
Dans le premier cas, on se ramène au premier en calculant une
distance adéquate entre individus.
Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;
2 Un tableau de distances (ou de dissimilarités) de taille n × n
d’individus pris deux à deux.
Dans le premier cas, on se ramène au premier en calculant une
distance adéquate entre individus.
But : Recherche d’une partition des individus, en groupes d’individus
similaires. Ce problème s’appelle la classification (non supervisée) (car
aucune partition a priori des individus n’est fournie), qu’il ne faut pas
confondre avec la discrimination (“supervised classification” en anglais).
Introduction et motivations
Dans ce chapitre, les données peuvent se présenter sous plusieurs
formes :
1 Les observations de p variables, quantitatives, qualitatives ou
quantitatives et qualitatives, X 1 , . . . , X p , sur n individus :
j
X = (xi )i =1,...,n, j =1,...,p ;
2 Un tableau de distances (ou de dissimilarités) de taille n × n
d’individus pris deux à deux.
Dans le premier cas, on se ramène au premier en calculant une
distance adéquate entre individus.
But : Recherche d’une partition des individus, en groupes d’individus
similaires. Ce problème s’appelle la classification (non supervisée) (car
aucune partition a priori des individus n’est fournie), qu’il ne faut pas
confondre avec la discrimination (“supervised classification” en anglais).
Remarque : Le nombre de partitions en k classes de n individus est
j
Sn,k = kj=0 (−1)k −j Ck j n . Les partitions ne peuvent donc être testées de
P
manière exhaustive ! (Problème NP-complet)
M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 4 / 21
Motivations, tableaux de distances
Distances et dissimilarités
• δ(xi , xi 0 ) = δ(xi 0 , xi ) ;
• δ(xi , xi ) = 0.
Distances et dissimilarités
• δ(xi , xi 0 ) = δ(xi 0 , xi ) ;
• δ(xi , xi ) = 0.
2 δ est appelée distance si, de plus, ∀ i , i , l = 1, . . . , n,
0
• δ(xi , xi 0 ) = 0 ⇒ xi = xi 0 ;
• δ(xi , xi 0 ) ≤ δ(xi , xl ) + δ(xl , xi 0 ).
Distances et dissimilarités
• δ(xi , xi 0 ) = δ(xi 0 , xi ) ;
• δ(xi , xi ) = 0.
2 δ est appelée distance si, de plus, ∀ i , i , l = 1, . . . , n,
0
• δ(xi , xi 0 ) = 0 ⇒ xi = xi 0 ;
• δ(xi , xi 0 ) ≤ δ(xi , xl ) + δ(xl , xi 0 ).
De plus, δ est dite euclidienne si il existe une norme sur l’espace des
variables telle que : δ(xi , xi 0 ) = kxi − xi 0 k.
Un exemple jouet
Plan du cours
Algorithme
Pour l = 1, 2, . . .,
1 On tire aléatoirement k points de Ω, c1 , . . . , ck
2 Pour i = 1, . . . , n,
• on affecte l’individu i à la classe c (i ) = arg minj =1,...,k δ(xi , ck )
3 Pour j = 1, . . . , k ,
• On définit Cj = {i : c (i ) = j } et on calcule le centre de gravité de Cj :
X
gj = xi .
i ∈Cj
δ2 (xi , gj )
1 Pk
On calcule l’inertie intra-classes Iwl =
P
4 n j =1 i ∈Cj
5 Si Iwl , Iwl +1
• Définir ∀ j = 1, . . . , k , cj = gj
• Revenir en 2
6 STOP !
Variantes
Variantes
Variantes
Exemple
k -means avec k = 5 sur le tableau de distances entre les villes
Plan du cours
Principe
Algorithme
δ(CLl +1 , CLi +1 )
pour tout l , i , i 0 .
3 Si le nombre de classes est supérieur (strictement) à 1, retourner à
l’étape 1. Sinon, STOP !
Saut moyen
M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 19 / 21
Classification hiérarchique (ascendante)
Saut moyen
M2 Statisque & Économétrie (Data mining 1) Nathalie Villa Cours 5 - Classification 19 / 21
Classification hiérarchique (ascendante)
Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.
Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.
Saut moyen
Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.
Saut moyen
Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.
Dendrogramme
Représentation graphique des agrégations successives sous forme
d’arbre binaire.
Exemple
CAH du tableau de distances avec le saut moyen
Exemple