Cours Cluster
Cours Cluster
Cours Cluster
Documents de référence :
• sur la quantification : livre de Graff et Lushgy, ”Foundations of Quantiza-
tion for Probability Distributions”, 2000.
• sur la méthode des k-means : document de Linder, ”Learning-Theoretic
Methods in Vector Quantization”, 2004.
1 La problématique du clustering
Le problème
• Observations : x1 , · · · , xn ∈ H , avec (H , k.k) Hilbert séparable
• Objectif :
. former une typologie dans la population {x1 , · · · , xn }, i.e. une partition de
la population en k groupes (k fixé), ou types
. Exemples d’utilisation :
– Médecine : former des groupes de patients au comportement homogène.
Cas H = Rd ou H = L2 ([0, 1]);
– Internet : prétraitement des moteurs de recherche.
Terminologie
• Typologie = Clustering, Type = Cluster
1
• Si il existe un k-centre qui minimise cette erreur :
`−1
A?` = x ∈ H : kx − c` k ≤ kx − c j k, ∀ j = 1, · · · , k \
? ?
A?k ,
[
k=1
pour ` = 2, · · · , k.
2 Principe de la quantification
Le principe de quantification est un principe probabiliste dont l’objectif est de
compresser l’information contenue dans une probabilité. On fixe dorénavant P
une probabilité sur H d’ordre 2, i.e.
Z
kxk2 P(dx) < ∞.
H
q(x) = c` ⇔ x ∈ A`
2
On écrira donc dans la suite q = (C , P).
L’objectif est alors d’atteindre la distorsion minimale. Bien sûr, la qualité d’une
quantification est d’autant meilleure que k est grand. Ce phénomène est précisé
ci-dessous. On rappelle que H est séparable.
Proposition. Supposons que H est complet, et notons D?k (P) la distorsion mini-
male à l’ordre k. Alors, D?k (P) & 0 si k % ∞.
Preuve. Tout d’abord, il est clair que la distorsion minimale décroit à mesure que
son ordre augmente. Puis, comme H est un espace Polonais, la mesure bornée µ
définie pour tout borélien A de H par
Z
µ(A) = kxk2 P(dx)
A
est tendue, i.e. pour tout ε > 0, il existe un compact K tel que µ(K) ≥ 1 − ε. On
note {c1 , c2 , · · · } un sous-ensemble dénombrable dense. Comme K est compact,
il existe k ∈ N tel que
k
[ √
K ⊂ B := B(ci , ε).
i=1
On a donc µ(B) ≥ 1 − ε. Notons maintenant qk+1 le quantifieur d’ordre√k + 1
d’alphabet {c1 , · · · , ck , 0} et de partition {A1 , · · · , Ak , Bc } avec A1 = B(c1 , ε) et
3
√ √
pour i = 2, · · · , k : Ai = B(ci , ε) \ Ai−1 . Comme kx − ci k ≤ ε si x ∈ Ai , on a :
Z
D?k+1 (P) ≤ Dk+1 (P, qk+1 ) = kx − qk+1 (x)k2 P(dx)
H
k Z Z
2
= ∑ kx − ci k P(dx) + kxk2 P(dx)
i=1 Ai Bc
!
k
[
≤ εP Ai + µ(Bc ) ≤ 2ε,
i=1
Ainsi, un quantifieur PPV est caractérisé par son alphabet. On notera les propriétés
élémentaires suivantes :
4
Puis, pour la 2nde propriété, si P = {A1 , · · · , Ak } :
k Z
D(P, qppv ) = ∑ min kx − c` k2 P(dx)
j=1 A j 1≤`≤k
k Z
≤ ∑ kx − c j k2 P(dx)
j=1 A j
Z
≤ kx − q(x)k2 P(dx) = D(P, q),
H
en 3 étapes :
3. Conclusion.
5
Preuve de 1. :
⇔ {x ∈ H : kx − ci k ≤ t} faiblement fermé ∀t
Conclusion :
• BH k (0, R) faiblement compacte + W (P, .) faiblement s.c.i. ⇒ il existe c? ∈
H k minimum de W (P, .)
6
• x1 , · · · , xn ∈ H réalisations de v.a. X1 , · · · , Xn i.i.d. de loi P (d’ordre 2)
1 n
Pn = ∑ δXi .
n i=1
1 n
Z
D(Pn , q) = kx − q(x)k2 Pn (dx) = ∑ kXi − q(Xi )k2
H n i=1
1 n
D(Pn , qppv ) = W (Pn , c) = ∑ 1≤min kXi − c j k2
n i=1 j≤k
Pour se doter d’outils qui assurent que la méthode de quantification est perfor-
mante, on introduit la définition qui suit :
On aura noté au passage que, puisque D(P, q̂) ≥ D? (P), la propriété ED(P, q̂) →
D? (P) est équivalente à D(P, q̂) → D? (P) dans L1 .
7
3.2 La méthode des k-means
Principe de la méthode
. calcul des centres optimaux ĉ = (ĉ1 , · · · , ĉk ) tels que
. si Â` est le `-ème élément de PV (ĉ), le `-ème cluster est constitué des
{X1 , · · · , Xn } ∩ Â` i.e. des observations Xi telles que
Un des avantages de cette méthode est qu’elle ne s’appuie pas sur un calcul de la
partition de Voronoi (ce qui est numériquement infaisable, mème pour des dimen-
sions relativement petites). En revanche, son écueil principal est que l’étape de
minimisation est difficile à mettre en oeuvre numériquement, surtout en grande di-
mension. Pour cette étape de minimisation, la méthode standard, appelée ”itération
de Llyod”, est basée sur la remarque suivante :
Noter que c0j est, à un facteur près, une espérance conditionnelle pour la mesure
empirique. On a alors :
k n
1
D(Pn , q) =
n ∑ ∑ kXi − c j k21{Xi ∈ A j }
j=1 i=1
k n
1
≥
n ∑ ∑ kXi − c0j k21{Xi ∈ A j }
j=1 i=1
= D(Pn , q0 ).
8
Calcul numérique de ĉ défini par (?). Dans la méthode des k-means, le calcul
numérique de ĉ est effectué par décroissance de la distorsion utilisant la remarque
qui précède. C’est l’” Itération de Llyod” : de l’itération ` à l’itération ` + 1, on
passe d’un k-centre à un autre comme suit
Cependant, même s’il est assuré que la distorsion décroı̂t entre 2 itérations, rien
ne nous dit que l’algorithme est convergent ...
Propriétés.
1. Soient νn , ν des probabilités d’ordre 2 sur H . On a ρW (νn , ν) → 0 si
Z Z
νn ⇒ ν et kxk2 νn (dx) → kxk2 ν(dx).
H H
2. Pour ν1 , ν2 des probabilités d’ordre 2 sur H , il existe (X0 ,Y0 ) tel que X0 ∼
ν1 et Y0 ∼ ν2 tel que
q
ρW (ν1 , ν2 ) = EkX0 −Y0 k2 .
Le lien entre l’étude qui nous intéresse et la distance de Wasserstein est établi ci-
dessous :
9
Proposition. Soient ν1 , ν2 des probabilités d’ordre 2 sur H . Si q est PPV, alors
|D(ν1 , q)1/2 − D(ν2 , q)1/2 | ≤ ρW (ν1 , ν2 ).
Si q = (c, PV (c)) :
r
D(ν1 , q)1/2 = W (ν1 , c)1/2 = E min kX0 − c j k2
1≤ j≤k
r
≤ E min (kX0 −Y0 k + kY0 − c j k)2
1≤ j≤k
q r
≤ EkX0 −Y0 k + E min kY0 − c j k2
2
1≤ j≤k
Théorème. La méthodes des k-means est consistante, i.e. ED(P, q̂) → D? (P).
10
On a donc D(P, q̂? ) → D? (P) p.s. i.e. q̂ est consistant.
Comme d’habitude en statistique, cette propriété ne doit être vue que comme le
minimum que toute méthode raisonnable doit vérifier.
11
On mentionne tout d’abord un outil fondamental dans l’étude de la mesure em-
pirique (Théorème 4.12 du livre de Ledoux et Talagrand, ”Probability in Banach
Spaces”, 1991) :
Remarques préliminaires :
• Si supp(P) ⊂ B(0, R), alors les centres optimaux sont dans BR = B(0, R). En
effet, si kck > R et p est la projection orthogonale sur BR alors, par définition
de la projection orthogonale, on a ∀x ∈ BR :
• Si X ∼ P :
W (P, c) = E min kX − c j k2
1≤ j≤k
12
Preuve. En utilisant la notation générique c = (c1 , · · · , ck ) ∈ H k :
D(P, q̂) − D? (P) = W (P, ĉ) − inf W (P, c)
c∈BkR
= W̄ (P, ĉ) − inf W̄ (P, c)
c∈BkR
≤ [W̄ (P, ĉ) − W̄ (Pn , ĉ)] + inf W̄ (Pn , c) − inf W̄ (P, c)
c∈BkR c∈BkR
Pour le traitement du dernier terme, nous allons procéder par itération sur k, en
s’appuyant sur le principe de contraction. On note :
n
1
Sk := E sup ∑ σi 1≤min fc j (Xi ) .
(c1 ,··· ,ck )∈BkR n i=1 j≤k
13
Cas k = 2. Comme min(a, b) = (a + b)/2 − |a − b|/2 pour a, b ∈ R :
n
1
S2 = E sup
2n ∑ σi( fc1 (Xi) + fc2 (Xi) − fc1 (Xi ) − fc2 (Xi ) )
(c1 ,c2 )∈B2R i=1
n
1
≤ S1 + E sup ∑ σi fc1 (Xi ) − fc2 (Xi ) .
(c1 ,c2 )∈B2R 2n i=1
R2
Sk ≤ 3kS1 ≤ 9k √ .
n
Finalement :
R2
ED(P, q̂? ) − D? (P) ≤ 4Sk ≤ 36k √ ,
n
d’où le théorème.
14