Cours Cluster

C LUSTERING PAR QUANTIFICATION∗
Documents de référence :
• sur la quantification : livre de Graff et Lushgy, ”Foundations of Quantiza-
tion for Probability Distributions”, 2000.
• sur la méthode des k-means : document de Linder, ”Learning-Theoretic
Methods in Vector Quantization”, 2004.
1 La problématique du clustering
Le problème
• Observations : x1 , · · · , xn ∈ H , avec (H , k.k) Hilbert séparable
• Objectif :
. former une typologie dans la population {x1 , · · · , xn }, i.e. une partition de
la population en k groupes (k fixé), ou types
. Exemples d’utilisation :
– Médecine : former des groupes de patients au comportement homogène.
Cas H = Rd ou H = L2 ([0, 1]);
– Internet : prétraitement des moteurs de recherche.
Terminologie
• Typologie = Clustering, Type = Cluster
Principe de la méthode des k-means
• Erreur commise en résumant les observations à k points (c1 , · · · , ck ) ∈ H k ,

appelé k-centre :
n
E(c1 , · · · , ck ) := ∑ min kxi − c j k2
i=1 1≤ j≤k
∗ Benoı̂t Cadre, ENS Cachan Bretagne
1
• Si il existe un k-centre qui minimise cette erreur :
(c?1 , · · · , c?k ) ∈ arg min E(c1 , · · · , ck ),

c1 ,··· ,ck ∈H
on note P ? = {A?1 , · · · , A?k } la partition de Voronoi associée :
A?1 = x ∈ H : kx − c?1 k ≤ kx − c?j k, ∀ j = 1, · · · , k , et

`−1
A?` = x ∈ H : kx − c` k ≤ kx − c j k, ∀ j = 1, · · · , k \
? ?
A?k ,
[
k=1
pour ` = 2, · · · , k.
• Dans la méthode des k-means, le `-ème cluster est A?` ∩ {x1 , · · · , xn }.
Dans le cadre d’une modélisation statistique, il faudra se doter d’outils permettant

d’évaluer les performances statistiques de la méthode. Notamment, des outils
permettant d’évaluer sa stabilité face à la loi des observations ainsi que sa vitesse
de convergence. Auparavant, il est nécessaire de faire un détour par l’origine
théorique de la méthode, i.e. le principe (probabiliste) de la quantification.
2 Principe de la quantification
Le principe de quantification est un principe probabiliste dont l’objectif est de
compresser l’information contenue dans une probabilité. On fixe dorénavant P
une probabilité sur H d’ordre 2, i.e.
Z
kxk2 P(dx) < ∞.
H
Définition. Un quantifieur q d’ordre k est une fonction mesurable q : H → C ⊂

H avec |C | = k.
Un quantifieur q d’ordre k est donc caractérisé par :

. un alphabet C = {c1 , · · · , ck }
. une partition P = {A1 , · · · , Ak }, avec la numérotation imposée par
q(x) = c` ⇔ x ∈ A`
2
On écrira donc dans la suite q = (C , P).
Un quantifieur apparaı̂t donc comme un outil de compression de l’information.

De ce fait, il faut se doter d’un outil qui va mesurer la pertinence de q en tant
qu’outil de compression de l’information :
Définition. La distorsion d’un quantifieur q = (C , P) d’ordre k est définie par :

Z
D(P, q) = kx − q(x)k2 P(dx).
H
La distorsion minimale de P à l’ordre k est
D? (P) = inf D(P, q),

q
l’inf étant pris sur tous les quantifieurs d’ordre k.
L’objectif est alors d’atteindre la distorsion minimale. Bien sûr, la qualité d’une
quantification est d’autant meilleure que k est grand. Ce phénomène est précisé
ci-dessous. On rappelle que H est séparable.
Proposition. Supposons que H est complet, et notons D?k (P) la distorsion mini-
male à l’ordre k. Alors, D?k (P) & 0 si k % ∞.
Preuve. Tout d’abord, il est clair que la distorsion minimale décroit à mesure que
son ordre augmente. Puis, comme H est un espace Polonais, la mesure bornée µ
définie pour tout borélien A de H par
Z
µ(A) = kxk2 P(dx)
A
est tendue, i.e. pour tout ε > 0, il existe un compact K tel que µ(K) ≥ 1 − ε. On
note {c1 , c2 , · · · } un sous-ensemble dénombrable dense. Comme K est compact,
il existe k ∈ N tel que
k
[ √
K ⊂ B := B(ci , ε).
i=1
On a donc µ(B) ≥ 1 − ε. Notons maintenant qk+1 le quantifieur d’ordre√k + 1
d’alphabet {c1 , · · · , ck , 0} et de partition {A1 , · · · , Ak , Bc } avec A1 = B(c1 , ε) et
3
√ √
pour i = 2, · · · , k : Ai = B(ci , ε) \ Ai−1 . Comme kx − ci k ≤ ε si x ∈ Ai , on a :
Z
D?k+1 (P) ≤ Dk+1 (P, qk+1 ) = kx − qk+1 (x)k2 P(dx)
H
k Z Z
2
= ∑ kx − ci k P(dx) + kxk2 P(dx)
i=1 Ai Bc
!
k
[
≤ εP Ai + µ(Bc ) ≤ 2ε,
i=1
ce qui achève la preuve.
La classe de quantifieurs les plus intéressants est la suivante. Dans la suite, on

suppose que les quantifieurs sont d’ordre k et on note, pour un alphabet C ⊂ H
de taille k, PV (C ) la partition de Voronoi associée à C .
Définition. Un quantifieur d’ordre k est un quantifieur de type plus proches

voisins (PPV) si sa partition est une partition de Voronoi associée à son alphabet.
En d’autres termes, un quantifieur PPV s’écrit q = (C , PV (C )), avec C ⊂ H de
taille finie.
Ainsi, un quantifieur PPV est caractérisé par son alphabet. On notera les propriétés
élémentaires suivantes :
Proposition. Soit qppv un quantifieur PPV d’alphabet C = {c1 , · · · , ck }. Alors,

Z
D(P, qppv ) = min kx − c` k2 P(dx),
H 1≤`≤k
et de plus, pour tout quantifieur q = (C , P), on a D(P, qppv ) ≤ D(P, q).
Preuve. Pour la première propriété, on a si PV (C ) = {AV,1 , · · · , AV,k } :

Z k Z
2
D(P, qppv ) = kx − qppv (x)k P(dx) = ∑ kx − c j k2 P(dx)
H j=1 AV, j
Z
= min kx − c` k2 P(dx)
H 1≤`≤k
4
Puis, pour la 2nde propriété, si P = {A1 , · · · , Ak } :
k Z
D(P, qppv ) = ∑ min kx − c` k2 P(dx)
j=1 A j 1≤`≤k
k Z
≤ ∑ kx − c j k2 P(dx)
j=1 A j
Z
≤ kx − q(x)k2 P(dx) = D(P, q),
H
par définition de la distorsion.
La conséquence importante est que les quantifieurs de distorsion minimale, s’ils

existent, sont à chercher parmi les quantifieurs du type qppv = (c, PV (c)) avec
c = (c1 , · · · , ck ) ∈ H k (noter l’abus de notation) de distorsion :
Z
W (P, c) := min kx − c j k2 P(dx) = D(P, qppv )
H 1≤ j≤k
Théorème. Il existe un quantifieur de distorsion minimale.
Preuve. On montre qu’il existe c? ∈ H k tel que
W (P, c? ) = inf W (P, c)

c∈H k
en 3 étapes :
1. H k 3 c 7→ W (P, c) est faiblement s.c.i.
2. il existe R > 0 t.q.
inf W (P, c) = inf W (P, c).

c∈H k kckH k ≤R
Cette propriété est démontrée dans le livre de Graf et Luschgy (Foundation

of Quantization for Probability Distributions, 2000). La preuve, donnée
dans le cas d’un espace d’observation du type Rd , s’adapte à notre cas.
3. Conclusion.
5
Preuve de 1. :
• x 7→ kx − ci k convexe + continue ⇒ faiblement s.c.i.
⇔ {x ∈ H : kx − ci k ≤ t} faiblement fermé ∀t
• x 7→ min1≤i≤k kx − ci k faiblement s.c.i

k
⇔ {x ∈ H : min kx − ci k ≤ t} = {x ∈ H k : kx − ci k ≤ t}
[
1≤i≤k
i=1
est faiblement fermé
• pour c0 = (c1,0 , · · · , ck,0 ) :

Z
lim inf W (P, c) ≥ lim inf min kx − c j k2 P(dx) [Fatou]
c*c0 H c*c0 1≤ j≤k
Z
≥ min kx − c j,0 k2 P(dx) [s.c.i.]
H 1≤ j≤k
= W (P, c0 )
donc W (P, .) est faiblement s.c.i.
Conclusion :
• BH k (0, R) faiblement compacte + W (P, .) faiblement s.c.i. ⇒ il existe c? ∈
H k minimum de W (P, .)
• q? = (c? , Pppv (c? )) est un quantifieur de distorsion minimale car
W (P, c? ) = inf W (P, .) = inf D(P, q) = D? (P).

Hk q
3 Clustering par quantification

3.1 Principe général
Le contexte et les outils utilisés dorénavant sont précisés ci-dessous :
6
• x1 , · · · , xn ∈ H réalisations de v.a. X1 , · · · , Xn i.i.d. de loi P (d’ordre 2)
• Pn désigne la mesure empirique des observations i.e.
1 n
Pn = ∑ δXi .
n i=1
• Distorsion empirique du quantifieur q (d’ordre k) :
1 n
Z
D(Pn , q) = kx − q(x)k2 Pn (dx) = ∑ kXi − q(Xi )k2
H n i=1
• Distorsion empirique de qppv = (c, PV (c)), avec c = (c1 , · · · , ck ) ∈ H k :
1 n
D(Pn , qppv ) = W (Pn , c) = ∑ 1≤min kXi − c j k2
n i=1 j≤k
Principe général d’une méthode de clustering par quantification
. Trouver un quantifieur empirique q̂ = (Cˆ, P̂)
. Les clusters sont Â ∩ {X1 , · · · , Xn }, Â ∈ P̂
Pour se doter d’outils qui assurent que la méthode de quantification est perfor-
mante, on introduit la définition qui suit :
Définitions. Soit q̂ un quantifieur empirique. On dit qu’il est
. consistant, si ED(P, q̂) → D? (P)
. de vitesse (vn )n si ED(P, q̂) − D? (P) = O(1/vn ), avec vn → ∞
On aura noté au passage que, puisque D(P, q̂) ≥ D? (P), la propriété ED(P, q̂) →
D? (P) est équivalente à D(P, q̂) → D? (P) dans L1 .
7
3.2 La méthode des k-means
Principe de la méthode
. calcul des centres optimaux ĉ = (ĉ1 , · · · , ĉk ) tels que
W (Pn , ĉ) = min W (Pn , c) (?)

c∈H k
. si Â` est le `-ème élément de PV (ĉ), le `-ème cluster est constitué des
{X1 , · · · , Xn } ∩ Â` i.e. des observations Xi telles que
kXi − ĉ` k ≤ kXi − ĉ j k, ∀ j = 1, · · · , k
Un des avantages de cette méthode est qu’elle ne s’appuie pas sur un calcul de la
partition de Voronoi (ce qui est numériquement infaisable, mème pour des dimen-
sions relativement petites). En revanche, son écueil principal est que l’étape de
minimisation est difficile à mettre en oeuvre numériquement, surtout en grande di-
mension. Pour cette étape de minimisation, la méthode standard, appelée ”itération
de Llyod”, est basée sur la remarque suivante :
Condition des centres. Pour une partition P = {A1 , · · · , Ak } et c = (c1 , · · · , ck ) ∈

H k , on note q = (c, P) et q̂0 = (ĉ0 , P) avec E(c) := c0 = (c01 , · · · , c0k ) tel que
n
c0j = arg min ∑ kXi − yk2 1{Xi ∈ A j }
y∈H i=1
Noter que c0j est, à un facteur près, une espérance conditionnelle pour la mesure
empirique. On a alors :
k n
1
D(Pn , q) =
n ∑ ∑ kXi − c j k21{Xi ∈ A j }
j=1 i=1
k n
1
≥
n ∑ ∑ kXi − c0j k21{Xi ∈ A j }
j=1 i=1
= D(Pn , q0 ).
En d’autres termes, cette opération permet de faire décroitre la distorsion.
La remarque précédente nous donne une technique de minimisation dans la méthode

des k-means :
8
Calcul numérique de ĉ défini par (?). Dans la méthode des k-means, le calcul
numérique de ĉ est effectué par décroissance de la distorsion utilisant la remarque
qui précède. C’est l’” Itération de Llyod” : de l’itération ` à l’itération ` + 1, on
passe d’un k-centre à un autre comme suit
k − centre c` → partition Voronoi associée → k − centre c`+1 = E(c` ).
Cependant, même s’il est assuré que la distorsion décroı̂t entre 2 itérations, rien
ne nous dit que l’algorithme est convergent ...
4 Consistance de la méthode des k-means

L’outil indispensable pour établir la consistance de la méthode des k-means est la
distance de Wasserstein :
Définition. La distance de Wasserstein ρW est définie pour ν1 , ν2 proba sur H

d’ordre 2 par : q
ρW (ν1 , ν2 ) = inf EkX −Y k2 .
X∼ν1 ,Y ∼ν2
Il s’agit d’une distance usuelle en probabilité. Mentionnons 2 de ses propriétés

fondamentales (on renvoie au livre de Dudley, ”Real Analysis and Probability”,
pour les preuves) :
Propriétés.
1. Soient νn , ν des probabilités d’ordre 2 sur H . On a ρW (νn , ν) → 0 si
Z Z
νn ⇒ ν et kxk2 νn (dx) → kxk2 ν(dx).
H H
2. Pour ν1 , ν2 des probabilités d’ordre 2 sur H , il existe (X0 ,Y0 ) tel que X0 ∼
ν1 et Y0 ∼ ν2 tel que
q
ρW (ν1 , ν2 ) = EkX0 −Y0 k2 .
Le lien entre l’étude qui nous intéresse et la distance de Wasserstein est établi ci-
dessous :
9
Proposition. Soient ν1 , ν2 des probabilités d’ordre 2 sur H . Si q est PPV, alors
|D(ν1 , q)1/2 − D(ν2 , q)1/2 | ≤ ρW (ν1 , ν2 ).
Preuve. Soit (X0 ,Y0 ) tel que X0 ∼ ν1 et Y0 ∼ ν2 tel que

q
ρW (ν1 , ν2 ) = EkX0 −Y0 k2 .
Si q = (c, PV (c)) :
r
D(ν1 , q)1/2 = W (ν1 , c)1/2 = E min kX0 − c j k2
1≤ j≤k
r
≤ E min (kX0 −Y0 k + kY0 − c j k)2
1≤ j≤k
q r
≤ EkX0 −Y0 k + E min kY0 − c j k2
2
1≤ j≤k
= ρW (ν1 , ν2 ) + D(ν2 , q)1/2 ,

d’où la proposition.
On fixe dorénavant les quantités issues de la méthode des k-means, i.e. ĉ =

(ĉ1 , · · · , ĉk ) un minimum de W (Pn , .) défini par (?) :
q̂ = (ĉ, PV (ĉ))
Théorème. La méthodes des k-means est consistante, i.e. ED(P, q̂) → D? (P).
Preuve. Si q? est un quantifieur optimal PPV pour P, on a avec la proposition

précédente :
D(P, q̂)1/2 − D? (P)1/2
= [D(P, q̂)1/2 − D(Pn , q̂)1/2 ] + [D(Pn , q̂)1/2 − D(P, q? )1/2 ]
≤ [D(P, q̂)1/2 − D(Pn , q̂)1/2 ] + [D(Pn , q? )1/2 − D(P, q? )1/2 ]
≤ 2ρW (P, Pn ).
Or, ρW (Pn , P) → 0 p.s. car P(Pn ⇒ P) = 1 (Th. Varadarajan) et p.s.
Z Z
2
kxk Pn (dx) → kxk2 P(dx).
H H
10
On a donc D(P, q̂? ) → D? (P) p.s. i.e. q̂ est consistant.
Comme d’habitude en statistique, cette propriété ne doit être vue que comme le
minimum que toute méthode raisonnable doit vérifier.
5 Vitesse de convergence dans la méthode des k-means
L’hypothèse fondamentale du résultat de cette section est la contrainte de pic, qui

exprime le fait que le support de la loi P est borné. Elle amène 2 commentaires :
• La contrainte de pic est classique en apprentissage, et plus généralement en
statistique, car seules un nombre fini de données sont récoltées. Mais, il en
résulte un manque d’unité entre la modélisation probabiliste et l’utilisation
statistique du modèle :
. Modélisation probabiliste (signal, ...) mène souvent à des diffusions
browniennes, pour lesquelles P n’est pas à support borné.
. Le traitement statistique se situe en aval de cette modélisation. Mais
X est supposée bornée ...
• Quelle caractéristique de P remplace R dans l’inégalité du thèorème ci-
dessous ?
Théorème. Si supp(P) ⊂ B(0, R),
R2
ED(P, q̂) − D? (P) ≤ 36k √
n
On rappelle les notations suivantes :

• pour Q une mesure signée sur H et F un ensemble de fonctions réelles
définies sur H :
kQkF = sup |Q( f )|;
f ∈F
• si σ1 , · · · , σn désigne une suite de v.a. de Rademacher i.i.d. indépendantes

des observations :
1 n
Pnσ = ∑ σi δXi , la mesure empirique symétrisée.
n i=1
11
On mentionne tout d’abord un outil fondamental dans l’étude de la mesure em-
pirique (Théorème 4.12 du livre de Ledoux et Talagrand, ”Probability in Banach
Spaces”, 1991) :
Lemme. [Principe de contraction] Soit F un ensemble de fonctions réelles définies

sur H . Si |F | = {| f | : f ∈ F }, on a
EkPnσ k|F | ≤ 2EkPnσ kF .
Remarques préliminaires :
• Si supp(P) ⊂ B(0, R), alors les centres optimaux sont dans BR = B(0, R). En
effet, si kck > R et p est la projection orthogonale sur BR alors, par définition
de la projection orthogonale, on a ∀x ∈ BR :
kx − ck2 = kx − p(c)k2 + kp(c) − ck2 − 2hx − p(c), c − p(c)i

≥ kx − p(c)k2 .
On a donc une distorsion plus petite pour des centres dans BR .
• Si X ∼ P :
W (P, c) = E min kX − c j k2
1≤ j≤k
= EkXk2 + E min −2hX, c j i + kc j k2 .

1≤ j≤k
Ces 2 observations nous conduisent à la conclusion suivante : plutôt que de min-

imiser W (P, .) sur H k , il suffit donc de minimiser, sur BkR :
W̄ (P, c) = E min fc j (X), si fc (x) = −2hx, ci + kck2 .

1≤ j≤k
La même observation est valable pour Pn au lieu de P.
12
Preuve. En utilisant la notation générique c = (c1 , · · · , ck ) ∈ H k :
D(P, q̂) − D? (P) = W (P, ĉ) − inf W (P, c)
c∈BkR
= W̄ (P, ĉ) − inf W̄ (P, c)
c∈BkR

≤ [W̄ (P, ĉ) − W̄ (Pn , ĉ)] + inf W̄ (Pn , c) − inf W̄ (P, c)
c∈BkR c∈BkR
≤ 2 sup W̄ (Pn , c) − W̄ (P, c)

c∈BkR
n
1
= 2 sup ∑ min fc j (Xi ) − E min fc j (X) .
c∈BkR n i=1 1≤ j≤k 1≤ j≤k
D’après le théorème de symétrisation en moyenne (cf. Chapitre 2) :

n
1
ED(P, q̂) − D? (P) ≤ 2E sup

∑ min fc j (Xi ) − E min fc j (X)
c∈BkR n i=1 1≤ j≤k 1≤ j≤k
n
1
≤ 4E sup ∑ σi 1≤min fc j (Xi ) .
c∈BkR n i=1 j≤k
Pour le traitement du dernier terme, nous allons procéder par itération sur k, en
s’appuyant sur le principe de contraction. On note :
n
1
Sk := E sup ∑ σi 1≤min fc j (Xi ) .
(c1 ,··· ,ck )∈BkR n i=1 j≤k
Cas k = 1. Comme kXk ≤ R :

n
1
− 2hXi , ci + kck2

S1 = E sup ∑ σi
c∈BR n i=1
n n
1 kck2
≤ 2E sup ∑ σihXi, ci + E c∈B
sup ∑ σi
c∈BR n i=1 R
n i=1
n n
1 R2
≤ 2E sup ∑ σihXi, ci + E ∑ σi
c∈BR n i=1 n i=1
n
R R2
≤ 2 Ek ∑ σi Xi k + √
n i=1 n
r
EkXk2 R2 3R2
≤ 2R +√ ≤ √ .
n n n
13
Cas k = 2. Comme min(a, b) = (a + b)/2 − |a − b|/2 pour a, b ∈ R :
n
1
S2 = E sup
2n ∑ σi( fc1 (Xi) + fc2 (Xi) − fc1 (Xi ) − fc2 (Xi ) )
(c1 ,c2 )∈B2R i=1
n
1
≤ S1 + E sup ∑ σi fc1 (Xi ) − fc2 (Xi ) .
(c1 ,c2 )∈B2R 2n i=1
En appliquant le principe de contraction, on obtient :

n
1
S2 ≤ S1 + E sup ∑ σi fc1 (Xi ) − fc2 (Xi )
(c1 ,c2 )∈B2R n i=1
≤ 3S1 .
Cas k = 3. Comme S2 ≤ 3S1 ,

S1 + S2
S3 ≤ + S1 + S2
2
≤ 6S1 .
En itérant le procédé, on trouve :
R2
Sk ≤ 3kS1 ≤ 9k √ .
n
Finalement :
R2
ED(P, q̂? ) − D? (P) ≤ 4Sk ≤ 36k √ ,
n
d’où le théorème.
14

Cours Cluster

Transféré par

Droits d'auteur :

Formats disponibles

Cours Cluster

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Cluster

Transféré par

Droits d'auteur :

Formats disponibles

C LUSTERING PAR QUANTIFICATION∗

Principe de la méthode des k-means

• Erreur commise en résumant les observations à k points (c1 , · · · , ck ) ∈ H k ,

(c?1 , · · · , c?k ) ∈ arg min E(c1 , · · · , ck ),

on note P ? = {A?1 , · · · , A?k } la partition de Voronoi associée :

A?1 = x ∈ H : kx − c?1 k ≤ kx − c?j k, ∀ j = 1, · · · , k , et

• Dans la méthode des k-means, le `-ème cluster est A?` ∩ {x1 , · · · , xn }.

Dans le cadre d’une modélisation statistique, il faudra se doter d’outils permettant

Définition. Un quantifieur q d’ordre k est une fonction mesurable q : H → C ⊂

Un quantifieur q d’ordre k est donc caractérisé par :

. une partition P = {A1 , · · · , Ak }, avec la numérotation imposée par

Un quantifieur apparaı̂t donc comme un outil de compression de l’information.

Définition. La distorsion d’un quantifieur q = (C , P) d’ordre k est définie par :

La distorsion minimale de P à l’ordre k est

D? (P) = inf D(P, q),

l’inf étant pris sur tous les quantifieurs d’ordre k.

ce qui achève la preuve.

La classe de quantifieurs les plus intéressants est la suivante. Dans la suite, on

Définition. Un quantifieur d’ordre k est un quantifieur de type plus proches

Proposition. Soit qppv un quantifieur PPV d’alphabet C = {c1 , · · · , ck }. Alors,

et de plus, pour tout quantifieur q = (C , P), on a D(P, qppv ) ≤ D(P, q).

Preuve. Pour la première propriété, on a si PV (C ) = {AV,1 , · · · , AV,k } :

par définition de la distorsion.

La conséquence importante est que les quantifieurs de distorsion minimale, s’ils

Théorème. Il existe un quantifieur de distorsion minimale.

Preuve. On montre qu’il existe c? ∈ H k tel que

W (P, c? ) = inf W (P, c)

1. H k 3 c 7→ W (P, c) est faiblement s.c.i.

2. il existe R > 0 t.q.

inf W (P, c) = inf W (P, c).

Cette propriété est démontrée dans le livre de Graf et Luschgy (Foundation

• x 7→ kx − ci k convexe + continue ⇒ faiblement s.c.i.

• x 7→ min1≤i≤k kx − ci k faiblement s.c.i

est faiblement fermé

• pour c0 = (c1,0 , · · · , ck,0 ) :

donc W (P, .) est faiblement s.c.i.

• q? = (c? , Pppv (c? )) est un quantifieur de distorsion minimale car

W (P, c? ) = inf W (P, .) = inf D(P, q) = D? (P).

3 Clustering par quantification

• Pn désigne la mesure empirique des observations i.e.

• Distorsion empirique du quantifieur q (d’ordre k) :

• Distorsion empirique de qppv = (c, PV (c)), avec c = (c1 , · · · , ck ) ∈ H k :

Principe général d’une méthode de clustering par quantification

. Trouver un quantifieur empirique q̂ = (Cˆ, P̂)

. Les clusters sont Â ∩ {X1 , · · · , Xn }, Â ∈ P̂

Définitions. Soit q̂ un quantifieur empirique. On dit qu’il est

. consistant, si ED(P, q̂) → D? (P)

. de vitesse (vn )n si ED(P, q̂) − D? (P) = O(1/vn ), avec vn → ∞

W (Pn , ĉ) = min W (Pn , c) (?)

kXi − ĉ` k ≤ kXi − ĉ j k, ∀ j = 1, · · · , k

Condition des centres. Pour une partition P = {A1 , · · · , Ak } et c = (c1 , · · · , ck ) ∈

En d’autres termes, cette opération permet de faire décroitre la distorsion.

La remarque précédente nous donne une technique de minimisation dans la méthode

k − centre c` → partition Voronoi associée → k − centre c`+1 = E(c` ).

4 Consistance de la méthode des k-means

Définition. La distance de Wasserstein ρW est définie pour ν1 , ν2 proba sur H

Il s’agit d’une distance usuelle en probabilité. Mentionnons 2 de ses propriétés

Preuve. Soit (X0 ,Y0 ) tel que X0 ∼ ν1 et Y0 ∼ ν2 tel que

= ρW (ν1 , ν2 ) + D(ν2 , q)1/2 ,

On fixe dorénavant les quantités issues de la méthode des k-means, i.e. ĉ =