Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Stat Nonp P20 v2 1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 142

Introduction à la statistique non paramétrique

poly: ©Laëtitia Comminges, Gabriel Turinici


cours G. Turinici

M1 Math Université Paris Dauphine - PSL, 2019/20


Table des matières

1 Introduction et rappels 5
1.1 Qu’est-ce que la statistique non-paramétrique ? . . . . . . . . . . . . . 5
1.2 Quelques problèmes de statistique non-paramétrique . . . . . . . . . . 6
1.2.1 Estimation de la fonction de répartition . . . . . . . . . . . . . 6
1.2.2 Estimation de densité . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Régression non-paramétrique . . . . . . . . . . . . . . . . . . 6
1.2.4 Tests non-paramétriques . . . . . . . . . . . . . . . . . . . . . 7
1.2.5 Classification supervisée . . . . . . . . . . . . . . . . . . . . . 7
1.2.6 Classification non-supervisée, exemple génération . . . . . . . 8
1.3 Rappels d’inégalités classiques . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Inégalité de Markov . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Inégalité de Bienaymé-Tchebycheff (B-T) . . . . . . . . . . . . 8
1.3.3 Inégalité de Hoeffding . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Théorèmes de convergence classique . . . . . . . . . . . . . . . . . . . 9
1.4.1 Lemme de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.2 Delta-méthode . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Petits rappels sur l’espérance conditionnelle . . . . . . . . . . . . . . 10
1.5.1 Calcul d’espérance conditionnelle . . . . . . . . . . . . . . . . 10
1.5.2 Propriété du transfert conditionnel . . . . . . . . . . . . . . . 11
1.6 Rappels sur les quantiles et les lois symétriques . . . . . . . . . . . . 12
1.6.1 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.2 Loi symétrique . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7 Rappels sur les tests (cadre paramétrique) . . . . . . . . . . . . . . . 13
1.7.1 Comparaison de test, principe de Neyman . . . . . . . . . . . 15
1.7.2 Explications sur des exemples . . . . . . . . . . . . . . . . . . 17
1.7.3 La p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.7.4 Interprétation des p-valeurs : d’autres exemples et détails . . . 27
1.8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2 Estimation de la fonction de répartition 31


2.1 Consistance des fonctions de répartition empiriques . . . . . . . . . . 31
2.2 Estimation de quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3 Test d’ajustement à une loi ou à une famille de lois . . . . . . . . . . 38
2.3.1 Ajustement à une loi donnée . . . . . . . . . . . . . . . . . . . 38
2.3.2 Ajustement à une famille paramétrique de lois : le cas des
familles exponentielles . . . . . . . . . . . . . . . . . . . . . . 43

1
2.4 Test d’homogénéité de Kolmogorov Smirnov . . . . . . . . . . . . . . 44
2.5 Implementations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5.1 Avec R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5.2 Avec Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3 Tests robustes 54
3.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 Un test paramétrique : le test de Student . . . . . . . . . . . . . . . . 55
3.2.1 Un seul échantillon . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Deux échantillons indépendants . . . . . . . . . . . . . . . . . 56
3.2.3 Echantillons appariés (paired data) . . . . . . . . . . . . . . . 58
3.2.4 Importance des conditions d’application . . . . . . . . . . . . 59
3.2.5 Illustration numérique - facultatif . . . . . . . . . . . . . . . . 59
3.3 Test du signe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.3.1 Test du signe sur un seul échantillon . . . . . . . . . . . . . . 64
3.3.2 Test du signe sur deux échantillons . . . . . . . . . . . . . . . 66
3.4 Statistiques d’ordre et de rang . . . . . . . . . . . . . . . . . . . . . . 68
3.5 Test des rangs signés de Wilcoxon . . . . . . . . . . . . . . . . . . . . 69
3.5.1 Sur un échantillon . . . . . . . . . . . . . . . . . . . . . . . . 69
3.5.2 Echantillons appariées . . . . . . . . . . . . . . . . . . . . . . 75
3.6 Wilcoxon de la somme des rangs / Mann-Whitney . . . . . . . . . . 77
3.6.1 Résultats préliminaires sur le vecteur des rangs . . . . . . . . 77
3.6.2 Test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . 78
3.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.8 Corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.8.1 Exercice 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.8.2 Exercice 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.8.3 Exercice 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4 Estimation de densités par estimateurs à noyau 95


4.1 Quelques rappels d’analyse utiles pour les chapitres 4 et 5 . . . . . . 95
4.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.3 Estimation non paramétrique de la densité . . . . . . . . . . . . . . . 97
4.3.1 Un estimateur simple de la densité : l’histogramme . . . . . . 98
4.3.2 Estimateurs à noyaux . . . . . . . . . . . . . . . . . . . . . . . 102
4.4 Risque quadratique ponctuel des estimateurs à noyau sur la classe des
espaces de Holder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.5 Construction de noyaux d’ordre ` . . . . . . . . . . . . . . . . . . . . 109
4.6 Choix de la fenêtre h par validation croisée . . . . . . . . . . . . . . . 110

5 Régression non paramétrique 113


5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.2 EMC non paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.2.1 Modèle linéaire : rappels . . . . . . . . . . . . . . . . . . . . . 114
5.2.2 EMC non paramétrique . . . . . . . . . . . . . . . . . . . . . 116
5.3 Estimateur de Nadaraya-Watson . . . . . . . . . . . . . . . . . . . . . 117

2
5.4 Estimateur par polynomes locaux . . . . . . . . . . . . . . . . . . . . 123
5.5 Choix des paramètres de régularisation . . . . . . . . . . . . . . . . . 126
5.5.1 Risque empirique, surajustement . . . . . . . . . . . . . . . . 126
5.5.2 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.6 Estimateurs par projection . . . . . . . . . . . . . . . . . . . . . . . . 136

6 Bibliographie conseillée 138

3
Introduction

Ces notes de cours font suite aux notes du cours d’introduction à la statistique
non paramétrique de Catherine Mathias, Vincent Rivoirard et Laëtitia Comminges.

4
Chapitre 1

Introduction et rappels

1.1 Qu’est-ce que la statistique non-paramétrique ?


La statistique paramétrique est le cadre classique de la statistique. Le modèle
statistique est défini par un paramètre θ ∈ Rk pour un certain entier k.

Exemple 1.1. — Modèle linéaire gaussien. La loi Pθ des observations vérifie


Pθ = N (µ, σ 2 In ). le paramètre θ = (µ, σ 2 ) ∈ Rn × R∗+ suffit à déterminer la
loi des observations.
— Observation du nombre d’arrivées à un guichet : Y ∼ P (λ) (Poisson).

Par opposition, en statistique non-paramétrique, le modèle n’est pas décrit par


un nombre fini de paramètres (ou de manière équivalente par un paramètre de
dimension finie).

Exemple 1.2. Un constructeur automobile étudie le comportement d’achat de ses


clients. Il a la conviction que la somme qu’ils sont prêts à débourser est une fonc-
tion de leur revenu et de la distance parcourue quotidiennement et à partir de n
observations recueillies par sondage, il postule le modèle statistique suivant :

Yi = f (Xi ) + i , i = 1, ..., n

où les i sont iid de loi N (0, σ 2 ) et Xi = (Xi1 , Xi2 ) =(revenu,distance) et Yi =somme


à débourser.
On peut faire différentes hypothèses a priori sur la fonction f (selon l’expérience,
les connaissances a priori sur les données, ou après une représentation graphique des
données)
— on peut supposer que f est une fonction affine des variables explicatives, on
obtient alors un modèle linéaire (ici gaussien puisqu’on a supposé les erreurs
gaussiennes) : f (Xi ) = θ1 + θ2 Xi1 + θ3 Xi2
— On peut aussi ne faire aucune hypothèse sur la forme de la fonction f , et
faire juste une hypothèse de régularité minimum. On obtient alors un modèle
non-paramétrique.

5
1.2 Quelques problèmes de statistique non-paramétrique
1.2.1 Estimation de la fonction de répartition
On observe X1 , . . . , Xn n variables réelles de loi P . On cherche à estimer la loi
P . Or P est entièrement décrite par sa fonction de répartition

R → [0, 1]
F :
x → P (] − ∞, x])

On construit un estimateur F̂n de F à l’aide des n observations X1 , . . . , Xn .

1.2.2 Estimation de densité


On observe toujours X1 , . . . , Xn n variables réelles de loi P . Mais on suppose
en plus que P est absolument continue par rapport à la mesure de Lebesgue et on
souhaite estimer sa densité f . En général, la dérivée de F̂n n’est pas une bonne
solution.

Figure 1.1 – Estimation de densité avec python, fonction "gausian_kde" du package


"scipy.stats.kde".

1.2.3 Régression non-paramétrique


 
On observe une suite de couples (Xi , Yi ) obéissant au modèle
1≤i≤n

Yi = f (Xi ) + i , i = 1, . . . , n

On cherche à estimer la fonction de régression f .

On peut aussi considérer d’autres problèmes de statistique non-paramétrique qui


ne sont pas directement de l’estimation.

6
1.2.4 Tests non-paramétriques
Deux exemples de problèmes possibles :
— Soit X une v.a. et P une distribution donnée. A l’aide de X1 , . . . , Xn iid de
même loi que X, tester :

H0 : X ∼ P, contre X 6∼ P

— Soient X et Y deux v.a. et (X1 , . . . , Xn ) et (Y1 , . . . , Ym ) des échantillons de


mêmes lois respectivement que X et Y . A l’aide des deux échantillons on peut :
— tester s’il s’agit de la même loi : H0 : X ∼ Y contre H1 : X 6∼ Y
— tester l’indépendance entre X et Y : H0 : X ⊥⊥ Y contre H1 : X et Y
sont non indépendants.

1.2.5 Classification supervisée


 
On observe n couples (Xi , Yi ) où Yi ∈ {0, 1, ..., L}. Yi est l’étiquette asso-
1≤i≤n
ciée à Xi . On veut trouver la fonction de classification g à valeurs dans {0, 1, ..., L}
telle que P(Y 6= g(X)) soit la plus petite possible où (X, Y ) ∼ (X1 , Y1 ).

Figure 1.2 – Classification supervisée du dataset CIFAR10 (60000 images 32 ×


32 format RGB = trois couleurs) avec L = 10 étiquettes) avec l’environnement
Tensorflow v2.0 (pris du site de la librairie).

7
1.2.6 Classification non-supervisée, exemple génération
Idée : ayant quelques réalisations X1 , ..., Xn i.i.d. de la loi P comment générer
d’autres instances de Y1 , Y2 suivant la même loi ? Exemple : peintures de paysages.
Ce sont des algorithmes de type GAN (Generative Adversarial Networks), VAE
(Variational auto-encoder), ...

Figure 1.3 – Génération non-supervisée de paysages. Image :


github.com/robbiebarrat/art-DCGAN

1.3 Rappels d’inégalités classiques


1.3.1 Inégalité de Markov
Soit X une v.a.r. positive telle que E(X) < ∞. Alors ∀t > 0

E(X)
P(X ≥ t) ≤
t

1.3.2 Inégalité de Bienaymé-Tchebycheff (B-T)


Soit X une v.a.r. telle que E(X 2 ) < ∞. Alors pour tout t > 0,

Var(X)
P(|X − E(X)| > t) ≤
t2

8
1.3.3 Inégalité de Hoeffding
Soient Y1 , . . . , Yn des v.a.r. indépendantes centrées et telles que

ai ≤ Yi ≤ bi p.s. pour tout i

Alors n  
X 2t2
∀t > 0, P( Yi ≥ t) ≤ exp − Pn
i=1 (bi − ai )
2
i=1

Remarque 1.3. Sous les mêmes hypothèses, on a aussi


Xn  
2t2
∀t > 0, P( Yi ≥ t) ≤ 2 exp − Pn
i=1 (bi − ai )
2
i=1

iid
Remarque 1.4. Comparaison entre Hoeffding et B-T : soit X1 , . . . , Xn ∼ Be(p)
avec p ∈ (0, 1). On cherche un intervalle de confiance bilatéral à gauche de niveau
1 − α pour p avec l’une des inégalités ci-dessus :
— Si on utilise l’inégalité B-T, P(|X̄ − p| > c) ≤ p(1−p)
nc2
≤ 4c12 n := α. Donc
P(p ∈ [X̄ − 2√1nα , X̄ + 2√1nα ]) ≥ 1 − α. Pour α = 5% et n = 100, la précision,
i.e. la longueur, de cet intervalle est √1nα = 0.22.
— Si on utilise l’inégalité
r Hoeffding, P(|X̄ − p| > c) ≤ 2 exp(−2nc2 ), Donc
de r
2 2
log( α ) log( α )
P(p ∈ [X̄ − 2n
, X̄ + 2n
]) ≥ 1 − α. Pour α = 5% et n = 100, la
r
2
log( α )
précision, i.e. la longueur, de cet intervalle est 2 n
= 0.14.

1.4 Théorèmes de convergence classique


1.4.1 Lemme de Slutsky
Soient (Xn )n≥0 et (Yn )n≥0 deux suites de vecteurs aléatoires tels que
loi
— Xn → X où X est un vecteur aléatoire quelconque.
proba
— Yn → c où c est un vecteur constant.
loi
alors (Xn , Yn ) → (X, c).
loi loi
conséquence : Xn + Yn → X + c, Xn Yn → cX, et de manière générale, pour
toute fonction continue f (ou continue là où les variables prennent leurs valeurs)
loi
f (Xn , Yn ) → f (X, c).

1.4.2 Delta-méthode
On se donne une suite (Un )n de vecteurs aléatoires de Rm , une suite déterministe
(an )n et une application ` : Rm → Rp telles que
— an → +∞
— ∃U ∈ Rm un vecteur déterministe (=constant) et V un vecteur aléatoire tels
loi
que an (Un − U ) → V .

9
— ` est une fonction différentiable en U de différentielle D`(U ) ∈ Mpm (R).
Alors on a la convergence en loi
loi
an (`(Un ) − `(U )) → D`(U )V.
iid
Exemple 1.5. Soit X1 , . . . , Xn ∼ P (λ) avec λ > 0. Alors d’après le TCL on a
√ loi
n(X̄ − λ) → N (0, λ). Donc on a aussi, d’après le théorème ci-dessus,
√ q √ loi 1
n( X̄ − λ) → N (0, )
4
√ √
En effet ici Rm = Rp = R, Un = X̄, U = λ, an = n, V ∼ N (0, λ), `(u) = u,
donc D`(U ) = `0 (λ) = 2√1 λ et D`(U )V ∼ N (0, 4λ
λ
).

1.5 Petits rappels sur l’espérance conditionnelle


Soit X et Y deux variables aléatoires à valeurs dans Rk et Rp . Pour x ∈ Rk , on
note PYX=x la loi conditionnelle de Y sachant X = x.

1.5.1 Calcul d’espérance conditionnelle


On rappelle que l’espérance conditionnelle de Y sachant X, que l’on note ici
E(Y | X), est une variables aléatoire qui peut s’écrire comme une fonction g(X).
Cette fonction est donnée par

E(Y | X) = g(X) où g(x) = E(Y | X = x).

Exemples :
1. soient Z et T deux variables aléatoires indépendantes de loi exponentielle de
paramètre λ. On note S = Z + T et on cherche à calculer la variables aléatoire
E(Z | S). Soit s > 0. On trouve facilement (car tout le monde a une densité ...
) que la densité conditionnelle de Z sachant S = s est Rs
donnée par fZS=s (z) =
1
1 (z). On a alors immédiatement E(Z | S = s) = 0 zfZS=s (z)dz = 2s . Et en
s [0,s]
utilisant la propriété que l’on vient de rappeler, on a finalement E(Z | S) = S2 .
2. Soit U et V deux v.a. réelles.
h
On rappelle la définition
i
de la variance

condi-
2
tionnelle : Var(U | V ) = E (U − E(U | V ))2 | V = E[U 2 | V ] − E[U | V ] .
On a h i
E Var(U | V ) = E[g(V )] avec g(v) = Var(U | V = v).
 2
En effet Var(U | V ) = E[U 2 | V ] − E[U | V ] = `(V ) − (h(V ))2 avec `(v) =
E[U 2 | V = v] et h(v) = E[U | V = v]. Donc `(v) − h(v)2 = Var(U | V = v).

10
1.5.2 Propriété du transfert conditionnel
Soit f : Rp+k → Rq une fonction borélienne. Alors la loi conditionnelle de f (X, Y )
sachant X = x vérifie
PX=x X=x
f (X,Y ) = Pf (x,Y )

et donc h i h i
E f (X, Y ) | X = x = E f (x, Y ) | X = x
En particulier si X et Y sont indépendantes, on a

PX=x
f (X,Y ) = Pf (x,Y )

et donc h i h i
E f (X, Y ) | X = x = E f (x, Y ) .

Technique importante 1.5.1. Supposons que X et Y sont des v.a.


réelles indépendantes. On a
 
P(Y ≤ X) = E(1Y ≤X ) = E E[1Y ≤X | X] = E[g(X)]


g(x) = E[1Y ≤X | X = x] = E[1Y ≤x ] = FY (x)
où on a noté FY la cdf de Y . Donc on a

P(Y ≤ X) = E[FY (X)]

dès que X et Y sont indépendantes.


On peut aussi écrire :
Z
P(Y ≤ X) = E[1Y ≤X ] = 1y≤x dPX,Y (x, y)
Z
= 1y≤x dPY ⊗ dPX (y, x)
Z hZ i
= 1y≤x dPY (y) dPX (x)
Z
= FY (x)dPX (x)
= E[FY (X)].

iid
Exemple : Reprenons l’exemple de la sous-section précédente : Z, T ∼ exp(λ). On
veut calculer E(S 2 Z | S = s) pour s > 0. En utilisant la propriété ci-dessus on
3
obtient E(S 2 Z | S = s) = E(s2 Z | S = s) = s2 .

11
1.6 Rappels sur les quantiles et les lois symétriques
1.6.1 Quantiles
On ne donne ici que la définition dans le cas simple où la loi est de cdf F continue
et strictement croissante.
Soit X une variable aléatoire réelle de cdf F continue et strictement croissante.
Pour α ∈ (0, 1), on appelle quantile d’ordre α de la loi F l’unique réel qαF tel que

F (qαF ) = P (X ≤ qαF ) = α

autrement dit
qαF = F −1 (α) (1.1)
Attention, quand la cdf n’est pas continue, l’équation ci-dessus n’a pas toujours
de solution. De plus si la cdf n’est pas strictement croissante, l’équation peut avoir
une infinité de solutions. La définition générale d’un quantile sera vue dans le cha-
pitre 2.

1.6.2 Loi symétrique


— Une variable réelle X a une loi symétrique (par rapport à 0) si X ∼ −X.
— Si la cdf F est continue, cela se traduit par F (x) = 1 − F (−x).
— Si la cdf F est continue et strictement croissante, cela se traduit, en terme de
F
quantile, par q1−α = −qαF pour tout α ∈ (0, 1).
— Si la loi a une densité f , cela se traduit par f (−x) = f (x) pour presque tout
x ∈ R.
— Une v.a. réelle X a une distribution symétrique par rapport à b ssi X − b a une
distribution symétrique par rapport à 0, autrement dit ssi X − b ∼ −X + b,
autrement dit
X ∼ 2b − X
.
— Si X a une loi symétrique alors P(|X| > c) = P(X > c) + P(−X > c) =
2P(X > c).
— Si la loi de X est symétrique et si P(X = 0) = 0 alors la variable aléatoire |X|
est indépendante de la variable aléatoire 1X>0 . En effet, soit A mesurable, la
symétrie de la loi de X implique

P(|X| ∈ A, X > 0) = P(| − X| ∈ A, −X > 0) (1.2)

et
P(X > 0) = P(X < 0) (1.3)
(1.2) se réécrit

P(|X| ∈ A, X > 0) = P(|X| ∈ A, −X > 0)

12
ce qui implique
P(|X| ∈ A) = P(|X| ∈ A, X > 0)+P(|X| ∈ A, X < 0) = 2P(|X| ∈ A, X > 0)
(1.4)
(1.3) combinée avec la propriété P(X = 0) = 0 impliquent
1
P(X > 0) = (1.5)
2
(1.4) combiné avec (1.5) impliquent
1
P(|X| ∈ A, X > 0) = P(|X| ∈ A) = P(X > 0)P(|X| ∈ A).
2
Exemples : la loi normale standard et la loi de Student sont des distributions symé-
triques (par rapport à 0). La loi Be(1/2) est symétrique par rapport à 1/2. La loi
B(n, 1/2) est symétrique par rapport à n/2.

1.7 Rappels sur les tests (cadre paramétrique)


Test et erreur de test
Situation
On considère
 une expérience statistique engendrée par une observation X à va-
leurs dans X , A et associée à la famille de lois de probabilités
n o
Pθ , θ ∈ Θ .

L’ensemble des paramètres Θ est un sous-ensemble de Rd , avec d ≥ 1.

Principe du test statistique


On veut « décider » à partir de l’observation de X si une propriété de la loi de
X est vérifiée ou non. Cette propriété se traduit mathématiquement par un sous-
ensemble Θ0 ⊂ Θ de l’ensemble des paramètres, et la propriété signifie que θ ∈ Θ0 .
Définition 1.6 (Terminologie de test). On teste « l’hypothèse nulle » notée H0
H0 : θ ∈ Θ0
contre « l’alternative » notée H1 ou Ha
H1 : θ ∈ Θ1 ,
avec Θ0 ⊂ Θ, Θ1 ⊂ Θ et Θ0 ∩ Θ1 = ∅. Construire un test signifie construire une
procédure φ = φ(X) de la forme


 0 si X ∈
/ R. « on accepte l’hypothèse nulle »
φ(X) = 1{X∈R} = 

1 si X ∈ R. « on n’accepte pas l’hypothèse nulle »
(1.6)
avec R mesurable.

13
 Mise en garde 1.7.1. Sauf pour les test triviaux qui acceptent
toujours (ou jamais) H0 , φ(X) à deux valeurs 0 et 1. Donc il est
prévu qu’on se trompe parfois, par exemple rejeter H0 à tort ; donc
il faut être attentif au langage, préférer si possible dire "les données
ne soutiennent par l’hypothèse H0 " plutôt que "H0 est fausse" ou
même "on rejette H0 " ; ceci car, à nouveau, on est sûrs que parfois
on se trompera en rejetant H0 c’est écrit dans la définition du test
(non-trivial).

o 1.7. On désigne indifféremment l’ensemble R ⊂ A ou bien l’événement


Définition
n
X ∈ R comme zone de rejet ou encore zone critique du test φ.
Définition 1.8. L’hypothèse Hj (j = 0 ou j = 1) est dite simple si Θj est réduit à
un singleton, sinon Hj est dite composite.
Par exemple, le test de la forme H0 : θ = 1 contre H1 : θ > 1 a une hypothèse
nulle simple et une alternative composite.

Erreur de test
Lorsque l’on effectue un test, il y a quatre possibilités. Deux sont anecdotiques
et correspondent à une bonne décision :
— Accepter l’hypothèse H0 alors que θ ∈ Θ0 (c’est-à-dire l’hypothèse H0 est
vraie).
— Rejeter l’hypothèse H0 alors que θ ∈ Θ1 (c’est-à-dire l’hypothèse H0 est
fausse).
Les deux autres possibilités sont celles qui vont nous occuper, et correspondent
à une erreur de décision :
— Rejeter l’hypothèse H0 alors que θ ∈ Θ0 (c’est-à-dire l’hypothèse H0 est vraie).
— Accepter l’hypothèse H0 alors que θ ∈ Θ1 (c’est-à-dire l’hypothèse H0 est
fausse).
Définition 1.9. [Erreur de première et seconde espèce] L’erreur de pre-
mière espèce, ou encore de "type I" correspond à la probabilité maximale
de rejeter l’hypothèse alors qu’elle est vraie :
h i h i
sup Eθ φ(X) = sup Pθ X ∈ R .
θ∈Θ0 θ∈Θ0

L’erreur de seconde espèce ("type II") correspond à la probabilité maxi-


male d’accepter l’hypothèse alors qu’elle est fausse :
h i h i
sup Eθ 1 − φ(X) = sup Pθ X ∈
/R. (1.7)
θ∈Θ1 θ∈Θ1

14
Intuition 1.7.1. Sur Θ0 et Θ1 il n’y a pas de préférence (entre para-
mètres) exprimée sous la forme de loi de probabilités. Tous les éléments
sont aussi importants ce qui explique les "sup" (= "pire cas") dans la
définition.

Intuition 1.7.2. D’après cette terminologie, l’erreur de première espèce


mesure la probabilité (maximale) de rejeter à tort, et l’erreur de seconde
espèce d’accepter à tort. Dans le langage courant, commettre une erreur
de première espèce revient à faire un « faux négatif », et commettre une
erreur de seconde espèce revient à faire un « faux positif ».

 Mise en garde 1.7.2. Dans la plupart des situations, Θ0 est


« plus petit » que Θ1 et le contrôle de l’erreur de seconde espèce (1.7)
est difficile, surtout si Θ1 contient des points « très proches » de Θ0 .
On peut imaginer que pour des points de Θ1 qui convergent vers un
point de Θ0 l’erreur de seconde espèce est de 100% moins l’erreur
de première espèce. Elle donne alors peu d’informations nouvelles
sur le test en question car elle est trop agrégée (à cause du "sup").
Pour le cas typique d’un Θ0 singleton et Θ1 son complémentaire,
l’erreur de type II n’apporte pas d’information utile pour discrimi-
ner des tests statistiques ayant la même erreur de type I.
Pour des informations plus précises, on introduit alors la fonction
de puissance d’un test, qui mesure sa performance locale (= en tout
point) sur l’alternative.

Définition 1.10. La fonction de puissance du test φ est l’application

β : Θ1 → [0, 1]

définie par h i
θ ∈ Θ1 ; β(θ) = Pθ X ∈ R .
Une illustration intuitive des erreurs et paramètres α et β est donnée en figure 1.4.

1.7.1 Comparaison de test, principe de Neyman


Idéalement, on souhaite que l’erreur de première espèce et l’erreur de seconde
espèce soient toutes deux simultanément petites. Les deux tests triviaux

φ1 = 1∅ , et φ2 = 1A

15
Figure 1.4 – Erreurs de première et deuxième espèce, α et β. Attention : c’est une
"vue d’artiste", les définitions précises sont dans le texte. Crédits : wikipedia section
"Test statistique", 29 Jan. 2020.

qui consistent respectivement à accepter systématiquement l’hypothèse et à la rejeter


systématiquement, sans utiliser l’observation X, ont respectivement une erreur de
première espèce nulle et une erreur de seconde espèce nulle. Malheureusement la
puissance de φ1 est catastrophique : β(θ) = 0 en tout point θ de toute alternative
Θ1 . De même l’erreur de première espèce de φ2 est égale à 1, même si l’hypothèse
est réduite à un point, quelle que soit l’hypothèse.
Une méthodologie, proposée historiquement par Neyman, consiste à imposer une
dissymétrie dans la problématique de test : on décide que le contrôle de l’erreur de
première espèce est crucial. La démarche de construction de test sera alors, parmi
les tests qui ont une erreur de première espèce contrôlée, de choisir le (ou les) test(s)
le(s) plus puissant(s), c’est-à-dire ayant une erreur de seconde espèce la plus petite
possible.

Définition 1.11. Soit α ∈ [0, 1] un niveau de risque. Un test φ est de


niveau α si son erreur de première espèce est inférieure ou égale à α.

Remarque 1.12. On ne peut pas toujours faire en sorte que l’erreur de première
espèce soit égale à α (problème de non continuité d’une fonction de répartition par
exemple, cf chapitre 2 en particulier). C’est pourquoi on se contente d’exiger que
l’erreur de première espèce soit plus petite que α.

Définition 1.13. On dit qu’un test est de taille α si l’erreur de première espèce
est égale à α.

Un test veut mesurer l’adéquation de l’hypothèse H0 avec les observations. Pour


cela il détermine les valeurs typiques de X sous H0 . Si la réalisation x de X n’est
pas l’une des valeurs typiques, il rejette H0 . Sinon, faute de mieux, il conserve H0 .
Le niveau α peut être vu comme le risque maximal que l’on accepte de prendre
en rejetant à tort H0 .
On prend pour H0 :
— une hypothèse communément admise
— une hypothèse de prudence (critère de coût, de sécurité etc)
— la seule hypothèse sous laquelle on peut travailler mathématiquement.

16
En pratique, 2 groupes avec des visées et intérêts différents auront des couples
(H0 , H1 ) inversés (ex : industriels et consommateurs).
Donnons un exemple concret de ce cas : la limite légale d’un polluant contenu
dans les déchets d’une usine est de 6mg/kg. On effectue un dosage sur 20 prélève-
ments sur lesquels on observe une moyenne empirique de 7mg/kg avec un écart-type
empirique de 2.4mg/kg. On admet que la loi de dosage est gaussienne.
iid
On observe donc X1 , . . . , X20 ∼ N (µ, σ 2 ) avec µ et σ 2 inconnus. Pour le directeur
de l’usine, l’erreur la plus grave serait de conclure que le niveau de polluant est trop
élevé alors qu’il ne l’est pas. Il choisit donc comme hypothèses

H0 : µ ≤ 6 contre H1 : µ > 6.

Prenons maintenant le point de vue de l’écologiste. Si la limite est supérieure à


8mg/kg, il y a danger. Contrairement au directeur d’usine, l’écologiste considère
que l’erreur la plus grave serait de conclure que le niveau de polluant n’est pas trop
élevé alors qu’en réalité il l’est. Il effectue donc le test suivant

H0 : µ ≥ 8 contre µ < 8.

La mise en oeuvre de ces tests sera faite en exercice (cf TD1 exercice 2).

1.7.2 Explications sur des exemples


iid
Exemple : X1 , . . . , Xn ∼ N (µ, σ 2 ), σ connu.

H0 : µ = 3 contre µ 6= 3
Dans la pratique : nous observons x1 , . . . , xn . Comme nous voulons savoir si la
moyenne est égale à 3 ou plus grande que 3, naturellement nous regardons la moyenne
empirique x̄. Imaginons que x̄ = 3.5. Alors que conclure ? Et bien ça dépend...ça
dépend de plusieurs facteurs, plus exactement, ça dépend ici de n et de σ.
En effet, le problème est que, évidemment, on ne tombera jamais sur 3 exacte-
ment. Imaginons que la vraie moyenne est 3. Alors comme les Xi sont aléatoires et
qu’on n’en a qu’une quantité finie n, on n’a jamais l’information exacte sur µ en
utilisant l’échantillon, mais seulement une information approchée et aléatoire.
Donc si la moyenne empirique vaut 3.5, la question est : est-ce que la vraie
moyenne est 3 et que je tombe sur 3.5 parce que c’est aléatoire ? Ou bien est-ce que
c’est parce que ce n’est pas 3 la vraie moyenne ?
Pour répondre à ces questions, il faut utiliser les tests, et surtout utiliser toutes
les informations que l’on a à notre disposition (ou que l’on peut déduire des données),
en particulier la taille de l’échantillon et la variance σ 2 . En effet ce sont ces deux
informations qui vont nous aider à savoir si c’est "normal" de tomber sur 3.5 en
ayant une vraie moyenne de 3, ou bien si c’est "anormal" (ou "atypique").
Ici regardons ce qui se passe sous H0 , c’est-à-dire quand µ = 3 (c’est toujours
ce qu’on fait en fréquentiste, on regarde ce qu’il est censé se passer sous H0 , donc
asymétrie des deux hypothèses). Si on est vraiment sous H0 , alors la question est :
qu’est-ce qu’une valeur "normale" (ou "usuelle" ou "typique") de X̄ quand µ = 3 ? Il

17
suffit pour cela de standardiser pour se ramener à une variable normale standard et
utiliser les quantiles de N (0, 1). En effet, si µ = 3 on a

√ X̄ − 3
n ∼ N (0, 1)
σ
Donc, comme le quantile d’ordre 97.5% de la loi normale standard vaut 1.96 (environ)
on a  
√ |X̄ − 3|
P3 n ≤ 1.96 = 95%
σ
Autrement dit, on peut dire que, avec une très grande probabilité, ici plus précisé-
ment avec une probabilité de 95%, la variable aléatoire

√ X̄ − 3
T = n
σ
se trouve dans l’intervalle [−1.96, 1.96]. Autrement dit, une valeur "typique" de la
statistique T , si on est vraiment sous H0 , est une valeur entre -1.96 et 1.96.
Ainsi si on tombe sur une valeur qui sort de cette intervalle, on se dit que ça
n’est pas une valeur "normale" pour T sous H0 et donc on rejette H0 .
Il est évidemment toujours possible que, tout en étant sous H0 , c’est-à-dire ici,
tout en ayant une vraie valeur de µ égale à 3, on tombe sur une valeur observée de
T qui sorte de l’intervalle [−1.96, 1.96], puisque la loi normale a son support sur R.
Mais ceci se produit "rarement" et donc la possibilité de se tromper en rejetant à
tort H0 est faible : ici 5% (on prend toujours α petit). C’est l’erreur de type I.
Maintenant illustrons cette dépendance par rapport à σ et n dans notre exemple
(donc on suppose toujours x̄ = 3.5) sur notre décision finale .
1. Imaginons
√ d’abord que σ = 1 et n = 100. Alors la valeur observée de T est
t = 100 3.5−3
1
= 5. Comme 5 est en dehors de l’intervalle [−1.96, 1.96], on
conclut que c’est une valeur "anormale" pour H0 et donc on rejette H0 .
2. √
Imaginons que σ = 5 et n = 100. Alors la valeur observée de T est t =
100 3.5−3
5
= 1. Alors on accepte H0 . L’idée est que c’est très possible que la
vraie valeur de µ soit 3 et de tomber sur une valeur aussi grande que 3.5 ici,
car les données ont une grande variance.

3. Imaginons que σ = 1 et n = 9. Alors la valeur observée de T est t = 9 3.5−31
=
1.5. Alors on accepte à nouveau H0 . L’idée est qu’une valeur de x̄ = 3.5 n’est
pas "anormale" pour H0 si on n’a pas beaucoup de données (le résultat est
peu précis si on n’a très peu de données donc il n’est pas "anormal" d’avoir
vraiment µ = 3 tout en ayant une valeur x̄ un peu "éloignée" de 3).

Une autre alternative H1


Dans l’exemple précédent, nous avons choisi H1 : µ 6= 3. Comment faire si
H1 : µ > 3 ?
On va alors juste modifier la région de rejet. Il faut en fait toujours regarder H1
pour savoir quand rejeter. On part donc de la statistique T , qui suit une loi normale
standard sous H0 .

18
Quand on est sous H1 , cette statistique a tendance à prendre de grandes valeurs,
car X̄ est un estimateur de µ et donc X̄ −3 est proche de µ−3 qui est strictement po-
sitif sous H1 . Ensuite cette quantité, X̄ − 3, qui
√ sera donc probablement strictement
positive si on est sous H1 , est multipliée par n (et divisée par σ) pour obtenir T .
Donc on se dit, au moins si n est suffisamment grand et si µ est suffisamment éloigné
de 3, que la statistique T va être "grande" sous H1 , donc on rejette H0 quand T est
"trop grand". Donc la forme de la région de rejet est T > c où c est une constante à
déterminer en fonction, à nouveau, du comportement typique sous H0 de T . Ici on
a donc un encadrement unilatéral de T sous H0 . Le quantile d’ordre 95% de N (0, 1)
vaut environ 1.64. On peut alors dire que

P3 (T ≤ 1.64) = 95%

C’est-à-dire que, avec une grande probabilité, plus précisément ici 95%, et si on est
vraiment sous H0 , la statistique T doit être plus petite que 1.64. Donc on rejette H0
si ce n’est pas le cas.

Fonction puissance

Pour en savoir plus 1.7.1. Un test fréquentiste est toujours basé


sur une statistique dont on connait le comportement sous H0 et on
a toujours borné l’erreur de première espèce par α. On sait donc,
par construction, que si on est vraiment sous H0 et si on rejette
H0 (à tort donc), la probabilité de se tromper est faible. Dans la
construction, on regarde quand même H1 mais c’est uniquement au
moment de savoir la forme de la région de rejet. En réalité on est
quand même censé dès le départ choisir une statistique qui aura un
comportement différent sous H0 et sous H1 , de façon à pouvoir faire
la différence entre les deux hypothèses.

Maintenant, après avoir construit le test, on est intéressé par l’erreur de seconde
espèce et par la fonction puissance, c’est-à-dire, on est intéressé par ce qui se passe
sous H1 . On veut que la probabilité de rejeter H0 , quand on est sous H1 , soit grande,
c’est-à-dire qu’on veut que la puissance soit grande. Éventuellement la fonction
puissance nous permet de comparer différents tests. Une des propriétés souhaitées
est alors que, si on a suffisamment de données, on puisse dire qu’on est sous H1
quand on l’est bien, avec une très grande probabilité. C’est le cas quand le test est
"convergent" (ou "consistant") : la fonction puissance tend vers 1 quand n tend vers
l’infini.
Évidemment, comme son nom l’indique, la puissance est une fonction, car elle
dépend de l’alternative exacte. En effet en général, Θ1 est une hypothèse composite,
c’est-à-dire que Θ1 n’est pas un singleton et on a souvent une infinité de cas possibles
( exemple : Θ1 = R \ {3} ou Θ1 =]3, +∞[)). Il est évidemment plus facile de voir
qu’on est sous H1 quand le vrai µ vaut 10 que quand il vaut 3.5 (toutes choses
étant égales par ailleurs). De plus, la puissance dépend également de la taille de
l’échantillon et de sigma.

19
Exemples concrets de calculs de puissance : reprenons l’exemple des don-
iid
nées gaussiennes ci-dessus X1 , . . . , Xn ∼ N (µ, σ 2 ). Et calculons la puissance dans
différents cas. On appelle α le niveau dans les 3 exemples ci-dessous.
1. σ connu et problème de test H0 : µ = 3 contre H1 : µ 6= 3.
N (0,1) √
φ = 1|T |>q avec q = q1− α et T = n X̄−3
σ
. La fonction puissance, pour µ 6= 3,
2
est donnée par

√ X̄ − 3
β(µ) = Pµ (|T | > q) = Pµ (| n | > q)
σ
√ X̄ − 3 √ X̄ − 3
= Pµ ( n > q) + Pµ ( n < −q)
σ σ
√ X̄ − µ + µ − 3 √ X̄ − µ + µ − 3
= Pµ ( n > q) + Pµ ( n < −q)
σ σ
√ X̄ − µ √ 3−µ √ X̄ − µ √ 3−µ
= Pµ ( n >q+ n ) + Pµ ( n < −q + n )
σ σ σ σ
√ X̄ − µ √ 3−µ √ X̄ − µ √ 3−µ
= 1 − Pµ ( n ≤q+ n ) + Pµ ( n < −q + n )
σ σ σ σ
√ 3−µ √ 3−µ
= 1 − Φ(q + n ) + Φ(−q + n )
σ σ

Quelques exemples d’applications numériques avec α = 5% (arrondis à deux


chiffres après la virgule) :
Code python pour calculer α

import scipy.stats as stat


import numpy as np

def calcul_puissance(alpha,sigma,n,mureel,muH0):
q = stat.norm.ppf(1.0-alpha/2,loc=0,scale=1)
beta=(1.0- stat.norm.cdf(q + np.sqrt(n)*(muH0-mureel)/sigma,loc=0,scale=1)
+ stat.norm.cdf(- q + np.sqrt(n)*(muH0-mureel)/sigma,loc=0,scale=1))
print("mu=",mureel," muH0=",muH0," sigma=",sigma," n=",n,
" beta(",mureel,")=",np.round(beta,2))
return beta

calcul_puissance(0.05,1,100,3.5,3.0);
calcul_puissance(0.05,1,10,3.5,3.0);
calcul_puissance(0.05,2,100,3.5,3.0);
calcul_puissance(0.05,1,100,3.1,3.0);

murange = np.linspace(0,6,100)
betan100=np.zeros_like(murange)
betan10=np.zeros_like(murange)
betan2=np.zeros_like(murange)

20
for index,mureel in enumerate(murange):
betan100[index]=calcul_puissance(0.05,1,100,mureel,3.0);
betan10[index]=calcul_puissance(0.05,1,10,mureel,3.0);
betan2[index]=calcul_puissance(0.05,1,2,mureel,3.0);

plt.figure(14)
plt.rc(’font’,size=14)
plt.plot(murange,betan100,"g",murange,betan10,"b",
murange,betan2,"r",linewidth=4)
plt.ylabel("Puissance",size=14)
plt.xlabel("$\mu$",size=14)
plt.legend(["n=100","n=10","n=2"])
plt.title("Puissance pour $\sigma=1, \mu_{H0}=3.0$")
plt.savefig("betaplot.pdf")

==============Resultats:==============================

mu= 3.5 muH0= 3.0 sigma= 1 n= 100 beta( 3.5 )= 1.0


mu= 3.5 muH0= 3.0 sigma= 1 n= 10 beta( 3.5 )= 0.35
mu= 3.5 muH0= 3.0 sigma= 2 n= 100 beta( 3.5 )= 0.71
mu= 3.1 muH0= 3.0 sigma= 1 n= 100 beta( 3.1 )= 0.17

Puissance pour = 1, H0 = 3.0


1.0

0.8
Puissance

0.6

0.4

0.2
n=100
n=10
n=2
0 1 2 3 4 5 6

Figure 1.5 – Fonction puissance pour les exemples du test bilatéral µ = 3 contre
µ 6= 3.

2. σ connu et problème de test H0 : µ = 3 contre H1 : µ > 3.


N (0,1) √
φ = 1T >q avec q = q1−α et T = n X̄−3σ
. La fonction puissance, pour µ > 3,

21
est donnée par

√ X̄ − 3
β(µ) = Pµ (T > q) = Pµ ( n > q)
σ
√ X̄ − µ √ 3−µ
= Pµ ( n >q+ n )
σ σ
√ X̄ − µ √ 3−µ
= 1 − Pµ ( n ≤q+ n )
σ σ
√ 3−µ
= 1 − Φ(q + n )
σ
Dans ces deux premiers exemples, on voit immédiatement que la fonction puis-
sance tend vers 1 lorsque n → ∞. Cela signifie que pour tout µ de l’alternative
et pour tout  > 0, il existe une taille d’échantillon n0 telle que la probabilité
de rejeter à tort H1 , quand on est sous Pµ pour ce µ particulier, est plus pe-
tite que  si n ≥ n0 . En revanche, dans les deux cas, on peut montrer que la
fonction puissance ne tend pas vers 1 uniformément, ce qui signifie que ce n0
dépend de µ (considérer par exemple la suite µn = 3 + n1 ). L’erreur de seconde
espèce, qui est définie par un sup, ne tend pas vers 0. Voir aussi l’encadré 1.7.2.
3. σ inconnu et problème de test H0 : µ = 3 contre H1 : µ > 3.

Si σ est inconnu, on ne peut plus baser notre test sur T = n X̄−3 σ
car T
n’est
q plus calculable. On remplace donc σ par un estimateur, ici prenons σ̂ =
1 Pn √ X̄−3
i=1 (Xi − X̄) . Avec cet estimateur σ̂ on définit donc T =
2 n σ̂ . La
n−1
loi de cette statistique sous H0 est la loi de Student à n − 1 degrés de liberté.
En effet on a
√ X̄−3 √ X̄−3
√ X̄ − 3 n σ n σ
T = n = σ̂ = q (1.8)
σ̂ σ
σ̂ 2
2 σ

avec Pn (Xi −X̄)2


√ X̄ − 3 σ̂ 2 i=1 σ2 χ2 (n − 1)
n ∼ N (0, 1) et = ∼
σ σ2 n−1 n−1
et X̄ est indépendant de σ̂ 2 (cf. résultat de type Cochrane). On pose donc
T (n−1)
φ = 1T >q avec q = q1−α . Ce test est appelé test de Student.
La fonction puissance, pour µ > 3, est donnée par

√ X̄ − 3
β(µ) = Pµ (T > q) = Pµ ( n > q)
√ σ̂
= Pµ ( n(X̄ − µ + µ − 3) > qσ̂)
√ √
= Pµ ( n(X̄ − µ) > qσ̂ + n(3 − µ))

√ X̄ − µ qσ̂ + n(3 − µ)
= Pµ ( n > )
σ σ√
√ X̄ − µ qσ̂ + n(3 − µ)
= 1 − Pµ ( n ≤ ).
σ σ

22
√ √
qσ̂+ n(3−µ)
Si on pose U = n X̄−µσ
et V = σ
on a β(µ) = 1−P(U ≤ V ) avec U et
V indépendantes, puisque X̄ et σ̂ sont indépendantes. Donc, d’après√l’exemple
2 de la section 1.5, β(µ) = 1 − E[FU (V )] où FU est la cdf de U = n X̄−µσ

N (0, 1). On obtient donc finalement

 qσ̂ + n(3 − µ) 
β(µ) = 1 − E Φ( ) .
σ
On peut ensuite vérifier si la puissance tend bien simplement vers 1 quand
n tend vers l’infini. Pour cela on peut utiliser l’expression ci-dessus. Mais
on peut aussi déduire cette propriété directement, sans faire appel à cette
expression. Rappelons une méthode assez fréquemment utilisée pour montrer
cette propriété : pour fixer les idées, on doit montrer que Pµ (T > cn ) tend
vers 1 quand n tend vers l’infini. Il suffit alors de :
— montrer que la statistique de test Tn se décompose en Tn = Tn,0 + Tn,1
avec
— Tn,0 = OP (1) ("grand O en probabilité", typiquement on montre que Tn,0
converge en loi)
P roba
— Tn,1 → +∞,
— et cn = O(1).
√ √ √
On a ici : Tn = n X̄−3
σ̂
= Tn,0 + Tn,1 avec Tn,0 = n X̄−µ
σ̂
, Tn,1 = n µ−3
σ̂
et
T (n−1)
cn = q1−α . On a, sous Pµ avec µ > 3 et quand n → +∞,
Tn,0 ∼ T (n − 1) donc Tn,0 = OP (1).
p.s.
Tn,1 → +∞
T (n−1) N (0,1)
et enfin q1−α → q1−α car la loi de Student à n − 1 degrés de liberté tend
vers la loi normale standard (cf chapitre 2 théorème 2.20).

1.7.3 La p-valeur
Définition 1.14. Supposons avoir construit une famille de tests φα (X), chacun de
niveau α, pour α ∈ [0, 1]. La p-valeur associée à cette famille est la variable aléatoire
réelle définie par
p(X) = inf{α ∈ [0, 1] : φα (X) = 1}.

Intuition 1.7.3. Interprétation de la p-valeur : plus la p-valeur ob-


servée est petite, plus on a envie de rejeter H0 car cela signifie que la
valeur observée de la statistique utilisée pour le test est atypique pour
H0 .

Remarque 1.15. On constate que p(X) est le niveau à partir duquel on se met
à rejeter H0 . C’est comme si on faisait le test sans connaître le α et on tire la
conclusion à la fin une fois que le α est dévoilé. Donc

23
— Si p(x) < α alors on rejette H0 au niveau α.
— Si p(x) > α alors on conserve H0 au niveau α.

 Mise en garde 1.7.3. Une p-valeur petite ne veut pas dire que
l’on a plus de chances d’être sous H1 que sous H0 : ça dépend en
fait du comportement de la p-valeur sous H1 . On sait que, sous cer-
taines conditions du moins (cf chapitre 2), la p-valeur suit une loi
uniforme sous H0 , mais on ne sait pas forcément le comportement
de la p-valeur sous H1 . La question de la probabilité de H0 sachant
les données est une question bayésienne à laquelle on peut répondre
si on a un a priori sur l’alternative (il faut aussi parfois un a priori
sur H0 ). Attention donc à l’interprétation des p-valeurs, ne pas
dire "la p-valeur est petite donc la probabilité que H0 soit fausse
est grande".
Pour autant, une p-valeur importante n’implique pas forcément que
H0 soit vraie. Il se peut que le test ne soit pas puissant. Par exemple
considérons le test φ(X) ≡ 0 : ce test accepte toujours H0 . L’en-
semble dans la définition de la p-valeur est vide, par convention on
prend son sup pour définir la p-valeur, c’est-à-dire que la p-valeur
est égale à 1.

Exemple 1.16. Un exemple de cas où le calcul de la p-valeur est très simple :


supposons que le test est de la forme φα (X) = 1T (X)>kα , que Θ0 = {θ0 } et que la
statistique T (X) a, sous Pθ0 , une loi de cdf F0 strictement croissante et continue.
Alors on a kα = F0−1 (1 − α). Et on voit facilement que

p(x) = 1 − F0 (T (x)).

En effet,

Pθ0 (T (X) > kα ) = α ⇐⇒ 1 − F0 (kα ) = α ⇐⇒ kα = F0−1 (1 − α).

Et la p-valeur observée est donnée par

p(x) = inf{α ∈]0, 1[: T (x) > F0−1 (1 − α)}


= inf{α ∈]0, 1[: F0 (T (x)) > 1 − α}
= inf{α ∈]0, 1[: α > 1 − F0 (T (x))}
= 1 − F0 (T (x)).

Dans ce cours, on supposera toujours que


— le test est conçu de façon à maximiser la région de rejet.
— φα (X) décroit quand α décroit.

24
Intuition 1.7.4. La première hypothèse est naturelle. Dans la défini-
tion d’un test de niveau α, on exige que l’erreur de première espèce soit
plus petite que α. On a alors une infinité de solutions possibles : en effet
si Pθ0 (T > c1 ) ≤ α alors Pθ0 (T > c2 ) ≤ α pour tout c2 > c1 . Si on veut
minimiser l’erreur de seconde espèce, il faut alors maximiser la région
de rejet (et donc prendre c le plus petit possible).
La seconde hypothèse est aussi très naturelle. Elle se réécrit

α1 ≤ α2 =⇒ Rα1 ⊂ Rα2

autrement dit, si on rejette à un niveau α1 alors on rejette aussi à tout


niveau α2 ≥ α1 .

Théorème 1.17. ("théorème de Wasserman")


On suppose que les tests que l’on fait à un niveau α donné maximisent la région
de rejet.
— Supposons qu’une famille de tests soit de la forme φα (X) = 1T (X)≤kα , pour
α ∈]0, 1[. Alors, si le test est de taille α, la p-valeur s’écrit
p(x) = sup Pθ (T (X) ≤ T (x)),
θ∈Θ0

où x est la valeur observée de X.


— Pour une famille de tests de taille α de la forme φα (X) = 1T (X)≥kα , on a
p(x) = supθ∈Θ0 Pθ (T (X) ≥ T (x)).
— Si la variable T (X) a une loi discrète de cdf F0 fixe sous H0 et si la famille de
tests est de la forme φα (X) = 1T (X)≤kα alors
p(x) = F0 (T (x)) = PH0 (T (X) ≤ T (x))
— Si la variable T (X) a une loi discrète de cdf F0 fixe sous H0 et si la famille
de tests est de la forme φα (X) = 1T (X)≥kα , avec les mêmes hypothèses, on a
p(x) = PH0 (T (X) ≥ T (x)).
— Ces formules sont encore vraies s’il existe θ0 tel que pour tout t,
sup Pθ (T (X) ≤ t) = Pθ0 (T (X) ≤ t)
θ∈Θ0

si le test s’écrit φα (X) = 1T (X)≤kα ou


sup Pθ (T (X) ≥ t) = Pθ0 (T (X) ≥ t)
θ∈Θ0

si le test s’écrit φα (X) = 1T (X)≥kα

Admis.
Ce qu’on veut dire par loi fixe : T (X) a la même loi ∀θ ∈ Θ0 . Par exemple c’est
le cas si Θ0 = {θ0 }. C’est aussi le cas pour le test de Kolmogorov-Smirnov, le test
du signe et les tests de Wilcoxon (cf chapitre 2).

Exemples de calculs de p-valeurs

25
iid
— Soit X1 , . . . , Xn ∼ N (µ, σ 2 ) avec µ et σ 2 inconnus. On veut tester
H0 : µ = 2 contre µ ≤ 2.
Le test utilisé est alors le test de Student (cf "exemples de calcul de puissance",

item 3). Le test est alors φ = 1T ≤qT (n−1) avec T = n X̄−2 σ̂
. On est alors dans
α
les conditions d’application du théorème de Wassermann, item 1 : en effet,
puisque la loi de Student est une loi continue, on a bien un test de taille α (et
pas seulement de niveau α). La p-valeur observée est donc donnée par
p(xn1 ) = FT (n−1) (T (xn1 ))
où T (xn1 ) est l’observation de la statistique T (X1n ).
P q P
1 20 1 20
i=1 (xi − x̄) =
Application numérique : n = 20, 20 2
i=1 xi = 1.34 et
√ 20
1.06, ce qui donne la valeur observée T (xn1 ) = 20(1.34 − 2)/1.06 = −2.78. La
p-valeur observée est donnée par p(xn1 ) = 0.01. On peut trouver cette valeur
sur R en utilisant la commande pt(-2.78,19). Pour obtenir directement ce
résultat sans faire de calcul, on peut utiliser la commande R
t.test(-2.78,mu=2,alternative="less").
iid
— Soit X1 , . . . , Xn ∼ Be(p). On veut tester
H0 : p = 1/2 contre p > 1/2.
P
On utilise la statistique T = ni=1 Xi qui suit, sous H0 , une loi binomiale
B(n, 1/2). Au vu de H1 , on rejette quand T est trop grand. Donc on pose
φ = 1T >c où c est déterminé par le fait que le test est de niveau α
P1/2 (T > c) ≤ α. (1.9)
Attention ici la statistique T est discrète donc sa cdf FB(n,1/2) sous P1/2 n’est
pas continue. Donc on ne peut pas toujours avoir l’égalité.
On verra au chapitre 2 que le plus petit entier c vérifiant (1.9) est donné par
B(n,1/2)
c = q1−α , i.e. le quantile d’ordre 1 − α de la loi binomiale B(n, 1/2). Cela
donne le test suivant
φ = 1T >qB(n,1/2) .
1−α

Remarquez que, comme T est presque sûrement à valeurs entières, ce test


peut aussi s’écrire φ = 1{T ≥qB(n,1/2) +1} . Donc il a bien l’une des formes indi-
1−α
quées dans le théorème de Wassermann. Nous sommes bien dans les conditions
d’application de ce théorème (2ème item), donc la p-valeur observée est donnée
par
p(xn1 ) = P(Z ≥ T (xn1 )) = 1 − P(Z < T (xn1 )) = 1 − FB(n,1/2) (T (xn1 ) − 1).
où Z désigne une variable aléatoire de loi B(n, 1/2).
P
Par exemple, si n = 20, et si la valeur observée de ni=1 Xi est 11 alors la
p-valeur du test est p(xn1 ) = 0.41. Donc on a tendance à accepter H0 au vu
des données.
On peut obtenir cette valeur sur R avec la commande pbinom(10,20,1/2).
On retrouve cette p-valeur directement utilisant la commande
binom.test(11,20,1/2,alternative="greater") .

26
Remarque 1.18. Attention aux inégalités strictes versus inégalités larges, elles ont
leur importance, surtout pour des variables discrètes. Dans le théorème de Wasser-
mann, il s’agit d’inégalités larges.
Pour une variable discrète, on définira le test à partir d’inégalités strictes comme
ci-dessus. On peut toujours transformer ce type de test en un test avec égalité large
(ex : T > 3 ⇐⇒ T ≥ 4 si T prend des valeurs entières).

Méthode pour construire un test


1. Choix de H0 et H1 .
2. Détermination de T (X), la statistique de test. On doit connaitre sa loi sous
H0 . Evidemment on souhaite aussi que cette statistique ait un comportement
différent sous H0 et sous H1 pour pouvoir discriminer les deux hypothèses.
3. Allure de la zone de rejet en fonction de H1 (i.e. en fonction du comportement
de T (X) sous H1 ).
4. Observation de la réalisation T (x) de T (X).
5. Calcul de la p-valeur associée p(x) et comparaison à un seuil fixé par un non-
statisticien.
6. Conservation ou non de H0 .

1.7.4 Interprétation des p-valeurs : d’autres exemples et dé-


tails
Comme la p-valeur est définie comme unninfimum, ce n’est pas o forcément un
"min" donc on ne sait pas a priori si p(x) ∈ α ∈]0, 1[: φα (x) = 1 ou pas, c’est-
à-dire qu’on ne sait pas si on rejette H0 pour le niveau α = p(x). Appelons α∗ la
p-valeur p(x) de façon à la considérer comme un niveau. Pour fixer les idées (ça
ne change rien au raisonnement), supposons que φα∗ (x) = 1, autrement dit, pour
le niveau α∗ on rejette H0 . On rappelle que le niveau α est choisi comme étant la
probabilité de rejeter à tort H0 (ou un majorant de cette probabilité si on ne peut
pas avoir l’égalité pour tout α).
Donc si on regarde la p-valeur comme un niveau α∗ , alors on rejette pour ce
niveau α∗ et, si α∗ est très petit, alors la probabilité de rejeter à tort est très faible.
En quelque sorte, plus la p-valeur observée est petite, plus on on a envie de rejeter
H0 .
Supposons que l’on ait observé une p-valeur de p = 0.001, qui est donc très
petite. Alors pour le niveau α = 5% on rejette H0 puisque 0.001 < 0.05. Mais en
plus, le fait de connaitre la p-valeur nous apporte une information supplémentaire :
le fait que p soit vraiment petit ici nous donne une certaine confiance dans notre
rejet. Par exemple si on avait eu p = 0.04 alors on aurait aussi rejeté au niveau
α = 5% mais on l’aurait fait avec moins d’assurance.
Les logiciels de statistique donnent toujours la p-valeur quand on leur demande
de faire un test. Prenons l’exemple du test de Student. On a dans un vecteur x
un échantillon de gaussiennes de moyenne et variance inconnues et on veut tester
H0 : µ = 1.5 contre µ 6= 1.5 où µ est la moyenne. Alors on peut utiliser la commande
R suivante

27
t.test(x,mu=1.5)

dont la sortie est

One Sample t-test

data: x
t = -1.9561, df = 19, p-value =
0.06532
alternative hypothesis: true mean is not equal to 1.5
95 percent confidence interval:
0.6181763 1.5298237
sample estimates:
mean of x
1.074

On tombe sur une p-valeur d’environ 0.06 donc on accepte (tout juste) H0 au
niveau 5%. Là encore, comme la p-valeur est proche du niveau, on n’a pas une
confiance énorme en le résultat final.
Interprétation à l’aide du théorème de Wassermann
Reprenons un des exemples précédents : premier item de "exemples de calculs
de p-valeurs". La p-valeur s’écrit dans cet exemple p(xn1 ) = FT (n−1) (T (xn1 )). Dans
l’application numérique, la valeur observée de la statistique T est t = −2.78. Si on
est vraiment sous H0 , t est alors censée être la valeur observée d’une statistique
qui suit une loi de Student à 19 degrés de liberté, et la p-valeur mesure alors la
probabilité qu’une variable de Student à 19 degrés de liberté soit plus petite que
-2.78, c’est-à-dire la probabilité d’observer une valeur de T plus petite que -2.78
si on est vraiment sous H0 . Donc la p-valeur mesure en quelque sorte le côté
atypique de la valeur observée, par rapport à ce qu’il est censé se passer sous H0 .
Ici, si on était vraiment sous H0 , il y aurait une probabilité de 1% d’observer
une valeur inférieure ou égale à −2.78 pour la statistique T . Donc -2.78 est plutôt
une valeur atypique pour H0 et on penche donc pour le rejet de H0 .

28
1.8 Exercices
Exercice 1.1. Soit X une variable aléatoire réelle, absolument continue de densité
continue f , de fonction de répartition F . On observe un n-échantillon iid (X1 , . . . , Xn )
de même loi que X. On considère la statistique T qui ordonne l’échantillon dans le
sens croissant :
T (X1 , . . . , Xn ) = (X(1) , . . . , X(n) ),
avec X(1) ≤ X(2) ≤ · · · ≤ X(n) . (X(1) , . . . , X(n) ) s’appelle la statistique d’ordre.
1. On suppose pour cette question uniquement que les Xi sont seulement indé-
pendants et de lois continues (c’est-à-dire que les Xi sont indépendants et ont
tous une fonction de répartition Fi continue, mais pas forcément absolument
continue). Montrer que

P (∃ i 6= j : Xi = Xj ) = 0,

et que dans la définition de la statistique d’ordre, on peut donc se limiter à des


inégalités strictes : X(1) < X(2) < · · · < X(n) .
2. Déterminer la densité de la loi du n-uplet (X(1) , . . . , X(n) ).
3. Déterminer la fonction de répartition Fk et la densité fk de X(k) .
4. Montrer que si E[|X|] est finie, alors il en est de même de E[|X(k) |].
5. Rappeler les densités des lois de X(1) et X(n) et déterminer la densité du couple
(X(1) , X(n) ). Quelle est la loi de Wn = X(n) − X(1) ?
6. On considère une suite (Ui )i∈N de variables i.i.d. selon la loi uniforme sur
[0, 1], et on pose

Yn = min Ui Zn = max Ui − min Ui


1≤i≤n 1≤i≤n 1≤i≤n

(a) Montrer que nYn converge en loi vers une loi exponentielle.
(b) Étudier la convergence en loi de Zn , puis sa convergence en probabilité et
L1 .
(c) Soit  > 0. Calculer P[|Zn − 1| > ]. En déduire que Zn converge presque
sûrement.
(d) Rappeler les implications logiques entre les modes de convergence étudiés :
en loi, en probabilité, en norme L1 , en norme L2 , presque sûre.

Exercice 1.2. On reprend un exemple du cours. La limite légale d’un polluant


contenu dans les déchets d’une usine est de 6mg/kg. On effectue un dosage sur
20 prélèvements sur lesquels on observe une moyenne empirique de 7mg/kg avec un
écart-type empirique de 2.4mg/kg. On admet que la loi de dosage est gaussienne.
iid
On observe donc X1 , . . . , X20 ∼ N (µ, σ 2 ) avec µ et σ 2 inconnus.
1. Faire un test de niveau α pour le problème de test suivant :

H0 : µ ≤ 6 contre H1 : µ > 6.

29
1 P
20
2. On calcule à partir de ces données x̄ = 7 et σ̂ 2 = 19 2 2
i=1 (xi − x̄) = 2.4 .
Calculer la p-valeur observée et conclure si on choisit le niveau α = 5%.
iid
Exercice 1.3. On dispose d’un échantillon de loi Bernoulli de paramètre p : X1 , . . . , Xn ∼
Be(p).
1. Proposer une procédure de test pour le problème suivant

H0 : p = 1/2 contre H1 : p > 1/2.

2. Proposer une procédure de test pour le problème suivant

H0 : p = 1/2 contre H1 : p 6= 1/2

3. Proposer un test asymptotique pour le problème de la question précédente.


4. Calculer la puissance du test asymptotique de la question 3. La puissance tend-
elle simplement vers 1 quand n tend vers l’infini ?
5. Application numérique. On calcule à l’aide des données, n = 100, x̄ = 0.59,
q0.95 = 58, q0.975 = 60 où on note qα le quantile d’ordre α de la loi binomiale
B(100, 1/2). Quelle est la conclusion des deux premiers tests ci-dessus, au
niveau α = 0.05, pour ces données ?

30
Chapitre 2

Estimation de la fonction de
répartition

2.1 Consistance des fonctions de répartition em-


piriques
On considère X1n = (X1 , . . . , Xn ) un n-échantillon iid de cdf F : ∀x ∈ R, F (x) =
P(X1 ≤ x). On rappelle que :
— F est croissante
— F est continue à droite
— limx→+∞ F (x) = 1 et limx→−∞ F (x) = 0.
On peut préciser que, étant croissante, elle a une limite à gauche en tout point
et elle admet au plus un nombre dénombrable de discontinuités aux points x tel que
P(Xj = x) 6= 0.
Il existe un estimateur naturel de F : la fonction de répartition empirique.
Définition 2.1. la fonction de répartition empirique associée à X1n = (X1 , . . . , Xn )
R → [0, 1]
est la fonction aléatoire définie par : F̂n : 1 Pn
x → n i=1 1Xi ≤x

Remarque 2.2. Pour insister sur le caractère aléatoire de F̂n , on peut écrire parfois
F̂n (ω, x) au lieu de F̂n (x). F̂n (ω, x) désigne donc la valeur de la cdf F̂n en x quand
l’observation est ω.
Remarque 2.3. On construit facilement F̂n car c’est une fonction en escalier.
P
Fixons ω et écrivons (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)). Alors F̂n (ω, x) = n1 ni=1 1xi ≤x
est la fonction de répartition de la variables aléatoire Z à valeurs dans {x1 , . . . , xn }
et telle que P(Z = xi ) = nk si la valeur xi apparait k fois dans {x1 , . . . , xn }. Par
exemple, si tous les xi distincts, alors F̂n (ω, ·) est la cdf de la loi uniforme sur
{x1 , . . . , xn }.
Soit (X(1) , . . . , X(n) ) la statistique d’ordre associée à X1n . On rappelle que cela
signifie que {X(1) , . . . , X(n) } = {X1 , . . . , Xn } et

X(1) ≤ X(2) ≤ . . . X(n) .

31
La fonction F̂n (ω, ·) est discontinue aux points X(j) (ω). Elle a un saut égal au nombre
de fois où la valeur Xi (ω) apparait dans {X1 (ω), . . . , Xn (ω)}. En particulier si tous
les Xi (ω) sont distincts, i.e. X(j) (ω) < X(j+1) (ω) pour tout j, alors F̂n (ω, x) = nj
pour tout x ∈ [X(j) (ω), X(j+1) (ω)[. Dans tous les cas, elle vaut 0 sur ] − ∞, X(1) (ω)[
et 1 sur [X(n) (ω), +∞[.

Proposition 2.4. Soit x ∈ R, F̂n (x) est un estimateur sans biais de F (x)
et limn→∞ F̂n (x) = F (x) p.s. Par ailleurs
√ Loi
n(F̂n (x) − F (x)) −→ N (0, F (x)(1 − F (x)))
P iid
Démonstration. F̂n (x) = n1 ni=1 1Xi ≤x avec 1Xi ≤x ∼ Be(F (x)) donc limn→∞ F̂n (x) =
F (x) p.s. découle de la LGN. La deuxième propriété vient du théorème limite central
en remarquant que Var(1Xi ≤x ) = F (x)(1 − F (x)).
Ce résultat est de nature paramétrique car x est fixé. On peut aller plus loin.

Théorème 2.5. (Glivenko-Cantelli) Soit (X1 , . . . , Xn ) un n−échantillon iid de fonc-


tion de répartition F . Alors la fonction de répartition empirique est un estimateur
fortement consistant de F pour la norme de la convergence uniforme :

lim kF̂n − F k∞ = lim sup |F̂n (x) − F (x)| = 0 p.s.


n→∞ n→∞ x∈R

La preuve sera donnée dans la section 2.3.

Définition 2.6. A toute fonction de répartition F on associe son inverse généralisé


F (−1) définie comme suit :

∀q ∈ [0, 1] F (−1) (q) = inf{x ∈ R : F (x) ≥ q}


F (−1) est aussi appelée la fonction quantile.

Proposition 2.7. On a F (−1) = F −1 quand F est bijective. De plus,


1. F (F (−1) (q)) ≥ q pour tout q ∈ [0, 1].
2. ∀x ∈ R, ∀q ∈ [0, 1], F (x) ≥ q ⇔ x ≥ F (−1) (q).
3. Si U ∼ U [0, 1] alors F (−1) (U ) est une v.a. de fonction de répartition F .
4. Si F est continue alors F (F (−1) (q)) = q. pour tout q ∈]0, 1[.
5. Si Z admet pour fonction de répartition F continue alors F (Z) ∼ U [0, 1].
6. F (−1) est croissante.

Démonstration. 1. Par définition de F (−1) (q), il existe une suite (un )n≥0 telle que
F (un ) ≥ q et un → F (−1) (q) en décroissant (c’est donc une limite à droite) .
n→∞
Comme F est continue à droite, F (un ) → F (F (−1) (q)). Donc F (F (−1) (q)) ≥ q.
2. • Si F (x) ≥ q alors par définition F (−1) (q) ≤ x.
• Si x ≥ F (−1) (q) alors par croissance de F on a F (x) ≥ F (F (−1) (q)) donc
F (x) ≥ q par l’item 1.

32






























































































p4






p3




























































































p2










●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●



















































































p1

















●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

F(−1)(p1)=F−1(p1) F(−1)(p2) F(−1)(p3)=F(−1)(p4)

Figure 2.1 – Fonction de répartition (en rouge) avec palier et saut

3. D’après l’item 2 on a P(F (−1) (U ) ≤ t) = P(U ≤ F (t)) et P(U ≤ F (t)) = F (t)


car F (t) ∈ [0, 1].
4. D’après l’item 1, il suffit de montrer que F (F (−1) (q)) ≤ q. Si F est continue
alors ]0, 1[⊂ Im(F ), d’après le théorème des valeurs intermédiaires. Donc il
existe xq ∈ R tel que F (xq ) = q. Donc par définition F (−1) (q) ≤ xq . Donc par
croissance de F , F (F (−1) (q)) ≤ q.
5. Soit t ∈]0, 1[. On a

P(F (Z) < t) = 1 − P(F (Z) ≥ t)


= 1 − P(Z ≥ F (−1) (t))
= P(Z < F (−1) (t))
= F (F (−1) (t))
=t

où on a utilisé l’item 2 pour la 2ème ligne, le fait que F est continue pour la
4ème ligne, et l’item 4 pour la dernière ligne. Comme ] − ∞, x] = ∩t>x ] − ∞, t[
on a P(F (Z) ≤ x) = limt→x,t>x P(F (Z) < t) = limt→x,t>x t = x. Donc F (Z) ∼
U [0, 1].
6. Soit q1 , q2 ∈ [0, 1] avec q1 ≤ q2 . Alors {x ∈ R : F (x) ≥ q2 } ⊂ {x ∈ R : F (x) ≥
q1 } donc F (−1) (q1 ) ≤ F (−1) (q2 ).

33
Remarque 2.8. Les item 1 et 4 peuvent "se déduire" à partir d’un dessin. On "voit"
également que les paliers de F correspondent à un point de discontinuité de F (−1) et
qu’un saut de F correspond à un palier de F (−1) .

Remarque 2.9. Dans un certain nombre de cas (cf exemples ci-dessous), la p-valeur
p(X) d’un test suit une loi uniforme sous H0 .
iid
Exemple 2.10. Un échantillon X1 , . . . , Xn ∼ N (µ, σ 2 ) avec σ inconnu. Problème
de test H0 : µ = µ0 contre H1 : µ ≤ µ0 . On utilise le test de Student φ =
1T ≤qT (n−1) . Alors d’après le théorème de Wassermann, la p-valeur observée s’écrit
α
p(xn1 ) = FT (n−1) (T (xn1 )). Donc la p-valeur p(X1n ), en tant que variable aléatoire, vé-
rifie p(X1n ) = FT (n−1) (T (X1n )). Or T (X1n ) ∼ T (n − 1) sous H0 . Donc, d’après l’item
5 de la proposition précédente, p(X1n ) suit une loi uniforme sous H0 .

Exemple 2.11. : même contexte mais avec H1 : µ ≥ µ0 . Alors le test s’écrit φ =


1T ≥qT (n−1) . Et la p-valeur observée satisfait p(xn1 ) = Pµ0 (T (X1n ) ≥ T (xn1 )) = P(Z ≥
1−α
T (xn1 )) avec Z ∼ T (n − 1). Donc p(xn1 ) = 1 − FT (n−1) (T (xn1 )). Ainsi la p-valeur, en
tant que variable aléatoire, satisfait p(X1n ) = 1 − FT (n−1) (T (X1n )). A nouveau, sous
H0 , FT (n−1) (T (X1n )) ∼ U [0, 1] donc p(X1n ) ∼ U [0, 1].

Exemple 2.12. Même contexte mais avec H1 : µ 6= µ0 . Alors le test s’écrit φα =


1|T |≥qT (n−1) . et la p-valeur observée s’écrit
1− α
2

n α o
p(xn1 ) = inf α ∈]0, 1[: |T (xn1 )| ≥ FT−1
(n−1) (1 − )
n
2
αo
= inf α ∈]0, 1[: FT (n−1) (|T (xn1 )|) ≥ 1 −
n h 2 io
n
= inf α ∈]0, 1[: α ≥ 2 1 − FT (n−1) (|T (x1 )|
= 2[1 − FT (n−1) (|T (xn1 )|].

Ainsi h i
p(X1n ) = 2 1 − FT (n−1) (|T (X1n )|)
Pour simplifier, on note T (X1n ) = T et FT (n−1) = F . On a alors si x ∈ [0, 1],
 
P 2[1 − F (|T |)] ≤ x
 x
= P F (|T |) ≥ 1 −

2   
x x
= P F (T ) ≥ 1 − , T ≥ 0 + P F (−T ) ≥ 1 − , −T ≥ 0

2 
2
x
= 2P F (T ) ≥ 1 − , T ≥ 0

2
x
= 2P F (T ) ≥ 1 −
2
=x

On a utilisé
— pour la 3ème ligne : la symétrie de la loi de T .

34
— pour la 4ème ligne : 1− x2 > 1/2 si x ∈]0, 1[. Or F est la cdf de T (n−1), donc F
est continue et correspond à une loi symétrique. Donc F (x) = 1−F (−x). Donc
F (0) = 1/2 et comme F est strictement croissante, on a F (x) ≥ 12 =⇒ x ≥ 0
x
— pour la dernière ligne : 1 − F (T ) ∼ U [0, 1] et 1 − 2
∈]0, 1[.
Donc, à nouveau, p(X1n ) ∼ U [0, 1].

2.2 Estimation de quantiles


Pour la construction de tests et de régions de confiance, on s’appuie sur la notion
de quantiles. On rappelle la définition générale d’un quantile.
Définition 2.13. Pour β ∈ [0, 1], on appelle quantile d’ordre β d’une loi de proba-
bilité P à support dans R la quantité

qβ = inf{x ∈ R : P(] − ∞, x]) ≥ β}

Autrement dit, en utilisant la fonction inverse généralisé, si P admet F pour


fonction de répartition
qβ = F (−1) (β)
δ0 +δ1 +δ2
Exemple 2.14. Soit la loi 3
. La quantile de 25% est 0 et celle de 75% est 3.
Proposition 2.15. 1. quand la fonction de répartition F est inversible, le quan-
tile d’ordre β est égale à F −1 (β) et alors on a F (qβ ) = β. Et le quantile est
l’unique solution de cette équation.
2. Plus généralement si F est continue, on a F (qβ ) = β. (mais la solution n’est
pas unique)
3. On a toujours F (qβ ) ≥ β et, F (qβ− ) ≤ β, i.e P (X < qβ ) ≤ β. Autrement dit

P (X ≤ qβ ) ≥ β et P (X ≥ qβ ) ≥ 1 − β.

Démonstration. 1. évident.
2. F (qβ ) = β est l’item 4 de la proposition 2.7.
3. F (x− ) ≡ limt→x,t<x F (t) = limt→x,t<x P(] − ∞, t]) = P(] − ∞, x[). De plus si
x < qβ alors, par définition de qβ , on a F (x) < β. Donc F (qb− ) ≤ β.

Exemple 2.16. La médiane m vérifie

P(X ≤ m) ≥ 1/2 et P(X ≥ m) ≥ 1/2.

Et on a P(X ≤ m) = P(X ≥ m) = 1/2 quand F est continue.


Remarque 2.17. D’autres conventions existent pour la définition d’un quantile. On
peut aussi définir un quantile de manière non unique. Souvent, on appelle quantile
d’ordre β de la loi F tout nombre qβ tel que

P (X ≤ qβ ) ≥ β et P (X ≥ qβ ) ≥ 1 − β. (2.1)

35
Proposition 2.18. Soit X une variable aléatoire réelle de cdf F , et α ∈]0, 1[. Le
F
plus petit réel c tel que P(X > c) ≤ α est égal à q1−α .

Démonstration. P(X > c) ≤ α ⇔ P(X ≤ c) ≥ 1 − α. Par définition, le plus petit


réel c vérifiant cette inégalité est F (−1) (1 − α).
iid
Exemple 2.19. Soit X1 , . . . , Xn ∼ Be(p). On veut tester au niveau α

H0 : p = 1/2 contre p > 1/2.

On utilise une procédure de test φα = 1Pn Xi >c avec c choisi de façon à ce que le
i=1
niveau du test soit plus petit que α et tel que la région de rejet soit maximisée. On
B(n,1/2)
choisit donc c = q1−α .
Si on veut tester au niveau α

H0 : p = 1/2 contre p < 1/2.

On utilise une procédure de test de la forme φ = 1Pn Xi ≤c . Attention ici, la valeur c = qα


i=1
ne fonctionne pas (ni avec le test φ = 1Pn Xi ≤c ni avec φ = 1Pn Xi <c ). On sait en effet
Pn i=1 i=1
seulement que P( i=1 Xi ≤ qα ) ≥ α (alors qu’on souhaite ≤ α). Dans cet exemple, on pourrait
utiliser c = −q1−α
−B(n,1/2)
.
Ce type de problème ne se pose pas pour les variables continues puisque dans ce cas on a
l’égalité (et en plus le fait d’utiliser une inégalité large ou stricte n’a pas d’importance). Dans la
suite, nous n’utiliserons essentiellement que des tests de la forme 1T >c ou 1|T |>c , que la loi de T
soit continue ou discrète.

On admet le théorème suivant. Une preuve, pour les étudiants intéressés, se


trouve dans les annales de l’examen 2018.

Théorème 2.20. Soit (Fn )n≥0 une suite de fonctions de répartition sur R et F une
fonction de répartition sur R. Alors Fn converge vers F en tout point de continuité
de F si et seulement si Fn(−1) converge vers F (−1) en tout point de continuité de
F (−1) .

Exemple 2.21. La loi de Student à n degrés de liberté tend vers la loi normale
standard. Φ−1 est continue. Donc, pour tout α ∈]0, 1[, qαT (n) → qαN (0,1) .
n→∞

On a besoin des quantiles pour les procédures de tests ainsi que pour les régions
de confiance. Parfois on ne sait pas calculer les quantiles de la loi mais on sait
simuler cette loi. Le quantile empirique peut alors être utilisé en remplacement du
vrai quantile.
On rappelle la notation suivante pour les statistiques d’ordre :

X(1) ≤ . . . ≤ X(n)

Définition 2.22. Le quantile empirique d’un n échantillon iid X = (X1 , . . . , Xn )


est défini, pour β ∈]0, 1], par
q̂n,β = F̂n(−1) (β)

36
Intuition 2.2.1. Il s’agit donc des quantiles des cdf (lois) empiriques.

Proposition 2.23.
F̂n(−1) (β) = X(dnβe)
où on a noté dte = min{m ∈ N : m ≥ t}.

Intuition 2.2.2. Dans la formule précédente X(dnβe) est en pratique la


valeur de la dnβe-ème variable de la statistique d’ordre.

Démonstration. On va utiliser la propriété immédiate suivante : pour tout x,


x ≤ dxe < x + 1.
1. Il y a au moins dnβe indices i ∈ [n] tels que Xi ≤ X(dnβe) donc
dnβe
F̂n (X(dnβe) ) ≥ ≥ β. (2.2)
n
2. Soit x < X(dnβe) . Il y a au plus dnβe − 1 indices i ∈ [n] tels que Xi ≤ x donc
dnβe − 1
F̂n (x) ≤ < β. (2.3)
n
(2.2) et (2.3) donnent le résultat.
Le théorème de Glivenko-Cantelli assure que kF̂n − F k∞ → 0 presque sûrement.
On s’attend donc à ce que q̂n,β soit proche de qβ quand n est grand.
Théorème 2.24. Soit β ∈]0, 1[ tel que F (−1) est continue en β. Alors on a
lim q̂n,β = qβ p.s.
n→∞

Démonstration. D’après le théorème de Glivenko-Cantelli, il existe un ensemble me-


surable A tel que P(A) = 1 et si ω ∈ A, kF̂n (ω, ·) − F (·)k∞ → 0. Soit ω ∈ A. On
n→∞
a en particulier F̂n (ω, t) → F (t) pour tout t ∈ R. Donc F̂n(−1) (ω, t) → F (−1) (t)
n→∞ n→∞
en tout point de continuité t de F (−1) d’après le théorème 2.20.
Remarque 2.25. Un point de continuité β pour F (−1) correspond à point de crois-
sance stricte qβ pour F .
Remarque 2.26. On voit donc que si on ne sait pas calculer facilement le quantile
d’une loi, mais si on sait simuler cette loi, on peut avoir une valeur approchée de ses
quantiles en simulant un échantillon suffisamment grand et en calculant le quantile
empirique. Une question associée est : quelle est la taille d’échantillon nécessaire
pour avoir une précision donnée ? Le théorème suivant donne en partie une réponse à
cette question. Sa preuve dépasse le cadre de ce cours donc on admettra ce théorème.

37
Théorème 2.27. Si F est dérivable en qβ avec F 0 (qβ ) > 0 alors
 
√ Loi β(1 − β)
n(q̂n,β − qβ ) −→ N 0,  2
F 0 (qβ )

Remarque 2.28. Les conditions du théorème sont en particulier vérifiées si la loi


F est à densité f strictement positive sur R. Pour construire un IC pour qβ , il faut
alors connaitre f (qβ ).

2.3 Test d’ajustement à une loi ou à une famille


de lois
2.3.1 Ajustement à une loi donnée
On fixe une loi de référence, de fonction de répartition F0 et on observe un
n-échantillon iid X1n = (X1 , . . . , Xn ) dont on note F la fonction de répartition com-
mune. On veut tester

H0 : F = F0 contre H1 : F 6= F0

On va naturellement utiliser la statistique de test suivante

hn (X1n , F0 ) = kF̂n − F0 k∞

Remarque 2.29. Il s’agit bien d’une statistique, c’est-à-dire que hn est bien mesu-
rable. En effet on peut montrer (grâce à la continuité à droite) que

hn (X1n , F0 ) = sup F̂n (x) − F0 (x) .
x∈Q

Proposition 2.30. On suppose F0 et F continues. Alors


 
j j−1
hn (X1n , F0 ) = max max{ − F0 (X(j) ), F0 (X(j) ) − }
1≤j≤n n n
Démonstration. Comme F est continue, presque sûrement, tous les Xi sont distincts
(cf TD). Donc X(1) < X(2) < . . . < X(n) . Donc on peut décrire F̂n de la manière
suivante : 

0
 si x < X(1)
j
F̂n (x) =  n si x ∈ [X(j) , X(j+1) [, 1 ≤ j ≤ n − 1


1 si x ≥ X(n)
On va donc utiliser l’égalité suivante

hn (X1n , F0 ) = sup Mj
0≤j≤n

où, pour 1 ≤ j ≤ n − 1,


Mj = sup F̂n (x) − F0 (x)
x∈[X(j) ,X(j+1) [

38
et

M0 = sup F̂n (x) − F0 (x) et Mn = sup F̂n (x) − F0 (x)
x<X(1) x≥X(n)

En utilisant la croissance de F0 on obtient




Mn = sup 1 − F0 (x) = sup {1 − F0 (x)} = 1 − F0 (X(n) )
x≥X(n) x≥X(n)

et

M0 = sup 0 − F0 (x) = sup F0 (x) = F0 (X(1) )
x<X(1) x<X(1)

Et par la continuité de F0 ,
M0 = F0 (X(1) )
Considérons maintenant Mj pour 1 ≤ j ≤ n − 1. On a
j

Mj = sup − F0 (x) .
x∈[X(j) ,X(j+1) [ n

Soit f une fonction croissante et continue sur un segment [a, b]. On a


n o
sup |f (x)| = sup sup{f (x), −f (x)}
a≤x<b a≤x<b
n o
= sup sup f (x), sup −f (x)
a≤x<b a≤x<b
n o
= sup sup f (x), − inf f (x)
a≤x<b a≤x<b

= max{(f (b), −f (a)}

En appliquant cette propriété à la fonction croissante et continue F0 − nj , on obtient

j j
Mj = max{F0 (X(j+1) ) − , − F0 (X(j) )}.
n n
En rassemblant tous les résultats on obtient finalement
 
j j
hn (X1n , F0 ) = max max {F0 (X(j+1) )− }, max { −F0 (X(j) )}, F0 (X(1) ), 1−F0 (X(n) )
1≤j≤n−1 n 1≤j≤n−1 n
On obtient le résultat final en remarquant que
 
j j
max max { − F0 (X(j) )}, 1 − F0 (X(n) ) = max { − F0 (X(j) )}
1≤j≤n−1 n 1≤j≤n n

et
   
j j−1
max max {F0 (X(j+1) ) − }, F0 (X(1) ) = max max {F0 (X(j) ) − }, F0 (X(1) )
1≤j≤n−1 n 2≤j≤n n
j−1
= max {F0 (X(j) ) − }
1≤j≤n n

39
Définition 2.31. — On dit qu’une variable Z est diffuse si sa cdf est continue.

— Si la loi hn (X1n , F0 ) ne dépend pas de F0 on dit que la statistique hn (X1n , F0 )


est libre de F0 .

Nous faisons maintenant deux remarques utiles pour la preuve de la proposition


suivante.

Remarque 2.32. Si F : R → [0, 1] est une fonction de répartition alors

F continue ⇔]0, 1[⊂ F (R)

En effet
— Si F est continue alors on peut appliquer le théorème des valeurs intermé-
diaires.
— Si F n’est pas continue, alors il y a au moins un saut en un certain x ∈ R,
alors les valeurs entres F (x) et F (x− ) ne sont pas prises par F .

Remarque 2.33. Si Z = maxj=1,...,k Xj avec des variables Xj diffuses, alors Z est


diffuse. En effet, pour tout x,
k
X
P(Z = x) ≤ P(∪kj=1 {Xj = x}) ≤ P(Xj = x) = 0
j=1

Proposition 2.34. Sous H0 , si F0 est continue alors hn (X1n , F0 ) est une statistique
libre de F0 et de loi continue.

Démonstration. Soit U1n = (U1 , . . . , Un ) est un n-échantillon iid de loi uniforme sur
iid (−1) (−1)
]0, 1[ Sous H0 , comme Xi ∼ F0 , on a (X1 , . . . , Xn ) ∼ (F0 (U1 ), . . . , F0 (Un ))
d’après la proposition 2.7. On a donc aussi, sous H0 ,
1 X
n

hn (X1n , F0 ) ∼ sup 1F (−1) (Ui )≤x − F0 (x)
x∈R n i=1 0

En utilisant l’item 2 de la proposition 2.7, on obtient


1 X
n 1 X
n

sup 1F (−1) (Ui )≤x − F0 (x) = sup 1Ui ≤F0 (x) − F0 (x)
x∈R n i=1 0 x∈R n i=1
1 X
n

= sup 1Ui ≤s − s
s∈Im(F0 ) n i=1

En utilisant la remarque 2.32, ceci donne, presque sûrement,


1 Xn 1 Xn
sup 1Ui ≤s − s = sup 1Ui ≤s − s .
s∈Im(F0 ) n i=1 s∈]0,1[ n i=1

40
P
En effet on a ]0, 1[⊂ Im(F0 ) ⊂ [0, 1] et la valeur de la fonction s 7→ n1 ni=1 1Ui ≤s − s
en s = 0 et en s = 1 est égale à 0 presque sûrement. On a donc obtenu que, sous H0

hn (X1n , F0 ) ∼ hn (U1n , G)

où on a noté G la fonction de répartition de la loi uniforme sur [0, 1], i.e. la fonction
définie par G(s) = s pour s ∈ [0, 1]. Cela montre que la loi, sous H0 , de hn (X1n , F0 )
est libre de F0 .
On prouve maintenant que la loi de hn (U1n , G) est continue. D’après la proposi-
tion 2.30, comme G est continue,
 
j j−1
hn (U1n , G) = max max{ − U(j) , U(j) − }
1≤j≤n n n
Comme la loi des Uj est absolument continue, celle de U(j) aussi (fait en TD1, on
a même ici U(j) ∼ Beta(j, n − j + 1), toujours d’après le TD1). Donc, d’après la
remarque 2.33, hn (U1n , G) est bien de loi continue.
iid iid
Exemple 2.35. Soit X1 , . . . , Xn ∼ N (0, 1) et Y1 . . . , Yn ∼ exp(1) alors (pour rappel
Φ(x) est la cdf. de la loi normale) :
1 X
n 1 X
n 1 X
n
sup
1Xi ≤x − Φ(x) ∼ sup

1Yi ≤x − (1 − exp(−x)) ∼ sup

1Ui ≤s − s
x∈R n i=1 x>0 n i=1 s∈]0,1[ n i=1

Pour tout α ∈]0, 1[, si on note ξn,α le quantile d’ordre α de la loi de la statistique
hn (U1n , G), on a donc, par continuité de cette loi,

P iid (hn (X1n , F0 ) ≤ ξn,α ) = α.


Xi ∼ F0

Pour les petites valeurs de n, on a tabulé les quantiles de cette statistique.


On en déduit une bande de confiance de niveau 1 − α en posant

B(n, α) = { fonctions de répartitions G : ∀x ∈ R F̂n (x) − ξn,1−α ≤ G(x) ≤ F̂n (x) + ξn,1−α }
= {G : hn (X1n , G) ≤ ξn,1−α }

Pour tester H0 : F = F0 contre H1 : F 6= F0 , on pose

φα (X1n ) = 1hn (X1n ,F0 )≥ξn,1−α .

On a donc obtenu le résultat suivant

Théorème 2.36. (Test de Kolmogorov) Soit (X1 , . . . , Xn ) un n-échantillon iid de


fonction de répartition F . Le test φα (X1n ) est de taille α pour tester H0 : F = F0
contre H1 : F 6= F0 quand F0 est continue.

Remarque 2.37. Quand F0 n’est pas continue, le test n’est plus de taille α mais il
reste de niveau α. En effet on a, d’après la preuve de la Proposition 2.34,
1 X
n

hn (X1n , F0 ) ∼ sup 1Ui ≤s − s
s∈Im(F0 ) n i=1

41
(En effet, la continuité de F0 n’est pas nécessaire pour obtenir cette égalité en loi).
Et comme
1 Xn 1 Xn
sup 1Ui ≤s − s ≤ sup 1Ui ≤s − s ,
s∈Im(F0 ) n i=1 s∈]0,1[ n i=1
on a
   
P iid hn (X1n , F0 ) ≥ ξn,1−α ≤ P hn (U1n , G) ≥ ξn,1−α = α.
X1 ,...,Xn ∼ F0

Remarque 2.38. Quand le nombre de données n est grand, on utilise un test asymp-
totique.
On a aussi l’inégalité de Dvoretzky-Kiefer-Wolfowitz, et qui est valable sans
iid
condition sur F0 . Sous H0 : X1 , . . . Xn ∼ F0 ,
2
P(kF̂n − F0 k∞ > ) ≤ 2e−2n pour tout n ∈ N et tout  > 0

On termine en donnant les preuves du théorème de Glivenko-Cantelli. On aura


besoin du résultat d’analyse suivant, que l’on admet (niveau assez élementaire, peut
être trouvé dans beaucoup de livres d’analyse, par exemple [Rud76, Thm. 7.13, p.
150]).

Théorème 2.39. (2ème théorème de Dini) Soit (fn )n≥0 une suite de fonctions crois-
santes sur un segment [a, b] dans R, qui converge simplement vers une fonction
continue f . Alors (fn )n≥0 converge uniformément vers f sur [a, b].

La propriété suivante sera aussi nécessaire à la preuve :

Si (Xn )n≥0 ∼ (Yn )n≥0 alors Xn converge p.s. vers 0 ⇔ Yn converge p.s. vers 0.
 (2.4)

p.s.
On a en effet {Xn n→∞
→ 0} ⇔ P lim Xn = 0) = 1 ⇔ P(∩∈Q ∪p∈N ∩n≥p {Xn ≤ } =
1.
La propriété aurait été fausse avec seulement Xn ∼ Yn pour tout n.
Preuve du théorème de Glivenko-Cantelli :
Presque sûrement, F̂n converge simplement vers F d’après la proposition 2.4.
On est donc tenté d’utiliser le 2ème théorème de Dini pour obtenir la convergence
uniforme. Plusieurs problèmes se posent alors :
— La fonction F n’est pas forcément continue.
— La convergence n’a pas lieu sur un segment.
— La convergence presque sûre se traduit ici par : il existe un ensemble A(x)
de probabilité 1 tel que, pour ω ∈ A(x), F̂n (ω, x) → F (x). Autrement dit
n→∞
l’ensemble sur lequel la convergence a lieu dépend de x.
Pour régler les deux premiers problèmes, on va à nouveau se ramener à des variables
uniformes sur [0, 1]. En effet, on a, pour tout n, d’après la preuve du théorème de
Kolmogorov-Smirnov,
1 X
n 1 X
n

sup 1Xi ≤t − F (t) ∼ sup 1Ui ≤s − s
t∈R n i=1 s∈Im(F ) n i=1

42
P P
n n
Posons Vn = supt∈R n1 i=1 1Xi ≤t − F (t) , et Wn = sups∈Im(F ) n1 i=1 1Ui ≤s − s . On
a même
(Vn )n≥0 ∼ (Wn )n≥0
Donc, d’après la propriété 2.4, pour prouver que Vn converge presque sûrement vers
0, il suffit de prouver que Wn converge presque
sûrement vers 0. Pour cela, il suffit
P
de prouver que sups∈[0,1] n1 ni=1 1Ui ≤s − s converge p.s. vers 0 car
1 Xn 1 Xn
sup 1Ui ≤s − s ≤ sup 1Ui ≤s − s .
s∈Im(F ) n i=1 s∈[0,1] n i=1

On est alors ramené à prouver le résultat pour des variables uniformes sur [0, 1],
pour lesquelles les deux premiers problèmes ne se posent pas, puisque la cdf est ici
G(x) = x, définie sur le segment [0, 1], et continue. Il reste donc à prouver que,
presque sûrement, Ĝn converge uniformément vers G. Pour cela, il reste à régler le
dernier problème. Il suffirait, pour conclure à l’aide de Dini, de prouver qu’il existe
un ensemble mesurable A de probabilité 1 tel que, si ω ∈ A, alors pour tout x,
Ĝn (ω, x) tend vers G(x). On pose A = ∩q∈Q∩[0,1] A(q). Si ω ∈ A on a donc

Ĝn (ω, q) → G(q), ∀q ∈ Q ∩ [0, 1]


n→∞

De plus, comme Q est dénombrable, P(A) = 1. Il reste à prouver que, pour tout
s ∈ [0, 1], on a aussi Ĝn (ω, s) n→∞
→ G(s), si ω ∈ A. Soit donc ω ∈ A, s ∈ [0, 1] et
 > 0. Par densité de Q dans R, Il existe des rationnels q1 et q2 tels que s −  ≤ q1 ≤
s ≤ q2 ≤ s + . Par croissance de Ĝn on a

Ĝn (q1 ) ≤ Ĝn (s) ≤ Ĝn (q2 )

Donc en passant à la limite sup et la limite inf (attention à ce stade on ne sait


pas encore que Ĝn (ω, s) converge, donc on doit utiliser les limites supérieures et
inférieures qui, elles, existent toujours), on obtient

s −  ≤ q1 = G(q1 ) ≤ lim inf Ĝn (ω, s) ≤ lim sup Ĝn (ω, s) ≤ G(q2 ) = q2 ≤ s + .
n→∞ n→∞

Ces inégalités étant vraies pour tout  > 0, on a bien limn→∞ Ĝn (ω, s) = s et la
preuve est terminée.

2.3.2 Ajustement à une famille paramétrique de lois : le cas


des familles exponentielles
Soit (X1 , . . . , Xn ) un n- échantillon iid de variables positives de fonction de ré-
partition F . On veut tester si la loi des Xi est exponentielle, c’est-à-dire on veut
tester s’il existe un λ > 0 tel que F = Fλ avec Fλ (x) = (1 − e−λx )1R+ (x) pour tout
x ∈ R. Cette hypothèse correspond à H0 .
Sous H0 on va estimer le paramètre λ. L’estimateur du maximum de vrai-
semblance (noté EMV) est λ̂ = X̄1 . On considère alors la statistique h0n (X1n ) =
supx∈R |F̂n (x) − Fλ̂ (x)|.

43
Proposition 2.40. Sous H0 , la loi de h0n (X1n ) est libre du paramètre λ. De plus
cette loi est continue.

Démonstration. On se place sous H0 . On pose Yi = λXi , pour 1 ≤ i ≤ n. Alors


iid
Y1 , . . . Yn ∼ exp(1).
1 X
n
x
h0n (X1n ) = sup 1Xi ≤x − (1 − e− X̄ )
x>0 n i=1
1 X
n
sup − (1 − e− Ȳ )
λx
= 1 Yi ≤x
x>0 n i=1 λ

1 X
n
t
= sup 1Yi ≤t − (1 − e− Ȳ )
t>0 n i=1

P
La statistique supt>0 n1 ni=1 1Yi ≤t − (1 − e− Ȳ ) a une loi indépendante de λ.
t

On admet la continuité de cette loi.

On en déduit un test de taille α en posant

φα (X1n ) = 1h0n (X1n )≥qn,1−α



1 Pn − Ȳt
où qn,1−α est le quantile d’ordre 1 − α de la loi de
supt∈R n i=1 1Yi ≤t − (1 − e n )
iid
avec Y1 , . . . , Yn ∼ exp(1).

Remarque 2.41. On peut aussi faire le même style de test avec un certain nombre
de familles de lois (cf exercice 2.4 pour un exemple avec les lois normales).

2.4 Test d’homogénéité de Kolmogorov Smirnov


On observe deux échantillons iid X1n = (X1 , . . . , Xn ) et Y1m = (Y1 , . . . , Ym ),
indépendants entre eux, avec m qui peut être différent de n. On veut tester si les
deux échantillons ont la même loi. Autrement dit, si on note F la cdf des Xi et G
la cdf des Yi , on veut tester

H0 : F = G contre H1 : F 6= G.

On note comme précédemment F̂n et Ĝm les fonctions de répartitions empiriques


respectives des échantillons X1n = (X1 , . . . , Xn ) et Y1m = (Y1 , . . . , Ym ) et on pose

hn,m (X1n , Y1m ) = sup |F̂n (t) − Ĝm (t)|


t∈R

Proposition 2.42. Sous H0 : F = G et si F est continue alors la loi de hn,m (X1n , Y1m )
ne dépend pas de F .

44
iid iid
Démonstration. Sous H0 , X1 , . . . , Xn , Y1 , . . . , Ym ∼ F donc, si U1 , . . . , Un , V1 , . . . , Vm ∼
U [0, 1], on a
 
F (−1) (U1 ), . . . , F (1 ) (Un ), F (−1) (V1 ), . . . , F (−1) (Vm ) ∼ (X1 , . . . , Xn , Y1 , . . . , Ym )
Ainsi on obtient, sous H0 ,
1 X
n
1 Xm

hn,m (X1n , Y1m ) = sup 1Xi ≤t − 1Yi ≤t
t∈R n i=1 m i=1
1 X
n
1 Xm

∼ sup 1F (−1) (Ui )≤t − 1F (−1) (Vi )≤t
t∈R n i=1 m i=1
1 X
n
1 Xm

= sup 1Ui ≤F (t) − 1Vi ≤F (t)
t∈R n i=1 m i=1
1 X
n
1 Xm

= sup 1Ui ≤s − 1Vi ≤s
s∈Im(F ) n i=1 m i=1
1 X
n
1 Xm
p.s.
= sup 1Ui ≤s − 1Vi ≤s
s∈]0,1[ n i=1 m i=1

On a utilisé la proposition 2.7 ainsi que la continuité de F . En effet, si F est conti-


nue, ]0, 1[⊂ Im(F ) ⊂ [0, 1] et on vérifie immédiatement que, presque sûrement, la
P P
fonction s 7→ n1 ni=1 1Ui ≤s − m1 mi=1 1Vi ≤s vaut 0 en s = 0 et s = 1.

Cette loi est tabulée. On pose


φα (X1n , Y1m ) = 1hn,m (X1n ,Y1m )>xn,m,1−α
où xn,m,1−α est le quantile d’ordre 1 − α de la loi de la statistique hn,m (X1n , Y1m ) sous
H0 .

Remarque 2.43. Le problème que nous venons de traiter concerne l’ajustement


d’une distribution inconnue à une distribution théorique. Il existe un autre test pour
cela et qui est encore plus connu : le test du χ2 ("chi-deux"). Voici les différences
essentielles entre le test de Kolmogorov-Smirnov et le test du χ2 :
— Le test du χ2 est plus adapté aux lois discrètes. Si on veut l’utiliser pour des
lois continues, c’est possible, mais il faut discrétiser en choisissant des classes
(quelles classes ? combien de classes ?).
— Le test de Kolmogorov-Smirnov a la particularité d’être exact pour de petits
échantillons : la loi est libre à n fini. Le test du χ2 est uniquement asymptotique
(basé sur le TCL). Donc pour des échantillons de petite taille, on préférera le
test de Kolmogorov-Smirnov.
Remarque 2.44. De façon similaire, il existe un test d’indépendance adapté à des
variables ne prenant qu’un nombre fini de valeurs (des facteurs). Par exemple : tester
l’indépendance entre le fait qu’une mère a fumé pendant sa grossesse et le fait que
le bébé a une malformation a la naissance. On utilise le test d’indépendance du χ2 .

45
2.5 Implementations
2.5.1 Avec R
Pour tester si deux échantillons x et y ont la même loi, on peut utiliser ks.test
du package stat. La formule est ks.test(x,y).
Illustrons maintenant les sections précédentes.
Si on veut vérifier qu’un échantillon x suit bien une loi gaussienne de moyenne 3
et d’écart-type 2 :
ks.test(x,"pnorm",3,2)
Si on veut vérifier qu’un échantillon x suive bien une loi gamma avec 3 comme
paramètre de forme et 2 pour le taux :
ks.test(x,"pgamma",3,2)

 Mise en garde 2.5.1. Attention, la fonction ks.test se com-


porte mal en cas d’ex æquo (dans le cas du test d’égalité des lois de
deux échantillons, il ne faut pas avoir un ex æquo de type xi = yj ).
Normalement, en théorie, on ne peut avoir deux valeurs identiques
si la loi sous-jacente est continue. Mais dans la pratique, on peut
avoir des mesures pas assez précises qui donnent donc un échan-
tillon avec des ex aequo.

Voyons ce qui se passe avec la fonction ks.test de R sur un exemple numérique


présentant des ex aequo (tiré des documents pédagogiques de F-G Carpentier, cf
biblio). L’échantillon se nomme x.
> x= c(8.43, 8.70, 11.27, 12.92, 13.05, 13.05, 13.17, 13.44, 13.89,
18.90)
> ks.test(x,"pnorm",mean=13, sd=3)

One-sample Kolmogorov-Smirnov testdata: x


D = 0.2834, p-value = 0.3982
alternative hypothesis: two-sided
Warning message:
cannot compute correct p-values with ties in: ks.test(x, "pnorm", mean
= 13, sd = 3)

On peut éviter le message d’avertissement concernant les ex aequo en modifiant


légèrement l’une des valeurs 13.05 :
> x <- c(8.43, 8.70, 11.27, 12.92, 13.05, 13.050001, 13.17, 13.44, 13.89,
18.90)
> ks.test(X,"pnorm",mean=13, sd=3)

One-sample Kolmogorov-Smirnov test


data: x

46
D = 0.2834, p-value = 0.3326
alternative hypothesis: two-sided

On observe effectivement une valeur du niveau de significativité assez différent


du précédent.
Dans le cas où on veut tester qu’un échantillon X suit bien une loi normale, sans
préciser la moyenne ou la variance (cf section 2.3.2 et exercice 2.4), on peut utiliser
la fonction lillie.test du package nortest.
> library(nortest)
> lillie.test(x)
Lilliefors (Kolmogorov-Smirnov) normality test
data: x
D = 0.2451, p-value = 0.0903

Le test du chi-deux peut se faire à l’aide de la procédure chisq.test. Par


exemple, si on veut tester qu’un échantillon x est à loi discrète à valeurs dans
{1, . . . , m} représentée par le vecteur de probabilités prob= (p1 , . . . , pm ), on peut
utiliser chisq.test(table(x), p=prob).

2.5.2 Avec Python


Sous Python il y a deux possibilités ; la première, si on veut rester dans l’envi-
ronnement R, est d’appeler les commandes R. Par exemple on peut faire :

from rpy2 import robjects


rks=robjects.r(’ks.test’)

Ensuite on utilise normalement la fonction qu’on a appelée rks, en prenant garde


de transformer aussi les entrées. Par exemple si on a un échantillon dans le vecteur
x, et si on veut vérifier qu’il s’agit d’un échantillon gaussien standard :

y=robjects.FloatVector(x)
z=rks(y,"pnorm")

Deuxième variante est d’utiliser directement les fonctions natives telles que stats.kstest ;
attention toutefois cette fonction se comporte différemment en cas d’ex aequo.

from scipy import stats


x =[8.43, 8.70, 11.27, 12.92, 13.05, 13.05, 13.17, 13.44, 13.89, 18.90]
stats.kstest(x,’norm’,args=(13.,3.))
Out[1]: KstestResult(statistic=0.283360504031535, pvalue=0.3335868309982381)

x =[8.43, 8.70, 11.27, 12.92, 13.05, 13.0500001, 13.17, 13.44, 13.89, 18.90]
stats.kstest(x,’norm’,args=(13.,3.))
Out[2]: KstestResult(statistic=0.283360504031535, pvalue=0.3335868309982381)

47
2.6 Exercices
iid
Exercice 2.1. Soit X1 , . . . , Xn ∼ Be(p). On veut tester

H0 : p = 1/2 contre p 6= 1/2.

1. Proposer une procédure de test.


2. Donner l’expression de la p-valeur.
Exercice 2.2. On considère un n-échantillon i.i.d. X1n = (X1 , . . . , Xn ). On note F
la fonction de répartition et F̂n la fonction de répartition empirique associées à cet
échantillon. On se donne F0 une fonction de répartition.
1. Montrer que si F0 est continue la loi, sous H0 , de la statistique
n o
n
h+
n (X1 , F0 ) = sup F̂n (t) − F0 (t)
t∈R +

est libre de F0 .
2. Proposer une procédure de test de

H0 : F = F0 contre H1 : ∃ t ∈ R F (t) > F0 (t).

Exercice 2.3. On s’intéresse dans cet exercice à la puissance du test de Kolmogorov-


Smirnov. On considère donc un échantillon i.i.d. (X1 , . . . , Xn ) de loi de cdf F et de
cdf empirique F̂n . On veut tester

H0 : F = F0 contre H1 : F 6= F0

où F0 est une loi donnée. On veut savoir si le test est capable de nous dire, avec une
grande probabilité, que l’échantillon ne suit pas la loi F0 , quand c’est bien le cas, et
du moment que la taille de l’échantillon est suffisamment grande. Autrement dit, on
veut savoir si le test est puissant.
1. A l’aide de l’inégalité DKW vue en cours, montrer que le quantile ξn,1−α d’ordre
1 − α de la statistique de Kolmogorov-Smirnov, vérifie ξn,1−α = O( √1n ) quand
n → ∞.
2. On suppose que F 6= F0 , c’est-à-dire que l’échantillon ne suit pas la loi F0 .
Montrer que si on pose
 
β(F ) = P iid kF̂n − F0 k∞ ≥ ξn,1−α
X1 ,...,Xn ∼ F

alors
→ 1
β(F ) n→∞

Exercice 2.4. On considère un n-échantillon i.i.d. X1n = (X1 , . . . , Xn ) de variables


aléatoires. On note F la fonction de répartition et F̂n la fonction de répartition
empirique associées à cet échantillon. Si les variables Xi sont de lois normales de
paramètres µ et σ 2 , on note également Nµ,σ2 leur fonction de répartition commune.
1. On suppose que F = Nµ,σ2 . Déterminer l’estimateur du maximum de vraisem-
blance (µ̂, σ̂ 2 ) de (µ, σ 2 ).

48
2. On pose
∆n = sup |F̂n (t) − Nµ̂,σ̂2 (t)|.
t∈R

Montrer que si F = Nµ,σ2 , alors la loi de ∆n ne dépend pas de µ et σ 2 .


3. En déduire un test d’appartenance à la famille des lois normales, c’est-à-dire
un test de
H0 : F ∈ FN contre H1 : F 6∈ FN ,
où n o
FN = G : ∃ (µ, σ 2 ) ∈ (R × R∗+ ) tel que G = Nµ,σ2 .

4. Application (quasi indépendante du reste de l’exercice) : La loi de la statistique


de test de la question 3 a été tabulée. On s’intéresse aussi au test, vu en cours
(section 2.3.2 du poly), d’appartenance à la famille exponentielle. On fournit
ci-dessous quelques quantiles intéressants pour n = 4 :

q5% q10% q90% q95%


Stat du test d’appartenance à la loi normale 0.18 0.20 0.36 0.39
Stat du test d’appartenance à la loi expo 0.21 0.23 0.44 0.48

Considérons la réalisation d’un échantillon de taille n = 4 :

0.66 3.51 1.92 1.05

Nous cherchons à tester si cet échantillon est distribué selon une loi normale
et s’il est distribué selon une loi exponentielle. Pour cela nous proposons d’ap-
pliquer le test précédemment construit et le test du cours. Sur la figure 2.2 (à
droite et à gauche) nous avons tracé la fonction de répartition empirique cor-
respondant à l’échantillon donné. D’autre part, à gauche nous avons tracé la
fonction Nµb,σb2 où µb et σc2 sont les estimateurs du maximum de vraisemblance
(µb = 1.78 σc2 = 1.20). A droite nous avons tracé la fonction de répartition de
b (λ
la loi exponentielle de paramètre λ b = 0.56).

(a) Par une lecture graphique sur la figure 2.2, donner la valeur de la statis-
tique des 2 tests.
(b) En utilisant les quantiles donnés ci-dessus, effectuer les 2 tests pour un
niveau 5%.
(c) Les deux conclusions vous semblent-elles cohérentes ?

Exercice 2.5. L’objectif de cet exercice est d’étudier la performance du test de


Student à un seul échantillon quand il est effectué sur un échantillon non gaussien.
On suppose que l’on dispose d’un échantillon iid (X1 , . . . , Xn ) tel que EX12 < ∞. On
note σ 2 la variance de X1 et µ = EX1 . On veut tester H0 : µ = 0 contre H1 : µ > 0
au niveau α pour α ∈ (0, 1).
T (n−1)
On appelle Φ le test de Student. On a donc Φ = 1Tn >qT (n−1) où q1−α est le quantile
1−α √
nX̄
d’ordre 1-α de la loi de Student à n − 1 degrés de liberté et Tn =
q σ̂
avec σ̂ =
1 Pn
i=1 (Xi − X̄) .
2
n−1

49
Figure 2.2 – Exercice 3 : fonction de répartition empirique de l’échantillon (en
escalier) et fonction de répartition à tester.

1. Montrer que, sous H0 , Tn tend en loi vers la loi normale standard.


2. Montrer que l’erreur de première espèce du test de Student appliqué à l’échan-
tillon (X1 , . . . , Xn ) tend vers α quand n tend vers l’infini.
Pour cela, on admettra le résultat suivant (qui est une généralisation du 2ème
théorème de Dini) : Si (Fn )n≥0 et F des fonctions de répartition, si F est conti-
nue et si Fn converge simplement vers F alors la convergence est uniforme.
3. Montrer que la puissance du test tend simplement vers 1 quand n tend vers
l’infini.

Exercice 2.6. L’objectif de cet exercice est de proposer une procédure de tests mul-
tiples lorsque le nombre d’hypothèses à tester est élevé. On considère dans tout l’exer-
cice (Ω, A, Pθ , θ ∈ Θ) un modèle statistique.
Partie A. On se place tout d’abord dans le cadre simple où on veut tester

H0 : θ = θ0 contre H1 : θ ∈ Θ1

où θ0 ∈
/ Θ1 . Pour cela, on dispose d’une observation réelle X de loi Pθ . Pour α ∈]0, 1[
donné , on considère un test de H0 contre H1 de la forme φα (X) = 1X≥kα où kα ∈ R.
On note Fθ la cdf de X sous Pθ . On suppose que Fθ est continue.
1. Montrer que la p-valeur observée de ce test s’écrit pour tout x ∈ R :

p(x) = Pθ0 (X ≥ x). (2.5)

2. Quelle est la loi sous H0 de la p-valeur p(X) ?


3. Montrer que φ peur s’écrire φα (X) = 1p(X)≤α .

50
Partie B. Dans cette partie, indépendante de la partie A, pour m ∈ N∗ , on considère
2m sous-ensembles de Θ notés Θ01 , Θ11 , Θ02 , Θ12 , . . . , Θ0m , Θ1m avec pour tout i ∈
{1, . . . , m}
Θ0i ∩ Θ1i = ∅
et on veut réaliser simultanément m tests
H0i : θ ∈ Θ0i contre H1i : θ ∈ Θ1i , i = 1, . . . , m.
On suppose pour simplifier que les hypothèses nulles sont des singletons Θ0i = {θ0i }.
On note I0 l’ensemble des indices i pour lesquels H0i est vraie :
I0 = {i ∈ {1, . . . , m} : H0i est vraie} .
On cherche à construire une procédure de tests multiples qui retourne un ensemble
R̂ ⊂ {1, . . . , m} correspondant aux indices i pour lesquels H0i est rejetée. On note FP
le cardinal de l’ensemble des indices correspondant aux hypothèses nulles rejetées à
tort et TP le cardinal de l’ensemble des indices correspondant aux hypothèses nulles
rejetées à raison :
FP = card(R̂ ∩ I0 ), TP = card(R̂ \ I0 ).
FP est le cardinal des faux positifs et TP celui des vrais positifs. Idéalement, on
cherche une procédure de tests de sorte que FP soit petit et TP soit grand. On note
p̂i la p-valeur du test de H0i contre H1i . Donc p̂i est une statistique satisfaisant, pour
tout u ∈]0, 1[,
Pθ0i (p̂i ≤ u) = u. (2.6)
1. On propose tout d’abord la procédure de Bonferroni qui permet le contrôle de
FP en posant pour α ∈]0, 1[ :
 
α
R̂ = i ∈ {1, . . . , m} : p̂i ≤ .
m
(a) Montrer que X
P(FP > 0) ≤ Pθ0i (p̂i ≤ α/m).
i∈I0

(b) En utilisant (2.6), en déduire que


P(FP > 0) ≤ α.

2. La procédure de Bonferroni contrôle le nombre de faux positifs mais peut pro-


duire un trop petit nombre de vrais positifs. On dit que c’est une procédure
trop conservative. Aussi, on propose l’alternative suivante. On se donne une
fonction f : {0, 1, . . . , m} → [0, m] supposée croissante et on ordonne les sta-
tistiques p̂i par ordre croissant :
p̂(1) ≤ p̂(2) ≤ . . . ≤ p̂(m) .
On cherche à contrôler le rapport FDR défini par
" #
FP
FDR = E 1
FP + TP {FP+TP}≥1

51
avec la convention 0/0 = 0.
On pose pour α ∈]0, 1[,
 
 αf (k̂) 
R̂ = i ∈ {1, . . . , m} : p̂i ≤
 m 
avec ( )
αf (k)
k̂ = max k ∈ {1, . . . , m} : p̂(k) ≤ .
m
αf (k)
En particulier, on pose k̂ = 0 et R̂ = ∅ si pour tout entier k, p̂(k) > m
.
(a) Montrer que
k̂ = card(R̂)
et que pour j ≥ k̂,
f (k̂) ≤ f (min(j, m)).
(b) Établir alors que
" #
X 1{k̂≥1}
FDR = E 1{p̂i ≤αf (k̂)/m} × .
i∈I0 k̂

(c) Montrer que si k̂ ≥ 1,


+∞
X 1{j≥k̂}
1
= .
k̂ j=1 j(j + 1)
(d) En déduire finalement que

αcard(I0 ) +∞
X f (min(j, m))
FDR ≤ .
m j=1 j(j + 1)

(e) Conclure que si f satisfait


+∞
X f (min(j, m))
≤1 (2.7)
j=1 j(j + 1)

alors
FDR ≤ α.
(f) Donner un exemple de fonction f satisfaisant (2.7).

Remarque : on peut aussi généraliser ces résultats au cas d’hypothèses nulles


composites (cf examen 2014 ou partiel 2018).

Remarque : si les m tests sont indépendants, on peut en fait prendre f égale à


l’identité : alors on a plus de vrais positifs que dans le cas précédent tout en ayant
quand même un FDR borné par α. La procédure est alors la suivante :
 
 αk̂ 
R̂ = i ∈ {1, . . . , m} : p̂i ≤
 m

52
avec ( )
αk
k̂ = max k ∈ {1, . . . , m} : p̂(k) ≤ .
m
Elle s’appelle la procédure de Benjamini-Hochberg.

Code R : si on a calculé les p-valeurs des m tests indépendants dans le vecteur


p alors on peut utiliser le code suivant pour calculer R̂, l’ensemble des indices des
hypothèses rejetées par la procédure de Benjamini-Hochberg quand on, veut un FDR
plus petit que 5% :

k<-sum(sort(p)<=0.05*(1:m)/m) # k chapeau
R<-(1:m)[p<=0.05*k/m]#

Il existe un certain nombre de méthodes basées sur les p-valeurs pour résoudre
ce type de problème de tests multiples. Par exemple on peut citer la procédure de
Berk-Jones modifiée.

53
Chapitre 3

Tests robustes

L’objectif de ce chapitre est de présenter des tests qui ne nécessitent aucune


hypothèse sur les distributions sous-jacentes, ou alors des hypothèses très faibles.
En ce sens, ces tests sont non-paramétriques. Ils sont également plus adaptés à la
présence d’observations aberrantes dans l’échantillon. On parle de tests robustes.
Note : les programmes en R/ Python sont donnés pour illustrations.

3.1 Un exemple
Un exemple de question à laquelle on souhaite répondre dans ce chapitre est
la suivante : les hommes gagnent-ils plus que les femmes ? Pour répondre à cette
question, imaginons que nous disposions d’un échantillon X1n1 = (X1 , . . . , Xn1 ) de
salaires de femmes et d’un échantillon Y1n2 = (Y1 , . . . , Yn2 ) de salaires d’hommes.
Nous ferons des tests différents selon que
1. Les échantillons sont iid et indépendants entre eux i.e.
iid iid
X1 , . . . , X n 1 ∼ X et Y1 , . . . , Yn2 ∼ Y X1n1 ⊥⊥ Y1n2

2. Les données sont appariées. Nous donnerons une définition de l’appariement


plus loin. Disons juste ici que si les deux échantillons sont de même taille et si
on a regroupé les données selon l’âge des personnes (i.e. les individus de même
numéro ont le même âge) alors les données sont appariées.
Imaginons pour l’instant que, pour notre exemple lié aux salaires, nous soyons
dans le cas des données regroupées par âge. Nous pouvons considérer les différences
de salaires Yi − Xi . Supposons pour simplifier que les (Yi − Xi )1≤i≤n sont iid.
Le test que nous souhaitons faire est donc
H0 : les femmes gagnent autant que les hommes
contre
H1 : les hommes gagnent plus que les femmes

Il y a bien sûr plusieurs façons de modéliser le problème. On peut formuler le


problème en utilisant la variable différence Y1 − X1 . Nous souhaitons ici faire un
test sur un paramètre de position. Deux exemples usuels de paramètres de position
sont la moyenne et la médiane. On pourrait traduire le fait que les femmes gagnent

54
autant que les hommes par "la variable différence Y1 − X1 a une moyenne égale à 0",
ou bien, si on préfère utiliser la médiane, on pourrait le traduire par "la médiane de
la différence est égale à 0".
Autrement dit, si nous choisissons la moyenne comme paramètre de position,
H0 : la moyenne de Y1 − X1 est égale à 0
contre
H1 : la moyenne de Y1 − X1 est strictement positive

Et si nous choisissons la médiane comme paramètre de position on fait plutôt le


test :
H0 : la médiane de Y1 − X1 est égale à 0
contre
H1 : la médiane Y1 − X1 est strictement positive

Si nous modélisons le problème à l’aide de la moyenne et si nous supposons les


données gaussiennes, alors nous ferons naturellement le test de Student, qui est un
test paramétrique.

3.2 Un test paramétrique : le test de Student


3.2.1 Un seul échantillon
Soit un n-échantillon iid (X1 , . . . , Xn ) de loi N (µ, σ 2 ) avec µ et σ inconnus. On
veut tester
H0 : µ = µ0 contre H1 : µ 6= µ0
(ou bien H1 : µ > µ0 ou bien H1 : µ < µ0 . )

Le test de Student est basé sur la statistique T̂ = n X̄−µ σ̂
0
qui suit une loi de
1 P n
Student à n − 1 degrés de libertés sous H0 , où σ̂ = n−1 i=1 (Xi − X̄)2 . Au niveau
2

α, le test est φα (X1n ) = 1|T̂ |>qT (n−1) pour H1 : µ 6= µ0 , φα (X1n ) = 1T̂ >qT (n−1) pour
1−α/2 1−α

H1 : µ > µ0 et φα (X1n ) = 1T̂ <qT (n−1) pour H1 : µ < µ0 .


α

Problèmes éventuels qu’on peut avoir pour réaliser ce test dans la pratique :
— l’échantillon n’est pas de loi normale,
— les variables sont gaussiennes mais pas de même variance : par exemple on
peut avoir Xi ∼ N (µ, σi2 ).
— l’échantillon est contaminé par des outliers (=observations aberrantes)

Disons déjà, en simplifiant, que le problème éventuel de non-normalité n’est pas


forcément grave si la taille de l’échantillon est grande.

Pour en savoir plus 3.2.1. Toutefois, si on veut tester la nor-


malité d’un échantillon, on suggère d’abord des représentations gra-
phiques, en particulier un qqplot. On peut faire un des nombreux
tests de normalité, par exemple Shapiro-Wilk (qui semble être le

55
plus puissant dans de nombreux cas).

Pour en savoir plus 3.2.2. Implementations : le test de Student


sur un échantillon peut se faire en R par la procédure t.test et
en Python avec scipy.stats.ttest_1samp. Le test de Shapiro-
Wilk peut se faire en R avec shapiro.test et en Python avec
scipy.stats.shapiro.

3.2.2 Deux échantillons indépendants


On dispose de deux échantillons indépendants U1 , . . . , Un et V1 , . . . , Vp , pas for-
cément de même taille et on veut tester l’égalité des moyennes. On suppose que
iid iid
U1 , . . . , Un ∼ N (µ1 , σ12 ), V1 , . . . , Vp ∼ N (µ2 , σ22 ), σ1 = σ2 , V1p ⊥⊥ U1n

et on veut tester :
H0 : µ1 = µ2 contre H1 : µ1 6= µ2
(ou bien H1 : µ1 < µ2 ou bien H1 : µ1 > µ2 )
On note σ 2 la variance commune et on suppose que σ est inconnu.
On utilise alors la variable
V̄ − Ū
T = q1 1
σ̂ n + p
où on a posé
Xn Xp 
2 1 2 2
σ̂ = (Ui − Ū ) + (Vi − V̄ ) .
n + p − 2 i=1 i=1

Sous H0 , la variable T suit une loi de student à n + p − 2 degrés de liberté. En effet,


Pn (Ui −Ū )2 Pp (Vi −V̄ )2
— i=1 σ2
∼ χ2 (n − 1) et i=1 σ2
∼ χ2 (p − 1)
Pn (Ui −Ū )2 Pp (Vi −V̄ )2
— Ces deux variables sont indépendantes donc i=1 σ2
+ i=1 σ2

χ2 (n + p − 2)
2 2
— Ū ∼ N (µ1 , σn ) et V̄ ∼ N (µ2 , σp ) et Ū ⊥⊥ V̄ .
2 σ2
— Donc sous H0 , V̄ − Ū ∼ N (0, σn + p
).
Ainsi, on a obtenu que, sous H0 ,

V̄ − Ū
q
1 1
∼ N (0, 1)
σ n
+ p

et
σ̂ 2 χ2 (n + p − 2)
∼ .
σ2 n+p−2

56
De plus
n
X p
X
(Ui − Ū )2 ⊥⊥ Ū , (Vi − V̄ )2 ⊥⊥ V̄ , U1n ⊥⊥ V1p .
i=1 i=1
Donc
σ̂ 2 ⊥⊥ Ū − V̄
Et finalement
V̄ −Ū
q
1
σ n
+ p1
T = σ̂ ∼ T (n + p − 2).
σ
Et le test pour l’alternative H1 est alors φα = 1|T |>qT (n+p−2) (respectivement
1− α
2
φα = 1T >qT (n+p−2) pour H1 : µ1 < µ2 et φα = 1T <qT (n+p−2) pour H1 : µ1 > µ2 ).
α 1−α
Le même type de problème que pour le test de Student sur la moyenne d’un
échantillon se pose :
1. Les données ne sont peut-être pas gaussiennes
2. Les données peuvent être gaussiennes mais pas de même variance
3. Les données peuvent être contaminées par des outliers.

Pour en savoir plus 3.2.3. Évoquons d’abord le problème des


variances égales ou non : il existe un test adapté à des données
gaussiennes et qui ressemble au test de Student mais adapté au cas
σ1 6= σ2 (en fait c’est surtout pour le cas σ1 6= σ2 et n1 6= n2 ). Ce test
s’appelle le test de Welch. La procédure est basée sur la statistique
X̄−Ȳ
σ̂
mais σ̂ est calculé différemment puisqu’on ne suppose plus que
la variance est la même. La statistique ne suit alors plus une loi de
Student mais elle est bien approchée par une Student avec un degré
de liberté non entier et calculé à partir de sX , sY et de la taille de
chaque échantillon.
Un certain nombre d’auteurs disent qu’il est inutile de tester si
les variances des deux échantillons sont égales ou pas avant de se
décider à faire le test de Welch ou le test de Student, et qu’il vaut
mieux utiliser directement et systématiquement le test de Welch.
C’est l’opinion majoritaire. En effet, d’une part, ce test est plus
fiable quand les tailles d’échantillon diffèrent nettement et quand les
variances diffèrent nettement, et d’autre part il donne des résultats
très similaires au test de Student dans le cas contraire.
Le problème de variances non égales pour Student n’est pas très
important si les tailles d’échantillon sont approximativement égales.

Pour en savoir plus 3.2.4. Implementation :


Pour faire un test de Student ou un test de Welch avec R, on peut
utiliser la fonction t.test, il faut préciser l’argument var.equal=T

57
pour avoir le test de Student car varequal=F par défaut, et c’est
alors le test de Welch.
En Python : utiliser stats.ttest_ind avec l’option
equal_var = True ou False selon le type de test envisagé.

3.2.3 Echantillons appariés (paired data)


"Définition" de l’appariement
On veut par exemple comparer les effets de deux traitements sur deux popula-
tions d’individus que l’on peut apparier.
Expliquons d’abord ce qu’est l’appariement. Concrètement, nous avons à notre
disposition deux échantillons de même taille : U1 , . . . , Un et V1 , . . . , Vn . On parle
de données appariées quand "l’individu" i du premier échantillon est lié à "l’individu"
i du second échantillon.
Donc il faut bien comprendre ici que, pour chaque i, Ui et Vi sont liés, autrement
dit il n’y a pas indépendance entre Ui et Vi . En revanche, on a toujours l’indépen-
dance entre les (Ui , Vi ) pour différents i. Concrètement, par exemple on a (U1 , V1 )
indépendant de (U2 , V2 ) mais U1 et V1 ne sont pas indépendants.
Prenons l’exemple d’un traitement médicamenteux. Imaginons donc qu’on veuille
comparer l’efficacité de deux médicaments : U1 et V1 vont mesurer l’efficacité res-
pective du médicament 1 et du médicament 2 sur deux individus qui se ressemblent,
par exemple deux individus de même âge. Il peut aussi s’agir du même individu, à
qui on a donné deux traitements différents à deux moments différents.
De manière générale, quand on considère des échantillons appariés, cela signifie
que
— soit Ui et Vi correspondent à une mesure sur le même individu,
— soit les individus sont différents mais ils sont regroupés en fonction de cova-
riables (sexe, âge etc).

Les tests pour données appariées sont essentiellement basés sur le fait de prendre
la différence des deux mesures et ensuite de faire un test sur l’échantillon résultant.

Le test de Student pour données appariées


On dispose de deux échantillons appariés U1 , . . . , Un et V1 , . . . , Vn . On veut tester
l’égalité des moyennes. On pose

Xi = Ui − Vi , i = 1, . . . , n

On suppose que

les Xi sont iid de loi N (µ, σ 2 )


On veut donc tester

H0 : µ = 0, contre H1 : µ 6= 0

(ou bien H1 : µ > 0 ou bien H1 : µ < 0. )

58
On fait alors le test de Student pour l’échantillon des Xi . Plus précisément cela
donne :
φα (U1n , V1n ) = 1|T̂ |>qT (n−1)
1−α/2


√ Ū − V̄ n
1 X
T̂ = n σ̂ 2 = (Ui − Vi − Ū + V̄ )2 .
σ̂ n − 1 i=1
Une des hypothèses faites est que la distribution des Xi est la même pour tout
i. En particulier la variance doit être la même pour tout i. Certains auteurs re-
commandent de faire une vérification graphique de cela avec un graphe de "Bland-
Altman". Fréquemment la dispersion est proportionnelle au niveau et une transfor-
mation logarithmique est utile pour remédier à ce problème.

Pour en savoir plus 3.2.5. Implementation R : On peut uti-


liser t.test et il faut préciser paired=T pour dire que les données
sont appariées : t.test(x,y,paired=T,var.equal=T).
De façon équivalente on peut utiliser t.test(x-y,var.equal=T).

3.2.4 Importance des conditions d’application


Les tests non paramétriques s’appliquent dans des situations plus générales et
sont donc plus robustes. On les utilise en général quand les conditions d’application
des tests paramétriques ne sont pas vérifiées (ou pas vérifiables). Toutefois, un test
paramétrique peut devenir performant avec une grande taille d’échantillon même si
les conditions théoriques d’application du test paramétrique ne sont pas exactement
vérifiées. En particulier, pour le test de Student de comparaison de deux populations,
quand les tailles des échantillons sont importantes et sous des conditions assez faibles
sur la loi des échantillons, le test de Student est valide, même si les échantillons ne
sont pas gaussiens. Ce résultat est à rapprocher de ce qui se produit en modèle
linéaire quand les erreurs ne sont pas gaussiennes.
De manière générale, on peut cependant préférer utiliser systématiquement les
tests non-paramétriques de Wilcoxon (voir section suivante) quand on ne sait pas si
les échantillon sont gaussiens. En effet, la performance des tests de Wilcoxon effectué
sur des échantillons gaussiens n’est pas tellement moins bonne que la performance
des tests de Student. De plus, les tests de Wilcoxon ont souvent une meilleure per-
formance que celle du test de Student quand l’échantillon n’est pas gaussien (même
avec une grande taille d’échantillon).

3.2.5 Illustration numérique - facultatif


Revenons à notre exemple lié aux salaires. Supposons ici que les échantillons
sont iid et indépendants entre eux. Nous avons donc un échantillon iid de salaires
de femmes, de taille n1 , et un échantillon iid de salaires d’hommes, de taille n2 , et

59
ces deux échantillons sont supposés indépendants. Supposons que les échelles des
distributions de salaires soient les mêmes (même dispersion).
Si les données sont normales alors nous choisirons le test de Student. Que se
passe-t-il si nous nous trompons et que nous appliquons le test de Student à deux
échantillons de loi non gaussienne par exemple ? Ou s’il y a des outliers dans les
échantillons ?
Dans les simulations qui suivent, nous utilisons aussi le test de Wilcoxon de
la somme des rangs pour comparer deux échantillons indépendants (appelé aussi
"test de Mann-Whitney"). Ce test non paramétrique peut aussi être utilisé pour
comparer les positions de deux populations. Comme tout test non paramétrique, il a
des conditions d’application beaucoup plus générales que les tests paramétriques. En
particulier pour l’appliquer, il n’est pas nécessaire d’avoir des échantillons gaussiens.
Ce test sera étudié dans la suite.
Nous voulons donc illustrer ici ce qui se produit quand on n’est pas dans les
conditions d’application du test de Student (et ensuite comparer sa performance
avec le test de Mann-Whitney) pour montrer l’intérêt des tests non paramétriques.
Plus précisément nous allons simuler des variables de lois normales et aussi des
lois non normales : nous regardons ce qui se passe pour des échantillons de loi de
Student à 3 degrés de liberté et de loi de Cauchy. Comme la loi de Cauchy n’a pas de
moyenne, ce que nous utilisons comme paramètre de position pour la loi de Cauchy
est sa médiane.

60
sim=function(type,n,a)
# fonction qui simule un échantillon de taille n
{
return(switch(type,norm=rnorm(n,mean=a),cauchy=rcauchy(n,a), student3=rt(n,df=3,a)))
}

test=function(n,type,a,b,n1,n2,outliers=F)
#simulation, calcul de la p-valeur de chaque test
{
u=rep(0,n); v=rep(0,n); w=rep(0,n);
#fait avec lapply par principe mais boucle for pas plus lente ici
lapply(1:n,function(i)
# on fait n simulations et les 3 tests sur chaque simulation
{
x=sim(type,n1,a); y=sim(type,n2,b);# simulation des deux échantillons
if (outliers) {x[1:10]=rnorm(10,3)}
#calcul de la p-valeur de chaque test
v[i]<<-t.test(x,y,var.equal=T)$p.value; # Student
w[i]<<-wilcox.test(x,y)$p.value; # Mann-Whitney
})
# on regarde le taux d'erreurs si on est sous H0 et la puissance si on est sous H1
return(list( "Student"=sum(v<0.05)/n,
"Mann-Whitney"=sum(w<0.05)/n))

# on s'attend à avoir un taux proche de 5/% sous H0 si tout va bien,


# et un taux important si on est sous H1 (puissance)

#sur des lois normales et même variance


#sous H0
test(10000,"norm",1,1,30,30)

## $Student
## [1] 0.0513
##
## $`Mann-Whitney`
## [1] 0.0503
#sous H1
test(10000,"norm",1,2,30,30)

## $Student
## [1] 0.9686
##
## $`Mann-Whitney`
## [1] 0.9613
#loi de Student à 3 degrés de liberté (même variance)
#sous HO
test(10000,"student3",1,1,50,50)

## $Student
## [1] 0.0443

46
##
## $`Mann-Whitney`
## [1] 0.0466
#sous H1
test(10000,"student3",1,2,50,50)

## $Student
## [1] 0.8839
##
## $`Mann-Whitney`
## [1] 0.979
#loi de Cauchy, petits échantillons
#sous H0
test(10000,"cauchy",1,1,15,15)

## $Student
## [1] 0.0218
##
##$`Mann-Whitney`
##[1] 0.0446
#sous H1
test(10000,"cauchy",1,2,15,15)

## $Student
## [1] 0.0728
##
## $`Mann-Whitney`
## [1] 0.2701
#loi de Cauchy, grands échantillons
#sous H0
test(10000,"cauchy",1,1,100,100)

## $Student
## [1] 0.0201
##
## $`Mann-Whitney`
## [1] 0.0495
#sous H1
test(10000,"cauchy",1,2,100,100)

## $Student
## [1] 0.0762
##
## $`Mann-Whitney`
## [1] 0.9548
# lois normales avec 10\% d'outliers "assez gros"
# sous H0
test(10000,"norm",1,1,100,100,outliers=T)

## $Student
## [1] 0.2278
##
## $`Mann-Whitney`

47
## [1] 0.1572
#sous H1
test(10000,"norm",1,2,100,100,outliers=T)

## $Student
## [1] 0.9998
##
## $`Mann-Whitney`
## [1] 0.9998
#la même chose mais sans outliers

# sous H0
test(10000,"norm",1,1,100,100)

## $Student
## [1] 0.0456
##
## $`Mann-Whitney`
## [1] 0.0441
#sous H1
test(10000,"norm",1,2,100,100)

## $Student
## [1] 1
##
## $`Mann-Whitney`
## [1] 1

• Le test de Mann-Whitney est souvent moins performant que le test de Student quand on est dans les
conditions d’application du test de Student, mais la différence est souvent faible.
• Avec des lois de Student à 3 degrés de liberté, le test de Mann-Whitney est plus performant que le test
de Student. Le test de Student est valide dans le cas où les échantillons sont de taille suffisante. Ce
comportement peut grossièrement s’expliquer ainsi : la variance est finie, donc quand n1 et n2 sont
suffisamment grands, le test fonctionne assez bien (cf aussi TD2 exo 5) .
• Le test de Student se comporte mal avec des échantillons de loi de Cauchy, même si les tailles des
échantillons sont grandes. Ce comportement peut grossièrement s’expliquer ainsi : les queues de la loi
de Cauchy sont si lourdes que la variance est infinie (même la moyenne est infinie dans ce cas).
• La performance du test de Student est plus affectée par la présence d’outliers que le test de Mann-
Whitney.
Dans ces deux dernières situations, c’est-à-dire quand il y a présence d’un grand nombre d’outliers ou quand
loi est à queues lourdes, le test de Mann-Whitney que l’on va introduire dans la suite se comporte mieux que
le test de Student. On dit qu’il est plus robuste.

48
3.3 Test du signe
Nous venons de voir un test paramétrique, le test de Student, qui peut être utilisé
pour comparer deux populations indépendantes ou bien comparer deux traitements
sur des données appariées. Ce test repose sur le caractère gaussien des données.
On va construire maintenant des tests reposant sur des hypothèses beaucoup
plus faibles sur les données.
On commence par le test du signe et le test de Wilcoxon des rangs signés, qu’on
peut plus ou moins voir comme des versions non-paramétriques du test de Student.

Définition 3.1. On dit qu’une variable aléatoire U est diffuse si

∀x ∈ R, P(U = x) = 0

Cela revient à dire que sa distribution est continue, c’est-à-dire que sa cdf est conti-
nue

3.3.1 Test du signe sur un seul échantillon


Objectif : Faire un test sur un paramètre de position, qui n’est ici pas la moyenne,
mais la médiane.
Intérêt : ne nécessite justement même pas l’existence d’une moyenne, plus ro-
buste.
Données : X1 , . . . , Xn .

Les conditions :
1. les Xi sont indépendantes
2. Les Xi ont une médiane commune m.
3. P (Xi = m) = 0, ∀i
Remarquez que les Xi ne sont pas nécessairement identiquement distribuées.
L’hypothèse nulle est :

H0 : m = 0
Remarquons que m = 0 implique ici que P(Xi ≤ 0) = 1/2.
En effet si 0 est la médiane commune des Xi alors (cf chapitre 2)

P(Xi ≤ 0) ≥ 1/2 et P(Xi ≥ 0) ≥ 1/2

Ici on suppose en plus que P(Xi = 0) = 0 donc la propriété ci-dessus se réécrit

P(Xi < 0) ≥ 1/2 et P(Xi > 0) ≥ 1/2

et comme on a alors aussi P(Xi < 0) + P(Xi > 0) = 1, on a forcément

P(Xi < 0) = P(Xi > 0) = 1/2

et donc P(Xi ≤ 0) = P(Xi < 0) = P(Xi ≥ 0) = P(Xi > 0) = 1/2.

64
(c’est donc ici qu’intervient encore la condition 3. )
On pose
Yi = 1Xi ≤0 .
Faisons d’abord, pour simplifier l’exposition, l’hypothèse que les Xi sont de même
loi.
On a
iid
Yi ∼ Be(p), avec p = P(Xi ≤ 0).
Donc H0 se réécrit
H0 : p = 1/2.
Donc on se ramène à un test d’égalité sur le paramètre p d’un échantillon iid de
v.a. de Bernoulli Yi .
Imaginons que l’alternative soit la suivante :

H1 : m 6= 0

alors, cette alternative peut aussi s’écrire,

H1 : p 6= 1/2.

Il s’agit donc du test de l’exercice 1 TD2. On utilise donc

φα (Y1 , . . . , Yn ) = 1 P 
n B(n,1/2)
| Y −n/2|>q1− α
i=1 i
−n
2
2

Avec l’échantillon initial, cela donne

φα (X1 , . . . , Xn ) = 1 P 
n B(n,1/2) n
| 1
i=1 Xi ≤0
−n/2|>q1− α −2
2

Si l’hypothèse alternative est

H1 : m < 0

Dans ce cas, le test est de la forme

φα (X1 , . . . , Xn ) = 1 P 
n B(n,1/2
i=1
1{Xi ≤0} >q1−α

Pn Pn
Si l’hypothèse alternative est H1 : m > 0, on remplace i=1 1Xi ≤0 par i=1 1Xi ≥0
dans la formule ci-dessus.

Maintenant, que se passe-t-il si les Xi ne sont pas de même loi ? Pour simplifier,
supposons que H1 corresponde au fait que la médiane commune est strictement
négative :
H1 : m < 0
Alors "ça marche quand même " : en effet, sous H0 on a bien, du fait que 0 est la
médiane commune,
iid
Yi ∼ Be(1/2)

65
donc si on pose
φα (X1 , . . . , Xn ) = 1 P ,
n B(n,1/2)
i=1
1Xi ≤0 >q1−α

on a bien un test de niveau 1 − α.


P
Est-ce un test adapté au problème ? Cela revient à savoir si la statistique ni=1 1Xi ≤0
prend bien de grandes valeurs sous H1 . C’est bien le cas ici car si on est sous H1 , les
Xi ont tendance à prendre des valeurs négatives et donc le nombre de Xi négatifs
va être grand.
Ce test, qui utilise donc uniquement le signe des Xi , est appelé test du signe.

Avec R
On peut utiliser la procédure binom.test qui fait un test sur le paramètre p
d’un échantillon de va de Bernoulli. Si l’échantillon se trouve dans un vecteur x, et
si a une alternative bilatéral H1 : m 6= 0, on peut utiliser la commande suivante
binom.test(sum(x>0),n=length(x),p=0.5,alternative="two.sided")
Pour l’alternative H1 : m < 0 on met alternative="less"
Pour H1 : m > 0 on met alternative="greater".

3.3.2 Test du signe sur deux échantillons


On dispose de deux échantillons appariés U1 , . . . , Un et V1 , . . . , Vn . Comme d’ha-
bitude avec les données appariées, on se ramène à un test sur l’échantillon des
différences Xi = Ui − Vi . Pour fixer les idées, imaginons le cas de deux traitements
que l’on veut comparer. On prend deux populations de même taille n. On les classe
par âge. On donne à un individu i un premier traitement dont on mesure l’efficacité
par Ui et on donne l’autre traitement à un individu du même âge, dont on mesure
l’efficacité par Vi .
On veut par exemple savoir si le second traitement est plus efficace que le premier.
On peut modéliser le fait que les deux traitements ont la même efficacité par l’égalité
P(Ui ≤ Vi ) = P(Vi ≤ Ui ), ce qui donne, en termes des Xi , P(Xi ≤ 0) = P(Xi ≥ 0).
En supposant que, presque sûrement, les Xi ne prennent jamais la valeur 0, ceci se
traduit encore par "la médiane commune des Xi est égale à 0". En effet on a vu
dans la sous-section 3.3.1 que m = 0 signifie, si la condition P(Xi = 0) = 0 est
satisfaite, que P(Xi ≤ 0) = P(Xi ≥ 0) = 1/2. On va donc faire un test du signe sur
l’échantillon différence X1n .
On suppose donc que les conditions suivantes, qui sont les conditions du test du
signe sur l’échantillon des Xi , sont vérifiées :
— Les Xi sont indépendants entre eux.
— Les Xi ne sont pas forcément de même loi mais ont une médiane commune m.
— P (Xi = m) = 0.
Le test est donc

φα (U1 , . . . , Un , V1 , . . . , Vn ) = 1 P 
n B(n,1/2)
i=1
1{Ui ≤Vi } >q1−α

66
Si au contraire, on pense que soit les deux médicaments ont la même efficacité,
soit le premier est plus efficace, alors on échange juste les rôle de Ui et Vi , ce qui
donne le test
φα (U1 , . . . , Un , V1 , . . . , Vn ) = 1 P 
n B(n,1/2)
i=1
1{Vi ≤Ui } >q1−α

Si on n’a pas d’a priori sur les médicaments, c’est-à-dire si on ne sait pas quel
médicament est susceptible d’être plus efficace, l’alternative est alors H1 : m 6= 0 et
on fait le test
φα (X1 , . . . , Xn ) = 1 P 
n B(n,1/2)
| 1
i=1 Ui ≤Vi
−n/2|>q1− α −n
2
2

Remarque 3.2. Le test du signe n’utilise que très peu d’information sur les variables
Ui − Vi (uniquement leur signe, pas leurs valeurs absolues). C’est donc un test peu
puissant. Quel est alors l’intérêt de parler du test du signe ? Il se peut que les signes
des Ui − Vi soit la seule donnée disponible : c’est en effet le cas si la question posée
aux patients qui ont testé les deux médicaments est "quel est le meilleur des deux ?"
(au lieu de noter les médicaments sur une échelle de 1 à 10 par exemple).
Remarque 3.3. Concrètement, il faut bien vérifier que la valeur 0 n’est pas dans
l’échantillon.
En pratique, on ne se demandera pas si la condition "les Xi ont une médiane
commune" est réaliste, on supposera simplement que cette condition est vérifiée.
Avec R
Comme il s’agit du test du signe sur les variables Xi , on utilise exactement la
même procédure que dans le cas d’un seul échantillon. Il suffit donc de calculer
l’échantillon des différences puis de faire le test sur cet échantillon à l’aide de la
fonction binom.test.
Remarque 3.4. On pourrait utiliser ce test pour tester que les échantillons sont
de même loi. Supposons que l’on nous donne deux échantillons indépendants U1n =
(U1 , . . . , Un ) et V1n = (V1 , . . . , Vn ). Supposons que les Ui sont iid de loi F continue,
et les Vi sont iid de loi G continue. Nous voulons donc tester l’égalité des lois :
H0 : F = G contre H1 : F 6= G.
Pour cela nous voulons utiliser le test du signe. Alors nous devons vérifier si, sous
l’hypothèse F = G, l’hypothèse nulle associée au test du signe est vérifiée, c’est-à-
dire si m = 0 en notant m la médiane de V − U . Comme V − U est diffuse, cela
revient à montrer que
P(U ≤ V ) = P(V ≤ U )
Or on a, sous l’hypothèse F = G,
(U, V ) ∼ (V, U )
car U et V sont alors interchangeables. Donc
U −V ∼V −U

67
Donc on a bien P(V ≤ U ) = P(U ≤ V ).
Remarquons d’une part que l’on ne pourra détecter qu’un changement de para-
mètre de position, contrairement au test de Kolmogorov-Smirnov qui est plus général.
D’autre part, on peut avoir P(U ≤ V ) = 21 sans que U et V aient la même loi. Autre-
ment dit, l’égalité des lois ne se traduit pas vraiment par la propriété P(U ≤ V ) = 12
(qui est la propriété réellement testée par le test du signe). L’égalité des lois est une
propriété beaucoup plus forte et générale que le fait que la médiane des différences
est égale à 0.
Il suffit par exemple que U et V soient symétriques, diffuses et indépendantes
pour que la médiane de V − U soit égale à 0. Par exemple, le test du signe ne
sera pas capable de détecter la différence de loi entre un échantillon de loi normale
standard et un échantillon de loi de Cauchy.
En effet si U et V sont symétriques, en plus d’être indépendantes et diffuses, on
a
(U, V ) ∼ (−U, −V )
Donc
U − V ∼ −U − (−V ) = V − U
Ainsi
P(U − V ≥ 0) = P(V − U ≥ 0)
En combinant cette inégalité avec le fait que P(U − V ) = 0 on obtient

P(U ≥ V ) = P(V ≥ U ) = 1/2.

Ainsi, si on voit le test du signe comme le test d’égalité des lois

H0 : U ∼ V

alors une p-valeur observée grande n’implique pas que H0 est vraie. Par exemple, il
n’est pas rare d’avoir une p-valeur grande si on fait le test du signe sur un échantillon
de loi normale et l’autre de loi de Cauchy, alors que l’on est bien sous H1 : F 6= G.
Le test du signe, vu comme un test d’homogénéité, est donc un exemple de test
particulièrement peu puissant : "il ne voit" pas certaines alternatives.

3.4 Statistiques d’ordre et de rang


Définition 3.5. Soient X1 , . . . , Xn n v.a. réelles. La statistique d’ordre (X(1) , . . . , X(n) )
est définie par
{X(1) , . . . , X(n) } = {X1 , . . . , Xn }
et
X(1) ≤ X(2) ≤ . . . ≤ X(n)
On pose
X ∗ = (X(1) , . . . , X(n) )

68
Il existe une permutation aléatoire σ̂ ∈ Sn telle que

(X(1) , . . . , X(n) ) = (Xσ̂(1) , . . . , Xσ̂(n) ).

Évidemment, comme on peut avoir Xi = Xj pour i 6= j, il n’y a pas toujours unicité


de cette permutation.
On définit le vecteur des rangs RX comme la permutation inverse de σ̂. Évidem-
ment, de la même manière que σ̂, ce vecteur de rang n’est pas unique s’il existe i 6= j
tels que Xi = Xj .
En fait comme son nom l’indique, le vecteur de rangs donne le rang de chaque
variable dans l’échantillon. Exemple :
x = (4, 2, 1, 1, 2, 0, 1)
x 4 2 1 1 2 0 1
Rx 7 5 2 3 6 1 4
En théorie, si les Xi sont iid et de loi continue alors, presque sûrement, il n’y
a pas d’ex-aequo (cf TD1). En pratique, comme on l’a déjà signalé, à cause de la
limitation de la précision des mesures et des arrondis, il peut y avoir des ex-aequo
dans un échantillon issu d’une loi continue. Il faut être attentif à ce problème car,
dans les logiciels, les procédures censées fonctionner sur des données de loi continue
ne sont pas toujours prévues pour parer à l’éventualité d’un ex-aequo, et même si
elles le sont, le résultat n’est pas toujours fiable (cf plus loin).

3.5 Test des rangs signés de Wilcoxon


3.5.1 Sur un échantillon
On va à nouveau faire un test sur la médiane d’un échantillon.
On considère des variables (X1 , . . . , Xn ) diffuses et indépendantes, mais pas for-
cément de même loi. La proposition suivante montre que le vecteur de rangs de X
est alors unique presque sûrement.

Proposition 3.6. Si les variables aléatoires X1 , . . . Xn sont indépendantes et dif-


fuses alors
P(∃i 6= j : |Xi | = |Xj |) = 0

Démonstration. Pour tout i 6= j on a

P(|Xi | = |Xj |) ≤ P(Xi = Xj ) + P(Xi = −Xj )


Z Z
= P(Xi = x)dPXj (x) + P(Xi = −x)dPXj (x) = 0

car les variables sont indépendantes et diffuses. Ainsi


  X
P ∃i 6= j : |Xi | = |Xj | ≤ P(|Xi | = |Xj |) = 0.
i6=j,(i,j)∈[n]2

69
On suppose disposer d’observations (X1 , . . . , Xn ) qui vérifient les conditions sui-
vantes :
1. Les Xi sont indépendantes entre elles.
2. Les Xi sont diffuses.
3. Les Xi ont une médiane commune m.
4. Les lois des Xi sont symétriques par rapport à m.
Notez que nous avons besoin d’une hypothèse supplémentaire par rapport au test
du signe : nous devons supposer que les Xi sont symétriques en loi par rapport
à leur médiane commune m. Pour simplifier, nous ne nous intéresserons pas à la
vérification de la condition de symétrie, ni à la condition de médiane commune.
Nous nous contenterons de supposer que ces conditions sont bien vérifiées, sans
autre précision.
L’hypothèse H0 est la suivante

H0 : m = 0

On va utiliser à nouveau le signe des Xi , mais on suppose en plus qu’on dispose


de la valeur des |Xi |. On compte le nombre de Xi > 0 mais on leur attribue un
poids d’autant plus grand que |Xi | est élevé. Si on dispose des valeurs des |Xi |, le
test suivant est préférable au test du signe étudié précédemment, car il utilise plus
d’information tout en ayant des conditions d’application presqu’aussi larges.
On considère la statistique d’ordre associée aux {|Xi |}1≤i≤n . On a donc

|X|(1) < |X|(2) < . . . < |X|(n) , P − ps.

On note R|X| le vecteur des rangs associé. On pose


n
X
Wn+ = R|X| (i)1{Xi >0}
i=1

Xi -0,15 -0,42 0,22 0,6 -0,1


Exemple 3.7. |Xi | 0,15 0,42 0,22 0,6 0,1
R|X| (i) 2 4 3 5 1

Remarque 3.8. On a 0 ≤ Wn+ ≤ n(n+1) 2


. Le cas Wn+ = 0 correspond à tous les
Xi < 0, le cas Wn+ = n(n+1)
2
correspond au cas où tous les Xi > 0.
P
Si on pose en plus Wn = ni=1 R|X| (i)1{Xi <0} et si P(Xi = 0) = 0 (ce qui est le

cas si les variables sont diffuses), alors


n(n + 1)
Wn+ + Wn− =
2

Expliquons rapidement l’idée derrière ce test. Supposons pour fixer les idées que

H1 : m > 0.

L’idée est que, sous H1 , il y a plus de Xi positifs que de Xi négatifs. Jusque là c’est
même idée que pour le test du signe. Mais en plus, du fait de la symétrie, les Xi

70

3
● ●

2
● ●


● ●
● ●


1

1
● ● ●


● ● ● ●


x

y
● ● ●
● ● ●
●●
● ●

● ● ● ●●
0

0
● ●
● ●

● ● ● ●


−1

−1
● ●
−2

−2

0 5 10 15 20 25 30 0 5 10 15 20 25 30

Index Index

Figure 3.1 – échantillon de loi symétrique avec m = 0 (à gauche) et m = 10 à


droite

positifs ont tendance à être plus grands en valeur absolue que les Xi négatifs, c’est
là qu’on utilise une information supplémentaire par rapport au test du signe. Donc
sous cette alternative, Wn+ sera "grand".
Évidemment si l’alternative est H1 : m < 0, alors Wn+ sera au contraire "petit".
Exemple 3.9. Prenons un exemple concret. On simule un premier échantillon X1n
de taille n = 30 de loi de T (4) localisé en m = 0, c’est-à-dire dont la densité est
1
f (x) = π(1+x 2 ) (en noir). On simule ensuite un échantillon de même taille de loi de
1
Cauchy localisé en m = 1, c’est-à-dire dont la densité est f (x) = π(1+(x−1) 2 ) . Ces

deux échantillons sont représentés dans la figure 3.1. On remarque que


— Le premier échantillon a quasiment autant de valeurs positives que de valeurs
négatives. De plus, grâce à la symétrie de la loi pa rapport à 0, les valeurs
absolues des xi qui sont positifs n’ont pas tendance à être plus grandes que les
valeurs absolues des xi qui sont négatifs, et vice versa.
— Le deuxième échantillon a plus de valeurs positives que de valeurs négatives.
Mais en plus si on range par ordre croissant les valeurs absolues des xi , ce
sont les xi positives qui ont les rangs les plus élevés.
Exemple 3.10. Prenons un autre exemple pour illustrer la nécessité de la condition
de symétrie. On simule un échantillon de loi de densité f (x) = 12 exp(−x)1x>0 +
1
2
exp(+3x)1x<0 . C’est une loi de médiane 0 mais non symétrique. L’échantillon est
représenté sur la figure 3.2. On voit qu’il y a à peu près autant de valeurs positives

71

6

4


● ●

x
● ●

● ● ● ●

2
● ●

● ●
● ●
● ● ●
● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ● ●● ● ● ●● ● ●

●●●●
0

● ● ●●
● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ●
● ● ● ● ●
●● ● ● ●
●● ● ●●
● ● ●

0 20 40 60 80 100

Index

Figure 3.2 – échantillon de loi non symétrique avec médiane égale à 0.

que négatives, mais que les xi positifs ont tendance à prendre des valeurs absolues
plus grandes.

Théorème 3.11. Les conditions 1-4 page 70 sont supposées vérifiées. On a, sous
H0 : m=0,
1. Wn+ et Wn− ont même distribution.
2. E[Wn+ ] = n(n+1)
4
3. Wn+ et Wn− sont libres en loi de X.
4. Var(Wn+ ) = n(n+1)(2n+1)
24
.
5. Asymptotiquement, on a
Wn+ − E[Wn+ ] loi
q −→ N (0, 1)
Var(Wn+ )

On admet la preuve. Cependant pour les étudiants intéressés, voici une partie
de la preuve.
Démonstration. On se place sous H0 .
1. On a
n
X
Wn+ = R|X| (i)1Xi >0
i=1
Xn
= j1{Xσ >0}
|X| (j)
j=1

−1
où on a noté σ|X| = R|X| . De même
n
X
Wn− = j1{Xσ <0}
|X| (j)
j=1

72
La loi des Xi est symétrique par rapport à 0, donc

X1n ∼ −X1n

Donc, pour toute fonction f (déterministe), on a

f (X1n ) ∼ f (−X1n ).

Or Wn+ est une fonction du vecteur X1n . Donc on a


n
X n
X
Wn+ = j1{Xσ >0} ∼ j1{−Xσ >0}
|X| (j) |−X| (j)
j=1 j=1

Or σ|X| = σ|−X| donc,


n
X n
X
Wn+ ∼ j1{−Xσ (j) >0}
= j1{Xσ <0} = Wn−
|X| |−X| (j)
j=1 j=1

Donc Wn+ et Wn− sont de même loi.


2. De la même manière que pour l’item 1, la symétrie de la loi de X1n implique
que, pour tout 1 ≤ j ≤ n, Xσ|X| (j) ∼ −Xσ|X| (j) et donc

P(Xσ|X| (j) > 0) = P(Xσ|X| (j) < 0).

Ainsi, si P(Xσ|X| (j) = 0) = 0. alors

P(Xσ|X| (j) > 0) = 1/2

et donc n
X
E(Wn+ ) = jP(Xσ|X| (j) > 0) = n(n + 1)/4
i=1

Montrons donc que Xσ|X| (j) est diffuse. On a pour tout x ∈ R


n
X
P(Xσ|X| (j) = x) = P(Xi = x, σ|X| (j) = i) = 0
i=1

car les Xi sont diffuses.


3. Le point clé est que la symétrie de la loi des Xi par rapport à 0 implique que
les vecteurs (|X1 |, . . . , |Xn |) et (1X1 >0 , . . . , 1Xn >0 ) sont indépendants. En effet
cette propriété, combinée au fait que les Xσ|X| (i) sont diffuses, implique que

(1Xσ|X| (1) >0 , . . . , 1Xσ|X| (n) >0 ) ∼ (Y1 , . . . , Yn )


iid
Y1 , . . . , Yn ∼ Be(1/2).

73
En effet, soit (1 , . . . , n ) ∈ {0, 1}n , on a
 
P (1Xσ|X| (1) >0 , . . . , 1Xσ|X| (n) >0 ) = (1 , . . . , n )
X  
= P (1Xs(1) >0 , . . . , 1Xs(n) >0 ) = (1 , . . . , n ), σ|X| = s
s∈Sn
X  
= P (1Xs(1) >0 , . . . , 1Xs(n) >0 ) = (1 , . . . , n ) P(σ|X| = s)
s∈Sn
1 X
= P(σ|X| = s)
2n s∈Sn
1
= n
2 
= P (Y1 , . . . , Yn ) = (1 , . . . , n )
On a utilisé
• ligne 2 : les probabilités totales.
• ligne 3 : l’indépendance entre (|X1 |, . . . , |Xn |) et (1X1 >0 , . . . , 1Xn >0 ) en-
traine l’indépendance entre (|X1 |, . . . , |Xn |) et (1Xs(1) >0 , . . . , 1Xs(n) >0 ) car
s est fixe ! (et σ|X| est une fonction de |X).
• ligne 4 : s est fixe et les variables X1 , . . . , Xn sont indépendantes donc les
variables Xs(1) , . . . , Xs(n) sont indépendantes. Donc
 
P 1Xs(1) >0 , . . . , 1Xs(n) >0 ) = (1 , . . . , n )
= P(1Xs(1) >0 = 1 ) . . . P(1Xs(n) >0 = n )
De plus P(Xσ|X| (i) > 0) = 1/2 d’après l’item 2.
P
Ceci prouve l’item 3 : en effet, Wn+ ∼ nj=1 jYj . Ceci permet aussi de trouver
la valeur de la variance : en effet
n
X n
X
Var( j1{Xσ (j) >0}
) = j 2 Var(Yj )
|X|
j=1 j=1
n
X j2 n(n + 1)(2n + 1)
= =
j=1 4 24

Remarque 3.12. Sous H0 , la statistique Wn+ a une distribution symétrique par


rapport à sa moyenne n(n+1)
4
.
En effet, sous H0 , Wn ∼ Wn− et comme Wn+ + Wn− = n(n+1)
+
2
on a
n(n + 1)
Wn+ ∼ − Wn+
2
c’est-à-dire
Wn+ ∼ 2b − Wn+
avec
n(n + 1)
b=
4

74
En conséquence, le test, pour l’alternative H1 : m 6= 0, est
φ(X1 , . . . , Xn ) = 1{|Wn+ − n(n+1) |>q}
4

pour une certaine valeur q à choisir, fonction du niveau souhaité. En raisonnant


comme dans l’exercice 3 du TD1, on peut montrer que le test au niveau α est
φα (X1 , . . . , Xn ) = 1{|Wn+ − n(n+1) |>q −
n(n+1)
}
4 1− α
2 4

α
où q1− α2 est le quantile d’ordre 1 − 2
de la loi de Wn+ sous H0 (il s’agit de la loi de
Pn iid
j=1 jYj avec Y1 , . . . , Yn ∼ Be(1/2) d’après la preuve).

Remarque 3.13. Test exact ou asymptotique ?


On utilise la loi exacte de Wn+ sous H0 quand n ≤ 20.
Pour n > 20, on utilise un test asymptotique, conséquence de la convergence en
loi.

Avec R
Pour tester H0 : m = 0 contre H1 : m 6= 0, si l’échantillon se trouve dans
un vecteur x, on peut utiliser wilcox.test(x,alternative="two.sided"). Pour
H1 : m > 0, on met alternative="greater" et pour H1 : m < 0, on met
alternative="less".

3.5.2 Echantillons appariées


On suppose disposer de deux échantillons appariés de taille n : (U1 , . . . , Un ) et
(V1 , . . . , Vn ) . On veut savoir si l’un des échantillons a "tendance à prendre des valeurs
plus grandes que l’autre" (penser à l’exemple des traitements médicamenteux). C’est
la même problématique que pour le test du signe sur deux échantillons. On modélise
le problème de la même manière.
Comme pour le test du signe, on pose
Xi = Vi − Ui
et nous utilisons le test de Wilcoxon des rangs signés sur l’échantillon X1n .
Nous supposons donc que
— Les Xi sont indépendants entre eux (mais pas forcément de même loi).
— Les Xi sont diffuses.
— Les Xi ont une médiane commune m.
— Les Xi sont de loi symétrique par rapport à m.
L’hypothèse nulle est
H0 : m = 0
Si on pense que les seules possibilités sont
- soit on est sous H0
- soit les Ui prennent des valeurs plus petites que les Vi ,
alors on pose comme hypothèse alternative :
H1 : m > 0.

75
Remarque 3.14. Comme on l’a déjà remarqué pour le cas du test sur la médiane
d’un seul échantillon, le test des rangs signés est plus puissant que le test du signe.
Donc il est conseillé d’utiliser le test des rangs signés plutôt que le test du signe si
on peut le faire, c’est-à-dire si on a accès aux valeurs de l’échantillon des Xi et pas
seulement à leur signe et si la loi des Xi est symétrique.

Avec R
On peut utiliser la fonction wilcox.test. Si nos échantillons sont dans des vec-
teurs x et y, et si H1 : m 6= 0, on écrit
wilcox.test(x,y,paired=T, alternative="two.sided").
ou son équivalent wilcox.test(x-y, alternative="two.sided").
(Mêmes changements possibles d’alternative que précédemment. )
On peut aussi avoir des données correspondants à deux colonnes d’un dataframe.
Un exemple : on veut savoir si les salaires des hommes d’une entreprise sont du même
ordre que les salaires des femmes ou bien plus élevés. On suppose que l’on a apparié
les données (par exemple on a rassemblés les salaires selon l’âge de la personne).
On suppose que ces salaires apparaissent dans un dataframe nommé salaires avec
pour colonnes femmes et hommes, on peut alors utiliser

wilcox.test(data=salaires, hommes~femmes, paired=T, alternative="greater")

Remarque 3.15. Il faut alors faire attention au problème des ex aequo ("ties" en
anglais) quand on utilise la procédure wilcox.test. On peut quand même faire le
test, mais il n’est jamais exact, c’est-à-dire qu’il repose automatiquement sur une
approximation gaussienne.
Comme l’approximation gaussienne n’est valable que pour des grands échan-
tillons, on ne peut pas trop se fier au résultat de wilcox.test quand il y a des
ex aequo et quand la taille d’échantillon est trop petite (pas de problème en revanche
avec les éventuels ex aequo si la taille est suffisamment grande).
Dans le cas d’ex aequos, on reçoit le message suivant warning message : cannot
compute exact p-values with ties.
Ce qu’on entend par ex aequo ici, c’est un ex aequo dans l’échantillon xn1 des
différences ou un ex aequo dans l’échantillon des valeurs absolues des différences
(|x1 |, . . . , |xn |).

Remarque 3.16. Pour tester l’hypothèse de symétrie des Xi quand il s’agit d’un
échantillon i.i.d, on peut par exemple commencer par représenter les données (his-
togramme par exemple ou densité cf chap4), (ou utiliser un des nombreux tests de
symétrie : par exemple le test symmetry.test du package lawstat ( attention cette
fonction est un peu lente). En cas d’asymétrie sur l’échantillon des différences il
semble préférable d’utiliser le test du signe.
Certains praticiens utilisent une transformation des Xi pour rendre l’échantillon
symétrique (mais le test fait sur l’échantillon transformé n’est alors pas un test sur
la médiane des Xi )

76
3.6 Wilcoxon de la somme des rangs / Mann-
Whitney
3.6.1 Résultats préliminaires sur le vecteur des rangs
On commence par quelques résultats liés au vecteur des rang dans le cas de
données i.i.d.
Théorème 3.17. Soient X1 , . . . , Xn n v.a. i.i.d. de loi continue et de statistique
d’ordre X ∗ et de vecteur des rangs RX . Alors X ∗ et RX sont indépendants et de
plus RX est distribué uniformément sur Sn .
Démonstration. La loi est continue donc presque sûrement il n’y a pas d’ex-aequo.
RX est clairement à valeurs dans Sn . Comme RX est la permutation inverse de σ,
il suffit en fait de montrer que
1. σ suit une loi uniforme sur Sn .
2. σ et X ∗ sont indépendants.
Puisque les Xi sont indépendantes et de même loi, elles sont interchangeables donc
1 1
∀s ∈ Sn , P(σ = s) = = .
Card(Sn ) n!
Par exemple, pour n = 3, on a
P(X1 < X2 < X3 ) = P(X1 < X3 < X2 ) = P(X2 < X1 < X3 ) = P(X2 < X3 < X1 )
= P(X3 < X2 < X1 ) = P(X3 < X1 < X2 ) = 1/6
On montre maintenant que σ et X ∗ sont indépendantes. On veut montrer que,
pour tout borélien B de Rn et toute permutation s de Sn , on a
P(X ∗ ∈ B ∩ σ = s) = P(X ∗ ∈ B)P(σ = s).
Et comme P(σ = s) = n!1 , cela revient à montrer que, pour toute permutation
s ∈ Sn
P(X ∗ ∈ B) = n!P(X ∗ ∈ B ∩ σ = s)
Comme les Xi sont indépendantes et de même loi, elles sont interchangeables et
donc, pour tout s et tout B,
   
P X ∗ ∈ B ∩ σ = s = P Xs(1) < . . . < Xs(n) , (Xs(1) , . . . , Xs(n) ) ∈ B

= P X1 < . . . < Xn , (X1 , . . . , Xn ) ∈ B)
D’autre part, le théorème des probabilités totales permet d’écrire :
X
P(X ∗ ∈ B) = P(X ∗ ∈ B ∩ σ = s)
s∈Sn
X 
= P X1 < . . . < Xn , (X1 , . . . , Xn ) ∈ B)
s∈Sn

= n!P X1 < . . . < Xn , (X1 , . . . , Xn ) ∈ B)
 
= n!P X ∗ ∈ B ∩ σ = s
où s est une permutation quelconque.

77
La principale conséquence de ce théorème est que la loi de RX ne dépend pas de
la loi des Xi . On en déduit que toute variable aléatoire qui ne s’exprime qu’à l’aide
du vecteur de rangs d’observations i.i.d. de loi continue a une loi indépendante
de ces observations. C’est bien ce que l’on cherche à obtenir en statistique non
paramétrique, où la loi des observations n’appartient pas à une famille paramétrée
connue. On pourra donc faire de l’estimation et des tests non paramétriques à l’aide
des rangs des observations.

Remarque 3.18. Pour tout s fixé (non aléatoire) dans Sn on a

(Xs(1) , . . . , Xs(n) ) ∼ (X1 , . . . , Xn )

Mais ça n’est pas vrai si la permutation est aléatoire (à moins qu’elle ne soit indé-
pendante des Xi ). Par exemple, on a évidemment

X ∗ = (Xσ(1) , . . . , Xσ(n) )  (X1 , . . . , Xn )

Proposition 3.19. Soient X1 , . . . , Xn n v.a. i.i.d. de loi continue de vecteur des


rangs RX = (R1 , . . . , Rn ). Pour tout entier s tel que 1 ≤ s ≤ n, et pour toute suite
d’entiers distincts (r1 , . . . , rs ) dans {1, . . . , n}, on a
  1
P (R1 , . . . , Rs ) = (r1 , . . . , rs ) = .
n(n − 1) . . . (n − s + 1)

En particulier, pour tout i ∈ {1, . . . , n}, Ri suit une loi uniforme sur {1, . . . , n}.

Démonstration. Pour simplifier, considérons d’abord trois cas simples.


 
— s = n : P (R1 , . . . , Rn ) = (r1 , . . . , rn ) = P(R = r) où r = (r1 , . . . , rn ) ∈ Sn .
Donc, d’après le théorème précédent, on a
 
1
P (R1 , . . . , Rn ) = (r1 , . . . , rn ) = ,
n!
ce qui est bien le résultat annoncé.
— s = 1 : P(R1 = s) = P( « X1 est le s-ème plus petit élément de l’échantillon ») =
1
n
, toujours du fait que les Xi sont interchangeables.
— s = 2 : alors
 
1 1
P (R1 , R2 ) = (s1 , s2 ) = P(R1 = s1 )P(R2 = s2 | R1 = s1 ) =
nn−1

Le cas général se traite de la même manière que le cas s = 2.

3.6.2 Test de Mann-Whitney


Nous allons maintenant décrire le test de Wilcoxon de la somme des rangs,
encore appelé test de Mann-Whitney.
On se donne deux échantillons U1n et V1p tels que

78
iid iid
1. U1 , . . . , Un ∼ U et V1 , . . . , Vp ∼ V
2. U1n et V1p sont indépendants
3. U et V sont diffuses.
A noter que les échantillons ne sont pas forcément de même taille.
On note F la fonction de répartition des Ui et G celle des Vj . On veut tester

H0 : F = G

Ce n’est donc pas un test sur la médiane ou la moyenne contrairement aux tests
précédents ( signe et Wilcoxon des rangs signés). Cependant l’alternative n’est pas
F 6= G. D’ailleurs si vous faites le test avec la commande R associée, il sera écrit
alternative hypothesis: true location shift is not equal to 0.
On suppose en fait que U et V ont la même loi, à un paramètre de position près,
c’est-à-dire
— soit U et V ont la même loi (H0 )
— soit U a tendance à prendre des valeurs plus grandes que V , ou le contraire
(H1 ).
Autrement dit

H0 : F = G contre H1 : ∃θ 6= 0 tel que F (·) = G(· − θ).

Exemple 3.20. On veut tester un nouveau médicament par rapport à un ancien


médicament. On donne le premier à un groupe de n personnes, et le deuxième à un
groupe de p personnes, ces deux groupes étant cette fois-ci indépendants. On veut
voir si le nouveau médicament est plus efficace que l’ancien.

Remarque 3.21. On peut voir le test de Student comme un test d’égalité en loi,
quand on suppose que les données sont gaussiennes et ne peuvent différer (éventuel-
lement) que par leur moyenne. En ce sens le test de Mann-Whitney peut être vu
comme vu comme une version non-paramétrique (et plus généralement robuste) du
test de Student sur deux échantillons indépendants.

On met les deux échantillons ensemble pour former un seul échantillon global de
taille n + p : (U1 , . . . , Un , V1 , . . . , Vp ). On classe ensuite les variables {Ui , Vj } par leur
rang global dans cet échantillon global : cela donne un vecteur de rangs que l’on
note RU,V . On note R1 , . . . , Rn les rangs associés aux variables Ui et S1 , . . . , Sp les
rangs associés aux variables Vj .

Exemple 3.22. soient U1 = 3.5 U2 = 4.7 U3 = 1.2 V1 = 0.7 V2 = 3.9. Alors


on a : V1 < U3 < U1 < V2 < U2 .

R1 = 3, R2 = 5, R3 = 2, S1 = 1, S2 = 4

On pose

Σ1 = R1 + R2 + . . . + Rn , Σ2 = S 1 + S 2 + . . . + S p

79
Principe : pour simplifier, prenons d’abord le cas simple où les deux échantillons
soient de même taille. Alors, sous H0 , on s’attend à ce que Σ1 et Σ2 soit à peu près
égaux. Pour fixer les idées, imaginons que l’alternative corresponde au fait que les Ui
ont tendance à prendre des valeurs supérieures aux Vi . Alors, sous H1 , les rangs Ri
des Ui dans l’échantillon global seront dans l’ensemble supérieurs aux rangs Sj des Vj
dans l’échantillon global. Donc sous H1 , Σ1 sera "grand" (c’est-à-dire "anormalement
grand" par rapport à ce qui se passe sous H0 ).
Maintenant, même si les échantillons ne sont pas de même taille, sous H1 , Σ1
aura tendance à être anormalement grand par rapport à ce qui se passe sous H0 .
Plus généralement, si on pense que U et V n’ont pas la même loi et que l’une des
deux variables a tendance à prendre des valeurs supérieures à l’autre mais on n’a
pas d’intuition sur laquelle des deux, alors s’attend à ce que Σ1 soit "anormalement
grand" ou "anormalement petit" (toujours par rapport à ce qui se passe sous H0 ).
Maintenant la question est : qu’est-ce qu’une valeur "normale" sous H0 ? Les
résultats suivants répondent à cette question.

Proposition 3.23. On a

n(n + 1) n(n + 1)
≤ Σ1 ≤ np +
2 2
p(p + 1) p(p + 1)
≤ Σ2 ≤ np +
2 2
Sous H0 : F = G, et sous les conditions 1-3 page 79, on a, pour tout i et tout j,
n+p+1
E(Ri ) = E(Sj ) =
2
(n + p)2 − 1
Var(Ri ) = Var(Sj ) =
12
n(n + p + 1) p(n + p + 1)
E(Σ1 ) = , E(Σ2 ) =
2 2
np(n + p + 1)
Var(Σ1 ) = Var(Σ2 ) =
12
Démonstration.
n(n + 1)
Σ1 ≥ 1 + 2 + . . . + n =
2
et
p(p + 1)
Σ2 ≥ 1 + 2 + . . . + p =
2
Pn+p (n+p)(n+p+1)
Comme Σ1 + Σ2 = i=1 i= 2
, on a

(n + p)(n + p + 1) p(p + 1) n(n + 1)


Σ1 ≤ − = np +
2 2 2
De même
p(p + 1)
Σ2 ≤ np +
2

80
On se place désormais sous H0 .
Alors toutes les variables U1 , . . . , Un , V1 , . . . , Vp sont i.i.d. Donc on a un échan-
tillon global i.i.d. de taille N = n + p. D’après le théorème 7 (cas s = 1), pour
tout i, la v.a. Ri , qui est donc une composante du vecteur de rang de l’échantillon
global RU,V , suit une loi uniforme sur {1, . . . , N }. De même pour chaque Sj . Donc
l’espérance et la variance de chacune de ces variables est simplement l’espérance
et la variance d’une variable de loi uniforme sur {1, . . . , N }. Donc on a, pour tout
i = 1, . . . , n, et pour tout j = 1, . . . , p,
N
1 X N +1 n+p+1
E(Ri ) = E(Sj ) = i= =
N i=1 2 2
et
1 XN  N + 1 2
Var(Ri ) = Var(Sj ) = i2 −
N i=1 2
(N + 1)(2N + 1)  N + 1 2
= −
6 2
2
N −1
=
12
Donc on a
n(n + p + 1)
EΣ1 = E(R1 + . . . Rn ) = nER1 =
2
et
p(n + p + 1)
EΣ2 = E(S1 + . . . Sp ) = pES1 =
2
Il reste le calcul des variances de Σ1 et Σ2 . Attention les variables Ri et Sj sont
de même loi mais pas indépendantes ! On a
n
X n X
X
VarΣ1 = Var(R1 + . . . + Rn ) = Var(Ri ) + Cov(Ri , Rj )
i=1 i=1 j6=i

On a déjà calculé les variances, il faut donc calculer maintenant les covariances. Soit
donc i 6= j,
 
Cov(Ri , Rj ) = E (Ri − ERi )(Rj − ERj )
X N +1 N +1
= (k − )(l − )P(Ri = k, Rj = l)
1≤k,l≤N,k6=l 2 2

Or, (Ri , Rj ) a la même loi que (R1 , R2 ) et, d’après le théorème 7, on a, pour k 6= l,
1
P(R1 = k, R2 = l) =
N (N − 1)
Donc
1 X N +1 N +1
Cov(Ri , Rj ) = Cov(R1 , R2 ) = (k − )(l − )
N (N − 1) k6=l 2 2

81
Or on a
X X XN
N +1 N +1 N +1 N +1 N +1 2
(k − )(l − )= (k − )(l − )− (k − )
k6=l 2 2 1≤k,l≤N 2 2 k=1 2
X
N 2 N
X
N +1 N +1 2
= (k − ) − (k − )
k=1 2 k=1 2

De plus
N
X XN
N +1 N (N + 1)
(k − )= k− =0
k=1 2 k=1 2
Donc
XN
1 N +1 2 1
Cov(Ri , Rj ) = − (k − ) =− VarR1
N (N − 1) k=1 2 N −1
Et finalement
n
X n X
X
Var(Σ1 ) = Var(Ri ) + Cov(Ri , Rj )
i=1 i=1 j6=i

= nVar(R1 ) + n(n − 1)Cov(R1 , R2 )


n(n − 1)
= nVar(R1 ) − Var(R1 )
N −1
n(N − n) N 2 − 1
=
N −1 12
n(N − n)(N + 1)
=
12
np(n + p + 1)
=
12
Le calcul de Var(Σ2 ) se déduit de celui de Var(Σ1 ) en échangeant les rôles de n et
p.

Au vu de la proposition, on considère naturellement les statistiques suivantes :


n(n + 1)
MU = Σ1 − ∈ {0, 1, . . . , np}
2
p(p + 1)
MV = Σ2 − ∈ {0, 1, . . . , np}
2
Proposition 3.24. On suppose les conditions1-3 page 79 vérifiées. Alors
1. MU + MV = np p.s. ;
np
2. Sous H0 : F = G, la loi de MV est symétrique par rapport à 2
;
3. Sous H0 : F = G, MU ∼ MV .
4. MV est égal au nombre de paires (Ui , Vj ), parmi toutes les paires possibles,
telles que Ui < Vj .

82
Démonstration. 1. Σ1 +Σ2 est égal à la somme des rangs de toutes les N variables.
P N (N +1)
Donc Σ1 +Σ2 = N i=1 i = 2
. Donc MU +MV = Σ1 − n(n+1) 2
+Σ2 − p(p+1)
2
=
(n+p)(n+p+1) n(n+1) p(p+1)
2
− 2 − 2 = np.
2. On se place sous H0 . On introduit (S10 , . . . , Sp0 ) les rangs des V1 , . . . , Vp dans
l’échantillon global lorsque les variables sont ordonnées de façon décroissante.
On montre exactement de la même manière que dans la proposition 3.19 que,
pour toute suite d’entiers distincts (r1 , . . . , rp ) dans {1, . . . , N }, on a
  1
P (S10 , . . . , Sp0 ) = (r1 , . . . , rp ) = .
N (N − 1) . . . (N − p + 1)
Donc (S10 , . . . , Sp0 ) ∼ (S1 , . . . , Sp ). Donc
Σ2 ∼ Σ02 (3.1)
où Σ02 = S10 + . . . + Sp0 . Or, pour tout j ∈ [p], Sj0 = N + 1 − Sj . Donc
Σ02 = N + 1 − S1 + · · · + N + 1 − Sj + . . . + N + 1 − Sp = (N + 1)p − Σ2 (3.2)
Ainsi, en combinant (3.1) et (3.2), on obtient
Σ2 ∼ (N + 1)p − Σ2
Ceci implique que MV + p(p+1)
2
∼ (n + p + 1)p − (MV + p(p+1)
2
). Autrement dit
on a
MV ∼ (n + p + 1)p − p(p + 1) − MV = np − MV ,
ce qui se traduit par : MV est symétrique par rapport à np
2
.
3. On se place sous H0 . En combinant l’item 2 et l’item 1 on a
MV ∼ np − MV = np − (np − MU ) = MU .
4. La démonstration de l’item 4 est admise. Cependant, on donne la preuve ici
pour les étudiants intéressés. On se place sous H0 . Sans perte de généralité,
on suppose que σ est égale à l’identité, autrement dit v1 < . . . < vp . On
va compter, pour tout j ∈ [p], le nombre d’éléments du premier échantillon
u1 , . . . , un qui sont plus petits que vj . On rappelle que, pour tout j ∈ [p], sj est
le rang de vj dans l’échantillon global u1 , . . . , un , v1 , . . . , vp . Commençons par
j = 1 : il y a s1 − 1 valeurs plus petites que v1 dans l’échantillon global. Ces
valeurs ne peuvent être que des valeurs du premier échantillon car v1 est la
plus petite valeur de l’échantillon v1 , . . . , vp . Donc il y a s1 − 1 couples (ui , v1 )
tels que ui < v1 . Passons au cas j = 2. Il y a s2 − 1 valeurs de l’échantillon
global qui sont plus petites que v2 , et comme il y a une seule valeur (c’est v1 )
du second échantillon qui est plus petite que v2 , il y a s2 − 2 couples (ui , v2 )
tels que ui < v2 . De manière générale, pour tout j ∈ [p] fixé, il y a sj − j
couples (ui , vj ) tels que ui < vj . Donc le nombre total de couples (ui , vj ) tels
que ui < vj est égal à
p
X p
X p(p + 1)
s1 − 1 + . . . + sj − j + . . . + sp − p = sj − j = Σ2 − = MV .
j=1 j= 2

83
Théorème 3.25. On suppose les conditions1-3 page 79 vérifiées. Les lois de MU
et MV sont libres sous H0 : F = G (i.e. elles ne dépendent pas de F , fonction de
répartition des Ui et des Vj ). Elles ne dépendent que de n et p. Asymptotiquement,
sous H0 , quand n et p tendent vers +∞,
MU − E(MU ) loi
q −→ N (0, 1)
Var(MU )

(et la même chose pour MV puisque MU ∼ MV )

np np(n + p + 1)
E(MU ) = Var(MU ) = .
2 12
Démonstration. On admet la convergence en loi.
MU = Σ1 − n(n+1) 2
= R1 + . . . + Rn − n(n+1) 2
est une fonction du vecteur
(R1 , . . . , Rn ). On connait la loi de ce vecteur sous H0 , cette loi est donnée par
le théorème 7 : pour toute suite d’entiers (r1 , . . . , rn ) à valeur dans [N ], on a
 
1
PF =G (R1 , . . . , Rn ) = (r1 , . . . , rn ) =
N (N − 1) . . . (N − n + 1)
On voit donc qu’elle ne dépend pas de F et ne dépend que de n et p.
L’espérance et la variance de MU se déduisent l de l’espérance et de la variance
de Σ1 , qu’on a obtenues dans la proposition 3.23.

Remarque 3.26. (Test exact ou asymptotique) Pour les valeurs de n et p plus


petites que 10, la loi du test ci-dessus est tabulée. Pour les grandes valeurs, on
utilise l’approximation gaussienne.

Remarque 3.27. (Correction de continuité)


Supposons que la statistique de test Tn prenne des valeurs discrètes, disons entières,
mais n étant grand, la loi de Tn peut être approchée par une loi gaussienne, qui est
une loi continue. Alors P(Tn ≥ p) = P(Tn ≥ p − u), pour tout u ∈ [0, 1[ et pour tout
p ∈ N. La correction du continu consiste à remplacer la valeur p dans l’approximation
loi
gaussienne par p−0, 5 : plus précisément, si on a an (Tn −tn ) → N (0, 1), on approche
comme suit :

P(Tn ≥ p) = P(an (Tn − tn ) ≥ an (p − tn )) ≈ 1 − Φ(an (p − 0.5 − tn ))

Avec R
C’est exactement la même formulation que le test de Wilcoxon des rangs signés,
sauf qu’on met paired=F. C’est en fait False par défaut.
Dans l’exemple lié aux salaires, en supposant cette fois que les échantillons de
salaires d’hommes et de femmes sont i.i.d. et indépendants entre eux, on peut utiliser
wilcox.test(data=salaires,hommes~femmes,alternative="greater")

84
Quelques détails de plus : l’argument exact indique si on veut le test exact ou
l’approximation gaussienne. Cet argument est par défaut à true si l’un des échan-
tillons a une taille supérieure à 50 et à false dans le cas contraire. L’argument
correct indique si on veut la correction de continuité quand on utilise l’approxima-
tion gaussienne. Il est par défaut à TRUE.
Remarque 3.28. En plus d’être adaptés à un plus grand nombre de lois, les tests
basés sur les rangs sont plus robustes à la présence d’observations aberrantes, ou
"outliers", dans l’échantillon (penser à la différence médiane/moyenne) .
Remarque 3.29. Certains auteurs préconisent, avant l’utilisation éventuelle de
Mann-Whitney, de tester si les deux échantillons ont le même paramètre d’échelle
(même variance par exemple). En effet, si on considère Mann-Whitney comme un
test d’égalité en loi supposé détecter une différence de position, alors il ne semble pas
judicieux d’utiliser Mann-Whitney si les échelles diffèrent (ni d’ailleurs si la forme
général de l’histogramme est très différente). Si on fait ce test dans cette optique-là,
alors il parait judicieux de vérifier cette condition sur un graphique par exemple (de
toute façon il faut toujours représenter les données avant toute chose). Il existe aussi
des tests d’échelle (par exemple le test de Levene, qui a des propriétés de robustesse).
Citation de Zimmerman (2004) : "for a wide variety of non-normal distributions,
especially skewed distributions, the Type I error probabilities of both the t test and the
Wilcoxon-Mann-Whitney test are substantially inflated by heterogeneous variances,
even when sample sizes are equal."
Cependant, certains praticiens utilisent le test de Mann-Whitney comme un test
pour savoir en gros si l’une des deux populations (U ou V ) a tendance à prendre des
valeurs plus grandes que l’autre. Il n’est alors pas vu comme un test d’égalité en loi.
A ce moment-là, on n’a pas besoin de vérifier si les lois semblent les mêmes à un
paramètre de position près (et donc pas besoin de vérifier que l’échelle est la même).
Remarque 3.30. Une question naturelle : quel type de test (paramétrique/ non
paramétrique) choisir ?
Souvent, si le modèle paramétrique est correct, les tests paramétriques sont plus
puissants que les tests non paramétriques. Cependant, ils sont aussi plus contrai-
gnants, car il faut vérifier les conditions d’application qui sont plus nombreuses dans
ce cas. On choisira généralement un test non paramétrique lorsque
— les conditions d’application du test paramétrique ne sont pas vérifiées
— ou il est impossible de vérifier ces conditions.
"On préconise aussi parfois l’utilisation de tests non paramétriques dans le cas
de petits échantillons, mais le fait d’avoir de petits échantillons ne justifie pas à lui
seul l’utilisation de tests non paramétriques : si les échantillons sont petits, mais
que ce type de données a été suffisamment étudié pour que l’on puisse supposer la
normalité de la distribution, pas de problème pour utiliser des tests paramétriques.
Ce type de conseils est en général donné par prudence, parce que le petit nombre
de données ne permet pas de vérifier, à partir de l’échantillon, la normalité de la
distribution. Dans le doute, on peut donc choisir un test non paramétrique. Les tests
non paramétriques sont certes un peu moins puissants que les tests paramétriques,
mais leur efficacité relative reste bonne" (citation de C. Chabanet, cf biblio).

85
Remarque 3.31. De la même manière que le test de Student pour comparer les
moyennes de deux échantillons se généralise à plus de deux échantillons par l’analyse
de la variance, "l’équivalent" du test de Wilcoxon de la somme des rangs pour plus
de deux échantillons existe et s’appelle le test de Kruskal-Wallis.
A nouveau, pour Kruskal-Walllis, les données sont remplacées par leur rang dans
l’échantillon global mais cette fois on calcule les sommes de carrés intra-groupe.
L’idée est que sous l’hypothèse nulle (la loi ne dépend pas du groupe) le problème se
réduit à nouveau à un problème combinatoire (il y a une uniformité sous-jacente).

Remarque 3.32. Comparons maintenant les tests de Kolmogorov-Smirnov (noté


KS) et le test de Mann-Whitney (noté MW). Le test KS est sensible à tout change-
ment dans les deux distributions. Des différences substantielles dans la forme, l’éten-
due ou la médiane vont amener à une petite p-valeur. En revanche, le test MW est
seulement sensible à un changement de position (cf plus loin pour une illustration).

86
Illustration : On regarde ci-dessous les performances respectives des tests de Kolmogorov-Smirnov et de
Mann-Whitney sur un cas particulier. Plus précisément, on utilise deux échantillons qui ne sont pas de
même loi : l’un est de loi normale, l’autre est un mélange de deux lois gamma dont on représente la densité
ci-dessous. On utilise KS et MW pour tester l’égalité des lois sur ces deux échantillons. On regarde la p-valeur
de chaque test.
f=function(x){0.5*(dgamma(x,shape=2,rate=1)+dgamma(-x,2,1))}#densité de probabilité,
#mélange d'une loi gamma et de sa symétrisée
x=seq(-10,10,by=0.1)
plot(x,f(x),type="l")
0.15
0.10
f(x)

0.05
0.00

−10 −5 0 5 10

x
#simulation de 1000 expériences de test et calcul des p-valeurs
KS=rep(0,1000)
MW=rep(0,1000)
for (i in 1:1000){
z=rnorm(100)#simulation de N(0,1)
# simulation d'un échantillon y de loi de densité f
#simulation d'un échantillon t de loi gamma(2,1)
t=c(rgamma(100,shape=2,rate=1))
#simulation de Rademacher
rad=2*rbinom(100,size=1,0.5)-1
y=rad*t
KS[i]=ks.test(y,z)$p.value #p-valeur du test de kolmogorov Smirnov
MW[i]=wilcox.test(y,z)$p.value# pvaleur du test de Mann-Whitney
}
#moyennes des p-valeur de chaque test sur les 1000 simulations

mean(KS)

## [1] 0.002863565
mean(MW)

## [1] 0.4830098

1
3.7 Exercices
Exercice 3.1. Une critique régulièrement émise envers l’industrie cinématogra-
phique est une préférence pour les actrices jeunes, alors que les acteurs masculins
de tous âges peuvent avoir accès à des grands rôles. Afin de tester cette hypothèse,
on note l’âge des premiers rôles masculin et féminin des 9 films en lice pour l’Oscar
2014 du meilleur film.

Age de l’acteur principal 40 57 44 52 39.2 77 48 36 39


Age de l’actrice principale 39.5 55 41.5 49 39.5 84 79 30 23

Table 3.1 – Dans l’ordre : American Bluff, Capitaine Phillips, Dallas Buyers Club,
Gravity, Her, Le Loup de Wall Street, Nebraska, Philomena, Twelve Years a Slave

On cherche à savoir si les actrices sont plus jeunes que les acteurs dans les films
américains à succès. On propose d’utiliser le test de Wilcoxon des rangs signés. On
traite l’âge comme une variable continue.
1. Expliquer pourquoi on utilise ici le test de Wilcoxon des rangs signés plutôt
que le test du signe.
2. Énoncer l’hypothèse nulle et l’hypothèse alternative. Rappeler l’expression de
la statistique de test W9+ et son espérance sous H0 .
3. Calculer la p-valeur du test à l’aide de la table ci-dessous, qui correspond à la
loi de W9+ sous H0 .
4. Conclure si on test au niveau α = 5%.

Exercice 3.2. On s’intéresse à l’effet d’une dose faible de Cambendazole sur les
infections des souris par la Trichniela Spiralis. Seize souris ont été infectées par
un même nombre de larves de Trichinella et ensuite réparties au hasard entre deux
groupes. Le premier groupe de 7 souris a reçu du Cambendazole, à raison de 10 mg
par kilo, 60 heures après l’infection. Les 9 autres souris n’ont pas reçu de traitement.
Au bout d’une semaine, toutes les souris ont été sacrifiées et les nombres suivants
de vers adultes ont été retrouvé dans les intestins :
Décrire un protocole statistique pour tester une efficacité éventuelle du Cambendazole
pour le traitement des infections des souris par la Trichniela Spiralis. En utilisant
uniquement la table de Mann-Whitney donnée ci-dessous, pour quelle valeur de ni-
veau de test α est-on sûr que le test de Mann-Whitney conclura à une efficacité du
Cambendazole pour le traitement des infections des souris par la Trichniela Spiralis ?
On donne quelques valeurs de la cdf Fn,p de la statistique de Mann-Whitney sous
H0 pour n = 9 et p = 7 : F9,7 (10) = 0.011 , F9,7 (11) = 0.016, F9,7 (12) = 0.021.
Exercice 3.3. On veut tester l’efficacité d’un nouveau traitement contre les mi-
graines. On dispose d’un échantillon de 18 personnes sujettes aux migraines à qui
on fournit une quantité égale de pilules correspondant au nouveau traitement (A) et
de pilules d’aspirine standard (B). Lorsqu’ils ont utilisé l’intégralité des deux jeux
de pilules on demande à chaque patient de juger quel type de pilule (A ou B) a été

88
k 0 1 2 3 4 5 6 7 8 9
P [W9+ ≤ k] 0.0019 0.0039 0.0058 0.0097 0.0136 0.0195 0.0273 0.0371 0.0488 0.0644
k 10 11 12 13 14 15 16 17 18 19
P [W9+ ≤ k] 0.0820 0.1015 0.125 0.1503 0.1796 0.2128 0.2480 0.2851 0.3261 0.3671
k 20 21 22 23 24 25 26 27 28 29
P [W9+ ≤ k] 0.4101 0.4550 0.5 0.5449 0.5898 0.6328 0.6738 0.7148 0.7519 0.7871
k 30 31 32 33 34 35 36 37 38 39
P [W9+ ≤ k] 0.8203 0.8496 0.875 0.8984 0.9179 0.9355 0.9511 0.9628 0.9726 0.9804
k 40 41 42 43 44 45
P [w9+ ≤ k] 0.9863 0.9902 0.9941 0.9960 0.9980 1

Souris non traitées 51 55 62 63 65 68 71 75 79


Souris traitées 47 49 53 57 60 61 67

le plus efficace. Sur les 18 patients, 12 déclarent que le nouveau traitement (A) est
plus efficace que l’ancien (B). Comment tester l’efficacité du nouveau traitement ?

89
3.8 Corrigés
3.8.1 Exercice 3.1
1. Nous disposons de données appariées (Ui , Vi )1≤i≤9 où Ui , Vi sont liées au même
i-ème individu, le i-ème film, et représentent respectivement l’âge de l’acteur
principale et l’âge de l’actrice principale dans ce film.
Nous avons accès aux valeurs des différences Xi = Ui − Vi et pas seulement
à leur signe : nous préferons donc utiliser toutes les informations à notre dis-
position et utiliser le test des rangs signés de Wilcoxon plutôt que le test du
signe.
Remarque : nous ne nous occupons pas de la vérification de l’hypothèse de
médiane commune, ni de celle de symétrie par rapport à cette médiane, qui
sont des hypothèses nécessaires au test des rangs signés de Wilcoxon et nous
nous contentons de les supposer satisfaites.
2. Rappel des hypothèses du test des rangs signés de Wilcoxon :
— X1 , . . . , Xn sont indépendantes ;
— X1 , . . . , Xn sont de lois diffuses ;
— X1 , . . . , Xn sont de médiane commune m ;
— Pour 1 ≤ i ≤ n, la loi de Xi est symétrique par rapport à m.
L’hypothèse nulle est H0 : m = 0 , l’hypothèse alternative est H1 : m > 0.
Nous utilisons la statistique de test
9
X
W9+ = R|X| (i)1{Xi >0}
i=1

−1
où (|X|(1) , . . . , |X|(9) ) = (|X|σ̂|X| (1) , . . . , |X|σ̂|X| (9) ) et R|X| = σ̂|X| .
+
D’après le cours, nous savons que W9 est égal en loi sous H0 à
9
X
h̃9 := jYj
j=1

iid
où Y1 , . . . , Y9 ∼ Be( 21 ) et donc EH0 [W9+ ] = 9×(9+1)
4
= 22, 5.
3. Les valeurs observées de Ui , Vi , Xi , 1{Xi >0} , σ̂|X| (i), R|X| (i) sont :

i 1 2 3 4 5 6 7 8 9
ui 40 57 44 52 39.2 77 48 36 39
vi 39.5 55 41.5 49 39.5 84 79 30 23
xi 0.5 2 2.5 3 -0.3 -7 -29 6 16
1{xi >0} 1 1 1 1 0 0 0 1 1
σ̂|x| (i) 5 1 2 3 4 8 6 9 7
R|x| (i) 2 3 4 5 1 7 9 6 8

La valeur observée de W9+ est donc


w9+ = R|x| (1)+R|x| (2)+R|x| (3)+R|x| (4)+R|x| (8)+R|x| (9) = 2+3+4+5+6+8 = 28

90
L(h̃ )
Nous utilisons le test φα (X19 ) = 1{W + >qL(h̃9 ) } où q1−α9 est le quantile d’ordre
9 1−α

1 − α de la loi de h̃9 . Comme W9+ est à valeurs dans N, nous avons aussi
φα (X19 ) = 1{W + ≥qL(h̃9 ) +1} .
9 1−α
Pour le calcul de la p-valeur, nous pouvons utiliser le Cas 2 ou le Cas 3 du
Théorème de Wasserman.
Cas 3 :
— Le test est bien de la forme φα (X19 ) = 1{T (X19 )≥kα } avec T (X19 ) = W9+ et
L(h̃ )
kα = q1−α9 + 1 ;
— Il existe θ0 ∈ Θ0 tel que pour tout t, supθ∈Θ0 Pθ (T (X19 ) ≥ t) = Pθ0 (T (X19 ) ≥
t) puisque Θ0 = {0} et donc θ0 = 0.
Cas 2 :
— Le test est bien de la forme φα (X19 ) = 1{T (X19 )≥kα } ;
— T (X19 ) a une loi discrète et fixe sous H0 car T (X19 ) = W9+ est égal en loi
sous H0 à h̃9 qui est à valeurs dans N.
En conclusion, la p-valeur observée est :
9
X
p(x91 ) = PH0 (T (X19 ) ≥ T (x91 )) = P(h̃9 ≥ R|x| (i)1{xi >0} )
i=1
= P(h̃9 ≥ 28) = 1 − P(h̃9 ≤ 27) = 1 − 0, 7148 = 0, 2852.

d’après la table de la loi de W9+ sous H0 .


4. Nous avons p(x91 ) = 0, 2852 > α = 0, 05, donc nous ne rejettons pas H0 au
niveau α = 5%.

3.8.2 Exercice 3.2


Notons U1 , . . . , U9 le nombre des vers adultes retrouvés dans les intestins des
9 souris non traitées, et V1 , . . . , V7 le nombre des vers adultes retrouvés dans les
intestins des 7 souris traitées.
Rappelons les hypothèses du test de Mann-Whitney :
— U1 , . . . , Un sont i.i.d. de même loi que U ;
— V1 , . . . , Vp sont i.i.d. de même loi que V ;
— U1n est indépendant de V1p ;
— U et V sont diffuses.
Remarque : la dernière hypothèse ne pose pas de difficulté ici puisqu’il n’y a pas
d’ex-aequos dans les deux séries de valeurs données par l’énoncé.

Notons F (resp. G) la fonction de répartition de U (resp. V ).


Nous testons

91
H0 : F = G (ie les Ui et les Vj ont même loi)

contre

H1 : ∃θ 6= 0, F (.) = G(. − θ)
(ie le traitement est efficace : les Vj ont tendance à être plus petits que les Ui ).
P P
Ici n = 9, p = 7. Posons Σ1 = 9i=1 Ri , Σ2 = 7j=1 Sj , où Ri (resp. Sj ) est le rang
de Ui (resp. Vj ) dans le vecteur global (U1 , . . . , U9 , V1 , . . . , V7 ), Z le vecteur global
ordonné, MU = Σ1 − n×(n+1) 2
= Σ1 − 45 et MV = Σ2 − p×(p+1) 2
= Σ2 − 28. Nous avons
donc MV = np − MU = 63 − MU .
Nous savons que sous H0 , MU et MV sont égales en loi à h̃9,7 de fonction de répar-
tition F9,7 , et libres de F .
Nous pouvons utiliser un test de la forme φα (U19 , V17 ) = 1{MV <kα } ou un test de la
forme φα (U19 , V17 ) = 1{MU >kα0 } : nous nous attendons à ce que, sous H1 , MV soit
petit et MU soit grand.
Nous avons PH0 (MU > kα0 ) = 1 − PH0 (MU ≤ kα0 ) = 1 − F9,7 (kα ) donc PH0 (MU >
L(h̃ )
kα0 ) ≤ α ⇔ 1 − α ≤ F9,7 (kα0 ) et nous prenons donc kα0 = q1−α9,7 ie le quantile d’ordre
1 − α de la loi de h̃9,7 .
Comme MV = 63 − MU , nous avons PH0 (MV < kα ) = PH0 (63 − kα < MU ) et donc
L(h̃ )
PH0 (MV < kα ) ≤ α ⇔ 1 − α ≤ F9,7 (63 − kα ) et nous prenons donc kα = 63 − q1−α9,7 .
Dans la suite, au vu des valeurs données pour la fonction de répartition F9,7 dans
l’énoncé, nous utiliserons le test :

φα (U19 , V17 ) = 1 L(h̃ )


{MV <63−q1−α9,7 }

Comme MV est à valeurs dans N cela revient à φα (U19 , V17 ) = 1 L(h̃ )


{MV ≤62−q1−α9,7 }

Notons respectivement σ1 , σ2 , ri , sj , ui , vj , zk , Mu , Mv les valeurs observées des va-


riables Σ1 , Σ2 , Ri , Sj , Zk , MU , MV . Nous observons les valeurs :

k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
zk 47 49 51 53 55 57 60 61 62 63 65 67 68 71 75 79
Indice dans u - - 1 - 2 - - - 3 4 5 - 6 7 8 9
Indice dans v 1 2 - 3 - 4 5 6 - - - 7 - - - -
Donc :
i 1 2 3 4 5 6 7 8 9
ri 3 5 9 10 11 13 14 15 16

d’où σ1 = 3 + 5 + 9 + 10 + 11 + 13 + 14 + 15 + 16 = 96, Mu = σ1 − 45 = 51, et


j 1 2 3 4 5 6 7
sj 1 2 4 6 7 8 12

d’où σ2 = 1 + 2 + 4 + 6 + 7 + 8 + 12 = 40, Mv = σ2 − 28 = 12. Remarque : d’après


un résultat du cours, nous savons que MV correspond au nombre de paires (Ui , Vj )

92
tel que Ui < Vj parmi toutes les paires possibles.
Ici nous observons

{(i, j) ; ui < vj } =
{(1, 3), (1, 4), (1, 5), (1, 6), (1, 7), (2, 4), (2, 5), (2, 6), (2, 7), (3, 7), (4, 7), (5, 7)}

et nous retrouvons bien Mv = 12.


Pour déterminer la p-valeur, nous utilisons le Cas 2 du Théorème de Wasserman.
Vérifions ses hypothèses :
— Le test est bien de la forme φα (U19 , V17 ) = 1{T (U19 ,V17 )≤k̃α } avec T (U19 , V17 ) = MV
L(h̃ )
et k̃α = 62 − q1−α9,7 ;
— T (U19 , V17 ) a une loi discrète et fixe sous H0 car T (U19 , V17 ) est égal en loi sous
H0 à h̃9,7 qui est à valeurs dans N.
En conclusion, la p-valeur observée est :

p(u91 , v17 ) = PH0 (T (U19 , V17 ) ≤ T (u91 , v17 )) = P(h̃9,7 ≤ Mv )


= P(h̃9,7 ≤ 12) = F9,7 (12) = 0, 021.

d’après les valeurs de l’énoncées.


Pour un niveau de risque α < p(u91 , v17 ) = 0, 021, nous ne rejettons pas H0 au niveau
α (nous ne pouvons pas dire que le traitement est efficace) ;
pour un niveau de risque α > p(u91 , v17 ) = 0, 021, nous rejettons H0 au niveau α (au
niveau de risque α de nous tromper nous pensons que le traitement est efficace).

3.8.3 Exercice 3.3


Notons Ui (resp. Vi ) l’efficacité du nouveau traitement (A) (resp. de l’ancien
traitement (B)) sur l’individu i, pour 1 ≤ i ≤ n, n = 18. Notons Xi = Ui − Vi . Nous
n’avons accès qu’au signe des Xi , ie aux Yi := 1{Xi >0} , puisqu’il est uniquement
demandé au patient de dire si le traitement (A) a été plus efficace que le traitement
(B) (auquel cas Xi > 0), ou si le traitement (A) a été plus efficace que le traitement
(B) (auquel cas Xi < 0).
Il n’y a pas de réponse nulle possible, ce qui correspond à P(Xi = 0) = 0. Nous
allons donc utiliser le test du signe. Rappelons les hypothèses nécessaires pour ce
test :
— X1 , . . . , Xn sont indépendants ;
— X1 , . . . , Xn sont de médiane commune m ;
— Pour 1 ≤ i ≤ n, P(Xi = m) = 0.
Nous testons

H0 : m = 0 (qui modélise "les deux traitements ont la même efficacité")

contre

H1 : m > 0 (qui modélise "le nouveau traitement est meilleur que l’ancien")

93
iid
Sous H0 , Y1 , . . . , Y18 ∼ Be( 21 ) car comme sous H0 la médiane est 0, nous avons
P(Xi ≥ 0) ≥ 21 et P(Xi ≤ 0) ≥ 21 , mais comme de plus P(Xi = 0) = 0, P(Yi = 1) =
P(Xi > 0) = 12 . Nous utilisons le test

φα (X118 ) = 1 P18 1)
B(18, 2
{ i=1
1{Xi >0} > q1−α }

P18
ou encore, comme i=1 1{Xi >0} est à valeurs dans N,

φα (X118 ) = 1 P18 1)
B(18, 2 .
{ i=1
1{Xi >0} ≥ q1−α +1}

P
Notons xi la valeur observée de Xi . La valeur observée de 18 i=1 1{Xi >0} est donc
P18
1
i=1 {xi >0} = 12.
Pour déterminer la p-valeur, nous pouvons utiliser le Cas 2 ou le Cas 3 du Théorème
de Wasserman.
Cas 3 :
P18
— Le test est bien de la forme φα (X118 ) = 1{T (X118 )≥kα } avec T (X118 ) = i=1 1{Xi >0}
B(18, 1 )
et kα = q1−α 2 + 1;
— Il existe θ0 ∈ Θ0 tel que pour tout t, supθ∈Θ0 Pθ (T (X118 ) ≥ t) = Pθ0 (T (X118 ) ≥ t)
puisque Θ0 = {0} et donc θ0 = 0.
Cas 2 :
— Le test est bien de la forme φα (X118 ) = 1{T (X118 )≥kα } ;
P18
— T (X118 ) a une loi discrète et fixe sous H0 car T (X118 ) = i=1 1{Xi >0} est de loi
B(18, 12 ) sous H0 , et donc à valeurs dans N.
En conclusion, la p-valeur observée est :

p(x18 18 18 18 18
1 ) = PH0 (T (X1 ) ≥ T (x1 )) = PH0 (T (X1 ) ≥ 12) = 1 − PH0 (T (X1 ) < 12)
1
= 1 − F B(18, 2 ) (11) ' 0, 23.

Pour un niveau de risque α < p(x181 ) = 0, 23, nous ne rejettons pas H0 au niveau α
(nous ne pouvons pas dire que le nouveau traitement est plus efficace que l’ancien) ;
Pour un niveau de risque α > p(x18 1 ) = 0, 23, nous rejettons H0 au niveau α (au
niveau de risque α de nous tromper nous pensons que le nouveau traitement est plus
efficace que l’ancien).

94
Chapitre 4

Estimation de densités par


estimateurs à noyau

4.1 Quelques rappels d’analyse utiles pour les


chapitres 4 et 5
Définition de la différentiabilité : soit ` : Rm → Rp . L’application ` est différen-
tiable en u s’il existe une application linéaire D`(u) : Rm → Rp (qu’on peut donc
représenter par une matrice élément de Mpm (R)) telle que :

∀ > 0, ∃δ > 0 : kx − uk ≤ δ −→ k`(x) − `(u) − D`(u)(x − u)k ≤ kx − uk

Formule de Taylor-Lagrange : soit f : I → R où I est un intervalle de R. On


suppose que f est n fois dérivable sur I. Alors pour tout x et y de l’intérieur de I,
il existe η ∈]0, 1[ tel que
n−1
X (y − x)k (y − x)n
f (y) = f (k) (x) + f (n) (x + η(y − x))
k=0 k! n!

Formule de Taylor avec reste intégral : on suppose cette fois que f ∈ C n (I) (n
fois continument dérivable) alors, pour tout couple (x, y) de l’interieur de I,
n−1
X
(k) (y − x)k Z y (y − t)n−1 (n)
f (y) = f (x) + f (t)dt
k=0 k! x (n − 1)!

4.2 Introduction
Dans tout le chapitre, l’objectif sera d’estimer une densité f . Pour cela, on s’ap-
puiera sur un n-échantillon iid X = (X1 , . . . , Xn ) où chacune des variables Xi admet
la densité f (par rapport à la mesure de Lebesgue).
Mesure de la qualité d’un estimateur :
1. Définition d’une distance sur l’espace des fonctions :

95
 1
R p
— Distance Lp : d(f, g) = kf − gkp = |f (x) − g(x)|p dx
Cas usuel p = 2 ou p = 1.
— distance L∞ : d(f, g) = kf − gk∞ = supx∈R |f (x) − g(x)|.
— Distance ponctuelle en x0 : d(f, g) = |f (x0 ) − g(x0 )|
2. Définition d’une fonction de perte ω : R → R+ telle que ω est convexe et
ω(0) = 0.
Exemple : ω(x) = x2 .
3. Définition du risque d’un estimateur fˆn :

R(fˆn , f ) = E[ω(d(fˆn , f ))]

où E désigne l’espérance sous la loi des Xi .


Attention en non-paramétrique, on estime donc des fonctions et non plus des vecteurs
(dimension infinie contre dimension finie en gros). Il y a deux "variables" : la variable
x et le vecteur aléatoire X = (X1 , . . . , Xn ). On a donc : fˆn = fˆn (x, X). On a donc
à la fois, pour chaque valeur de X, une fonction en x (ou plus généralement un
élément de Lp ) et, pour chaque valeur fixée de x, une variable aléatoire réelle.

Exemples usuels :
— d(f, g) = |f (x0 ) − g(x0 )|, ω(x) = x2 :

R(fˆn , f ) = E[|fˆn (x0 ) − f (x0 )|2 ]

— d(f, g) = kf − gk2 , ω(x) = x2

R(fˆn , f ) = E[kfˆn − f k22 ]

On cherche à déterminer fˆn tel que R(fˆn , f ) soit minimal. Comme expliqué dans
l’introduction, on ne suppose pas que la fonction de densité f appartient à une
famille paramétrique. On va faire une hypothèse moins précise : f appartient à une
classe fonctionnelle qu’on note F. On peut alors définir un risque, qu’on appelle
risque minimax de fˆn sur la classe F , par

R(fˆn , F) = sup R(fˆn , f )


f ∈F

On va donc chercher un estimateur fˆn tel que le risque R(fˆn , F) tende vers zéro le
plus vite possible quand n tend vers l’infini.

Définition 4.1. soit (rn )n une suite et une constante C telles que

∀n R(fˆn , F) ≤ Crn

On dit que la suite d’estimateurs (fˆn )n atteint la vitesse (ou le taux) rn sur la classe
F (pour la distance d et la perte ω. )

96
Nous verrons que la vitesse sera d’autant plus grande que la classe F sera une
classe de régularité élevée.
Exemple de classes de fonctions : C k , la classe de Holder (cf définition ci-dessous),
boule dans un espace de Sobolev ( cf cours d’analyse fonctionnelle).
Définition 4.2. Si β ∈ R on note bβc l’entier naturel qui soit le plus grand entier
strictement inférieur à β.
ex : si β = 3, 5 alors bβc = 3 et si β = 4 alors bβc = 3.
Définition 4.3. Pour tout β > 0 et tout L > 0, on définit la classe de Holder de
régularité β et de rayon L par

Σ(β, L) = {g : R → R t.q. g est bβc fois dérivable et


∀(x, y) ∈ R2 |g (bβc) (y) − g (bβc) (x)| ≤ L|x − y|β−bβc }
Quand on intersecte Σ(β, L) avec l’ensemble des densités, on note Σd (β, L) cette
intersection.
Remarque 4.4. — Si β = 1 on obtient l’ensemble des fonctions lipschitziennes
.
— Si β > 1 alors f 0 ∈ Σ(β − 1, L).
Proposition 4.5. (admise) Soit β > 0 et L > 0, il existe une constante M (β, L)
telle que
sup kf k∞ = sup sup f (x) ≤ M (β, L)
f ∈Σd (β,L) x∈R f ∈Σd (β,L)

4.3 Estimation non paramétrique de la densité


L’approche classique pour estimer une densité est de supposer un modèle paramé-
trique : par exemple, en dimension 1, on représente les données par un histogramme,
et si la courbe est en cloche avec des queues légères, on conclut qu’il y a de fortes
chances que le modèle suive une loi gaussienne. Il n’y a alors plus qu’à estimer la
moyenne et la variance (µ, σ 2 ), c’est-à-dire un paramètre de dimension 2. On peut
aussi se trouver dans un cas où on a des connaissances a priori sur les données,
nous amenant à poser encore une loi paramétrique (ex typique : nombre de voitures
passant par un carrefour par jour, représenté en général par une loi de poisson).
Il y a plusieurs problèmes possibles avec cette approche : en dimension supérieure
à 2 il sera difficile de représenter les données et d’intuiter une loi connue, parfois on
n’a pas de connaissances a priori sur le sujet etc.
De plus, si on se trompe de modèle, on arrivera à une interprétation erronée des
données.
Un modèle non paramétrique est moins rigide, et fait moins de suppositions a
priori sur les données.
Evidemment, comme pour le cas des tests, si on a des connaissances a priori
fiables sur les données nous indiquant un modèle paramétrique, il faut utiliser le
modèle paramétrique. Autrement dit, si le modèle paramétrique choisi est correct,
ou plus précisément suffisamment proche de la réalité, alors le modèle paramétrique
sera en général meilleur qu’un modèle non paramétrique.

97
4.3.1 Un estimateur simple de la densité : l’histogramme
Supposons pour simplifier qu’on soit en dimension 1 et que les variables de
l’échantillon soient à valeurs dans [0, 1] donc f : [0, 1] → R+ .
On se donne un découpage de [0, 1] en un certain nombre de classes ]a1 , a2 ], . . . , ]ap , ap+1 ].
Pour simplifier encore, on suppose que les classes sont de même longueur ai+1 − ai =
ai − ai−1 . Cette longueur est notée h. Estimer f par la méthode de l’histogramme
consiste simplement à estimer f par une fonction constante sur chaque classe, cette
constante étant liée à la proportion de Xi tombant dans cette classe. Plus exactement
on pose, pour t ∈]aj , aj+1 ],
1
fˆn (t) = Card{i : Xi ∈]aj , aj+1 ]}
nh
Pour voir très exactement d’où vient cette formule : on a, si f est égale à une
constante cj constante sur ]aj , aj+1 ],
Z aj+1
F (aj+1 ) − F (aj ) = f (t)dt = cj h
aj

Ensuite on approche la probabilité F (aj+1 ) − F (aj ), qui correspond à la proba-


bilité que X ∈]aj , aj+1 ], par la proportion de Xj se trouvant dans ]aj , aj+1 ]. On a
alors
F (aj+1 ) − F (aj ) 1
cj = ≈ Card{i : Xi ∈]aj , aj+1 ]}
h nh
La performance de cet estimateur dépend fortement du nombre de classes.

98
Code R et illustration graphique du choix du nombre de
classes.
On va illustrer l’importance de bien choisir le nombre de classes par un exemple faisant intervenir une densité
bimodale. On va pour cela simuler un mélange de deux lois gaussiennes : la densité simulée est
1 1  (x − 2)2 (x − 6)2 
f (x) = √ exp(− ) + exp(− )
2 2π 2 2
On devrait donc, si l’approximation par l’histogramme est bien faite, se retrouver avec deux “cloches” qui se
chevauchent un petit peu (écart-type=1) et qui sont centrées en 2 et 6 respectivement.
Simulation d’un échantillon de taille n=500 de loi de densité f :
f=function(x){0.5*dnorm(x,mean=2)+0.5*dnorm(x,mean=6)}

sim=function(n){
X=rnorm(n,2,1)
Y=rnorm(n,6,1)
ber=rbinom(n=n,size=1,prob=0.5)
return(ber*X+(1-ber)*Y)}
Z=sim(500)

On estime la densité par un histogramme (on utilise ici la bibliothèque ggplot2) et on rajoute la vraie densité
f en rouge :
library(ggplot2)
p<-ggplot(data.frame(x=Z),aes(x))+labs(x="",y="")
p1<-p+ geom_histogram(aes(y=..density..),color="black",fill="white")+
stat_function(fun=f,col='red')+
labs(title="nb de classes= 30")
p1

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.


nb de classes= 30
0.25

0.20

0.15

0.10

0.05

0.00
0.0 2.5 5.0 7.5

La fonction histogram dans ggplot calcule un histogramme avec 30 classes par défaut (ce qu’il signale
d’ailleurs). Ce n’est donc pas la valeur optimale en général. Essayons avec d’autres valeurs du nombre de
classes (=bins).

53
p1<-p+
geom_histogram(aes(y=..density..),bins=3, color="black",fill="white")+
stat_function(fun=f,col='red',xlim=c(-4,12))+
labs(title="nb de classes = 3")
p2<-p+
geom_histogram(aes(y=..density..),bins=10, color="black",fill="white")+
stat_function(fun=f,col='red',xlim=c(-4,12))+
labs(title="nb de classes = 10")
p3<-ggplot(data.frame(x=Z),aes(x))+
geom_histogram(aes(y=..density..),bins=100, color="black",fill="white")+
stat_function(fun=f,col='red',xlim=c(-4,12))+
labs(title="nb de classes = 100",x="",y="")

library(gridExtra)#pour faire apparaitre les trois figures en même temps


grid.arrange(p1,p2,p3,nrow=1)
nb de classes = 3 nb de classes = 10 nb de classes = 100
0.20
0.20
0.3

0.15
0.15
0.2
0.10
0.10

0.1
0.05 0.05

0.00 0.00 0.0


0 5 10 0 5 10 0 5 10
On peut aussi indiquer le pas h (binwidth) plutôt que le nombre de classes (bins).
On constate donc que, avec une fenêtre h trop petite, c’est-à-dire avec un trop grand nombre de classes, on
fait apparaitre trop de variations souvent insignifiantes (variance trop grande). Au contraire avec une fenêtre
h trop grande, on a une approche trop grossière (biais trop grand) et une distribution peu discriminante : en
particulier ici on ne voit même plus qu’il s’agit d’une distribution bimodale . On voit qu’il faut trouver un
compromis entre le biais (au carré) et la variance, compromis qu’on va illustrer plus en détail plus loin, par le
calcul.
Il existe d’ailleurs dans R des estimations de la taille optimale du pas h, cf l’aide en ligne ou la page wikipedia
sur l’histogramme. L’estimateur par histogramme étant présenté ici essentiellement à titre illustratif, nous ne
donnons pas plus de détails sur le sujet. Des détails plus précis seront donnés pour l’estimateur qui nous
intéresse vraiment : l’estimateur à noyau.
Evidemment le nombre optimal de classes dépend de n. Illustrons ceci en changeant la taille de l’échantillon :
on passe de 500 à 50000.
Z=sim(50000)
p<-ggplot(data.frame(x=Z),aes(x))+labs(x="",y="")

p1<-p+
geom_histogram(aes(y=..density..),color="black",fill="white")+
stat_function(fun=f,col='red')+
labs(title="nb de classes=30")
p2<-ggplot(data.frame(x=Z),aes(x))+

54
geom_histogram(aes(y=..density..),bins=100,color="black",fill="white")+
stat_function(fun=f,col='red')+
labs(title="nb de classes=100")
grid.arrange(p1,p2,nrow=1)

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.


nb de classes=30 nb de classes=100
0.20 0.20

0.15 0.15

density
0.10 0.10

0.05 0.05

0.00 0.00
0 4 8 −2.5 0.0 2.5 5.0 7.5 10.0
x
On voit donc qu’avec un nombre de classes égal à 100, on a, conrairement à précédemment, un très bon choix.
La taille optimale du nombre de classes est croissante avec n, autrement dit, le pas h optimal décroit avedc n,
ce que l’on va illustrer plus tard avec l’estimateur à noyau de fenêtre h.

Remarquez que l’on fait deux approximation successives : une première approximation quand on approche la
densité par une fonction constante par morceaux, et ensuite une deuxième approximation quand on approche
chaque constante à l’aide des données.

55
4.3.2 Estimateurs à noyaux
Un inconvénient de l’estimateur par histogramme précédent est que la fonction
de densité résultante fˆn n’est pas régulière : il s’agit d’une fonction constante par
morceau, qui a donc des sauts aux extrémités de chaque classe. En général, la densité
à estimer est plus lisse, au moins continue.
L’estimation par noyau a pour but de répondre à cet écueil.

Principe : Si f est continue en x (ce qui va être le cas pour les classes de fonctions
qu’on va considérer) alors
F (x + h) − F (x) F (x + h) − F (x − h)
f (x) = F 0 (x) = lim = lim
h→0 h h→0 2h
L’idée est donc d’utiliser l’approximation suivante, pour h petit,
F (x + h) − F (x − h)
f (x) ≈
2h
Pour estimer la densité f on peut donc passer par un estimateur F̂n de la cdf F .
Voyons ce qui se passe si on choisit comme estimateur la fonction de répartition
P
empirique Fn . (On rappelle que Fn (x) = n1 ni=1 1Xi ≤n ) On choisit un h > 0 petit
pour que l’approximation ci-dessus soit valable, et on pose
n
Fn (x + h) − Fn (x − h) 1X 1
f˜n (x) = = 1X ∈]x−h,x+h]
2h n i=1 2h i

Si on pose K0 (x) = 12 1]−1,1](u) alors on a


n
1X 1 Xi − x
f˜n (x) = K0 ( )
n i=1 h h

K0 est appelé le noyau de Rosenblatt. Cet estimateur a le même inconvénient d’ir-


régularité que l’estimateur par histogramme.
On a donc l’idée d’utiliser des noyaux plus réguliers.
Définition 4.6. Soit K : R → R intégrable et tel que
Z
K(y)dy = 1

alors K est appelé noyau (kernel).


Exemples :
— Noyau triangulaire : K(u) = (1 − |u|)1[−1,1] (u)
— Noyau d’Epanechnikov : K(u) = 43 (1 − u2 )1[−1,1] (u)
15
— Noyau Biweight : K(u) = 16
(1 − u2 )2 1[−1,1] (u)
2
— Noyau Gaussien : K(u) = √1 exp(− u )
2π 2
On définit alors un estimateur à noyau dès qu’on se donne un noyau K et une
fenêtre h > 0.

102
Définition 4.7. Etant donné K un noyau et h > 0, on pose
n
1X 1 Xi − x
∀x ∈ R, fˆn (x) = K( )
n i=1 h h

Remarque 4.8. — La plupart des noyaux sont symétriques, positifs et sont dé-
croissants sur R+ comme le noyau Gaussien : plus y est proche de 0, plus
K(y) est grand. Donc, pour un x ∈ R donné, plus une observation Xi est
proche de x, plus K( Xih−x ) est grand. Donc fˆn (x) est d’autant plus grand que
x est proche de beaucoup d’observations Xi (somme de beaucoup de grandes
valeurs K( Xih−x )).
— L’estimateur est somme de fonctions K( Xih−x ) qui sont continues si K est
continu. Donc fˆn est continu si K est continu.
R
— fˆn (x)dx = 1, donc, si K(x) ≥ 0 ∀x ∈ R, alors fˆn est une densité.
— Le paramètre h > 0 est appelé fenêtre (bandwidth). C’est un paramètre de
lissage : plus h est grand, plus l’estimateur est régulier. Comme dans le cas
de l’estimateur à histogramme, le choix de h est délicat, la fenêtre h optimale
devant réaliser un équilibre biais/variance (cf section suivante).
— Dans la pratique, le choix du noyau est peu influent, contrairement au choix
de la fenêtre !

103
Illustration graphique et code R
On va utiliser le même exemple de distribution bimodale que précédemment. L’estimation par noyaux peut
se faire avec différentes méthodes. On peut utiliser la fonction density du package stat. Cette procédure
n’estime que des densités à une seule variable. Pour des fonctions multivariées, on peut utiliser par exemple
la fonction kde du package ks (de 1 à 6 variables).
Par défaut le noyau utilisé est le noyau gaussien, il est possible de changer de noyau avec l’option kernel.
On va en fait utiliser la version de ggplot pour représenter l’estimateur à noyau. La fonction qui permet de
dessiner l’estimateur à noyau est
geom_density
Le paramètre représentant le fenêtre h s’appelle bw (comme bandwidth).
On illustre l’influence du choix de la fenêtre. On tire les mêmes conclusions que pour l’histogramme.
p<-ggplot(data.frame(x=Z),aes(x))+labs(x="",y="")
p1<-p+geom_density(bw=0.1)+stat_function(fun=f,col='red',alpha=0.4)+ggtitle("h=0.1")
p2<-p+geom_density(bw=0.5)+stat_function(fun=f,col='red',alpha=0.4)+ggtitle("h=0.5")
p3<-p+geom_density(bw=0.8)+stat_function(fun=f,col='red',alpha=0.4)+ggtitle("h=0.8")
p4<-p+geom_density(bw=1.2)+stat_function(fun=f,col='red',alpha=0.4)+ggtitle("h=1.2")
grid.arrange(p1,p2,p3,p4,nrow=2,ncol=2)

h=0.1 h=0.5
0.25 0.20

0.20
0.15
0.15
0.10
0.10

0.05
0.05

0.00 0.00
0.0 2.5 5.0 7.5 0.0 2.5 5.0 7.5

h=0.8 h=1.2
0.20 0.20

0.15 0.15

0.10 0.10

0.05 0.05

0.00 0.00
0.0 2.5 5.0 7.5 0.0 2.5 5.0 7.5

Pour finir, on illustre le choix de deux fenêtres calculées à partir des données. L’une est la méthode de Sheather
et Jones (SJ) et l’autre est basée sur la validation croisée, qui sera vue en fin de chapitre (ucv=unbiased

58
cross-validation). Pour d’autres méthodes, consultez la documentation liée à bw.
p<-ggplot(data.frame(x=Z),aes(x))+labs(x="",y="")
p5<-p+geom_density(bw="ucv")+stat_function(fun=f,col='red',alpha=0.4)+ggtitle("ucv")
p6<-p+geom_density(bw="SJ")+stat_function(fun=f,col='red',alpha=0.4)+ggtitle("SJ")
grid.arrange(p5,p6,ncol=2)

ucv SJ

0.20 0.20

0.15 0.15

0.10 0.10

0.05 0.05

0.00 0.00
0.0 2.5 5.0 7.5 0.0 2.5 5.0 7.5

Il existe une version en dimension 2 de cette fonction dans ggplot2 qui s’appelle
geom_density_2d
.

59
4.4 Risque quadratique ponctuel des estimateurs
à noyau sur la classe des espaces de Holder
Dans cette section, on s’intéresse au risque quadratique ponctuel de fˆn , i.e. étant
donné x0 ∈ R  
R(fˆn , f ) = E |fˆn (x0 ) − f (x0 )|2

Rappelons la décomposition "biais au carré+ variance" du risque quadratique :


   2
E |fˆn (x0 ) − f (x0 )|2 = E[fˆn (x0 )] − f (x0 )] + Var(fˆn (x0 ))

Définition 4.9. Soit ` ∈ N∗ . ROn dit que le noyau K est d’ordre ` si ∀j ∈ {1, . . . , `},
u → uj K(u) est intégrable et uj K(u)du = 0.

Proposition 4.10.R
Si f ∈ Σ(β, L) avec β > 0 et L > 0 et si K est un noyau d’ordre
` = bβc tel que |u|β |K(u)|du < ∞ alors pour tout x0 ∈ R, et pour tout h > 0 le
biais peut être borné comme suit :

hβ L Z
|E[fˆn (x0 )] − f (x0 )| ≤ |u|β |K(u)|du
`!
Démonstration. On a
h1 X
1 n
X i − x0 i
E[fˆn (x0 )] = E K( )
n i=1 h h
h1 X 1 − x0 i
E K( )
h Z h
1 u − x0
= K( )f (u)du
Zh h
= K(v)f (x0 + hv)dv

De plus Z
f (x0 ) = f (x0 ) × 1 = f (x0 ) K(v)dv.
Donc h i Z h i
E fˆn (x0 ) − f (x0 ) = K(v) f (x0 + hv) − f (x0 ) dv

Comme f ∈ Σ(β, L), f admet bβc dérivées et par un développement de Taylor-


Lagrange (cf rappel chapitre 1) on a, pour tout x ∈ R,
`−1
X (x − x0 )k (k) (x − x0 )` (`)
f (x) = f (x0 ) + f (x0 + ξ(x − x0 ))
k=0 k! `!

avec ξ ∈]0, 1[. Autrement dit on a, avec x = x0 + hv,


`−1
(hv)k (k)
X
(`) (hv)`
f (x0 + hv) − f (x0 ) = f (x0 ) + f (x0 + hvξ)
k=1 k! `!

106
pour un certain ξ ∈]0, 1[.Donc
Z h i Z hX
`−1
(hv)k (k) (`) (hv)` i
K(v) f (x0 + hv) − f (x0 ) dv = K(v) f (x0 ) + f (x0 + hvξ) dv
k=1 k! `!
h` Z
= K(v)v ` f (`) (x0 + hvξ)dv
`!
R
Comme K est d’ordre `, on a aussi K(v)v ` f (`) (x0 )dv = 0. Donc on a
Z h i h` Z h i
K(v) f (x0 + hv) − f (x0 ) dv = K(v)v ` f (`) (x0 + hvξ) − f (`) (x0 ) dv
`!
Or, comme f ∈ Σ(β, L), on a |f (`) (x0 + hvξ) − f (`) (x0 )| ≤ L|hv|β−` . Et finalement
Z


h i |h|` Z
K(v) f (x0 + hv) − f (x0 ) dv ≤ |K(v)||v|` L|hv|β−` dv
`!
ce qui signifie que
h
i
E fˆn (x0 ) − f (x0 )
L|h|β Z
≤ |K(v)||v|β dv
`!

Le biais au carré tend donc vers zéro à la vitesse h2β . Plus la fonction f est
régulière, plus le biais tend vite vers zéro quand h tend vers zéro (à condition bien
sûr que l’ordre du noyau soit suffisamment grand).
Proposition 4.11. Si f est bornée et si K est de carré intégrable alors
kf k∞ kKk22
Var(fˆn (x0 )) ≤
nh
En particulier, si f ∈ Σ(β, L) alors
M (β, L)kKk22
Var(fˆn (x0 )) ≤
nh
Démonstration.
 1 Xn
X i − x0 
Var(fˆn (x0 ) = Var K( )
nh i=1 h
n
X  1 X i − x0 
= Var K( )
i=1 nh h
n
X 1  X i − x0 
= 2 2
Var K( )
i=1 n h h
1  X 1 − x0 
= Var K( )
nh2 h
1  2 X 1 − x0 
≤ E K ( )
nh2 Z h
 
1 2 u − x0
= K f (u)du
nh2Z h
1
= K 2 (v)f (x0 + vh)dv
nh

107
Et enfin, on utilise la proposition 10 : il existe une constante positive M (β, L) tel
que kf k∞ ≤ M (β, L). Ceci implique que
Z
ˆ 1
Var(fn (x0 ) ≤ M (β, L) K 2 (v)dv
nh

Pour que la variance tende vers zéro, il faut que nh tende vers l’infini. En parti-
culier, à n fixé, la variance est une fonction décroissante de h au contraire du biais
qui est une fonction croissante de h. Il y a donc une valeur optimale de h qui doit
réaliser l’équilibre entre le biais au carré et la variance. On peut à présent donner
un contrôle du risque quadratique.
Théorème R4.12. Soit β > 0 et L > 0 et K un noyau de carré intégrable et d’ordre
bβc tel que |u|β |K(u)|du < ∞. Alors, en choisissant une fenêtre de la forme h =
1
cn− 2β+1 avec une constante c > 0, on obtient

∀x0 ∈ R, R(fˆn (x0 ), Σd (β, L) := sup E[|fˆn (x0 ) − f (x0 )|2 ] ≤ Cn− 2β+1
f ∈Σd (β,L)

où C est une constante dépendant de L, β, c et K.


Démonstration. On a
 
R fˆn (x0 ), f (x0 ) = Biais au carré + Variance

Le terme de biais a été traité dans la proposition 11 et le terme de variance a été


traité dans la proposition 12. On trouve
 2

ˆ
 hβ L Z M (β, L)kKk22
R fn (x0 ), f (x0 ) ≤ |u|β |K(u)|du +
`! nh
On cherche ensuite la fenêtre h qui optimise cette quantité. Comme on ne soucie
pas vraiment des constantes

exactes quand on cherche la vitesse d’un estimateur,
R 2
L
on utilise la notation c1 = `!
|u|β |K(u)|du et c2 = M (β, L)kKk22 . On doit alors
minimiser en h la quantité
c2
c1 h2β +
nh
On a une quantité croissante et une quantité décroissante en h. Encore une fois,
comme on ne se soucie pas des constantes, donc on cherche seulement la fenêtre h
qui nous donne l’ordre minimal du risque. Quand h est trop grand, le biais est trop
grand, et quand h est trop petit, c’est la variance qui est trop grande. On cherche
donc la fenêtre h qui réalise un équilibre entre le biais au carré et la variance :
1
h2β ≈
nh
où le signe ≈ signifie ici "de l’ordre de". Cela donne
1
h ≈ n− 2β+1

108
1
Autrement dit, pour une fenêtre h de l’ordre de n− 2β+1 , le biais au carré et la variance
1
sont de même ordre. Plus exactement, si on choisit la fenêtre h∗ = cn− 2β+1 , avec c
une constante positive, on a
1
Biais au carré ≈ h2β
∗ ≈ variance ≈
nh∗
De plus on a alors
−2β
h2β
∗ ≈ n
2β+1

Autrement dit, il existe une certaine constante C telle que, pour cette fenêtre h∗ , on
a  
−2β
ˆ
R fn (x0 ), Σd (β, L) ≤ Cn 2β+1

Cette fenêtre est donc optimale à une constante près (si on change c, on change C
−2β
mais ça ne change pas le taux qui est n 2β+1 ).

Remarque 4.13. — l’estimateur dépend de β à travers la fenêtre h. Or, sans


connaissance a priori sur la régularité de la fonction f , on ne peut donc pas
utiliser cet estimateur. On essaie alors de trouver un choix de fenêtre ne dé-
pendant que des données et qui soit aussi performant (ou presque aussi perfor-
mant si ce n’est pas possible d’être aussi performant) que l’estimateur utilisant
cette fenêtre optimale. A ce sujet, on introduit plus loin un choix de fenêtre ne
dépendant que des données et qui est basé sur ce qu’on appelle la validation
croisée (ou "cross validation").
— Plus β est grand, plus la vitesse est grande. A la limite β → ∞ on obtient une
vitesse paramétrique.
— On peut généraliser le concept des estimateurs à noyaux pour une densité à
plusieurs variables. Mais attention, en grande dimension, le problème du “fléau
de dimension" (“curse of dimensionality") se pose souvent. En fait, l’estima-

teur à noyau en dimension d donne une vitesse de n− 2β+d (on retrouve bien le
résultat du théorème avec d = 1). Donc cette vitesse se dégrade très vite avec
la dimension. On évite donc en général d’utiliser un estimateur à noyau en
dimension supérieure à 4 ou 5.

4.5 Construction de noyaux d’ordre `


La section 4.4 est de lecture facultative.
On va montrer que pour tout ` ∈ N∗ des noyaux d’ordre ` existent bien.
Soit (φm )m∈N la base orthonormée des polynômes de Legendre dans L2 ([−1, 1])
définie par
s
1 2m + 1 1 dm
φ0 ≡ √ et pour tout m ≥ 1, φm (x) = [(x2 − 1)m ]
2 2 2m m! dxm
Cette base est obtenue par orthonormalisation de Gram-Schmidt de la base (x →
xk )k≥0 . Elle a les propriétés suivantes :

109
R1
— −1 φm (u)φk (u)du = 1m=k
— φm est un polynôme de degré m.
— φ2m est pair et φ2m+1 est impair ∀m ≥ 0.
P`
Proposition 4.14. Soit K` : u → m=0 φm (0)φm (u)1|u|≤1 . Alors K` est un noyau
d’ordre `.

Démonstration. ∀j ∈ N, u 7→ uj K(u) est intégrable sur R. De plus ∀j ∈ N, ∃(aq )q≥0


telle que ∀u ∈ [−1, 1],
X j
X
uj = aq φq (u) = aq φq (u)
q≥0 q=0

Donc
Z Z 1 X
j
uj K(u)du = aq φq (u)K(u)du
−1 q=0

j
X Z 1 X̀
= aq φq (u) φm (0)φm (u)du
q=0 −1 m=0
j X̀
X Z 1
= aq φm (0) φq (u)φm (u)du
q=0 m=0 −1

j
X
= aq φq (0)
q=0

0 si j ≥ 1
=
1 si j = 0

Remarque 4.15. Comme φ2k+1 est impaire, on a φ2k+1 (0) = 0 et donc K2k =
K2k+1 . Et donc l’ordre maximal de K` est impair.

4.6 Choix de la fenêtre h par validation croisée


Le choix de la fenêtre dans la section précédente est critiquable : comme on l’a
mentionné, il dépend de la régularité qui est en général inconnue. On peut donc
essayer d’estimer cette fenêtre idéale par un estimateur ĥ. De façon à souligner la
dépendance à la fenêtre h, on va noter fˆn,h l’estimateur associé à un choix de fenêtre
h. L’estimateur final sera fˆn,ĥ , une fois le choix de ĥ fait.
On cherche à minimiser en h le risque quadratique pour la distance L2 :

R(fˆn,h , f ) = E[kfˆn,h − f k22 ]

Or la fonction f étant inconnue, ce risque n’est pas calculable à partir des don-
nées. On cherche donc à estimer ce risque en utilisant uniquement les données.
Remarquons tout de suite que minimiser en h la quantité R(fˆn,h , f ) est équivalent à

110
minimiser en h la quantité R(fˆn,h , f ) − kf k22 . On va en fait remplacer la minimisa-
tion de la quantité inconnue R(fˆn,h , f ) − kf k22 par la minimisation d’un estimateur
R̂(h) de cette quantité. Plus précisément on va chercher un estimateur sans biais de
R(fˆn,h , f ) − kf k22 .
Pour simplifier on suppose dans le théorème R
suivant que K est positif (on aurait
pu aussi supposer que f et K sont tels que |K( u−v h
)|f (u)f (v)dudv est finie). De
cette manière toutes les quantités que l’on manipulera seront positives (car K et f
sont positives) et on pourra appliquer Fubini. On suppose aussi que R(fˆn,h , f ) < ∞
et f ∈ L2 .

Théorème 4.16. Si on pose

2 X X n
1  X i − Xj 
R̂(h) = kfˆn,h k22 − K
n(n − 1) i=1 j=1,j6=i h h

alors R̂(h) est un estimateur sans biais de R(fˆn,h , f ) − kf k22 .

Démonstration. On veut montrer que

ER̂(h) = R(fˆn,h , f ) − kf k22

Or
 Z 
R(fˆn,h , f ) − kf k22 = E kfˆn,h k22 − 2 fˆn,h (x)f (x)dx
Z
= Ekfˆn,h k22 − 2 Efˆn,h (x)f (x)dx

(on a appliqué Fubini pour la seconde égalité)


Il suffit donc de montrer que
Z X X 
1 n
1  Xi − Xj 
Efˆn,h (x)f (x)dx = E K
n(n − 1) i=1 j=1,j6=i h h

Le côté gauche donne, d’après le calcul fait dans la proposition 11,


Z h i Z Z 
1 u−x
Efˆn,h (x) f (x)dx = K( )f (u)du f (x)dx
h h
Le côté droit donne
X X   
1 n
1  X i − Xj  1  X1 − X2 
E K =E K
n(n − 1) i=1 j=1,j6=i h h h h
Z Z
1 u − v 
= K f (u)f (v)dudv
h h
On applique Fubini.

111
On définit alors
ĥ = arg min R̂(h)
h∈H

si ce minimum est atteint. On cherche une fenêtre parmi une grille finie de valeurs,
grille qu’on a notée H dans la formule ci-dessus.
L’estimateur fˆn,ĥ a de bonnes propriétés pratiques et des propriétés de consis-
tance.
La validation croisée est une méthode très générale dont on reparlera plus en
détail dans le prochain chapitre. L’idée d’utiliser un estimateur sans biais du risque
est aussi une idée assez générale (cf critère Cp).

112
Chapitre 5

Régression non paramétrique

5.1 Introduction
Dans ce chapitre, on cherche à expliquer les valeurs que peut prendre une variable
Y à partir des valeurs que peut prendre une variable X.
Exemples :
— Y est le taux d’insuline dans le sang, qu’on explique (ou prédit) à l’aide de
X= (IMC, pression du sang, concentration de molécules).
— Y est le niveau de diplôme obtenu , qu’on explique à l’aide de X = (âge, sexe,
revenu des parents, métier des parents).
On suppose que la variable Y est intégrable E|Y | < ∞ et on note r la fonction
de régression de Y sur X :
r(x) = E(Y |X = x)
L’objectif est d’estimer la fonction r pour expliquer et prédire Y à partir de X. Pour
cela on dispose des réalisations de n couples de variables (X1 , Y1 ), . . . , (Xn , Yn ). On
va supposer que les (Xi , Yi ) sont indépendants.
Vocabulaire
— les Yi sont les variables à expliquer ou les variables réponses ou variables de
sortie.
— les Xi constituent le design, les variables explicatives, les covariables, ou va-
riables d’entrée.
Modélisation
Le design pourra être aléatoire ou déterministe. Dans ce dernier cas, on notera
plutôt xi à la place de Xi .
Le fait que r(x) = E(Y |X = x) se réécrit

Y = r(X) +  avec E(|X) = 0

On aura donc pour l’échantillon

Yi = r(Xi ) + i , i = 1, . . . , n, E(i |Xi ) = 0

En particulier on a donc E() = 0.

113
Les i sont appelées erreurs et jouent le rôle de bruit. Dans la suite, on va faire
une hypothèse très forte :

Var(i ) = σ 2 < ∞ variance finie et indépendante de i

On va comme dans le chapitre précédent estimer une fonction. Précédemment


une densité, ici une fonction de régression. Des méthodes similaires vont s’appliquer.

5.2 EMC non paramétrique


5.2.1 Modèle linéaire : rappels
Le modèle linéaire consiste à supposer que r s’écrit, si x = (x1 , . . . , xp ) ∈ Rp ,

r(x) = β0 + β1 x1 + . . . , βp xp

On a donc, pour tout i = 1, . . . , n,

r(Xi ) = β0 + β1 Xi1 + . . . , βp Xip


= XiT β
   
1 X11 . . . X1p β0
. . .   . 
On note X =   .. .. ..   
 et β =  .. 
1 Xn1 · · · Xnp βp
Dans ce cas, l’estimation de r revient à l’estimation du vecteur β. C’est un
problème paramétrique. Quand on ne sait rien sur la loi des observations, on utilise
les moindres carrés ordinaires :

β̂ = arg minp kY − Xβk22


β∈R
n
X p
X
= arg minp (Yi − Xij βj )2
β∈R
i=1 j=1

Si X est injective (i.e. de plein de rang en colonnes) alors X T X est inver-


sible et β̂ = (X T X)−1 X T Y et Ŷ = X β̂ = X(X T X)−1 X T Y = AY où A =
X(X T X)−1 X T . Et finalement, l’estimateur de la fonction de régression est,

r̂(x) = (1, xT )β̂

pour x ∈ Rp .

Un exemple : la hauteur des eucalyptus


Lorsqu’un forestier essaie de quantifier le volume de bois fourni par un arbre, il
est nécessaire de connaitre sa hauteur. Or il est parfois impossible d’effectuer une
telle mesure. Une mesure plus simple est la mesure de la circonférence de l’arbre à
une hauteur fixée du sol. Le forestier souhaite trouver une formule, si celle-ci existe,
permettant de déduire la hauteur de l’arbre à partir de sa circonférence. Pour cela

114




●● ● ●
● ● ●●● ●
● ●● ●●
●●● ●●●●●●●●

25
●●● ●
●●●●●●●●●●●●●●
● ● ●●● ●● ●●
● ● ●●●●●●●●●●●●●●●
●●●●● ●●
●●●●●●●●●●●●●●● ●
● ●●●●●●● ● ● ●
● ●●●●●●●●●●●●●●●● ●
●●● ●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●● ●
● ●● ●●● ●●●●●●●●●●● ●
●●●●●●●●●●●●●●●●●●
●● ●●●●●●●●●●●●●●●● ●
●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●● ●●● ● ● ●
●●●●●●●●●●● ●●● ●●●
● ●●●●●●●●●● ●● ● ●
● ●● ●●●●●●●●●●●●● ●
●●● ●●●●●●●●●●●●●● ●
●● ●●●●●●●●●●●●●● ●

20
● ●●●●●●●●●●● ●●●●
●●●●●●●●●●●●●●●●●● ●

ht
●●●●●●●●●●● ●●●
● ●●●●●●●●●●● ●
● ●●● ●●●●●●● ●● ●
●●●●●● ● ●
●●● ●●●●●●● ●
● ●●● ●●● ●●● ●●●
●●● ●●●●● ●
● ●●●●●●● ●●●
●● ●●● ●● ●
● ● ●●●● ●●
● ●●● ●● ●●
●●●●●●●● ●
● ●●● ●
● ● ● ●● ●●
●●● ●●●●●● ●
● ●●● ●
● ● ●
●●●● ●

15
● ●● ●
●●
●● ● ●
● ●
●●●
● ●
●● ●


● ●


30 40 50 60 70

circ

Figure 5.1 – Représentation hauteur versus circonférence pour les 1429 eucalyptus
mesurés

il dispose d’un ensemble de n = 1429 couples de mesures circonférence-hauteur


effectuées sur n arbres.
Pour commencer, comme il n’y a qu’une seule variable, on représente les données.
Cela nous permet de savoir qu’une régression simple semble indiquée, les points
étant disposés grossièrement le long d’une droite.

Si les données se trouvent dans un data.frame appelé euca et si les noms des
variables sont ht et circ alors on peut utiliser

reg=lm(ht~circ,data=euca)

On peut ensuite représenter le nuage de points avec la droite de régression, ainsi que
l’intervalle de confiance sur un ensemble de valeurs de prévisions (à 95%) .

> plot(ht~circ,data=euca)
> circ=euca[,’circ’]
> grille<-seq(min(circ),max(circ),length=100)
> grilledataframe<-data.frame(circ=grille)
> ICpred<-predict(reg,new=grilledataframe,interval="pred",level=0.95)
> matlines(grille,ICpred,lty=c(1,2,2),col=c(’red’,’blue’,’blue’))

Nous constatons que les observations sont globalement bien ajustées par le mo-
dèle, sauf peut-être pour les faibles valeurs de circonférences, qui semblent en ma-
jorité situées en dessous de la droite. Ceci suggère d’utiliser plutôt le modèle de
régression suivant √
ht = a1 + a2 circ + a3 circ + 
On peut donc utiliser un modèle linéaire avec une transformation de
la variable d’origine. On peut d’ailleurs vérifier qu’en introduisant la variable
sqrt(circ), on a bien un meilleur modèle :

> reg1=lm(ht~circ,data=euca)
> reg2=lm(ht~circ+I(sqrt(circ)),data=euca)
> anova(reg1,reg2)

115




●● ● ●
● ● ●●● ●
● ●● ●●
●●● ●●●●●●●●

25
●●● ●
●●●●●●●●●●●●●●
● ● ●●● ●● ●●
● ● ●●●●●●●●●●●●●●●
●●●●● ●●
●●●●●●●●●●●●●●● ●
● ●●●●●●● ● ● ●
● ●●●●●●●●●●●●●●●● ●
●●● ●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●● ●
● ●● ●●● ●●●●●●●●●●● ●
●●●●●●●●●●●●●●●●●●
●● ●●●●●●●●●●●●●●●● ●
●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●● ●●● ● ● ●
●●●●●●●●●●● ●●● ●●●
● ●●●●●●●●●● ●● ● ●
● ●● ●●●●●●●●●●●●● ●
●●● ●●●●●●●●●●●●●● ●
●● ●●●●●●●●●●●●●● ●

20
● ●●●●●●●●●●● ●●●●
●●●●●●●●●●●●●●●●●● ●

ht
●●●●●●●●●●● ●●●
● ●●●●●●●●●●● ●
● ●●● ●●●●●●● ●● ●
●●●●●● ● ●
●●● ●●●●●●● ●
● ●●● ●●● ●●● ●●●
●●● ●●●●● ●
● ●●●●●●● ●●●
●● ●●● ●● ●
● ● ●●●● ●●
● ●●● ●● ●●
●●●●●●●● ●
● ●●● ●
● ● ● ●● ●●
●●● ●●●●●● ●
● ●●● ●
● ● ●
●●●● ●

15
● ●● ●
●●
●● ● ●
● ●
●●●
● ●
●● ●


● ●


30 40 50 60 70

circ

Figure 5.2 – Droite de régression et intervalles de confiance sur la prévision

Analysis of Variance Table

Model 1: ht ~ circ
Model 2: ht ~ circ + I(sqrt(circ))
Res.Df RSS Df Sum of Sq F Pr(>F)
1 1427 2052.1
2 1426 1840.7 1 211.43 163.8 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

De manière générale, on peut utiliser le modèle linéaire avec n’importe quelle


transformation de la variable d’origine (ou des variables d’origine si on est en di-
mension supérieure à 1).

5.2.2 EMC non paramétrique


Revenons sur notre problème général : on cherche à expliquer une variable Y par
une variable explicative X. On suppose pour simplifier que X est de dimension 1.
On peut penser que la fonction est bien approchée par un polynôme :
r(x) ≈ θ1 + θ2 x + . . . + θ3 xM
mais on ne sait pas quel degré M choisir. Si on choisit le degré 2 par exemple, on a
alors l’estimateur
r̂(x) = θ̂1 + θ̂2 x + θ̂3 x2
où θ̂ est l’estimateur des moindres carrés de θ dans le modèle
Yi = θ1 + θ2 zi1 + θ3 zi2 + i , . . . i = 1, . . . , n
avec zi1 = Xi et zi2 = Xi2 pour tout i = 1, . . . , n. . On trouve donc cet estimateur θ̂
par la commande

116
\color{red}
lm(y~x+x^2))$coefficients\color{black}

qu’on peut aussi écrire sous la forme

lm(y~poly(x,2))$coefficients

De manière générale, on se donne un ensemble de fonctions ϕ1 , ϕ2 , . . . et on


suppose que r est bien approchée par une combinaison linéaire d’éléments de cet
ensemble : ∃M tel que
r ≈ θ1 ϕ1 + . . . + θM ϕM
On peut choisir une autre base que les polynômes, par exemple la base de Fourier,
une base d’ondelettes etc. On peut même choisir un ensemble de fonctions qui n’est
pas une base. Si on choisit d’utiliser les M premières fonctions du dictionnaire alors
on calcule l’EMC θ̂ en utilisant la matrice X telle que Xij = ϕj (Xi ) (du moment
que la matrice X est bien de plein rang). On obtient alors directement l’estimateur
r̂ :
∀x, r̂(x) = θ̂1 ϕ1 (x) + . . . + θ̂M ϕM (x)
La question qui se pose alors est celle du nombre d’éléments du dictionnaire
(par exemple si on choisit les polynôme, quel degré ?). Plus on choisir M grand,
meilleure est l’approximation de départ r ≈ θ1 ϕ1 + . . . + θM ϕM . Cependant, on sait
(cf cours de modèle linéaire et/ou cours de grande dimension), que plus on choisit
M grand, plus la variance augmente. Le biais et la variance se comportent de façon
contraire vis-à-dis de M . Le paramètre M joue en fait le même rôle que la fenêtre
h dans le chapitre précédent. Il s’agit donc de trouver un équilibre entre l’erreur
d’approximation et la variance.
Il y a diverses méthodes pour choisir M . On y revient en fin de chapitre.
L’EMC non-paramétrique est une méthode globale : on fait la même approxima-
tion sur tout l’espace de départ.
Dans la suite, nous utiliserons une autre méthode que l’EMC non-paramétrique.
L’estimateur que l’on présente dans la suite est appelé l’estimateur par polynôme
local et comme son nom l’indique, c’est au contraire une méthode locale.

5.3 Estimateur de Nadaraya-Watson


On suppose que les (Xi , Yi ) Radmettent une densité f : R2 → R et on suppose
que pour tout x > 0, fX (x) = f (x, y)dy > 0 (fX est la densité de X). On peut
alors écrire Z
yf (x, y)
∀x ∈ R, r(x) = E[Y |X = x] = dy
fX (x)
Donc pour estimer r, on peut passer par l’estimation de f et fX et poser
R ˆ
 yfn (x,y) dy
fˆn,X (x)
si fˆn,X (x) 6= 0
r̂n (x) =
0 si fˆn,X (x) = 0

117
On peut utiliser les estimateurs à noyau du chapitre précédent :
n
1 X Xi − x
fˆn,X (x) = K( )
nh i=1 h
n
ˆ 1 X Xi − x Yi − y
fn (x, y) = 2
K( )K( )
nh i=1 h h
Proposition 5.1. Si K est un noyau d’ordre 1 alors ∀x ∈ R
 Pn X −x

 Pi=1 Yi K( ih ) Pn
n X −x i
si i=1 K( Xih−x ) 6= 0
r̂n (x) = i=1
K( h
)

0 sinon
P
Démonstration. fˆn,X (x) = 0 est équivalent à ni=1 K( Xih−x ) = 0.
P
Supposons donc que ni=1 K( Xih−x ) 6= 0. Alors
Z
y fˆn (x, y)
r̂n (x) = dy
fˆn,X (x)
Z n
1 1 X Xi − x Yi − y
= y K( )K( )dy
fˆn,X (x) nh2 i=1 h h
nh 1 X n
Xi − x Z Yi − y
= Pn Xi −x 2
K( ) yK( )dy
i=1 K( h ) nh i=1 h h
1 n
X Xi − x 1 Z Yi − y
= Pn Xi −x K( ) yK( )dy
i=1 K( h ) i=1 h h h
n
X
1 Xi − x
= Pn Xi −x K( )Yi
i=1 K( h ) i=1 h

Pour la dernière ligne, on a utilisé le fait que


1Z Yi − y 1Z Z Z
yK( )dy = (Yi − uh)K(u)hdu = Yi K(u)du − h uK(u)du = Yi
h h h

Exemple 5.2. Prenons le noyau triangulaire K(u) = 21 1|u|≤1 .


Alors r̂n (x) est la moyenne des Yi tels que Xi ∈ [x − h, x + h]. Pour n fixé, les
deux cas extrêmes pour la fenêtre sont :
— h → ∞. Quand h est suffisamment grand, tous les Xi se trouvent dans l’in-
tervalle [x − h, x + h]. Alors r̂n est la moyenne des Yi , c’est donc une fonction
constante de x. L’erreur d’approximation est alors trop grande.
— h → 0. Soit x distinct de tous les Xi , si h est assez petit, très exactement
h < min1≤i≤n {|Xi − x|}, on a r̂n (x) = 0. Et si x = Xj pour un certain
j = 1, . . . , n, on a rn (Xj ) = Yj dès que h < min1≤i≤n {|Xi − Xj |}. L’estimateur
r̂n est donc très oscillant : il reproduit les données Yi aux points Xi et il s’annule
partout ailleurs. L’erreur stochastique est trop grande.

118
La fenêtre optimale équilibrant biais (au carré) et variance se trouve entre ces
deux extrêmes.

Remarque 5.3. Si K est continu, positif et à support sur R (par ex le noyau


gaussien) alors r̂n (x) est continu.

Remarque 5.4. On peut écrire


n
X
r̂n (x) = ωn,i (x)Yi
i=1
 Xi −x

 PnK( h X )−x Pn
i
si i=1 K( Xih−x ) 6= 0
où ωn,i (x) =  i=1
K( h
)
0 sinon
P
Remarquons aussi que, si ni=1 K( Xih−x ) = 0, i.e. si x se trouve dans une zone où il
P
n’y a pas de Xi , alors r̂(x) = 0. Et sinon , comme ni=1 ωn,i (x) = 1, alors Yi est une
moyenne pondérée des Yi qui correspondent aux points Xi proches de x.
Dans la pratique, comme K est en général symétrique et décroissant sur R+ ,
le poids associé à Yi dans cette moyenne pondérée est d’autant plus grand que Xi
est proche de x. Les Yi associés à des points Xi qui sont loin de x n’ont pas ou
peu d’impact sur l’estimation de r(x). C’est en cela que la méthode est locale, au
contraire de l’EMC non paramétrique.

Remarque 5.5. Il se peut que la densité fX soit connue. Dans ce cas, il est préfé-
rable d’utiliser R
 yfˆn (x,y) dy si f (x) 6= 0
fX (x) X
r̃n (x) =
0 si f (x) = 0
X

i.e. , si K est un noyau d’ordre 1,


 Pn
 1
Yi K( Xih−x ) si fX (x) 6= 0
nhfX (x) i=1
r̃n (x) =
0 si fX (x) = 0

Proposition 5.6. On suppose fX connue. On s’intéresse à l’estimation de r(x) pour


x fixé. Soit K un noyau d’ordre 1. On suppose de plus que
— fX (x) > 0.
— Il existe  > 0 tel que les fonctions fX et r sont continument dérivables sur
[x − , x + ]
— Pour tout y, si |u| ≤ 

|f (x + u, y) − f (x, y)| ≤ M (x, y)

où Z Z
2
y M (x, y)dy < ∞ et y 2 f (x, y)dy < ∞

— K est un noyau à support dans [−1, 1] et de carré intégrable

119
Alors, si |h| ≤ , il existe une constante C(x) (dépendant de x) telle que
1
E[(r̃n (x) − r(x))2 ] ≤ C(x)(h2 + )
nh
De plus si on choisit une fenêtre h telle que h  n−1/3 (le signe  signifie “de l’ordre
de”), il existe une constante C 0 (x) telle que

E[(r̃n (x) − r(x))2 ] ≤ C 0 (x)n−2/3

Démonstration. On utilise la décomposition biais/variance :

E[(r̃n (x) − r(x))2 ] = Biais2 + variance

— Biais
On va prouver dans le calcul de la variance que,
h sous les hypothèses
i de l’énoncé,
Var[Y1 K( X1h−x )] < ∞. Ceci implique que E |Y1 K( X1h−x )| < ∞. On va pou-
voir utiliser le théorème du transfert pour calculer cette intégrale ainsi que le
théorème de Fubini si besoin.
On a
 Xn 
1 Xi − x
E[r̃n (x)] = E Yi K( )
nhfX (x) i=1 h
1 X1 − x
= E[Y1 K( )]
hfX (x) h
Z Z
1 t−x
= yK( )f (t, y)dtdy
hfX (x) h
1 Z Z
= yK(v)f (x + vh, y)dvdy
fX (x)

De plus

r(x) = E[Y |X = x]
Z
= yfY (y|X = x)dy
Z
f (x, y)
= y dy
fX (x)

Donc Z
r(x)fX (x) = yf (x, y)dy
Donc on a aussi
Z
r(x + vh)fX (x + vh) = yf (x + vh, y)dy

120
Donc

E[r̃n (x)] − r(x)


Z Z Z 
1
= yK(v)f (x + vh, y)dvdy − yf (x, y)dy
fX (x)
Z Z Z Z 
1
= yK(v)f (x + vh, y)dvdy − yK(v)f (x, y)dvdy
fX (x)
Z Z 
1
= K(v)fX (x + vh)r(x + vh)dv − K(v)r(x)fX (x)dv
fX (x)
Z Z 
1
= K(v)[fX (x + vh) − fX (x) + fX (x)]r(x + vh)dv − K(v)r(x)fX (x)dv
fX (x)
Z 1 Z 1 
1
= K(v)[fX (x + vh) − fX (x)]r(x + vh)dv + K(v)fX (x)[r(x + vh) − r(x)]dv
fX (x) −1 −1

On a utilisé le fait que K est à support dans [−1, 1] dans la dernière égalité.
On applique l’inégalité des accroissements finis à r et fX car elles sont conti-
nument dérivables au voisinage de x. Il existe une constante C(x) telle que,
pour tout |u| ≤ ,
|r(x + u) − r(x)| ≤ C(x)u
|fX (x + u) − fX (x)| ≤ C(x)u
On peut donc appliquer ces inégalités avec u = vh pour |v| ≤ 1 et |h| ≤ , ce
qui donne

|E[r̃n (x)] − r(x)|


Z 1  Z 1 
1
≤ |K(v)| fX (x + vh) − fX (x) |r(x + vh)|dv + |K(v)| r(x + vh) − r(x) dv
fX (x) −1 −1
 
C(x) Z 1



Z 1
≤ |K(v)| hv| |r(x + vh)|dv + C(x) |K(v)| hv| dv
fX (x) −1 −1

De plus r étant continue sur [x − , x + ], il existe une constante c(x) telle que
|r(x + hv)| ≤ c(x) pour tout |h| ≤  et tout |v| ≤ 1. Donc on a

|E[r̃n (x)] − r(x)| ≤ C1 (x)h


R
si on pose C1 (x) = C(x)( fc(x)
X (x)
+ 1) |K(v)|dv.
— Variance

121
 Xn 
1 Xi − x
Var(r̃n (x)) = Var Yi K( )
nhfX (x) i=1 h
 
1 X1 − x
= nVar Y1 K( )
nhfX (x) h
 
1 X1 − x
=n 2 2 2 Var Y1 K( )
n h fX (x) h
 
1 2 2 X1 − x
≤ E Y 1 K ( )
nh2 fX2 (x) h
Z
1 t−x
= 2 2
y2K 2( )f (t, y)dtdy
nh fX (x) h
Z
1
= 2
y 2 K 2 (v)f (x + vh, y)dvdy
nhfX (x)

Comme |h| ≤ , on a |hv| ≤  pour tout v ∈ [−1, 1]. Donc , d’après la troisième
hypothèse de l’énoncé,
|f (x + hv, y) − f (x, y)| ≤ M (x, y)
et donc
f (x + hv, y) ≤ f (x, y) + M (x, y) (5.1)
Ainsi
Z  Z
1 2 2
Var(r̃n (x)) ≤ y K (v)M (x, y)dvdy + y 2 K 2 (v)f (x, y)dvdy
nhfX2 (x)
R 2  
K (v) Z 2 Z
2
=  y M (x, y)dy + y f (x, y)dvdy
nhfX2 (x)

Finalement la variance vérifie, si |h| ≤ ,


C2 (x)
Var(r̃n (x)) ≤
nh
R  
K 2 (v) R 2
R 2
où C2 (x) = 2 (x)
fX
 y M (x, y)dy + y f (x, y)dvdy .Cette quantité est finie
d’après les hypothèses de l’énoncé (3ème et 4ème).
— Calcul du risque quadratique
C2 (x)
E[(r̃n (x) − r(x))2 ] ≤ C12 (x)h2 +
nh
On équilibre les deux termes
1 1
h2 ≈ ⇔ h ≈ n− 3
nh
1
et si on choisit une fenêtre h∗ = cn− 3 avec c une constante positive, on a
E[(r̃n (x) − r(x))2 ] ≤ C3 (x)n−2/3

122
L’estimateur de Nadaraya-Watson est un cas particulier des estimateurs par
polynomes locaux.

5.4 Estimateur par polynomes locaux


Proposition 5.7. Si r̂n est l’estimateur de Nadaraya-Watson associé à un noyau
K ≥ 0 alors r̂n est solution de
n
X X − x
i
r̂n (x) = arg min K (Yi − θ)2
θ∈R
i=1 h
Pn  
Xi −x
r̂n (x) est donc un estimateur des moindres carrés pondéré si i=1 K h
6= 0

Démonstration.
r̂n (x) = arg min τ (θ)
θ∈R

où n
X X − x
i
τ (θ) = K (Yi − θ)2
i=1 h
τ est un polynôme du second degré en θ. Recherche d’un point critique :
n
X X − x Xn X − x
0 i i
τ (θ) = 0 ⇔ K Yi = θ K
i=1 h i=1 h
Pn  
Xi −x
i=1
h
K Yi
⇔θ= Pn 
Xi −x

i=1 K h
Pn  
Xi −x
C’est un minimum car τ 00 ≡ 2 i=1 K h
≥ 0.
L’estimateur par polynômes locaux est une généralisation de l’estimateur de
Nadaraya-Watson associée à sa caractérisation par la proposition précédente. Il faut
garder à l’esprit ici que l’idée est de regarder les choses localement, et donc que x
est fixé. On aura donc calculé pour ce x fixé un estimateur de r(x) mais si on veut
r̂(y) il faut faire un autre calcul.
L’idée associée à l’estimateur par polynômes locaux est de reprendre le problème
de minimisation de la proposition précédente mais au lieu d’utiliser une constante
θ, on utilise un polynôme.
Plus précisément, si r est régulière alors, autour de x, r est proche du polynôme
associé à son développement de Taylor-Lagrange en x : pour u proche de x on a

r(u) ≈ P`,x (u)

avec
X̀ r (k) (x)
P`,x (u) = (u − x)k
k=0 k!

123
Evidemment P`,x est tout aussi inconnu que r(x) (ses coefficients dépendent de la
quantité que l’on cherche à estimer r(x) mais aussi des dérivées r0 (x), . . . , r(`) (x)).
On va en fait essayer d’estimer ce polynôme P`,x . Si on écrit

P`,x (u) = µ0 + µ1 (u − x) + . . . + µ` (u − x)` ,

on cherche donc à estimer les coefficients µ0 , . . . , µ` de ce polynôme par des estima-


teurs µ̂0 , µ̂1 , . . . , µ̂` .
Remarquez que si l’on arrive à estimer les coefficients de ce polynôme, qui est
le polynôme de Taylor-Lagrange de r en x de degré `, alors, comme µ0 = r(x),
l’estimateur µ̂0 sera donc l’estimateur r̂(x) recherché.
En particulier, on a

r(Xi ) ≈ P`,x (Xi ) si Xi est proche de x

donc on est tenté de chercher un polynôme P̂ qui soit tel que

P̂ (Xi ) est proche de r(Xi ) pour les Xi proches de x.

Comme on n’a pas accès à r(Xi ) mais à sa donnée bruitée Yi , on cherche en fait P̂
tel que
P̂ (Xi ) est proche de Yi pour les Xi proches de x.
Autrement dit
(P̂ (Xi ) − Yi )2 petit pour les Xi proches de x.
Des poids K( Xih−x ) sont ajoutés pour prendre en compte cette notion de proxi-
mité. On pose alors

Définition 5.8. Si K est un noyau positif, h > 0 une fenêtre et ` ≥ 0 un entier,


on définit ∀x ∈ R,
X  2
n
X i − x X̀ θk  Xi − x k
θ̂(x) = arg min K Yi −
θ=(θ0 ,...,θ` )∈R`+1 i=1 h k=0 k! h

On pose θ̂ = (θ̂0 , θ̂1 , . . . , θ̂` ). L’estimateur par polynôme local d’ordre ` est alors défini
par
r̂n` (x) = θ̂0

Remarque 5.9. Si ` = 0 alors r̂n` (x) est égal à l’estimateur de Nadaraya-Watson.

Définition 5.10. Un estimateur r̂ de la fonction de régression r est linéaire s’il


s’écrit n X
r̂(x) = ωi (x)Yi , ∀x ∈ R
i=1

où les ωi (x) ne dépendent pas des Yi .

124
On peut aussi écrire r̂(x) = ω(x)T Y où Y est le vecteur (Y1 , . . . , Yn )T et ω(x) =
(ω1 (x), . . . , ωn (x))T .
On a vu que l’estimateur de Nadaraya-Watson est linéaire.
Attention : ne pas confondre le fait que l’estimateur soit linéaire, ce qui sous
entend linéaire en Y , et le fait que la fonction de régression soit linéaire, ce qui
signifie que r(x) est linéaire en x (et on cherche alors un estimateur linéaire en
x). L’estimateur associé aux MCO r̂(x) = β̂ T x est linéaire en x et c’est également
un estimateur linéaire : r̂(x) = xT β̂ = xT (X T X)−1 X T Y = ω(x)T Y où ω(x) =
[xT (X T X)−1 X T ]T est un vecteur qui ne dépend pas de Y .
Introduisons, pour la proposition suivante, quelques notations : pour tout i =
1, . . . , n et tout u ∈ R,
 
1
u
Xi − x  
Zi = , V` (u) =  
 .. 
h .
u`
`!

Et on pose
n
X
Bn,x = K(Zi )V` (Zi )V` (Zi )T .
i=1

Proposition 5.11. Si la matrice Bn,x est définie positive alors l’estimateur par
polynômes locaux r̂n` (x) est un estimateur linéaire.

Démonstration. On a
r̂n,` (x) = θ̂0 (x) = eT1 θ̂(x)
avec  
1
 
0
e1 = .
.
.
0
θ̂(x) = arg min
`+1
τ (θ)
θ∈R

où n
X
τ (θ) = K(Zi )(Yi − θT V` (Zi ))2
i=1

On a
n
X h i
τ (θ) = K(Zi ) Yi2 + (θT V` (Zi ))2 − 2Yi θT V` (Zi )
i=1
n
X n
X n
X
= K(Zi )Yi2 + K(Zi )θT V` (Zi )V` (Zi )T θ − 2θT K(Zi )Yi V` (Zi )
i=1 i=1 i=1
= a + θT Bn,x θ − 2θ b T

P Pn
avec a = ni=1 K(Zi )Yi2 et b = i=1 K(Zi )Yi V` (Zi )
Rappels :

125
— Si f (x) = xT a alors ∇f (x) = a et Hf (x) = 0 (Hf est la hessienne de f ).
— Si f (x) = xT Ax alors ∇f (x) = (A + AT )x et Hf (x) = A + AT
— Si A est symétrique et f (x) = xT Ax alors ∇f (x) = 2Ax et Hf (x) = 2A
Recherche de point critique :

∇τ (θ) = −2b + 2Bn,x θ

Donc
∇τ (θ) = 0 ⇔ Bn,x θ = b
Si Bn,x est définie positive, elle est inversible et donc il y a un seul point critique
donné par
−1
θ̂ = Bn,x b
Ce point critique correspond bien à un minimum global car la fonction est convexe.
En effet
Hτ (θ) = 2Bn,x > 0
On a donc
−1
r̂n,` (x) = eT1 Bn,x b
hX
n i
−1
= eT1 Bn,x K(Zi )Yi V` (Zi )
i=1
n
X
= ωi (x)Yi
i=1

avec
−1
ωi (x) = K(Zi )eT1 Bn,x V` (Zi )
ωi (x) ne dépend que de x, K, `, h, et des Xi et pas des Yi . Donc r̂n,` est bien un
estimateur linéaire.

Remarque 5.12. On a
n
X
ωi (x) = 1
i=1

pour la preuve : cf TD 5 exercice 2.

Remarque 5.13. Comme pour l’estimation de densités par noyaux, en pratique le


choix du noyau n’est pas très important. Quant au degré de polynôme, on choisit
souvent 1 ou 2. Le choix de la fenêtre est en revanche crucial.

5.5 Choix des paramètres de régularisation


5.5.1 Risque empirique, surajustement
On va supposer dans la suite pour simplifier que les Xi sont aléatoires. On sup-
pose de plus que les Xi , Yi sont iid. On suppose toujours que E2i = σ 2 .

126
On note maintenant rh l’estimateur utilisant la fenêtre h. Si on enlève une partie
de l’échantillon (Xi , Yi )i∈I avec I une partie de {1, . . . , n} on notera r̂h−I l’estimateur
calculé à partir de l’échantillon auquel on a ôté (Xi , Yi )i∈I .
Remarquez que la fonction de régression r est telle que
h i
r = arg min E (Y − f (X))2 .
f ∈L2 (PX )

On veut trouver la fenêtre h qui minimise le risque


   
2
R(h) = E (r̂h − r) (X) = E kr̂h − rk2L2 (PX ) .

On ne peut pas minimiser ce risque puisque r est inconnu. Une première idée est
de remplacer r(Xi ) par son observation bruitée Yi et d’oublier l’espérance, c’est-à-
dire de minimiser n
1X
R̂n (h) = (r̂h (Xi ) − Yi )2
n i=1
NB : cette quantité est connue sous le nom de "erreur d’apprentissage" (training
error).
C’est en général une très mauvaise idée d’utiliser ce risque comme substitut du
vrai risque pour la sélection de modèle ! En effet les mêmes données sont utilisées à
la fois pour estimer r et estimer le risque. Il y a un manque d’indépendance.
Prenons l’exemple de l’EMC non paramétrique. Imaginons qu’on cherche à ajus-
ter un polynôme. On se pose donc la question du degré M . Pour chaque M on
calcule β̂ M l’EMC associé au design X = (Xij )1≤j≤M,1≤i≤n avec Xij = xj−1 i . Si M
est assez grand et si les points du design sont distincts alors le risque empirique est
égal à 0. On a obtenu un polynôme qui passe par tous les points (Xi , Yi ) ("on recopie
les données"). Mais la variance de cet estimateur risque fort d’être trop grande.
L’erreur d’apprentissage est trop optimiste. On aura en général E[R̂n (h)] < R(h).
Utiliser cette erreur pousse au sur-ajustement (overfitting) : l’estimateur associé sera
trop adapté aux données particulières qu’on a et ne se généralisera pas bien à de
nouvelles données.
iid
Remarque 5.14. — Si Y1 , . . . , Yn ∼ Y alors pour estimer E(Y ) on utilise sou-
P
vent son équivalent empirique n1 ni=1 Yi .
— Si g est une fonction fixe (i.e. ne dépendant pas des données) alors Yi −
iid P
g(Xi ) ∼ Y − g(X). Et il est alors naturel d’utiliser n1 ni=1 (Yi − g(Xi ))2 pour
estimer E(Y − g(X))2 . En effet si g est fixe,
 n 
1X
E (g(Xi ) − Yi )2 = kg − rk2L2 (PX ) + σ 2 ,
n i=1
et  n 
1X 1
Var (g(Xi ) − Yi )2 = Var(g(X) − Y )2 .
n i=1 n
Si on se donne un ensemble de fonctions déterministes (gh )h∈H dépendant
d’un paramètre h (on entend par "déterministe" le fait que gh ne dépend pas
de l’échantillon), alors minimiser le risque empirique semble un bon substitut à
la minimisation du risque quadratique kgh − rk2L2 (PX ) pour choisir le paramètre
h.

127
5.5.2 Validation croisée
La technique de validation croisée est très générale et s’applique à de nombreuses
procédures d’estimation. Ici on va l’appliquer pour le choix de la fenêtre h de l’es-
timateur par polynômes locaux, mais elle aurait pu être utilisée pour le choix d’un
autre paramètre d’ajustement (le degré du polynôme si on ajuste un polynôme par
les moindres carrés par exemple).
On se donne une grille de valeurs H de fenêtres, parmi lesquelles on veut choisir
une fenêtre optimale ĥ en se basant sur les données uniquement.
Le principe général est de diviser l’échantillon en un ensemble d’apprentissage
(training set) et un ensemble de validation (validation set). On fabrique des estima-
teurs à partir de l’ensemble d’apprentissage et ensuite l’ensemble de validation est
utilisé pour estimer leur risque de prédiction. Les schémas les plus populaires sont
les suivants :
— Hold-out CV : on divise l’échantillon en deux parties I1 et I2 (I1 et I2 sont donc
deux ensembles disjoints de {1, . . . , n}). On calcule les estimateurs (r̂hI1 )h∈H à
partir de (Xi , Yi )i∈I1 . Puis on calcule les estimateurs des risques associés
1 X
R̂(h) = (Yi − r̂hI1 (Xi ))2
n2 i∈I2

où on a noté n2 = Card(I2 ).
— V -fold CV : les données sont divisées en V ensembles disjoints I1 , . . . , IV .
Chacun des V sous-ensembles est utilisé à tour de rôle comme ensemble de
validation, le reste étant donc utilisé pour l’apprentissage : on calcule, pour
−I
chaque j ∈ {1, . . . , V }, l’ensemble des estimateurs (r̂h j )h∈H fabriqués avec
(Xi , Yi )i∈I
/ j . Ensuite le risque de prédiction pour une fenêtre h est estimé par

V
1 X 1 X
R̂(h) = (Yi − r̂−Ij (Xi ))2
V j=1 nj i∈Ij

où on a noté nj = Card(Ij ).
Dans la pratique on choisit souvent V = 5 ou V = 10.
— Leave-one out : cas particulier du V -fold CV avec V = n.
— Leave-q-out : tout sous-ensemble de cardinal q de l’échantillon est utilisé
comme ensemble de validation et le reste comme ensemble d’apprentissage.
On choisit
ĥ = arg min R̂(h)
h∈H

Et l’estimateur final est


r̂ = r̂n,ĥ .
où r̂n,h est l’estimateur par polynômes locaux calculé avec la fenêtre h et en utilisant
tout l’échantillon.
Le V -fold est la méthode la plus populaire.
Les méthodes ci-dessus sont présentées par ordre d’intensité de calculs, le leave-q
out ou le leave-one out étant les plus intensives en calculs.

128
Explicitons un peu plus le cas particulier du "leave-one out". Pour chaque valeur
h de la grille de valeurs H et pour chaque i ∈ {1, . . . , n}, on construit un estimateur
(−i)
r̂h en utilisant toutes les observations sauf la ième. La ième observation est ensuite
(−i) (−i)
utilisée pour mesurer la performance de r̂h par (Yi − r̂h (Xi ))2 . On pose donc
n
1X (−i)
R̂(h) = (Yi − r̂h (Xi ))2 .
n i=1
On minimise R pour trouver ĥ.
Dans la suite on explicite les calculs pour voir le problème de dépendance lié au
risque empirique.
On note X1n = (X1 , . . ., Xn ) et Y1n = (Y1 , . . . , Yn ).
On cherche h tel que E (Y − r̂h (X))2 soit minimal. Remarquez que l’on pourrait
comparer aussi des estimateurs de nature différente. On fait donc disparaitre la
dépendance à h dans la notation.
Si g = r̂, g n’est plus fixe, mais dépend des données (X n , Y n ) et on a
n   
1X
E (Yi − r̂(Xi ))2 6= E (Y − r̂(X))2
n i=1
En effet on a, si l’estimateur est symétrique en ses variables (ce qui semble
raisonnable et est le cas des estimateurs par polynômes locaux)
 n   
1X
E (Yi − r̂(Xi ))2 = E (Y1 − r̂(X1 ))2
n i=1
On indique la dépendance de r̂ à (X n , Y n ) en écrivant r̂(x) = g(X1 , . . . , Xn , Y1 , . . . , Yn , x).
On rappelle qu’on a noté f la densité du couple (X, Y ). On a alors
   
2 2
E (Y1 − r̂(X1 )) = E (Y1 − g(X1 , . . . , Xn , Y1 , . . . , Yn , X1 ))
Z
= (y1 − g(x1 , . . . , xn , y1 , . . . , yn , x1 ))2 f (x1 , y1 ) . . . f (xn , yn )dx1 dy1 . . . dxn dyn
Tandis que
   
E (Y − r̂(X))2 = E (Y − g(X1 , . . . , Xn , Y1 , . . . , Yn , X))2
Z
= (y − g(x1 , . . . , xn , y1 , . . . , yn , x))2 f (x1 , y1 ) . . . f (xn , yn )f (x, y)dx1 dy1 . . . dxn dyn dxdy
 
2
Le risque empirique est un mauvais estimateur du "vrai" risque E (Y − r̂(X)) .
Si (Xn+1 , Yn+1 ) est une nouvelle donnée indépendante de (X1n , Y1n ) et de même
loi que (X, Y ), on a
h i h i
E (Yn+1 − r̂(Xn+1 ))2 = E (Yn+1 − g(X1 , . . . , Xn , Y1 , . . . , Yn , Xn+1 ))2 =
Z
(yn+1 − g(x1 , . . . , xn , y1 , . . . , yn , xn+1 ))2 f (x1 , y1 ) . . . f (xn , yn )f (xn+1 , yn+1 )dx1 dy1 . . . dxn dyn dxn+1 dyn+1
Z
= (y − g(x1 , . . . , xn , y1 , . . . , yn , x))2 f (x1 , y1 ) . . . f (xn , yn )f (x, y)dx1 dy1 . . . dxn dyn dxdy
h i
= E (Y − r̂(X))2

129
On a finalement juste utilisé le fait que

Yn+1 −r̂(Xn+1 ) = Yn+1 −g(X1 , . . . , Xn , Y1 , . . . , Yn , Xn+1 ) ∼ Y −g(X1 , . . . , Xn , Y1 , . . . , Yn , X) = Y −r̂(X)

D’où l’idée de séparer l’échantillon en deux si on a suffisamment de données : si


on a n + p données, on sépare l’échantillon en prenant (X1 , Y1 ), . . . , (Xn , Yn ) pour
estimer r̂ puis (Xn+1 , Yn+1 ), . . . , (Xn+p , Yn+p ) pour valider l’estimateur (ou estimer
le risque de cet estimateur ou faire un choix de paramètre d’ajustement comme le
choix de la fenêtre h pour
 un estimateur  par polynômes locaux). On a alors un bon
estimateur du risque E (Y − r̂(X))2 en posant

p  2
1X
Yn+k − r̂(Xn+k )
p k=1

En effet on a, en conditionnant sur (X1 , . . . , Xn ) ,


iid
Yn+1 − r̂(Xn+1 ), . . . , Yn+p − r̂(Xn+p ) ∼ Y − r̂(X)

C’est l’idée du Hold-out.


(−i)
Une autre idée est le leave-one out : on fabrique un estimateur r̂n−1 en utilisant
l’échantillon (X n , Y n ) privé de (Xi , Yi ). Ensuite on utilise (Xi , Yi ) pour valider cet
estimateur :    
(−i) 2 2
E (Yi − r̂n−1 (Xi )) = E (Y − r̂n−1 (X))

Si on note r̂n−1 l’estimateur fabriqué avec seulement n − 1 données.


1 Pn (−i) 2
Donc la moyenne empirique
 n i=1 (Yi − r̂n−1 (Xi )) semble un bon estimateur (en

particulier sans biais) de E (Y − r̂n−1 (X))2 qui est le "vrai" risque de l’estimateur
 
r̂n−1 fabriqué à partir de n − 1 données (on s’attend à ce que E (Y − r̂n−1 (X))2
 
2
soir proche de E (Y − r̂n (X)) où r̂n est l’estimateur de départ, fabriqué avec n
données).
(−i)
On admet la proposition suivante, qui relie les poids associés à l’estimateur r̂h
à ceux associés à l’estimateur r̂h .
Pn (−i) P
Proposition 5.15. Si r̂h (x) = i=1 ωi,h (x)Yi et, pour 1 ≤ i ≤ n, r̂h = j6=i ω̃j,h (x)Yj
alors, pour tout j 6= i
ωj,h (Xi )
ω̃j,h (Xi ) =
1 − ωi,h (Xi )
Remarque 5.16. Cette proposition est également vérifiée pour d’autres estimateurs
linéaires (par exemples les splines).
(−i)
Pour calculer (r̂h )1≤i≤n dans le cas des polynômes locaux, on n’a donc pas
besoin de faire de calculs supplémentaires. Grâce à la proposition précédente on a
facilement le résultat suivant.

130
Pn
Proposition 5.17. Si r̂h (x) = i=1 ωi,h (x)Yi alors
n 
1X Yi − r̂h (Xi ) 2
CV (h) =
n i=1 1 − ωi,h (Xi )

Démonstration. On a
n
1X (−i)
CV (h) = (Yi − r̂h (Xi ))2
n i=1
avec
(−i) X
Yi − r̂h (Xi ) = Yi − ω̃j,h (Xi )Yj
j6=i
X ωj,h (Xi )
= Yi − Yj
j6=i 1 − ωi,h (Xi )
P
(1 − ωi,h (Xi ))Yi − j6=i ωj,h (Xi )Yj
1 − ωi,h (Xi )
Pn
Yi − j=1 ωj,h (Xi )Yj
=
1 − ωi,h (Xi )
Yi − r̂h (Xi )
=
1 − ωi,h (Xi )

Il existe une alternative qui consiste à remplacer les ωi,h (xi ) par leur moyenne.
P
Cette alternative s’appelle la validation croisée généralisée. : on pose Ω = ni=1 ωi,h (xi )
puis
n 
1X Yi − r̂h (xi ) 2 1 1X n  2
GCV (h) = = Y i − r̂ (x
h i )
n i=1 1 − Ω/n (1 − Ωn )2 n i=1
On minimise ensuite GCV par rapport à h.
Remarquons que si Ω  n alors (1 − Ωn )−2 ≈ 1 + 2 Ωn et donc
n  2 
1X 2Ω 
GCV (h) ≈ Yi − r̂h (xi ) 1 +
n i=1 n

Code R et exemples
On illustre la méthode des polynômes locaux avec une simulation. La fonction
utilisée s’appelle locpoly et appartient au package Kernsmooth. On peut aussi
obtenir une estimation de la fenêtre idéale par la fonction dpill. On va représenter
les résultats associés à diverses fenêtres (une fenêtre sur-lissant, une sous-lissant, et
la fenêtre calculée par la fonction dpill associée à un noyau gaussien). Un noyau
gaussien est utilisé et cette fonction ne permet que l’estimation d’une fonction à une
seule variable. Possibilité d’estimer une dérivée avec l’argument drv (mis à zéro par
défaut) ou bien une densité. Le degré du polynôme correspond à l’argument degree
(par défaut à 1).
Simulation d’un échantillon associé à une fonction r :

131
>x <- seq(0,1,0.05)
>r <- function(x){0.5 + 0.4*sin(2*pi*x)}
>set.seed(10)
>y <- r(x) + rnorm(n=length(x), sd=0.05)
>par(mfrow=c(2,2))
>plot(x, y, pch=16,main="échantillon+ fonction r")
>xtemp <- seq(0,1,0.01)
>lines(xtemp, r(xtemp), lty=2, lwd=2)
Prediction avec la fonction locpoly : on ne peut pas définir une grille de prédiction
quelconque avec cette fonction, seulement une grille de points espacés uniformément
library(KernSmooth)
>h=dpill(x,y) # calcul d’une fenêtre "idéale"
>fenetres=c(0.02,0.25,h)
>for (i in fenetres) {
plot(locpoly(x, y, bandwidth=i,gridsize=101),ylab=paste("h=",i),xlab="",
lwd=2,main="locpoly")
}

132
échantillon+ fonction f locpoly

● ●
●●●
●●
● ●● ●
● ●●

0.8

0.8

● ● ● ●●●
●●
● ● ●

● ●
● ●
● ●
● ● ●
● ●
●● ●●

0.6

0.6

● ● ● ●●

● ●

h= 0.02
● ●

● ● ●
● ●
● ● ●
y

● ● ●
● ●
0.4

0.4
● ● ● ●
● ● ●


● ●
● ● ●

● ●
● ●
●● ●


0.2

0.2
●● ●
●● ●
● ● ●
● ●
●● ●●
● ●● ●

●● ●
● ●
●●

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

locpoly locpoly

●●
●●●
●●●
●●●
●● ●
●●●
●●●

0.7


● ●
●● ●● ●
0.8


●● ●
●● ● ●


●● ●
● ●● ●●

h= 0.0719553392537308


● ● ●●
●● ●● ●
●● ● ●

● ● ●
0.6

● ● ●


● ● ●
●● ● ●
● ● ●
0.6

●● ● ●
● ● ●
● ● ●
0.5
h= 0.25


● ● ●
● ● ●
● ● ●
●● ● ● ●
● ● ●
●● ● ●
● ● ●
0.4

● ● ●
0.4

●● ● ●
●● ● ●
● ● ●
●● ● ●
● ● ●
● ●
0.3

●● ● ●
●● ●● ●

● ● ●
●● ● ●
0.2

●● ●
● ●●

●● ●● ●
● ●
0.2

●●● ● ●●● ●

●●●
●●●
●●●
●●●
●●● ●●●
●●●
●●

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Il existe aussi une fonction appelée loess du package stats qui permet aussi
l’estimation par polynômes locaux, et ce jusqu’à la dimension 4 (de toute façon ce
n’est pas très raisonnable d’aller plus loin en dimension).
Et enfin, il existe aussi le package locfit dont voici quelques paramètres : deg
pour le degré du polynôme local (à 2 par défaut, on utilise rarement au-delà de 3)
, kern pour le noyau (tricube par défaut) , deriv pour estimer une dérivée de la
fonction de régression.
Le choix de la fenêtre est régi par le paramètre alpha. Si on met alpha=c(0,h)
ça donne un estimateur avec une fenêtre égale à h.
Par exemple, si on veut le polynôme local de degré 1 associé à la régression
d’une variable y sur deux variables explicatives x et z avec une fenêtre égale à 0.5,
on utilise locfit(y∼x+z,deg=1,alpha=c(0,0.5)).
Si resultat=locfit(..) alors fitted(resultat) donne les r̂(Xi ) et
residuals(resultat) donne les résidus r(Xi ) − r̂(Xi ).
On va illustrer l’utilisation de la fonction gcvplot associée au package locfit,
fonction qui calcule la validation croisée généralisée pour une série de valeurs de
alpha et fait le graphique correspondant (attention, en abscisse, ce ne sont pas les
valeurs de alpha).
Pour cela on va utiliser les mêmes données simulées.
On utilise une grille de 30 valeurs pour la fenêtre :
>alphamat= matrix(0,ncol=2,nrow=30)
>alphamat[,2]= seq(from=0.1,to=0.8,length=30)
>gcvs= gcvplot(y∼x ,alpha=alphamat,maxk=1000)
La fonction gcvplot est telle que gcvplot$values contient les valeurs de la
validation croisée généralisée (GCV en anglais) et gcvplot$alpha contient les va-
leurs de alpha correspondantes. Donc gcvs$values == min(gcvs$values) donne
la ligne i correspondant à la valeur minimale de la GCV, et avec gcvs$alpha[i,2]
on obtient la valeur de la fenêtre correspondante. Il se peut que plusieurs valeurs
donnent le minimum, auquel cas on prend souvent la plus grande fenêtre donnant
le miminum :
>optband= max(gcvs$alpha[gcvs$values == min(gcvs$values),2])
On peut ensuite fabriquer l’estimateur correspondant à cette fenêtre :
>locfitopt= locfit(y∼x,alpha=c(0,optband),maxk=1000)
>plot(locfitopt,main="locfit fenêtre GCV opt+fonction")
>lines(xtemp,r(xtemp),col=’red’)

134
locfit fenêtre GCVopt+fonction
0.8
0.6
y

0.4
0.2

0.0 0.2 0.4 0.6 0.8 1.0

x
Il y a aussi la possibilité de spécifier une fenêtre différemment, qui n’est pas une
fenêtre constante : pour chaque x où la fonction est évaluée, on utilise une fenêtre
hx telle que qu’il y ait une fraction donnée des Xi dans [x − hx , x + hx ] (ou dans la
boule de centre x et de rayon hx si on est en dimension > 1). Par exemple, si on met
alpha=0.5, on utilise toujours la moitié des données dans l’intervalle [x−hx , x+hx ]).
Ce type de choix est censé être adapté au cas où le design n’est pas distribué assez
uniformément et où on peut avoir peu de données à certains endroits.

5.6 Estimateurs par projection


Cette section n’est pas au programme et est donc de lecture facultative.
On se place à nouveau dans le cadre de la régression à effets fixes sur [0, 1]. On
suppose à présent que la fonction de régression r vérifie r ∈ L2 ([0; 1]). On considère
(φj )j≥1 une base orthonormale de L2 ([0; 1]). On peut écrire
X
r= θj φj
j≥1

au sens de la convergence dans L2 ([0; 1]) et avec


Z 1
θj = r(x)φj (x)dx.
0

On a donc, quand N tend vers l’infini, et au sens de la convergence dans L2 ,


N
X
θj φj → r.
j=1

Si on fixe un N grand, et si on arrive à estimer les coefficients θj par des estimateurs


θ̂j , il semble naturel d’estimer r par l’estimateur
N
X
r̂n,N = θ̂j φj .
j=1

Evidemment, on a le problème du choix de N , qui est équivalent au problème du


choix de h pour les estimateurs à noyau. En effet N trop grand donnera une variance
trop grande (overfitting) et N trop petit donnera un biais trop grand (underfitting).
Exemple 5.18. Prenons le cas du dispositif fixe uniforme sur [0, 1]. Alors on observe
Yi = r(i/n) + ξi , 1 ≤ i ≤ n,
et les coordonnées de r sur la base (φj )j≥1 sont données par
Z 1 n
1X
θj = r(x)φj (x)dx ' r(i/n)φj (i/n),
0 n i=1
Bien sûr on ne connait pas r(i/n) donc on le remplace par son observation bruitée
Yi , ce qui donne l’estimateur suivant pour θj
n
1X
θ̂j = Yi φj (i/n),
n i=1

136
et donc l’estimateur suivant pour la fonction de régression
n XN 
1X
r̂n,N = Yi φj (i/n)φj .
n i=1 j=1

On remarque qu’il s’agit d’un estimateur linéaire.

Le choix de la base s’apparente plus au choix du noyau. Les bases les plus fré-
quemment utilisées sont la base trigonométrique et les bases d’ondelettes.
Base Trigonométrique (de Fourier). Elle est donnée par
√ √
φ1 ≡ 1, φ2k : x → 2 cos(2πkx), φ2k+1 : x → 2 sin(2πkx), ∀k ≥ 1.

Base d’ondelettes Soit ψ une fonction suffisamment régulière, à support com-


pact. On définit ψj,k (x) = 2j/2 ψ(2j x − k) pour tous k, j ∈ Z. Alors, sous certaines
hypothèses sur ψ, les fonctions {ψj,k }j,k∈Z forment une base orthonormale de L2 (R).

137
Chapitre 6

Bibliographie conseillée

— pour les chapitres 4 et 5 : le chapitre 1 [Tsy08] (existe aussi en français), [Gir14]


— pour les chapitres 2 et 3 : [HWC13]
— autres : [LD98, Was06, Dal08, CHJ+ 12, Loa99]

Bibliographie utilisée pour écrire le poly (ou pour les TDs)


— Notes de cours : introduction à la statistique non paramétrique, Catherine
Mathias.
— http://astrostatistics.psu.edu/samsi06/tutorials/tut2larryl_all.pdf
— http://eric.univ-lyon2.fr/~ricco/cours/cours/Comp_Pop_Tests_Nonparametriques.
pdf
— Statistique inférentielle avancée, notes cours, Olivier Gaudouin http://www-ljk.
imag.fr/membres/Olivier.Gaudoin/SIA.pdf
— C.Chabanet, Formation "initiation aux statistiques avec R" : https://informatique-mia.
inra.fr/r4ciam/sites/ciam.inra.fr.r4ciam/files/Tutoriels/tp_R.pdf
— F-G Carpentier. Univ Brest, "tests de Kolmogorov-Smirnov et Lilliefors" :
http://geai.univ-brest.fr/carpentier/
— "théorème de Dini et application au théorème de Glivenko-Cantelli" dans http:
//perso.eleves.ens-rennes.fr/people/adrien.fontaine/agregation3.html
— Christophe Chesneau. Sur l’adéquation à une loi de probabilité avec R. Licence.
France. 2016. <cel-01387705>

138
Index

EMV, estimateur du maximum de vrai-


semblance, 42
erreur
de première espèce, 13
de seconde espèce, 13
de test, 13
de type I, 13
de type II, 13

hypothèse
composite, 14
simple, 14

loi diffuse, 39
loi libre de, 39

Neyman, principe de, 14

test
erreur de, 13

139
Bibliographie

[CHJ+ 12] Pierre-André Cornillon, François Husson, Nicolas Jégou, Eric Matzner-
Lober, and Collectif. Statistiques avec R. PU Rennes, Rennes, 3e édition
revue et augmentée edition, May 2012.

[Dal08] Peter Dalgaard. Introductory Statistics with R. Springer Science & Busi-
ness Media, August 2008.

[Gir14] Christophe Giraud. Introduction to High-Dimensional Statistics. CRC


Press, December 2014.

[HWC13] Myles Hollander, Douglas A. Wolfe, and Eric Chicken. Nonparametric


Statistical Methods. John Wiley & Sons, November 2013.

[LD98] Erich Leo Lehmann and H. J. M. D’Abrera. Nonparametrics : Statistical


Methods Based on Ranks. Prentice Hall, 1998.

[Loa99] Clive Loader. Local Regression and Likelihood. Springer, New York, 1999
edition edition, July 1999.

[Rud76] Walter Rudin. Principles of Mathematical Analysis. McGraw-Hill Edu-


cation, New York, 3rd edition edition, January 1976.

[Tsy08] Alexandre B. Tsybakov. Introduction to Nonparametric Estimation.


Springer, New York ; London, 1st edition. 2nd printing. 2008 edition edi-
tion, November 2008.

[Was06] Larry Wasserman. All of Nonparametric Statistics. Springer Science &


Business Media, September 2006.

140
Index

EMV, estimateur du maximum de vrai-


semblance, 42
erreur
de première espèce, 13
de seconde espèce, 13
de test, 13
de type I, 13
de type II, 13

hypothèse
composite, 14
simple, 14

loi diffuse, 39
loi libre de, 39

Neyman, principe de, 14

test
erreur de, 13

141

Vous aimerez peut-être aussi