Exos Rappels Stats Ensae

Exercices de statistiques mathématiques
Guillaume Lecué
1er septembre 2017
Table des matières

1 Rappels de probabilités 1
2 Vraisemblance, EMV, IC, Information de Fisher 11
3 Tests 23
4 Modèle de régression 28
5 Examen du lundi 26 octobre 2015 36
6 Rattrapage 2015-2016 40
7 Examen du lundi 14 novembre 2016 44
8 Rattrapage 2016-2017 51
1 Rappels de probabilités
**********************
Exercice 1.1 (Théorème de la limite centrale)
Soit (Xn )n une suite de variables aléatoires i.i.d. centrées de variance σ 2 > 1. Soit
n
1 X
Zn = √ Xj .
σ n
j=1
Par le théorème de la limite centrale, cette variable converge en loi vers la loi normale
t2
centrée réduite, c’est-à-dire, pour tout t ∈ R, on a limn→+∞ E[eitZn ] = e− 2 . L’objet de cet
exercice est de montrer que la suite Zn ne peut pas converger en probabilité.
1. Calculer la fonction caractéristique de Z2n − Zn et montrer que cette différence
converge en loi.
2. En étudiant P(|Z2n − Zn | ≥ ), montrer que Zn ne converge pas en probabilité.
**********************
1
ENSAE Statistiques mathématiques
Correction de l’exercice 1.1 L’objectif de cet exercice est de manipuler les différents types de
convergence. On commence donc par rappeler les différentes convergences en probabilités. Soit (Xn )
une suite de variables aléatoires et X une autre variable aléatoire. On dit que :
— (Xn ) converge presque surement vers X quand {ω ∈ Ω : lim Xn (ω) = X(ω)} est de mesure 1 (on
vérifiera que cet ensemble est bien mesurable).

— (Xn ) converge en probabilité vers X quand pour tout > 0, P |Xn − X| ≥ → 0 quand n tend
vers +∞.
— (Xn ) converge en loi vers X quand pour toute fonction continue bornée f on a Ef (Xn ) → Ef (X).
— si p ≥ 1, on dit que (Xn ) converge dans Lp vers X quand E|Xn − X|p → 0 quand n tend vers
+∞.
On a les implications suivantes :
[cv presque sure] (1) [cv en proba] (2) [cv en loi]

=⇒ =⇒
(3) ⇑
[cv dans Lp ]
Démo et contre-exemple de “(1) ” : Soit > 0. On a {Xn → X} ⊂ liminf n {|Xn − X| ≤ }. En

=⇒
passant, au complémentaire, on a :

0 ≤ limsupn P |Xn − X| > ≤ P[limsupn {|Xn − X| > }]
c
= P liminf n {|Xn − X| ≤ } ≤ 0.
Il n’y a pas équivalence dans “(1) ⇒”. Voici une exemple d’une suite qui converge en probabilité
mais pas presque surement : (Xn ) des v.a. indépendantes telles que
1 1
P[Xn = 1] = et P[Xn = 0] = 1 − .
n n
La suite (Xn ) converge en probabilité vers 0 car pour tout n, on P[|Xn | > ] = P[Xn = 1] = 1/n. Mais
P
elle ne converge pas presque surement vers car on a n P({Xn = 1}) = ∞ donc d’après le “second
lemme de Borel-Cantelli” (les événements ({Xn = 1}) sont indépendants), on a P[limsupn {Xn = 1}] =
1. Notamment, (Xn ) ne converge pas presque surement vers 0.
Démo et contre-exemple de “(2) ” : Soit f une fonction continue bornée. Soit > 0 et N ∈ N
=⇒
tel que P |f (Xn ) − f (X)| ≥ ≤ (on rappel que si f est continue et (Xn ) converge en probabilité
vers X alors (f (Xn )) converge en probabilité vers f (X)). On a donc

Ef (Xn ) − Ef (X) ≤ E(f (Xn ) − f (X))I(|f (Xn ) − f (X)| ≥ )

+ E(f (Xn ) − f (X))I(|f (Xn ) − f (X)| < )

≤ 2 kf k∞ P |f (Xn ) − f (X)| ≥ + ≤ 2 kf k∞ + 1 .
La réciproque est trivialement fausse. Il suffit de prendre la suite stationnaire (Xn ) où pour tout n,
Xn = g où g est une gaussienne. Comme g est symmétrique, −g est aussi distribuée comme g. Donc
1 RAPPELS DE PROBABILITÉS 2
(Xn ) converge en loi vers g et donc aussi vers −g. Par contre |Xn − (−g)| = 2|g| ne converge pas en
probabilité vers 0. Donc (Xn ) ne converge par vers −g en probabilité.

Démo et contre-exemple de “(3) ⇑” : D’après l’inégalité de Markov, P |Xn − X ≥ | ≤
−p E|Xn − X|p . Pour le contre-exemple, on prend Xn de loi (n−1 δn2 + (1 − n−1 )δ0 ). On a P[|Xn | ≥
] ≤ n−1 donc (Xn ) converge en probabilité mais E|Xn | = n donc (Xn ) ne converge pas dans L1 vers
0.
Correction de l’exercice
1. Pour tout t ∈ R, on a par indépendance
it 1 n it 2n
X X
E exp(it(Z2n − Zn )) = E exp √ √ −1 Zj E exp √ Zj .
σ n 2 σ 2n
j=1 j=n+1
En appliquant le TCL sur chacun des membres du produit, quand n tend vers l’infini, on obtient
√
est t 7→ exp − t2 (2 − 2)/2 ,

que (Z2n − Zn )n tend vers une loi dont la fonction
p caractéristique
√
c’est donc une Gaussienne centrée de variance 2 − 2.
2. Supposons que (Zn ) converge en probabilité. Alors il existe une variable aléatoire Z telle que
pour tout > 0, on a P[|Zn − Z| > ] → 0. Soit > 0, on a
{|Z2n − Zn | ≥ 2} ⊂ {|Zn − Z| ≥ } ∪ {|Z2n − Z| ≥ }.
Alors, par une borne de l’union :

P |Z2n − Zn | ≥ 2 ≤ P |Zn − Z| ≥ + P |Z2n − Z| ≥

et donc en passant à la limite, on obtient P |Z2n − Zn | ≥ 2 → 0. Donc (Z2n − Zn )n converge en
probabilité vers 0. En particulier, cette suite converge en loi vers 0. Ce qui est en contradiction
avec 1..
**********************
Exercice 1.2 (Lemme de Slutsky)
loi loi
1. Donner un exemple de suites (Xn ) et (Yn ) telles que Xn → X et Yn → Y , mais Xn + Yn
ne converge pas en loi vers X + Y .
2. Soient (Xn ), (Yn ) deux suites de variables aléatoires réelles, X et Y des variables
aléatoires réelles, telles que
loi P
(i) Xn → X et Yn → Y ,
(ii) Y est indépendante de (Xn ) et X.
Montrer que le couple (Xn , Yn ) converge en loi vers (X, Y ).
3. En déduire que si (Xn ) et (Yn ) sont deux suites de variables aléatoires réelles telles
que (Xn ) converge en loi vers une limite X et (Yn ) converge en probabilité vers une
constante c, alors (Xn + Yn ) converge en loi vers X + c et (Xn Yn ) converge en loi vers
c X.
**********************
Correction de l’exercice 1.2

1. Soit (δn ) une suite de v.a. i.i.d. de Bernoulli de moyenne 1/2 (càd P[δn = 0] = P[δn = 1] =
1/2, ∀n). D’après le TCL, on sait que
n
2 X
Xn := √ δi − 1/2 N (0, 1).
n
i=1
On le démontre facilement, en utilisant le Théorème de Levy et en voyant que quand n tend vers
l’infini, pour tout t ∈ R,
2it Xn −it
1 it n
E exp √ δi − 1/2 = exp √ + exp √
n 2 n n
i=1
t2 t3 n −t2
= 1− + O 3/2 −→ exp .
2n n 2
Soit g une variable Gaussienne standard. Comme g est symmétrique, −g est aussi une Gaussienne
Standard. On a donc, (Xn ) converge en loi vers g et aussi (Xn ) converge en loi vers −g. Mais
(Xn + Xn ) converge en loi vers 2g 6= g + (−g) = 0. Cet exercice souligne le fait que la convergence
en loi est une convergence des lois de distribution et non des variables aléatoires elles mêmes.
2. On note par Cb (R) l’ensemble des fonctions continues bornées sur R. Pour montrer que (Xn , Yn )
converge en loi vers (X, Y ), il suffit de prouver que pour tout f, g ∈ Cb (R), on a Ef (Xn )g(Yn ) →
Ef (X)g(Y ) quand n tend vers l’infini. Par ailleurs, on sait que si (Yn ) converge en probablité
vers Y et si g est continue alors (g(Yn )) converge en probabilité vers g(Y ).
Soit f, g ∈ Cb (R) et > 0. Soit N ∈ N tel que pour tout n ≥ N ,

P |g(Yn ) − g(Y )| ≥ ≤ and Ef (Xn ) − Ef (X) ≤ .
On a pour tout n ≥ N , par indépendance de g(Y ) avec f (Xn ) et f (X),

Ef (Xn )g(Yn ) − Ef (X)g(Y ) ≤ Ef (Xn )(g(Yn ) − g(Y ))I(|g(Yn ) − g(Y )| ≥ )

+ Ef (Xn )(g(Yn ) − g(Y ))I(|g(Yn ) − g(Y )| < ) + Eg(Y )(f (Xn ) − f (X))

≤ 2 kf k∞ kgk∞ P |g(Yn ) − g(Y )| ≥ + kf k∞ + Eg(Y )Ef (Xn ) − Ef (X)

≤ 2 kf k∞ kgk∞ + kf k∞ + kgk∞ .
3. Comme (Yn ) converge en probabilité vers Y = c p.p. qui est indépendante de toutes variables

aléatoires, on peut appliquer la question 2. : (Xn , Yn ) converge en probabilité vers (X, c).
Notamment, comme les applications somme et produit sont des fonctions continues de R2 dans
R, on voit que (Xn + Yn ) converge en loi vers X + c ainsi que (Xn Yn ) converge en loi vers cX.
**********************
Exercice 1.3 (Convergence dans Lp )

Soit (Xn ) une suite de variables aléatoires réelles bornées par une même constante.
Montrer que si (Xn ) converge en probabilité, alors Xn converge dans Lp pour tout p ≥ 1.
**********************
Correction de l’exercice 1.3 Pour cet exercice, on va démontrer un résultat plus fort. On rappel
qu’une suite (Xn ) est équi-intégrable quand

lim sup E |Xn |I(|Xn | > a) = 0.
a→+∞ n∈N
Soit p ≥ 1 et (Xn ) une suite d’éléments de Lp . On montre que les deux assertions suivantes sont
équivalentes :
1. la suite (Xn ) converge dans Lp .
2. la suite (Xn ) converge en probabilité et la suite (|Xn |p ) est équi-intégrable.
b) implique a) : On montre d’abord que si (Yn ) est équi-intégrable alors elle est équi-continue :
càd pour tout > 0, il existe η > 0 tel que si P(A) ≤ η alors supn∈N E |Yn |1A ≤ . Soit > 0 et

a0 > 0 tel que pour tout a ≥ a0 et tout n ∈ N, E |Xn |I(|Xn | > a) ≤ . On a pour tout ensemble
mesurable A, tout n ∈ N et tout a ≥ a0 ,
E |Xn |1A = E |Xn |I(A ∩ {|Xn | ≤ a}) + E |Xn |I(A ∩ {|Xn | > a})

≤ aP(A) + E |Xn |I(|Xn | > a) ≤ aP(A) + .
On en déduit que (Yn ) est bien équi-continue.

Soit > 0. Pour tout q, r ∈ N, on a
E|Xr − Xq |p ≤ E |Xr − Xq |p I(|Xr − Xq |p ≤ ) + 2p−1 E |Xr |p + |Xq |p I(|Xr − Xq |p > )

≤ + 2p−1 E |Xr |p + |Xq |p I(|Xr − Xq |p > ) .

Comme (|Xn |p ) est équi-continue, il existe η > 0 tel que pour tout A tel que P[A] ≤ η, on a
sup E |Xr |p 1A + sup E |Xq |p 1A ≤ /2p−1 .

r∈N q∈N

Comme (Xn ) converge en probabilité, il existe un N tel que pour tout r, q ≥ N , P |Xr − Xq | ≥
1/p ≤ η. On en déduit, que limsupr,q E|Xr − Xq |p ≤ 2 pour tout r, q ≥ N . Alors (Xn ) est une suite

de Cauchy dans Lp , qui est complet, donc elle est convergente dans Lp .
a) implique b) : Par Markov, on a pour tout > 0,
P |Xn − X| ≥ ≤ −p E|Xn − X|p .

Soit N ∈ N tel que pour tout n ≥ N , E|Xn − X|p ≤ /2p−1 . L’inégalité de Markov donne
P |Xn |p > a ≤ a−1 E|Xn |p ≤ Ba−1 ≤ .

où B majore uniformément la suite (E|Xn |p ) (qui est bien bornée vue que c’est une suite convergente).
Soit a0 > 0 tel que supn∈N P[|Xn |p > a0 ] ≤ η où η est tel que E |X|p 1A ≤ /2p−1 pour tout A tel que

P(A) ≤ η (par définition X ∈ Lp ). On a donc pour n ≥ N et tout a ≥ a0 ,
E |Xn |p I(|Xn |p > a) ≤ 2p−1 E |Xn − X|p I(|Xn |p > a) + 2p−1 E |X|p I(|Xn |p > a) ≤ .

De plus, il est facile de voir que toute famille finie de variables aléatoires est équi-intégrable. C’est le
cas pour (Xn : 1 ≤ n ≤ N ).
**********************
Exercice 1.4 (Lemme de Fatou)

si (fn ) est une suite de fonctions measurables alors
Z Z
liminf n fn ≤ liminf n fn .
En déduire que si (An ) est une suite d’événements alors
limsupn P(An ) ≤ P(limsupn An ),
où on rappelle que limsupn An = ∩N ∪n≥N An .
**********************

1. Pour tout n ∈ N, on note gn = inf p≥n fp . La suite (gn ) est monotone et converge presque surement
vers liminf n fn . Le théorème de convergence monotone donne :
Z Z Z
lim gn = lim gn = liminf n fn .
n n
Par ailleurs, on a pour tout n ∈ N,

Z Z Z
gn = inf fp ≤ inf inf fp .
p≥n p≥n p≥n
Par convergence des deux membres, on peut passer à la limite et obtenir le résultat.
2. On utilise le lemme de Fatou pour fn = 1 − 1An = 1Acn . On a liminf n fn = 1liminf n Acn et
c
liminf n Acn = limsupn An donc
1 − P[limsupn An ] = P[liminf n Acn ] ≤ liminf n P[Acn ].
**********************
Exercice 1.5 (lemmes de Borel-Cantelli)
1. Le premier lemme de Borel-Cantelli dit que si (An ) est une suite d’événements telle
P
que n P[An ] < ∞ alors P[limsupn An ] = 0.
2. Le deuxième lemme de Borel-Cantelli dit que si (An ) est une suite d’événements
P
indépendants tels que n P[An ] = ∞ alors P[limsupn An ] = 1.
**********************

P
1. On note Bn = ∪p≥n Ap . On a P[Bn ] ≤ p≥n P[Ap ]. Alors par hypothèse, P[Bn ] tend vers 0 en
décroissant. Par convergence monotone, limn P[Bn ] = P[limn Bn ] = P[inf n Bn ] = P[liminf n An ].
Donc P[liminf An ] = 0.
c
2. Comme limsupn An = liminf n Acn , il suffit de montrer que P[liminf n Acn ] = 0. On note Bn =
∩p≥n Ap . La suite (Bn ) est croissante et converge presque surement vers liminf n Acn . Alors, par
convergence monotone, P[Bn ] converge vers P[liminf n Acn ]. Par ailleurs, comme log(1 − x) ≤ −x

pour x ∈ [0, 1),
P[Bn ] = P[∩p≥n Acp ] = Πp≥n P[Acp ] = Πp≥n 1 − P[Ap ]

X X
= exp log 1 − P[Ap ] ≤ exp − P[Ap ] = 0.
p≥n p≥n
On en déduit le résultat.
**********************
Exercice 1.6 (la loi du 0 − 1 de Kolmogorov)

Soit (σn ) une suite de tribus indépendantes. La tribu asymptotique est σ∞ = ∩n σ ∪p≥n σp .
La loi du 0 − 1 de Kolmogorov dit que pour tout A ∈ σ∞ , P[A] ∈ {0, 1}.
**********************

Correction de l’exercice 1.6 On note αn = σ ∪p≥n σp et βn = σ ∪p<n σp . Les deux tribus αn et
βn sont indépendantes. Comme σ∞ ⊂ αn alorsσ∞ estindépendantes
de βn pour tout n. Notamment,
σ∞ est indépendante de ∪n∈N βn et donc de σ ∪n βn = σ ∪n σn = α0 . Or σ∞ ⊂ α0 donc σ∞ est
indépendante d’elle même. En particulier, si A ∈ σ∞ alors P[A] = P[A]P[A] donc P[A] ∈ {0, 1}.
**********************
Exercice 1.7 (convergence en loi vers une constante)

La convergence en loi vers une constante implique la convergence en proba : On suppose
Xn c alors (Xn ) converge en probabilité vers c.
**********************
Correction de l’exercice 1.7 On peut démontrer que (Yn ) converge en loi vers Y si et seulement si
pour tout Borélien A PY -continue (càd P[∂A] = 0), on a PYn [A] → PY [A].
Soit > 0. On a δc B(c, ) = 0. Alors PXn B(c, ) → δc (B(c, )) = 1. Donc P[|Xn − c| ≤ ] → 1.

C’est donc une convergence en probabilité vers c.
**********************
Exercice 1.8 (convergence en probabilité et convergence p.s.)

Soit (Xn )n une suite de variables aléatoires réelles et X une variable aléatoire réelle.
L’objectif de cet exercice est de montrer le lien suivant entre convergence en probabilité
et convergence presque sure : il y a équivalence entre :
a) (Xn )n converge en probabilité vers X,
b) toute sous-suite de (Xn )n admet une sous-suite qui converge p.s. vers X.
Pour démontrer ce résultat, on va d’abord montrer l’équivalence suivante
c) (Xn )n converge en probabilité,

d) (Xn )n est une suite de Cauchy en probabilité ; càd (Xn −Xm )n,m converge en probabilité
vers 0 quand n et m tendent vers +∞.
Pour démontrer que c) et d) sont équivalents, on procéde par étapes :
1) Montrer que c) implique d)
2) On suppose d).
2.1) En utilisant de lemme de Borel-Cantelli montrer qu’il existe une sous-suite de
(Xn )n qui converge p.s.. On note par X sa limite.
2.2) En déduire que (Xn )n converge en probabilité vers X.
On montre maintenant l’équivalence entre c) et d).
3) On suppose a). En utilisant 2.1) montrer b).
4) On suppose b) et on raisonne par contraposé : on suppose que a) n’est pas vrai.
4.1) Ecrire la contraposé.
4.2) Obtenir une contradiction.
**********************

1) On suppose que c) est vrai. Pour tout > 0 et n, m, on a
P[|Xn − Xm | ≥ ] ≤ P[|Xn − X| ≥ /2] + P[|Xm − X| ≥ /2].
Comme le membre de droite tend vers 0 quand n et m tendent vers +∞, on en déduit que le
membre de droite tend aussi vers 0 dans ce cas là, càd, d) est vrai.
2.1) Comme (Xn )n est une suite de Cauchy en probability, on peut construire par récurrence en
commençant à n1 = 1, une suite strictement croissante d’entiers (nj )j telle que
P[|Xnj − Xnj+1 | > 2−j ] < 2−j .
P[|Xnj − Xnj+1 | > 2−j ] < ∞, le lemmes de Borel-Cantelli dit que P[Ω0 ] = 0 où
P
Comme j
Ω0 = lim sup{|Xnj − Xnj+1 | > 2−j } = ∩j ∪k≥j |Xnk − Xnk+1 | > 2−j .

j→∞
Soit ω ∈ Ωc0 . La suite (Xnj (ω))j est une suite (de nombres réels) de Cauchy car pour tout j
suffisament grand et tout k > j, on a
X X 1
|Xnk (ω) − Xnj (ω)| ≤ |Xnp (ω) − Xnp+1 (ω)| ≤ = 2j−1 .
2p
p≥j p≥j
Ainsi, par complétude de R, on en déduit qu’il existe X(ω) tel que (Xnj (ω))j converge vers
X(ω). Ceci étant vrai pour tout ω ∈ Ωc0 et P[Ωc0 ] = 1, on en déduit que (Xnj )j converge presque
surement.
2.2) On note par X la limite p.s. de (Xnj )j . Soit > 0. On a
P[|Xn − X| ≥ ] ≤ P[|Xn − Xnj | ≥ /2] + P[|Xnj − X| ≥ /2].
Comme (Xnj )j converge presque surement vers X, elle converge aussi en probabilité donc P[|Xnj −
X| ≥ /2] tends vers 0 quand j tends vers +∞. Par ailleurs, (Xn )n est de Cauchy en probability
donc quand n et j tendent vers +∞, P[|Xn − Xnj | ≥ /2] tends vers 0. En en déduit que
P[|Xn − X| ≥ ] tends vers 0 quand n tends vers +∞, càd (Xn )n converge vers X en probabilité.
3) On suppose que (Xn )n converge en probabilité vers X. Soit (Xnj )j une sous suite. Elle converge
donc aussi en probabilité vers X. D’après 2.1), c’est aussi une suite de Cauchy en probabilité et
donc elle admet une sous-suite qui converge presque surement vers X. Donc b) est vrai.
4.1) Dire que a) n’est pas vrai, c’est dire qu’il existe un > 0 et un δ > 0 et une sous-suite (nk )k
d’entiers tels que pour tout k,
P[|Xnk − X| ≥ ] ≥ δ. (1)
4.2) D’un autre côté, b) est vrai donc (Xnk )k admet une sous-suite qui converge presque surement
vers X. Ceci contredit (1).
**********************
Exercice 1.9 (L’asymptotique normalité implique la converge en probabilité)

Soit (rn ) une suite de réels positifs tendant vers +∞. Soit (ζn ) une suite de v.a.r. telle
que rn (ζn − µ) ζ. Alors (ζn ) converge en probabilité vers µ.
**********************
Correction de l’exercice 1.9 On dit qu’une suite de v.a.r. (ζn ) est tendue quand pour tout > 0,
il existe M > 0 tel que pour tout n, P[|ζn | ≥ M ] ≤ . Si une suite converge en probabilité alors elle
est tendue. (Car on peut approcher la fonction I(· ∈ [−M , M ]) par une suite croissante de fonctions
continues bornées). Alors (rn (ζn − µ)) est tendue. Soit > 0 et M > 0 tels que supn∈N P[|ζn − µ| ≥
M /rn ] ≤ . Ce qui implique la convergence en probabilité car (rn ) tend vers +∞.
**********************
Exercice 1.10 (Loi conditionnelle)

Soit X une variable aléatoire qui suit une loi Gamma (2, λ) de densité
f (x) = λ2 xe−λx 1[0,+∞) (x)
et soit Y une variable aléatoire dont la loi conditionnelle à X = x est uniforme sur [0, x] .
1. Donner la loi jointe de (X, Y ).

2. Donner la loi marginale de Y et montrer que Y est indépendant de X − Y .
**********************
1. Soit f une fonction continue bornée sur R2 . On a

Z Z
Ef (X, Y ) = f (x, y)dPY |X=x (y) dPX (x)
Z ∞Z x R R
Z
dy 2 −λx
= f (x, y) λ xe dx = f (x, y)1[0,x] (y)1R+ (x)λ2 e−λx dxdy.
0 0 x R 2
Donc la loi jointe du couple (X, Y ) a une densité donnée pour tout x, y ∈ R par
f (X,Y ) (x, y) = 1[0,x] (y)1R+ (x)λ2 e−λx
2. La loi marginale de Y a pour densité : pour tout y ∈ R,

Z Z ∞
Y
f (y) = f (X,Y )
(x, y)dx = 1y≥0 λ2 e−λx dx = λe−λy 1y≥0 .
R y
Soit f et g deux fonctions continues bornée. Un changement de variable x − y → t donne

Z
Ef (Y )g(X − Y ) = f (y)g(x − y)1[0,x] (y)1R+ (x)λ2 e−λx dxdy
R2
Z Z ∞ Z Z ∞
= f (y)1y≥0 2 −λx
g(x − y)λ e dx dy = f (y)1y≥0 g(t)λ2 e−λ(t+y) dt dy
R y R 0
Z Z
= f (y)1y≥0 λe−λy dy g(t)1t≥0 λe−λt dt = Ef (Y )Eg(X − Y )
R R
(pour avoir la loi de X − Y , il suffit de prendre f ≡ 1 dans le calcul précédent). Donc Y et X − Y

sont bien indépendants.
**********************
Exercice 1.11 (quartile)

Soit la loi de probabilité de densité f (x) = 2xI{0 ≤ x ≤ 1}.
1. Trouver les quartiles (y compris la médiane) de cette loi.
2. Considérons un échantillon i.i.d. (X1 , . . . , Xn ) de cette loi. Soit Fbn la fonction de
√
répartition empirique associée. Donner la loi limite de n(Fbn (1/2)−1/4)/Fbn (3/4) quand
n → ∞., où Fbn est la fonction de répartition empirique.
**********************

√ √
1. q1/4 = 1/2, q1/2 = 1/ 2 et q3/4 = 3/2
2. Le tCL donne :
√
n Fbn (1/2) − F (1/2) N (0, F (1/2)(1 − F (1/2)))
p.s.
et la LFGN : Fbn (3/4) −→ F (3/4). Comme F (1/2) = 1/4 et F (3/4) = 9/16, on obtient
√ b
n Fn (1/2) − F (1/2) 16
N 0,
Fbn (3/4) 27
2 Vraisemblance, EMV, IC, Information de Fisher

**********************
Exercice 2.1 (Les statistiques d’ordre)
Soient X1 , . . . , Xn des variables aléatoires i.i.d. de fonction de répartition F . On suppose
que F admet une densité f par rapport à la mesure de Lebesgue. On note X(1) ≤ X(2) ≤
. . . ≤ X(n) les variables aléatoires X1 , . . . , Xn réordonnées par ordre croissant.
1. Donner l’expression de la loi de la statistique d’ordre (X(1) , . . . , X(n) ) en fonction de
f.
2. Déterminer la fonction de répartition Fk (x) puis la densité fk (x) de X(k) .
3. Sans utiliser les résultats des questions précédentes, calculer les fonctions de répar-
tition de X(1) , X(n) , du couple (X(1) , X(n) ) et la loi de la statistique W = X(n) − X(1) (on
appelle W étendue). Les variables X(1) et X(n) sont–elles indépendantes ?
**********************

1. Comme les Xi ont des densités par rapport à Lebesgues, on a Xi 6= Xj λ−p.p.. Alors p.p.
X
f (X(1) , . . . , X(n) ) = f (Xσ(1) , . . . , Xσ(n) )I(Xσ(1) < · · · < Xσ(n) ).
σ∈P(n)
Soit σ ∈ P(n). Comme les Xi sont i.i.d., on voit que (Xσ(1) , . . . , Xσ(n) )> ∼ (X1 , . . . , Xn )> . Alors,
pour tout f ∈ Cb (Rn ),
Ef (Xσ(1) , . . . , Xσ(n) )I(Xσ(1) < · · · < Xσ(n) ) = Ef (X1 , . . . , Xn )I(X1 < · · · < Xn )
Z
= f (x1 , . . . , xn ) Πni=1 f (xi ) I(x1 < · · · < xn )dx1 · · · dxn .
Rn
On en déduit que la loi de (X(1) , . . . , X(n) ) admet une densité par rapport à Lebesgue donnée
par
f (x1 , . . . , xn ) = n! Πni=1 f (xi ) I(x1 < · · · < xn ).
2. On calcul la fonction de répartition de X(k) . Soit t ∈ R,

P[X(k) ≤ t] = P ∃I ⊂ {1, . . . , n} : |I| ≥ k, ∀i ∈ I, Xi ≤ t = P[M ≥ k]
où M = ni=1 I(Xi ≤ t) est une multinomiale de paramétre n et P[X1 ≤ t] = F (t). On a donc

P
n
!
X n
P[X(k) ≤ t] = F (t)j (1 − F (t))n−j .
j=k
j
Comme F est absoluement continue la cdf de X(k) l’est aussi. Donc X(k) admet une densité par
rapport à Lebesgues donnée par :
n
!
X n
jf (t)F (t)j−1 (1 − F (t))n−j + (n − j)F (t)j (−f (t))(1 − F (t))n−j−1

f (t) =
j=k
j
n!
= F (t)k−1 (1 − F (t))n−k .
(k − 1)!(n − k)!
2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 11

3. La fonction de répartition de X(1) vérifie :

n n
1 − FX(1) (t) = P[X(1) > t] = P[X1 > t, . . . , Xn > t] = P[X1 > t] = 1 − F (t) .
La fonction de répartition de X(n) est donnée par :

n n
FX(n) (t) = P[X(n) ≤ t] = P[X1 ≤ t, . . . , Xn ≤ t] = P[X1 ≤ t] = F (t) .
Pour la fonction de répartition du couple (X(1) , X(n) ), on calcul la répartition du couple (X(1) , X(n) )
dans le quadrant inférieur droit. On a pour tout x, y réels :
P[X(1) > x, X(n) ≤ y] = P[x < X1 ≤ y, . . . , x < Xn ≤ y]

n n
= P[x < X1 ≤ y] = I(x ≤ y) F (y) − F (x) .
On a :
P[X(1) > x, X(n) ≤ y] + P[X(1) ≤ x, X(n) ≤ y] = P[X(n) ≤ y] = F (y)n .
Alors,
n
F (x, y) = P[X(1) ≤ x, X(n) ≤ y] = F (y)n − I(x ≤ y) F (y) − F (x) .
La densité de (X(1) , X(n) ) est donnée par
∂2F n−2
f (x, y) = (x, y) = n(n − 1)I(x ≤ y)f (x)f (y) F (y) − F (x) .
∂x∂y
La loi de la statistique W = X(n) − X(1) est donnée par ce qui suit. Soit f ∈ Cb (R), on a
Z
Ef (W ) = f (y − x)dP(X(1) ,X(n) ) (x, y)
R2
Z
n−2
= n(n − 1) f (y − x)I(x ≤ y) F (y) − F (x) dxdy
R2
Z ∞ Z
n−2
= f (u) n(n − 1) F (u + x) − F (x) dx du.
0 R
Alors W a pour densité

Z
n−2
u 7→ I(u ≥ 0)n(n − 1) F (u + x) − F (x) dx.
R
Les variables X(1) et X(n) sont indépendantes si et seulement si pour tout x et y, on a

n
F (y)n − I(x ≤ y) F (y) − F (x) = P[X(1) ≤ x, X(n) ≤ y]

= P[X(1) ≤ x]P[X(n) ≤ y] = 1 − (1 − F (x))n F (y)n .
n n
Il faut donc I(x ≤ y) F (y) − F (x) = F (y) − F (y)F (x) pour tout x, y. Ce qui n’est pas vrai
en générale.
**********************

Exercice 2.2 (Estimateur de la variance)

Soient X1 , . . . , Xn des variables aléatoires i.i.d., Xi ∼ f (· − θ), où f est une densité de
probabilité sur R symétrique dont on note µk = R xk f (x) dx les moments d’ordre k = 2 et
R
k = 4. On note X̄n = n1 ni=1 Xi . Montrer que l’estimateur n1 ni=1 (Xi − X̄n )2 de la variance
P P
des Xi vérifie un théorème central limite.
Indication : on montrera d’abord que l’on peut se ramener au cas où θ = 0, puis on

exprimera l’estimateur comme une transformation de Sn = n1 ni=1 Xi2 et de X̄n .
P
**********************
Correction de l’exercice 2.2 On commence par quelques remarques préliminaires :

a) Comme n−1 ni=1 (Xi − X̄n )2 est invariant par translation des Xi et que si X ∼ f (·−θ) et Y ∼ f (·)
P
alors X ∼ Y + θ, on peut donc supposer que θ = 0. Notamment comme f est symmétrique, on

a EXi = 0, ∀i.
b) On note σ̂n2 := n−1 ni=1 (Xi − X̄n )2 . On a :
P
n n
1 X 2 1 X 2
σ̂n2 = Xi − Xi = X 2 n − X n .
n n
i=1 i=1
2
(On écrit σ̂n2 = EI XI − EI XI .)
c) On remarque d’abord que σ̂n2 n’est pas un estimateur sans biais de la variance :
1 X n 2 1 X
Eσ̂n2 = EX 2 − E Xi = EX 2 − 2 EXi Xj
n n
i=1 i,j
1 2 n − 1
= 1− EX 2 − EX = var(X).
n n
Par la LFGN, la suite (σ̂n2 ) converge presque surement vers σ 2 .
On considère la décomposition suivante :
√ √ √ 2
n σ̂n2 − σ 2 = n X 2 n − EX 2 − n X̄n .
Par le TCL, on a :
√ 2 2
n X 2 n − EX 2 N 0, E X 2 − EX 2 et E X 2 − EX 2 = µ4 − µ22 .

√
Par ailleurs, nX̄n converge en loi vers une Gaussienne et (X̄n ) converge en probabilité vers 0. Alors
√ 2
d’après Slutsky, n X̄n converge en loi vers 0, elle converge donc aussi en probabilité vers 0. On
√ 2
n X 2 n − EX 2 converge en loi vers N 0, E X 2 − EX 2

applique une seconde fois Slutsky : et
√ 2
n X̄n converge en probabilité vers 0. On en déduit que
√ 2
n σ̂n2 − σ 2 N 0, E X 2 − EX 2

.
**********************

Exercice 2.3 (Stabilisation de la variance)

On dispose d’un échantillon X1 , . . . , Xn i.i.d. de loi de Bernoulli de paramètre 0 < θ < 1.
1. On note X̄n la moyenne empirique des Xi . Appliquer la loi forte des grands nombres
et le TCL dans ce modèle.
√
2. Cherchez une fonction g telle que n(g(X̄n )−g(θ)) converge en loi vers Z de loi N (0, 1).
3. On note zα le quantile d’ordre 1 − α/2 de la loi normale standard. En déduire un
intervalle de confiance Iˆn,α fonction de zα , n, X̄n tel que limn→∞ P(θ ∈ Iˆn,α ) = 1 − α.
**********************

√
1. La LFGN dit que X̄n converge presque surement vers EX1 = θ. Le TCL dit que ( n/σ) X̄n −
p
EX converge en loi vers une Gaussienne centrée réduite où σ = θ(1 − θ).
2. D’après le TCL :
√
n X̄n − θ σg.
On dit que X̄n est asymptotiquement normale de moyenne θ et de variance asymptotique σ 2 .
On peut alors appliquer la Proposition 1.10 (Méthode delta) du cours (en fait, on applique une
version plus faible de ce résultat qu’on peut trouver page 26 au théorème 3.1 de [van der Vaart,
asymptotic Statistics]) : si (ζn ) est asymptotiquement normale de moyenne asymptotique θ et de
variance asymptotique σ 2 et si g : D ⊂ R 7→ R est une fonction différentiable en θ, alors (g(ζn ))
est aussi asymptotiquement normale et on a :
√ 2
N (0, σ 2 g 0 (θ) ).

n g(ζn ) − g(θ) (2)
Dans notre cas, on cherche à trouver g tel que (g(X̄n )) est asymptotiquement normal de moyenne
2
asymptotique 0 et de variance asymptotique θ(1 − θ) g 0 (θ) = 1. On est donc amener à résoudre
l’équation :
1
∀θ ∈ (0, 1), g 0 (θ) = p .
θ(1 − θ)
L’ensemble des solutions de cette équation est donnée, à une constante absolue additive près,
√
par g : θ ∈ [0, 1] 7→ 2arcsin( x) (on rappel que (arcsinx)0 = (1 − x2 )−1/2 , ∀x ∈ [−1, 1]). Cette
fonction est continûment différentiable en tout θ ∈ (0, 1), alors d’après Proposition 1.10 (voir
(2)), on a
√
n g(X̄n ) − g(θ) N (0, 1).
2
(On rappelle que g a été choisit tel que θ(1 − θ) g 0 (θ) = 1 pour tout θ ∈ (0, 1)).

3. Pour tout α[0, 2], le quantile d’ordre 1 − α/2 de la gaussienne est l’unique réel tel que P[g ∈
(−∞, qα ] = 1 − α/2. On a
h√ i
P θ ∈ Iˆn,α = P n g(X̄n ) − g(θ) ≤ zα −→ P[g ∈ [−zα , zα ]] = 1 − α

pour h zα zα i
Iˆn,α = sin2 g(X̄n ) − √ , sin2 g(X̄n ) + √
n n

**********************
Exercice 2.4 (Modèle probit)

Nous disposons d’une information relative au comportement de remboursement ou de
non-remboursement d’emprunteurs :
(
1 si l’emprunteur i rembourse,
Yi =
0 si l’emprunteur i est défaillant.
Afin de modéliser ce phénomène, on suppose l’existence d’une variable aléatoire Yi∗ nor-
male, d’espérance m et de variance σ 2 , que l’on appellera « capacité de remboursement
de l’individu i », telle que : (
1 si Yi∗ > 0,
Yi =
0 si Yi∗ ≤ 0.
On note Φ la fonction de répartition de la loi normale N (0, 1).
1. Exprimer la loi de Yi en fonction de Φ.
2. Les paramètres m et σ 2 sont-ils identifiables ?
**********************

1. On calcul la loi de Y tel que Y = 1 quand Y ∗ ≥ 0 et Y = 0 quand Y ∗ < 0 où Y ∗ ∼ N (m, σ 2 ).
La loi de Y est donnée par P[Y ∗ ≥ 0]δ1 + P[Y ∗ < 0]δ0 . On note par ϕ la densité d’une gaussienne
Rx
N (0, 1), en particulier, on a Φ(x) = −∞ ϕ(t)dt. Le changement de variable (x − m)/σ → t donne
Z x − m dx Z −m/σ
0 −m
P[Y ∗ < 0] = ϕ = ϕ(t)dt = Φ .
−∞ σ σ −∞ σ
La loi de Y est donc (1 − Φ(−m/σ 2 ))δ1 + Φ(−m/σ 2 )δ0 .

2. Les paramétres m et σ 2 ne sont pas identifiable vu que n’importe quels couples (m1 , σ12 ) et
(m2 , σ22 ) tels que m1 /σ12 = m2 /σ22 donne la même loi pour Y .
**********************
Exercice 2.5 (Répartition de génotypes dans une population)

Quand les fréquences de gènes sont en équilibre, les génotypes AA, Aa et aa se mani-
festent dans une population avec probabilités (1 − θ)2 , 2θ(1 − θ) et θ2 respectivement, où θ
est un paramètre inconnu. Plato et al. (1964) ont publié les données suivantes sur le type
de haptoglobine dans un échantillon de 190 personnes :
Type de haptoglobine Hp-AA Hp-Aa Hp-aa

effectifs 10 68 112
1. Comment interpréter le paramètre θ ? Proposez un modèle statistique pour ce pro-
blème.
2. Calculez l’estimateur du maximum de vraisemblance θ̂n de θ.

√
3. Donnez la loi asymptotique de n(θ̂n − θ).
4. Proposez un intervalle de confiance de niveau asymptotique 95% pour θ.
**********************

1. On propose deux modèlisations pour ces données. Seule la deuxième sera utilisée pour le traite-
ment mathématique du problème.
(1) (2) (1) (2)
Modèle 1 : On modèlise ce problème par une famille de n couples (δ1 , δ1 ), . . . , (δn , δn ) où
(j) (j)
les δi , i = 1, . . . , n, j = 1, 2 sont i.i.d. Bernoulli sur {A, a} de paramétre θ. On dit que δi = a
quand l’alléle a est présent chez l’individu i au gène numéro 2. On a donc bien le probabilités
du génotype AA qui est (1 − θ)2 , Aa qui est de probabilité 2θ(1 − θ) et aa qui est θ2 . Dans ce
modèle θ est la probabilité d’avoir l’alléle a pour chacun des deux gènes.
Modèle 2 : On peut modèliser ce problème par une famille de n variables aléatoires X1 , . . . , Xn
i.i.d. à valeurs dans {AA, Aa, aa} telles que P[X = AA] = (1 − θ)2 , P[X = Aa] = 2θ(1 − θ) et
P[X = aa] = θ2 . On choisit ce modèle pour la suite. On peut voir que X = {δ (1) , δ (2) }. Donc θ
s’interprète comme étant la probabilité d’avoir l’alléle a pour chacun des deux gènes.
2. Dans le modèle 2, la loi de X est Pθ = (1 − θ)2 δAA + 2θ(1 − θ)δAa + θ2 δaa , elle admet une
densité fθ par rapport à la mesure δAA + δAa + δaa qui est définie sur {AA, Aa, aa} donnée par
fθ (AA) = (1 − θ)2 , fθ (Aa) = 2θ(1 − θ) et fθ (aa) = θ2 . La Log-vraisemblance est donnée par
n
X
L :θ ∈ (0, 1) 7−→ log fθ (Xi )
i=1
= Nn (AA) log[(1 − θ)2 ] + Nn (Aa) log[2θ(1 − θ)] + Nn (aa) log[θ2 ]
où Nn () est le nombre de génotypes dans l’échantillon {X1 , . . . , Xn }. On a pour tout θ ∈ (0, 1),
2n 1
L0 (θ) =

− 2Nn (AA) + Nn (Aa) .
θ θ(1 − θ)
Alors l’estimateur du maximum de vraisemblance est donné par
1
θ̂n = 1 − 2Nn (AA) + Nn (Aa) .
2n
Ici, on a θ̂n = 1 − 22/95 ≈ 0.77.
3. On peut appliquere le TCL ou la méthode générale du cours sur la normalité asymptpotique des
EMV. Pour le TCL, on a directement que
n θ − θ2
√ √ 1 X
n θ − θ̂n = n I(Xi = AA) + (1/2)I(Xi = Aa) − (1 − θ) N 0,
n 2
i=1
car
E I(X = AA) + (1/2)I(Z = Aa) = (1 − θ)2 + θ(1 − θ) = 1 − θ

et
2 3θ θ2
E I(X = AA) + (1/2)I(Z = Aa) = 1 − +
2 2

alors
θ − θ2
var(I(X = AA) + (1/2)I(Z = Aa)) = .
2
4. On applique la méthode Delta. On chercher une fonction g telle que pour tout θ ∈ (0, 1), on a :
θ − θ2
g 0 (θ)2 =1
2
√ √ √
alors g(θ) = 2 2arcsin( θ). On applique la méthode Delta : ( n(g(θ̂n ) − g(θ))) converge en loi
vers N (0, 1). Alors si P[|G| ≤ zα ] = 1 − α, où G est Gaussienne Standard, on aura, quand n tend
vers ∞, h √ √ i
P θ̂n ∈ g −1 g(θ) − zα / n, g(θ) + zα / n → 1 − α.
**********************
Exercice 2.6 (Modèle d’autorégression)

On considère les observations X1 , . . . , Xn , où les Xi sont issus du modèle d’autorégression
d’ordred 1 :
Xi = θXi−1 + ξi , i = 1, . . . , n, X0 = 0, (3)
où ξi i.i.d. de loi normale N (0, σ 2 ) et θ ∈ R.
1. Explicitez l’expérience statistique associèe à la donnée (X1 , . . . , Xn ).
2. Calculez l’estimateur du maximum de vraisemblance θ̂n de θ pour ce modèle.
**********************

1. Une expérience statistiques est un triplet de la forme :

E = Z, Z, {Pθ : θ ∈ Θ}
où Z est l’espace des observations, Z est la tribu sur l’espace des observations et {Pθ : θ ∈ Θ} est
le modèle : c’est l’ensemble des mesures de probabilités dont on suppose a priori que les données
sont issues.
Ici, on a Z = Rn qui est muni de sa tribu des Boréliens Z. Le modèle est donné par l’équation
d’autorégression : Xi = θXi−1 +ζi où ζi sont i.i.d. N (0, σ 2 ). Pour le modèle, on suppose connu σ 2 .
Ainsi le modèle est seulement paramétré par θ (sinon, il serait paramétré par (θ, σ 2 )). La loi Pθ est
X |X ,...,X1
donc la loi de (X1 , X2 , . . . , Xn ) sous l’hypothèse "AR(1)" de l’équation 3. On a Pθ i i−1 =
Xi |Xi−1
Pθ ∼ N (θXi , σ 2 ). On montre par récurrence que
(X1 ,...,Xn )
Pθ = Pθ = fθ .λ
où λ est la mesure de Lebesgues sur Rn et fθ est une fonction de densité définie sur Rn pour tout
(x1 , . . . , xn ) ∈ Rn par :
fθ (x1 , . . . , xn ) = f (x1 )f (x2 − θx1 )f (x3 − θx2 ) · · · f (xn − θxn−1 )
où f est la densité d’une Gaussienne de moyenne nulle et de variance σ 2 . Pour la recurrence, on

utilise l’identité P(X,Y ) = PX ⊗ PY |X .

2. La fonction de Log-vraisemblance est donnée par :

(
R → R
L:
θ 7→ log fθ (X1 , . . . , Xn ) = log f (X1 ) + n−1
P
i=1 log f (Xi+1 − θXi ).
√
où f (x) = (σ 2π)−1/2 exp − x2 /(2σ 2 ) . Alors pour tout θ,

√ n−1
−n log σ 2π X12 X (Xi+1 − θXi )2
L(θ) = − 2+
2 2σ 2σ 2
i=1
et aussi
n−1 n−1 n−1
X −Xi (Xi+1 − θXi ) X X
L0 (θ) = = σ −2
θ Xi
2
− Xi i−1 .
X
σ2
i=1 i=1 i=1
Alors l’EMV est donné par :
n−1
X n−1
X
θ̂n = Xi Xi−1 / Xi2 .
i=1 i=1
**********************
Exercice 2.7 (Durées de connection)

On peut modéliser la durée d’une connection sur le site www.Cpascher.com par une loi
gamma(2, 1/θ) de densité
θ−2 xe−x/θ 1[0,+∞[ (x).
Pour fixer vos tarifs publicitaires, vous voulez estimer le paramètre θ à partir d’un échan-
tillon X1 , . . . , Xn de n durées de connexion. On vous donne Eθ (Xi ) = 2θ et varθ (Xi ) = 2θ2 .
1. Calculez l’estimateur du maximum de vraisemblance θ̂n de θ.
2. Que vaut E(θ̂n ) ? Quelle est la variance de θ̂n ?
**********************

1. On note par fθ la densité donnée pour tout x ∈ R, par fθ (x) = θ−2 xe−x/θ I(x ≥ 0). La log-
vraisemblance du modèle est la fonction L : θ ∈ R∗+ 7−→ ni=1 log fθ (Xi ). On a pour tout θ > 0,
P
n
X n
L(θ) = −2n log θ + log Xi − X̄n ,
θ
i=1
où X̄n = n−1 Alors L0 (θ) = −2nθ−1 +nθ−2 X̄n et donc θ̂n ∈ argmaxθ>0 L(θ) = {(1/2)X̄n }.
P
i Xi .
2. Eθ̂n = θ. Pour la variance, on a
1 EX 2 − (EX)2 2θ2
var(θ̂n ) = var(X1 ) = = .
4n 4n 4n
**********************

Exercice 2.8 (Durée de vie)

Un système fonctionne en utilisant deux machines de types différents. Les durées de vie
X1 et X2 des deux machines suivent des lois exponentielles de paramètres λ1 et λ2 . Les
variables aléatoires X1 et X2 sont supposées indépendantes.
1. Montrer que
Loi
X = E(λ) ⇔ ∀x > 0, P(X > x) = exp(−λx).
2. Calculer la probabilité pour que le système ne tombe pas en panne avant la date t.
En déduire la loi de la durée de vie Z du système. Calculer la probabilité pour que
la panne du système soit due à une défaillance de la machine 1.
3. Soit I = 1 si la panne du système est due à une défaillance de la machine 1, I = 0
sinon. Calculer P(Z > t; I = δ), pour tout t ≥ 0 et δ ∈ {0, 1}. En déduire que Z et I
sont indépendantes.
4. On dispose de n systèmes identiques et fonctionnant indépendamment les uns des
autres dont on observe les durées de vie Z1 , . . . , Zn .
(a) Écrire le modèle statistique correspondant. A-t-on suffisamment d’information
pour estimer λ1 et λ2 ?
(b) Si on observe à la fois les durées de vie des systèmes et la cause de la défaillance
(machine 1 ou 2), a-t-on alors suffisamment d’information pour estimer λ1 et λ2 ?
5. On considère maintenant un seul système utilisant une machine de type 1 et une
machine de type 2, mais on suppose que l’on dispose d’un stock de n1 machines
de type 1, de durées de vie X11 , . . . , X1n1 et d’un stock de n2 machines de type 2, de
durées de vie X21 , . . . , X2n2 . Quand une machine tombe en panne, on la remplace par
une machine du même type, tant que le stock de machines de ce type n’est pas
épuisé. Quand cela arrive, on dit que le système lui-même est en panne. On note
toujours Z la durée de vie du système. Le cas n1 = n2 = 1 correspond donc aux trois
premières questions.
(a) Montrer que la densité de la somme U de k variables indépendantes qui suivent
une loi exponentielle de même paramètre λ s’écrit, pour x ≥ 0 :
λk
fU (x) = xk−1 exp(−λx).
(k − 1)!
(b) Écrire Z en fonction des Xij et en déduire P(Z ≥ t) en fonction n1 , n2 , λ1 , λ2 et t.
**********************

1. Par définition, une v.a.r. suit une loi exponentielle E(λ) quand elle admet une densité de la form
fλ : x ∈ R 7→ λ exp(−λx)I(x > 0). Si X ∼ E(λ) alors, pour tout x > 0,
Z ∞
P[X > x] = λ exp(−λx)dx = exp(−λx).
x

Réciproquement, si X est une v.a.r. telle que pour tout x > 0 ,1−FX (x) = P[X > x] = exp(−λx).
Alors X est portée sur R+ et comme FX est dérivable, X admet une densité donnée par FX0 càd
x 7→ λ exp(−λx)I(x > 0). C’est donc une variable exponentielle.
2. On note par Z la durée de vie du systéme. On a donc Z > t ssi X1 > t et X2 > t et donc par
indépendance

P[Z > t] = P[{X1 > t} ∩ {X2 > t}] = P[X1 > t]P[X2 > t] = exp − (λ1 + λ2 )t .
Donc Z ∼ E(λ1 + λ2 ). Par ailleurs, la machine sera en panne due à l’élément 1 quand X1 < X2 .
On calcul P[X1 < X2 ] :
Z
P[X1 < X2 ] = EI(X1 < X2 ) = I(x1 < x2 )fλ1 (x1 )fλ2 (x2 )dx1 dx2
R2+
Z ∞ Z ∞ Z ∞
= fλ1 (x1 ) fλ2 (x2 )dx2 dx1 = fλ1 (x1 ) exp(−λ2 x1 )dx1
0 x1 0
Z ∞ λ1
= λ1 exp − (λ1 + λ2 )x1 dx1 = .
0 λ1 + λ2
3. [I = 1 ssi X1 < X2 ] et [I = 0 ssi X1 > X2 ]. On a
P[{Z > t} ∩ {I = 1}] = P[{X1 ∧ X2 > t} ∩ {X1 < X2 }] = P[t < X1 < X2 ]
Z ∞
λ1
= λ1 exp − (λ1 + λ2 )x1 dx1 = exp(−(λ1 + λ2 )t) = P[Z > t]P[I = 1]
t λ1 + λ2
Par symmétrie,
P[Z > t|I = 0] = P[X1 ∧ X2 > t|X1 > X2 ] = P[X1 > X2 > t]
λ2
= exp − (λ1 + λ2 )t = P[I = 0]P[Z > t].
λ2 + λ1
On en déduit que Z et I sont indépendantes.
4. a) Le modéle statistique est {E(λ1 + λ2 )⊗n : λ1 , λ2 > 0}. Ce modèle n’est pas identifiable en le
paramétre (λ1 , λ2 ).
4. b) On observe (X1i ∧ X2i , Ii ) ou Ii = 1 si X1i < X2i et Ii = 0 sinon. On peut estimer la moyenne de
Z par n−1 ni=1 Zi et on peut estimer la moyenne de I par n−1 ni=1 Ii . On peut donc estimer
P P
λ1 + λ2 et λ1 /(λ1 + λ2 ). On peut donc estimer λ1 et λ2 .
**********************
Exercice 2.9 (Taux de défaillance)

Une chaîne de production doit garantir une qualité minimale de ses produits. En parti-
culier, elle doit garantir que la proportion θ des produits défaillants reste inférieure à un
taux fixé par le client. Un échantillon de n produits est prélevé et analysé. On note θ̂n la
proportion de produits défectueux dans l’échantillon.
1. Proposer un modèle statistique pour ce problème. Quelle est la loi de nθ̂n ?

2. Quelle information donne la loi des grand nombres et le théorème centrale limite sur
le comportement asymptotique de θ̂n ?
3. On donne P(N > 1.64) = 5% pour N ∼ N (0, 1). En déduire n (dépendant de n et θ)
n→∞
tel que P(θ ≥ θ̂n + n ) → 5%.
4. La valeur n précédente dépend de θ. A l’aide du lemme de Slutsky, donner 0n ne
n→∞
dépendant que de n et θ̂n tel que P(θ ≥ θ̂n + 0n ) → 5%.
**********************

1. On modélise ce problème par une famille de n variables de Bernoulli δ1 , . . . , δn i.i.d. telle que
P[δi = 1] = θ = 1 − P[δi = 0]. Où δi = 1 signifie que le i-iéme produit prélevé est défaillant et
δi = 0 signifie qu’il n’est pas défaillant. On a donc θ̂n = n1 ni=1 δi . En particulier, nθ̂ = ni=1 δi
P P
donc pour tout 0 ≤ k ≤ n,

!
n
θk (1 − θ)n−k .

P nθ̂n = k =
k
On reconnaît la loi d’une multinomiale de paramétre n, θ.

2. La loi des grands nombres assure que (θ̂n ) converge presque surement vers Eδ = θ. Comme
√
var(δ) = Eδ 2 − (Eδ)2 = θ − θ2 , le TCL dit que n(θ̂n − θ) N (0, (θ − θ2 )).
3. Le TCL dit que, quand n tend vers l’infini,
r
h θ − θ2 i hr n i
P θ ≥ θ̂n + =P (θ − θ̂ n ) ≥ −→ P[g ≥ ].
n θ − θ2
p
Si on choisit > 0 tel que P[g ≥ ] = 5%, on obtient le résultat pour εn = (θ − θ2 )/n.
p
4. La fonction x 7→ 1/(x − x2 ) est continue sur (0, 1) alors si θ ∈ (0, 1), comme θ̂n converge presque
surement vers θ, il existe un N ∈ N tel que pour tout n ≥ N , θ̂n ∈ (0, 1) p.s. et donc (f (θ̂n ))n≥N
√
est p.s. définie et elle converge vers f (θ) presque surement. Comme n(θ − θ̂n ) converge en loi
vers N (0, θ − θ2 ) et (f (θ̂n ))n≥N converge presque surement vers f (θ), on en déduit par le lemme
√
de Slutsky que f (θ̂n ) n(θ − θ̂n ) n≥N converge en loi vers f (θ)N (0, θ − θ2 ) = N (0, 1). On définit

la suite de v.a. (ε0n ) par s

θ̂n − θ̂n2
ε0n = .
n
On a alors : h i h √ i
P θ ≥ θ̂n + 0n = P f (θ̂n ) n(θ − θ̂n ) ≥ −→ P[g ≥ ] = 5%.
**********************
Exercice 2.10 (Cas des défaillances rares)

La chaîne produit des composants électroniques utilisés dans le secteur aéronautique. Le
taux de défaillance doit donc être très bas. En particulier, comme la taille de l’échantillon
ne peut être très grosse (question de coût), il est attendu que θ soir du même ordre

de grandeur que 1/n. On supposera donc par la suite que la proportion de composants
défectueux est θn = λ/n pour un certain λ > 0 et on cherche à estimer λ par λ̂n = nθ̂n . La
valeur λ est supposée indépendante de n (le cas intéressant est quand λ est petit).
1. Quelle est la limite de P(λ̂n = k) lorsque n → +∞ ? En déduire que λ̂n converge en loi
vers une variable de Poisson de paramètre λ.
2. On suppose qu’il y a une proportion θn = 3/n de composants défectueux. Sachant
que P(Z = 0) ≈ 5% pour Z de loi de Poisson de paramètre 3, montrer que P(θn >
θ̂n + 2/n) ≈ 5% pour n grand.
**********************

1. On rappel qu’une variable de Poisson Z de paramétre λ est portée par N telle que pour tout
k ∈ N, P[Z = k] = (λk /k!)e−λ . On note par δ1 , . . . , δn des Bernoulli de paramétre θ = λ/n. Pour
tout 0 ≤ k ≤ n, on a
n
! !
hX i n n λ k λ n−k
P[λ̂n = k] = P δi = k = θk (1 − θ)n−k = 1−
k k n n
i=1
n! λ n n −k λk λ n n!
= 1− −1 = 1− (n − λ)−k .
k!(n − k)! n λ k! n (n − k)!
Comme (1 − λ/n)n tend vers e−λ , il suffit de prouver que n!

− λ)−k tend vers 1 quand n
(n−k)! (n
√ n
tend vers +∞. La formule de Stirling est : quand n tend vers +∞, n! ∼ 2πn ne . Alors, on a
n! k n −k n − λ k
(n − λ)−k ∼ 1 + e
(n − k)! n−k n−k
qui converge bien vers 1. Donc λ̂n converge en loi vers une variable de Poisson de paramétre λ.
2. Comme λ̂n converge en loi vers une Poisson de paramétre 3. On a en particulier, quand n tend
vers l’infini,
P[θn > θ̂n + 2/n] = P[1 > λ̂n ] −→ P[Z = 0] ≈ 5%.
**********************
Exercice 2.11 (Information de Fisher : entraînement)

Dans les modèles suivants, calculer l’information de Fisher associée aux n observations (si
elle est bien définie), l’estimateur du maximum de vraisemblance et sa loi asymptotique :
i.i.d
1. X1 , . . . , Xn ∼ B(θ).
i.i.d
2. X1 , . . . , Xn ∼ N (m, v).
i.i.d
3. X1 , . . . , Xn ∼ U[0, θ].
**********************

Correction de l’exercice 2.11 On rappelle les formules du cours pour le calcul de l’information de
Fisher :
In (θ) = nI1 (θ) = nEθ ∇θ log f (θ, X)∇ log f (θ, X)> = −nEθ ∇2θ log f (θ, X) = −n∇2a D(a, θ)|a=θ
où D(a, θ) = Eθ [log f (a, X)]. En utilisant une des trois formules précédentes, on obtient dans les
différents modèles :
1. modèle de Bernoulli :
n
In (θ) = .
θ(1 − θ)
L’EMV est ici la moyenne empirique et on vérifie bien qu’il est asymptotiquement normal de
variance asymptotique l’inverse de l’information de Fisher (grâce au TCL).
2. modèle Gaussien (moyenne et variance inconnues) :
!
n
v 0
In (m, v) = n
.
0 2v 2
L’EMV est ici (X n , σ̂n2 ) où X n = n1 i Xi et σ̂n2 = n1 i (Xi −X n )2 . L’EMV est asymptotiquement

P P
normal (soit parce que le modèle est régulier, soit en appliquant le TCL, méthode Delta et Slutsky
en dimension 2) de variance asymptotique l’inverse de l’info de Fisher.
3. modèle uniforme : ce modèle n’est pas régulier – en particulier l’info de Fisher n’est pas défi-
nie (de manière classique). On peut néanmoins calculer, l’EMV qui est θbnmv = maxi Xi et son
comportement asymptotique en étudiant sa fonction de répartition :

 1 n si x < 0

h n(θ − θb mv ) i h n(θ − X ) i 
n i x
Pθ > x = Pθ ∀i = 1, . . . , n : >x = 1− n quand 0 < x < n
θ θ 

 0 sinon
car pour tout i, sous Pθ , (θ − Xi )/θ ∼ U([0, 1]). Alors quand n → ∞, on obtient :
(
h n(θ − θb mv ) i 1 si x < 0
n
lim Pθ >x =
n→+∞ θ exp(−x) quand x > 0
donc
n(θ − θbnmv )
E(1)
θ
où E(1) est une loi exponentielle de paramètre 1.
3 Tests
**********************
Exercice 3.1 (Test de Neyman-Pearson)
Chercher la région de rejet du test de Neyman-Pearson dans les cas suivants.
1. Loi exponentielle E(θ). Test de θ = θ0 contre θ = θ1 avec θ1 > θ0 .
3 TESTS 23
2. Loi de Bernoulli B(θ). Test de θ = θ0 contre θ = θ1 pour θ1 > θ0 . Quel problème

rencontre-t-on dans ce cas ?
**********************

1. La vraisemblance en θ du modèle est
n
Y X
L(θ, (Xi )i ) = θ exp(−θXi ) = θn exp − θ Xi .
i=1 i
Le rapport de vraisemblance est

L(θ0 , (Xi )i ) X
= exp − (θ0 − θ1 ) Xi .
L(θ1 , (Xi )i )
i
Le rapport de vraisemblance est donc une fonction croissante de X n (on a ici θ1 > θ0 ). Alors, le
test de Neyman-Pearson de niveau α est de la forme :
(
H0 quand X n ≥ tα
ϕα ((Xi )i ) =
H1 sinon
où tα est un seuil à choisir tel que

Pθ0 [X n < tα ] = α.
On sait qu’une telle solution existe car X n est une v.a.r. admettant une densité par rapport à la
mesure de Lebesgue. Néanmoins, cette quantité reste difficile à calculer, on préféra alors fixer le
seuil de manière asymptotique vue que X n est asymptotiquement Gaussien (par le TCL).
2. Comme précédemment, il suffit de calculer la vraisemblance et le rapport de vraisemblance dans
ce modèle. On a pour la vraisemblance :
n
Y
L(θ, (Xi )i ) = θXi (1 − θ)1−Xi .
i=1
Le rapport de vraisemblance est

P P
L(θ0 , (Xi )i ) θ0 i Xi 1 − θ0 i (1−Xi )
= .
L(θ1 , (Xi )i ) θ1 1 − θ1
Le rapport de vraisemblance est donc une fonction décroissante de X n (on a ici θ1 > θ0 ). Alors,
le test de Neyman-Pearson de niveau α est de la forme :
(
H0 quand X n ≤ tα
ϕα ((Xi )i ) =
H1 sinon
où tα est un seuil à choisir tel que

Pθ0 [X n > tα ] = α.
Ici, cette équation n’admet pas nécessairement de solution car X n est une variable discrète. Dans
ce cas, on peut avoir recours à des tests “randomizés” (hors programme), mais on préférera fixer
le seuil tα de manière asymptotique vue que X n est asymptotiquement Gaussien.
3 TESTS 24
**********************
Exercice 3.2 (Test de Wald)

Lors des essais d’un type d’appareils ménagers, une association de consommateurs envi-
sage les 3 issues suivantes : fonctionnement normal, mauvais fonctionnement et défaillance.
Les probabilités de fonctionnement normal et de défaillance sont égales à p2 et à (1 − p)2
respectivement, où p ∈]0, 1[ est un paramètre inconnu. Pour un échantillon de n = 200
appareils, on a observé que 112 appareils fonctionnent normalement, 12 sont défaillants
et 76 fonctionnent mal. A partir de ces données, on cherche à inférer le paramètre p.
1. Proposer un modèle statistique pour ce problème.

2. Chercher l’estimateur du maximum de vraisemblance p̂n de p. Montrer qu’il est
√
consistant et donner la loi limite de n(p̂n − p) quand n → ∞.
3. À l’aide du test de Wald, tester l’hypothèse que p = 1/2 contre l’alternative p 6= 1/2
(on donnera la forme de la région critique et la p-value du test). On suppose connues
les valeurs de la fonction de répartition de la loi normale standard.
**********************

1. C’est le modèle d’échantillonnage {P⊗n
p : 0 < p < 1} où
Pp = p2 δN + 2p(1 − p)δM F + (1 − p)2 δD
où N signifie normal, MF signifie mauvais fonctionnement et D signifie défaillant.

2. On note par #N, #MF, #D le nombre d’appareils dans chacune des trois catégories. On a #M F =
n − #N − #D.
La vraisemblance en p du modèle est
n h
Y i
L(p, (Xi )i ) = p2 I(Xi = N ) + 2p(1 − p)I(Xi = M F ) + (1 − p)2 I(Xi = D)
i=1
2 #N
= (p ) [2p(1 − p)]#M F [(1 − p)2 ]#D .
et la log-vraisemblance est
p
`n (p, (Xi )i ) = log [#N − #D] + (#D − #N ) log 2 + n log[2p(1 − p)].
1−p
En étudiant la fonction de log-vraisemblance, on voit que la vraisemblance est maximale en
1 #N − #D
p̂n = +1 ,
2 n
qui est donc l’estimateur du maximum de vraisemblance. Par la loi forte des grands nombres, on
a:
#N #D
−→ p2 , et −→ (1 − p)2
n n→+∞ n n→+∞
3 TESTS 25
et donc p̂n −→ p, càd p̂n est consistant. L’étude du comportement asymptotique de p̂n se
n→+∞
déduit du TCL :
n n
#N − #D 1X 1X
= I(Xi = N ) − I(Xi = D) := Zi
n n n
i=1 i=1
√
et n Z̄n − EZ1 N (0, Var Z1 ). On obtient alors :
√
√ n p(1 − p)
n p̂n − p = Z̄n − EZ1 N 0,
2 2
3. On considère le problème de test
1 1
H0 : p = contre H1 : p 6= .
2 2
La forme du test de Wald pour ce problème de test est
(
H0 quand Tn ≤ tα
ϕα ((Xi )i ) =
H1 sinon
où tα est un seuil à choisir tel que le niveau asymptotique du test est α et la statistique du test
Tn est donnée ici par :
√
Tn = 8n|p̂n − 1/2|.
N (0,1)
Sous H0 , on a Tn N (0, 1). On prend alors tα = q1−α/2 .
Sous H1 , on a Tn −→ +∞ donc le test est consistant.
n→+∞
(rem. : le test de Wald utilise Tn2 pour statistique du test (ce qui fait intervenir une χ2 (1) en loi
limite). Mais, en dimension d = 1, on peut utiliser directement Tn , les deux tests sont identiques :
χ2 (1) N (0,1)
dans le premier cas la zone de rejet est Tn2 > q1−α et dans le deuxième cas elle vaut Tn > q1−α/2 .
Ces deux zones sont identiques.
√
Numériquement, on obtient p̂n = 0.5 ∗ ((112 − 12)/200 + 1) = 0.75 et Tn = 200 ∗ 8|0.75 − 1/2| =
10. La p-value est P[|g| > 10] qui est très petite ; on va donc rejeter avec confiance.
**********************
Exercice 3.3 (Test de support)
Soient X1 , . . . , Xn de loi U[0, θ] et M = max(Xi ), 1 ≤ i ≤ n. On cherche à tester H0 : θ = 1

contre H1 : θ > 1.
1. Pourquoi ne peut-on pas utiliser ici le test de Neyman-Pearson ?
2. On propose le test suivant : on rejette H0 lorsque M > c (c constante donnée).
Calculer la fonction de puissance.
3. Quelle valeur prendre pour c pour obtenir un niveau de 5% ?
4. Si n = 20 et que la valeur observée de M est 0.96, que vaut la p-value ? quelle conclu-
sion tirer sur H0 ? Même question pour M obs = 1.04.
3 TESTS 26
**********************

1. Les densités n’ont pas même support. Le rapport de vraisemblance n’est donc pas défini.
2. La puissance d’un test est l’application qui mesure "le rejet à raison" : θ ∈ Θ1 → Pθ [rejet]. Etant
donné la zone de rejet considérée ici, la fonction puissance est donnée pour tout θ > 1 par



 0 si c ≥ θ
Pθ [max Xi > c] = 1 si c ≤ 0
 1 − c )n

sinon.

θ
3. Pour avoir un niveau α ∈ (0, 1), il suffit de choisir c tel que Pθ=1 [maxi Xi > c] = α càd c =
(1 − α)1/n . Pour α = 0.05, on prend c = (0.95)1/n .
4. Pour n = 20 et M = 0.96 la p-value vaut P1 [maxi Xi > 0.96] ≈ 0.56 : on va accepter H0 . Pour
M = 1.04, la p-value vaut P1 [maxi Xi > 1.04] = 0 on rejete donc avec un très haut niveau de
confiance (c’est normal de rejeter vu qu’au moins un des Xi est plus grand que 1).
**********************
Exercice 3.4 (Peut-on retarder sa mort ?)

On prétend couramment que les mourants peuvent retarder leur décès jusqu’à certains
événements importants. Pour tester cette théorie, Philips et King (1988, article paru
dans The Lancet, prestigieux journal médical) ont collecté des données de décès aux
environs d’une fête religieuse juive. Sur 1919 décès, 922 (resp. 997) ont eu lieu la semaine
précédente (resp. suivante). Comment utiliser de telles données pour tester cette théorie
grâce à un test asymptotique ?
**********************

i.i.d.
1. On modèlise ce problème par le modèle d’échantillonnage X1 , . . . , Xn ∼ B(p) où
(
1 si décés avant la fête
Xi =
0 sinon
p est donc la probabilité de décéder avant la fête.

2. Pour la construction du test, le choix des hypothèses est très important. L’idèe est de choisir les
hypothèses telles que quand on rejette alors on obtient une information qui a de l’intérêt. Ici,
on choisit les hypothèses telles que si on rejette alors on pourra dire que “les mourants peuvent
retarder leur décés jusqu’à un certain événement important”. On choisit alors le problème de
test :
1 1
H0 : p = contre H1 : p <
2 2
3 TESTS 27
3. La famille de Bernoulli est une famille à rapport de vraisemblance monotone : le rapport de

vraisemblance dépend de manière monotone de la moyenne empirique X n . On va donc utiliser la
moyenne empirique pour construire la statistique de test. On considère le test
(
H0 quand Tn ≥ tα
ϕα ((Xi )i ) =
H1 sinon
√
où Tn = n(X n −1/2).
— Sous H1 : pour tout p < 1/2, sous Pp , Tn tend p.s. vers −∞ (c’est pour ça qu’on a choisit
cette forme de test).
— Pour le calcul du seuil tα , on veut :
limsup P1/2 [Tn < tα ] = α.

n→+∞
N (0,1)
Sous p = 1/2 : Tn N (0, 1/4), on prend alors tα = qα /2.
√
4. numériquement, on obtient 2Tn = 2 1919 922/1919 − 1/2 ≈ −1.712. La p-value du test est
P[g < −1.712] = 0.04 où g ∼ N (0, 1). On rejette donc l’hypothèse avec confiance. On en déduit
que les gens “peuvent retarder leur mort”.
4 Modèle de régression
**********************
Exercice 4.1 (Modèle de régression multiple)
On considère le modèle de regression multiple
y = θ0 e + Xθ + ξ, où E[ξ] = 0, E[ξξ T ] = σ 2 In , e = (1, 1, . . . , 1)T
avec X une matrice n × k de rang k et y, ξ des vecteurs de Rn . Les paramètres θ0 ∈ R et

θ ∈ Rk sont inconnus. On note θ̂0 et θ̂ les estimateurs des moindres carrés de θ0 et θ.
1. On note ŷ = θ̂0 e + X θ̂. Montrer que ŷ¯ = ȳ, où ȳ (resp. ŷ)
¯ est la moyenne des yi (resp.
des ŷi ). En déduire que ȳ = θ̂0 + X̄ θ̂ où X̄ = n1 eT X = X̄1 , . . . , X̄k .

2. Montrer l’équation d’analyse de la variance :
ky − ȳek2 = ky − ŷk2 + kŷ − ȳek2 .
En déduire que le coefficient de détermination

Pn
2 (ŷi − ȳ)2
R = Pi=1n 2
i=1 (yi − ȳ)
est toujours inférieur à 1.

3. Supposons que Z = [e, X] est de rang k + 1. Calculez en fonction de Z la matrice de
covariance de (θ̂0 , θ̂). Comment accède-t-on à Var(θ̂j ), pour j = 0, . . . , p ?
4 MODÈLE DE RÉGRESSION 28
4. On suppose dorénavant que θ0 = 0 et donc
y = Xθ + ξ, E[ξ] = 0, E[ξξ T ] = σ 2 In .
L’estimateur des moindres carrés θ̃ dans ce modèle est-il égal à θ̂ ?

5. A-t-on la relation ŷ¯ = ȳ ? Que dire du R2 dans ce modèle ?
**********************

1. Par définition, l’estimateur des moindres carrés est donné par :
(θ̂0 , θ̂)> ∈ argmin(θ00 ,θ0 )> ∈R×Rk y − θ00 e − Xθ0 2 .

Alors ŷ = θ̂0 e+X θ̂ est la projection orthogonale de y sur vect(e, X (1) , · · · , X (k) ) où X (1) , · · · , X (k)
sont les vecteurs colonnes de X. En particulier, pour tout θ00 ∈ R, θ0 ∈ Rk , on a
y − ŷ, θ00 e + Xθ0 = 0.

En particulier, pour θ00 = 1, θ0 = 0, on a y − ŷ, e = 0 et comme ȳ = n−1 y, e (de même

ŷ¯ = n−1 ŷ, e ), on a bien ȳ = ŷ.

¯ De plus,

ŷ¯ = n−1 ŷ, e = n−1 θ̂0 e + X θ̂, e = θ̂0 + X̄ θ̂

où X̄ = X̄ (1) , · · · , X̄ (k) .

2. ȳe est un élément de vect(e, X (1) , · · · , X (k) ). Comme ŷ est le projeté orthogonal de y sur cet
espace, on voit que y − ŷ est orthogonal à ȳe − ŷ. par Pythagore, on a
ky − ȳek22 = ky − ŷk22 + kŷ − ȳek22 .
On a donc
kŷ − ȳek22
R2 = ≤ 1.
ky − ȳek22
1. R2 = 1 signifie que y est dans vect(e, X (1) , · · · , X (k) ) (modèle sans bruit).
2. R2 = 0 signifie que ŷ = ȳe. Donc y est orthogonal à vect(X (1) , · · · , X (k) ). Alors X (1) , · · · , X (k)
sont des mauvaises variables pour expliquer ou prédire y.
>
3. Soit Proj l’opérateur de projection sur vect(e, X (1) , · · · , X (k) ). On a Z θ̂0 , θ̂ = Proj(y). On a
> >
pour tout θ00 ∈ R, θ0 ∈ Rk , y − Z θ̂0 , θ̂ , Z θ00 , θ0

= 0. Par ailleurs,
> > > >
, Z θ00 , θ0 = Z > y − Z > Z θ̂0 , θ̂ , θ00 , θ0

y − Z θ̂0 , θ̂ .
>
Donc Z > y = Z > Z θ̂0 , θ̂ . Comme la matrice carrée Z > Z de taille k + 1 est de rang k + 1, elle
−1 > >
est de rang plein donc inversible. Alors Z > Z Z y = θ̂0 , θ̂ .
On peux aussi voir que
(θ̂0 , θ̂)> ∈ argminθ00 ∈R,θ0 Rk y − θ00 e − Xθ0 2 .

Alors, (θ̂0 , θ̂)> minimise la fonction convexe F (u) = ky − Zuk22 sur Rk+1 . Alors (θ̂0 , θ̂)> est
−1 > >
solution de F 0 (u) = 0 càd Z > (y − Zu) = 0. Donc Z > Z Z y = θ̂0 , θ̂ .
La matrice de covariance de Θ̂ := (θ̂0 , θ̂)> est donnée par
>
Σ = E Θ̂ − EΘ̂ Θ̂ − EΘ̂ .
L’espérance de Θ̂ est donnée par

−1 −1 > >
EΘ̂ = E Z > Z Z >y = Z >Z Z > Z θ0 , θ = θ0 , θ .
On en déduit que (étant donné que Eζζ > = σ 2 In )

−1 −1 −1
Σ = E Z >Z Zζζ > Z Z > Z = σ2 Z >Z .
Pour tout j = 0, . . . , k,
> −1 −1
= σ 2 e> >
ej = σ 2 Z > Z jj .

var(θ̂j ) = var ej , θ̂0 , θ̂ j Z Z
−1 >
4. On a θ̃ = X > X X y càd, θ̃ est le projeté de y sur vect(X (1) , . . . , X (k) ). En général θ̃ 6= θ̂
sauf quand e est orthogonal à vect(X (1) , . . . , X (k) ).
¯ Dans ce modèle R2 n’a
/ vect(X (1) , . . . , X (k) ) alors on n’a pas e, y − ŷ = 0 donc ȳ 6= ŷ.

5. Si e ∈
pas de sens.
**********************
Exercice 4.2 (Régression Ridge)

On considère le modèle de regression
Y = X θ + ξ .
(n,1) (n,k)(k,1) (n,1)
On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξ T ] = σ 2 In ,

1. On suppose que k > n. Que dire de l’estimation par moindres carrés ?
2. On appelle estimateur Ridge regression de paramètre de régularisation λ > 0 l’esti-
mateur
θ̂λ = arg min kY − Xθk2 + λkθk2 .

θ∈Rk
Exprimez θ̂λ en fonction de X, Y et λ. Cet estimateur est-il défini pour k > n ?

3. Calculez la moyenne et la matrice de covariance de l’estimateur Ridge. Est-il sans
biais ?
4. On suppose maintenant que k = 1, ce qui correspond au modèle de régression simple.
Montrer qu’il existe une valeur de λ telle que le risque de l’estimateur Ridge de
paramètre λ est inférieur au risque de l’estimateur des MC.
**********************
Correction de l’exercice 4.2 On peut voir la régression Ridge, comme une relaxation de la mé-
thode MC dans le cas où les variables explicatives sont colinéaires (càd quand il y a de la redondance
d’information dans les variables explicatives). Pour définir l’EMC de manière unique, on a besoin que
−1 >
X > X soit inversible. Dans ce cas θM C = X > X X Y . Comme ker(X > X) = kerX, on a voit que
X > X est inversible si et seulement si les colonnes de X ne sont pas colinéaires. D’un point de vue sta-
tistiques, des colonnes de X linéairement dépendantes signifie qu’il y a de la redondance d’information
parmi les variables explicatives. Par ailleurs, quand X > X est inversible mais que son conditionement
(ratio plus grande valeur singulière sur plus petite valeur singulière) est grand alors un calcul effectif
de l’EMC est difficile. On va donc considérer, un estimateur qui “régularise” l’EMC ou “conditionne”
la matrice de Gram X > X. Pour cela, on va inverser X > X + λIk et ainsi considérer l’estimateur Ridge
−1
θ̂λ = X > X + λIk X > Y.
Cet estimateur n’est plus sans biais mais il peut améliorer le risque quadratique de l’EMC. On peut
voir ça comme un compromis biais variance : on perd un peu sur l’espérance mais on gagne sur la
variance dans l’égalité
2 2
E θ̂λ = Eθ̂λ − Eθ + var(θ̂λ ).
On doit aussi faire en sorte de bien choisir λ > 0. Ceci introduit le problème de la sélection de
paramétre en statistique (et notamment la méthode de validation croisée).
1. Quand k > n, la matrice X : Rk 7→ Rn a un noyau et comme ker(X > X) = kerX, la matrice X > X
n’est plus inversible. On sait que l’EMC est défini comme solution de l’équation X > X θ̂ = X > Y
qui admet une infinité de solution (un espace affine dirigé par ker(X > X)). L’EMC n’est donc
pas uniquement défini. On peut alors choisir parmi cet ensemble infini de solutions, une ayant
certaines propriétés supplémentaires. On va chercher celle ayant une petite norme 2.
2. On introduit la fonction
F (θ) = kY − Xθk22 + λ kθk22 , ∀θ ∈ Rk .
Cette fonction est strictement convexe et tend vers l’infini quand kθk2 tend vers l’infini donc elle
admet un unique minimum θ̂λ qui est solution de l’équation ∆F (θ̂λ ) = 0 càd −2X > (Y − X θ̂λ ) +
2λθ = 0. On a donc
−1 >
θ̂λ = X > X + λIk X Y.
3. Le biais de l’ER est donné par :

−1
Eθ̂λ = X > X + λIk X >θ
qui est différent de θ en général. Alors l’ER est en général un estimateur biaisé. La matrice de
covariance est donnée par :
−1 −1
var(θ̂λ ) = (X > X + λk X > Eζζ > X(X > X + λk
−1 > −1
= σ 2 (X > X + λk X X(X > X + λk .
4. Pour k = 1, on écrit Y = Xθ + ζ où X est un vecteur de Rn . Dans ce cas X > X = kXk22 alors

l’EMC et l’ER sont donnés par :

MC X, Y ER X, Y
θ̂ = θ̂ = et θ̂λ = θ̂ = .
kXk22 kXk22 + λ
Le risque quadratique de l’EMC est

2
2 2 2 E X, Y
E(θ̂ − θ) = var(θ̂) = Eθ̂ − (Eθ̂) = − θ2
kXk42

E X, Xθ + ζ σ2
= − θ2 = .
kXk22 kXk22
La décomposition biais-variance du risque quadratique de l’ER donne :
2 2 kXk2 θ 2 σ 2 kXk22
2
E θ̂λ − θ = Eθ̂λ − Eθ + var(θ̂λ ) = −θ + 2 .
kXk22 + λ kXk22 + λ
En posant µ = λ/ kXk22 , on est amené à chercher µ > 0 tel que
σ 2 / kXk22
1 2
2 2 2
−1 θ + 2 < σ / kXk2 (4)
1+µ 1+µ
càd µ θ2 − σ 2 / kXk22 < 2 σ 2 / kXk22 . Si θ2 kXk22 > σ 2 alors pour tout λ tel que

2σ 2 kXk22
λ< ,
θ2 kXk22 − σ 2
le risque quadratique de l’ER est moindre que celui de l’EMC. Quand θ2 kXk22 < σ 2 alors pour
tout λ > 0, le risque quadratique de l’ER est moindre que celui de l’EMC.
Le ratio θ2 /σ 2 (et en général pour tout k, kθk22 /σ 2 ) est appelé le “signal sur bruit”. Quand il
est grand (θ2 /σ 2 > kXk−22 ), il faut choisir λ assez petit et quand il est petit, l’ER est toujours
meilleur (en terme de risque quadratique) que l’EMC pour n’importe quel λ.
**********************
Exercice 4.3 (Théorème de Gauss-Markov)

On considère le modèle de regression
Y = X θ + ξ .
(n,1) (n,k)(k,1) (n,1)
On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξ T ] = σ 2 In , Rang(X) = k. On

note θ̂ l’estimateur des MC de θ.
1. Montrer que θ̂ est sans biais et expliciter sa matrice de covariance.
2. Soit θ̃ un estimateur de θ linÈaire en Y , i.e., θ̃ = LY pour une matrice L ∈ Rk×n
déterministe. Donner une condition nÈcessaire et suffisante sur L pour que θ̃ soit
sans biais. On supposera maintenant cette hypothËse vÈrifiÈe.
3. Calculer la matrice de covariance de θ̃. En posant ∆ = L − (X T X)−1 X T montrer que

∆X = 0 et cov(θ̃) = cov(θ̂) + σ 2 ∆∆T . En déduire que
E[(θ̃ − θ)(θ̃ − θ)T ] ≥ E[(θ̂ − θ)(θ̂ − θ)T ] (inégalité au sens matriciel).
4. En passant au risques quadratiques E kθ̃ − θk2 et E kθ̂ − θk2 , en déduire que l’es-

timateur des MC est optimal dans la classe de tous les estimateurs linéaires sans
biais.
**********************

>
1. Par définition, θ̂ minimise F (u) = ky − Xuk22 donc θ̂ = X > X X > y. On remarque que
rang(X) = k donc n ≥ k et X est injective (donc X > X esy inversible : en effet, X > X est symmé-
trique donc diagonalisable et si λ est une valeur propre de vecteur propre u alors kXuk22 = λ kuk22 ,
donc λ 6= 0 donc X > X est inversible).
−1 > −1 >
On a donc Eθ̂ = X > X X Ey = X > X X Xθ = θ. Donc θ̂ est bien un estimateur sans
biais. La matrice de covariance de θ̂ est donnée par
> −1 > > −1
Σ := E θ̂ − Eθ̂ θ̂ − Eθ̂ = X > X X Eζζ > X X > X = σ 2 X > X

2. On a ELY = LXθ. Pour que θ̃ = LY soit sans biais, il faut et il suffit que LXθ = θ. Ceci étant
vrai pour tout θ, on doit avoir LX = Ik .
3. Σ = E (θ̃ − θ)(θ̃ − θ)> = Lvar(Y )L> = σ 2 LL> . Comme LX = Ik , on a :

−1
∆X = LX − X > X X > X = Ik − Ik = 0
et la covariance de θ̃ est donnée par :
var(θ̃) = var(∆Y + θ̂) = var(∆Y ) + var(θ̂) + cov(θ̂, ∆Y ) + cov(∆Y, θ̂)

σ 2 ∆∆> + var(θ̂) + cov(θ̂, ∆Y ) + cov(∆Y, θ̂).
Par ailleurs, comme ∆X = 0, on a E∆Y = 0 et
cov(∆Y, θ̂) = E ∆Y θ̂> = ∆E (Xθ + ζ)ζ > X(X > X)−1 = 0

car Eζζ > = σ 2 In . De même cov(θ̂, ∆Y ) = 0. On en déduit que
var(θ̃) = var(θ̂) + σ 2 ∆∆> var(θ̂).
4. On a
2 Xk k
X
θ̃ − θ = 2
(θ̃j − θj ) = e> >
j (θ̃ − θ)(θ̃ − θ) ej

2
j=1 j=1
alors
2 Xk
E θ̃ − θ = ej var(θ̃)ej

2
j=1
2 P
de même E θ̂ − θ = kj=1 ej var(θ̂)ej . Mais d’après 3., on a var(θ̃) var(θ̂). Notamment, pour

2
tout j, e> >
j var(θ̃)ej ej var(θ̂)ej . On a donc
2 2
E θ̃ − θ ≥ E θ̂ − θ .

2 2
**********************
Exercice 4.4 (La formule de Woodbury)

Etant donné une matrice carré A ∈ Rn×n inversible, U ∈ Rn×k , V ∈ Rk×n deux matrices
rectangulaires et C ∈ Rk×k une matrice carré inversible. On suppose que A + U CV et
C −1 + V A−1 U sont inversibles. La formule de Woodbury dit que
−1
(A + U CV )−1 = A−1 − A−1 U C −1 + V A−1 U V A−1 . (5)
En d’autres termes, l’inverse d’une perturbation de rang k de A peut être obtenue en

faisant une perturbation de rang k de A−1 . Elle permet de calculer l’inverse de A + U CV
seulement à partir des inverses de A et de C.
Quand k = 1, c’est-à-dire quand C est un scalaire alors la formule de Woodbury est
connue sous le nom de Sherman-Morrison-Woodbury :
A−1 uv > A−1

(A + uv > )−1 = A−1 − . (6)
1 + v > A−1 u
La formule de Woodbury trouve des applications en statistiques. Par exemple, l’esti-
mateur Ridge pour une matrice de design A ∈ Rn×d , un vecteur de sorties y ∈ Rn et un
paramètre de régularisation λ > 0 est défini par
t̂ ∈ argmint∈Rd (1/2) kAt − yk22 + λ ktk22 . (7)
On montre que
−1
t̂ = A> A + λId A> y (8)
et grâce à la formule de Woodbury

−1 −1
t̂ = A> A + λId A> y = A> AA> + λIn y. (9)
L’intérêt de la dernière formule est que si n < d alors il est plus facile d’inverser la matrice
AA> + λIn de taille n × n que la matrice A> A + λId de taille d × d.
1. Montrer que pour toute matrice P telle que I + P est inversible, on a (I + P )−1 =
I − (I + P )−1 P .
2. Montrer que pour toutes matrices P et Q telles que I + P Q et I + QP sont inversibles,
on a (I + P Q)−1 P = P (I + QP )−1 .
3. En utilisant la première question, montrer que
(A + U CV )−1 = (I + A−1 U CV )−1 A−1 = A−1 − (I + A−1 U CV )−1 A−1 U CV A−1 .
4. Ensuite, en utilisant la deuxième question, montrer la formule de Woodbury.

5. Déduire la formule de Sherman-Morrison-Woodbury à partir de la formule de Wood-
bury.
6. Prouver (8).
7. Prouver (9).
**********************

1. On a
(I + P )−1 = (I + P )−1 (I + P − P ) = I − (I + P )−1 P.
2. On a P (I + QP ) = P + P QP = (I + P Q)P et en multipliant à gauche par (I + P Q)−1 et à

droite par (I + QP )−1 , on obtient le résultat.
3. On applique la première question à P = A−1 U CV . Comme A et A + U CV sont inversible on voit
que I + A−1 U CV est inversible en tant que produit de deux matrices inversibles : I + A−1 U CV =
A−1 (A + U CV ). On a alors d’après 1)
(A + U CV )−1 = [A(I + A−1 U CV )]−1 = (I + A−1 U CV )−1 A−1

= [I − (I + A−1 U CV )−1 A−1 U CV ]A−1 = A−1 − (I + A−1 U CV )−1 A−1 U CV A−1 .
4. On sait déjà que I + A−1 U CV est inversible. On a I + CV A−1 U = C(C −1 + V A−1 U ) et donc
I + CV A−1 U est le produit de deux matrices inversibles, elle est donc elle-même inversible. On
applique la relation de la deuxième question à P = A−1 U et Q = CV :
(I + A−1 U CV )−1 A−1 U = A−1 U (I + CV A−1 U )−1 .
On utilise la dernière relation dans la question 3) :
(A + U CV )−1 = A−1 − (I + A−1 U CV )−1 A−1 U CV A−1 = A−1 − A−1 U (I + CV A−1 U )−1 CV A−1
= A−1 − A−1 U (C −1 + V A−1 U )−1 V A−1 .
5. On applique la formule de Woodbury quand k = 1 et C = 1 :

A−1 uv > A−1
(A + uv > )−1 = A−1 − A−1 u(1 + v > A−1 u)v > A−1 = A−1 − .
1 + v > A−1 u
6. La fonction F : t ∈ Rd → kAt − yk22 + λ ktk22 est convexe différentiable. On a donc t̂ minimise F
si et seulement ∇F (t̂) = 0 qui est équivalent à A> (At − y) + λt = 0. Par ailleurs, A> A + λI est
inversible (car c’est une matrice symmétrique dont les valeurs singulières sont plus grandes que
λ > 0), on obtient donc bien que le seul minimiseur de F est t̂ = (A> A + λId )−1 A> y.
7. La formule de Woodbury appliquée à A = λId , U = A> , C = In et V = A donne :

(λId + A> A)−1 = λ−1 Id − λ−1 A> (In + λ−1 AA> )−1 Aλ−1 = λ−1 Id − A> (λIn + AA> )−1 A .
On multiplie ensuite à droite par A> pour obtenir

(λId + A> A)−1 A> = λ−1 A> − A> (λIn + AA> )−1 (AA> + λIn − λIn = A> (AA> + λIn )−1 .
5 Examen du lundi 26 octobre 2015

**********************
Exercice 5.1 (Estimation de la variance et borne de Cramer-Rao)
i.i.d.
On considère le modèle d’échantillonnage X1 , . . . , Xn ∼ N (0, θ) où θ > 0 (la variance)
est le paramètre inconnu à estimer.
1. Calculer l’information de Fisher en θ > 0 contenue dans ce n-échantillon.
2. Déterminer l’estimateur du maximum de vraisemblance θbnmv de θ.
3. Calculer le biais b(θ) = Eθ θbnmv −θ et le risque quadratique Rθ (θbnmv ) = Eθ (θbnmv −θ)2 de θbnmv .
4. Rappeler la borne de Cramer-Rao pour ce problème. En déduire, que θbnmv atteint la
borne de Cramer-Rao parmi tous les estimateurs sans biais.
Rappel : si g ∼ N (0, 1) alors Eg 4 = 3.
**********************

1. Soit θ > 0. L’information de Fisher contenue dans un n-échantillon vaut n fois celle contenue
dans une seule donnée : In (θ) = nI1 (θ). L’information de Fisher dans une donnée est :
2 h −1 X 2 2 i Var X 2 1
I1 (θ) = Eθ ∂θ log f (θ, X) = Eθ + 2 = 4
= 2.
2θ 2θ 4θ 2θ
2. La fonction de vraisemblance en θ > 0 est
−1 Xn
1 n/2
L θ, (Xi )i = exp − Xi2
2πθ 2θ
i=1
et donc la log-vraisemblance est

n
n 1 X 2
`n θ, (Xi )i = − log(2πθ) − Xi .
2 2θ
i=1
1 Pn 2
En étudiant la fonction `n , on voit que l’EMV est θbnmv = n i=1 Xi .
3. la biais de θbnmv est b(θ) = Eθ θbnmv −θ = Eθ X12 − θ = 0 (car EX1 = 0 donc Var X1 = EX12 ). Son
risque quadratique est
n 2 Var X 2
1 X 2θ2
Rθ (θbnmv ) = Eθ (θbnmv −θ)2 = Eθ Xi2 − θ = 1
= .
n n n
i=1
4. La borne de Cramer-Rao dit que si θ̂ est un estimateur de θ et si b(θ) = Eθ θ̂ − θ est le biais de

cet estimateur alors : 2
2 1 + b0 (θ)
Eθ θ̂ − θ ≥ + b(θ)2 .
In (θ)
En particulier, si θ̂ est sans biais alors b(θ) = 0 et Rθ (θ̂) ≥ In (θ)−1 = 2θ2 /n. Or le risque
quadratique de θbnmv est égal à 2θ2 /n donc θbnmv atteint la borne de Cramer-Rao parmi tous les
estimateurs sans biais.
5 EXAMEN DU LUNDI 26 OCTOBRE 2015 36

**********************
Exercice 5.2 (Estimateur on-line de la moyenne)

Dans le modèle d’échantillonnage X1 , . . . , Xn où E|X1 | < ∞, on note EX1 = θ ; construire :
1. un estimatuer batch de la moyenne θ
2. un estimateur on-line de la moyenne θ
**********************

1. Un estimateur batch est donné par la moyenne empirique X n
2. Un estimateur on-line est donné par l’algorithme de Robbins-Monro pour les fonctions
f (x, X) = x − X et F (x) = Ef (x, X) = x − EX.
Comme x = EX est l’unique zéro de F , on est naturellement amené à considérer une méthode
de Newton stochastique :
xk+1 = xk − ηn (xk − Xk+1 ).
xn est donc un estimateur on-line de la moyenne.
**********************
Exercice 5.3 (Deux échantillons gaussiens)

i.i.d. i.i.d.
On observe X1 , . . . , Xm ∼ N (µ1 , v) et Y1 , . . . , Yn ∼ N (µ2 , v) deux échantillons Gaus-
siens ayant même variance v mais des moyennes différentes. On suppose que les deux
échantillons sont indépendants entre eux.
1. Calculer la vraisemblance en (µ1 , µ2 , v) de l’observation (X1 , . . . , Xm , Y1 , . . . , Yn ).
2. En déduire l’estimateur du maximum de vraisemblance de (µ1 , µ2 , v).
3. On suppose dorénavant dans toutes les questions qui suivent que m = n. Calculer l’in-
formation de Fisher en (µ1 , µ2 , v) contenue dans le n-échantillon (X1 , Y1 ), . . . , (Xn , Yn ).
4. On suppose que le modèle est régulier ; donner le comportement asymptotique de
l’estimateur du maximum de vraisemblance.
5. Donner un test de niveau α consistant pour le problème de test
H0 : µ1 = 0 contre H1 : µ1 6= 0
**********************

1. La vraisemblance est
1 X m 1 X n
L (µ1 , µ2 , v), (Xi )i , (Yj )j = (2πv)−m/2 exp − (Xi −µ1 )2 ×(2πv)−n/2 exp − (Yj −µ2 )2

2v 2v
i=1 j=1

2. On voit que le gradient de la log-vraisemblance admet un seul et unique zéro donné par X m
 
Xm m n m n
1 X 1X 1 hX X i
 Y n  où X m = Xi , Y n = Yj et v̂ = (Xi − X m )2 + (Yj − Y n )2 .
 
m n n+m
v̂ i=1 j=1 i=1 j=1
De plus la Hessienne de la log-vraisemblance en ce point est telle que

 −m 
v 0 0
2 −n
∇ `n (X m , Y n , v̂) =  0 0 ≺0
 
v
−(m+n)
0 0 v2
Donc le point (X m , Y n , v̂) est un maximum local. Par ailleurs, il n’y a qu’un seul maximum local,
c’est donc un maximum global. C’est donc l’EMV.
3. La densité (par rapport à la mesure de Lebesgue sur R2 ) du couple (X, Y ) est
1 −(x − µ )2 1 −(y − µ )2
1 2
f (µ1 , µ2 , v), (x, y) = √ exp √ exp
2πv 2v 2πv 2v
1 −1
(x − µ1 )2 + (y − µ2 )2 .

= exp
2πv 2v
La matrice d’information de Fisher en (µ1 , µ2 , v) pour une observation (X1 , Y1 ) est donnée par
>
I1 (µ1 , µ2 , v) = E(µ1 ,µ2 ,v) ∇ log f (µ1 , µ2 , v), (X, Y ) ∇ log f (µ1 , µ2 , v), (X, Y )
= −E(µ1 ,µ2 ,v) ∇2 log f (µ1 , µ2 , v), (X, Y )

 1 
v 0 0
=  0 v1 0 
 
0 0 v12
4. Le modèle étant régulier, l’EMV est asymptotiquement normal de matrice de covariance asymp-
totique égale à l’inverse de la matrice d’information de Fisher :
      
Xm µ1 v 0 0
√ 
N3 0, I1 (µ1 , µ2 , v)−1 = N3 0,  0 v 0 

n  Y n  −  µ2 
     
v̂ v 0 0 v2
√ p.s.
5. On a n X m −µ1 N (0, v) et v̂ −→ v alors par le lemme de Slutsky,
√
n X m −µ1
√ N (0, 1).
v̂
On considère le test (
H0 si Tn ≤ tα
ϕα =
H1 sinon
N (0,1)
où tα = q1−α/2 et
√
n| X m |
√
Tn = .
v̂
Le test est de niveau asymptotique α car sous H0 , Tn converge en loi vers |g| où g ∼ N (0, 1) et,
il est consistant, car sous H1 , Tn tends vers +∞ p.s..

**********************
Exercice 5.4 (Ceinture de sécurité)

Une enquête sur l’influence de la ceinture de sécurité a donné les résultats suivants : sur
10.779 conducteurs ayant subit un accident l’enquête rapporte les effectifs dans le tableau
qui suit selon la gravité et le port au non de la ceinture de sécurité :
nature des blessures port de la ceinture pas de ceinture

graves ou fatales 5 141
blessures sérieuses 25 330
peu ou pas de blessures 1229 9049
On souhaite répondre à la question : la ceinture de sécurité a-t’elle une influence sur

la gravité des blessures lors d’un accident ?
1. Modéliser ces données.
2. Définir un problème de test permettant de répondre à la question.
3. Construire un test de niveau asymptotique α = 0.05, consistant pour ce problème.
4. Comparer la p-value de ce test à 0, 001. Répondre à la question d’origine et donner
un niveau de confiance sur votre décision.
On rappel les quantiles d’ordre 1 − α d’une χ2 (2) :
α 0,999 0,995 0,99 0,98 0,95 0,9 0,8 0,2 0,1

χ2 (2)
q1−α 0,0020 0,0100 0,0201 0,0404 0,1026 0,2107 0,4463 3,2189 4,6052
α 0,05 0,02 0,01 0,005 0,001
χ2 (2)
q1−α 5,9915 7,8240 9,2103 10,5966 13,8155
**********************

1. On modélise ces données par le modèle d’échantillonnage de n couples (X1 , Y1 ), . . . , (Xn , Yn ) où
pour tout 1 ≤ i ≤ n, Xi correspond à la gravité du ième accident et Yi au port ou non de la
ceinture :
a) Xi ∈ { graves ou fatales, blessures sérieuses, peu ou pas de blessures}
b) Yi ∈ { port de la ceinture, pas de ceinture}
2. On veut tester si le port de la ceinture est indépendant de la gravité des blessures de l’accident.
On va donc faire un test d’indépendance entre X et Y . On considère le problème de test suivant :
H0 : ‘X et Y sont indépendantes‘ contre H1 : ‘X et Y ne sont pas indépendantes‘
3. On considère le test d’indépendance du χ2 de niveau asymptotique α :

(
H0 si Tn ≤ tα
ϕα ((Xi , Yi )i ) =
H1 sinon

χ2 (2) (n) (n) (n)

où tα = q1−α (la degrés vient de (2 − 1)(3 − 1) = 2) et Tn = nχ2 ((p̂`,`0 )`,`0 , (p̂`,• × p̂•,`0 )`,`0 )) où
n n n
(n) 1X (n) 1X (n) 1X
p̂`,`0 = I((Xi , Yi ) = (`, `0 )), p̂`,• = I(Xi = `) et p̂•,`0 = I(Yi = `0 )
n n n
i=1 i=1 i=1
pour tout ` ∈ { graves ou fatales, blessures sérieuses, peu ou pas de blessures}

et `0 ∈ { port de la ceinture, pas de ceinture}. On sait que ce test est consistant (d’après le
χ2 (2)
cours). Par ailleurs, pour α = 0, 05, on a d’après la table q1−α = 5, 99.
4. On a
(5 − 17, 05)2 (9049 − 9077, 52)2
Tn = + ··· + = 17, 81.
17, 05 9077, 52
Alors la p-value du test est plus petite que 0, 001, on a va donc rejeter et on a un très haut niveau
de confiance en cette décision. On peut alors affirmer que le port de la ceinture de sécurité et la
nature des blessures sont dépendants.
6 Rattrapage 2015-2016
**********************
Exercice 6.1 (Modèle d’uniforme perturbées)
i.i.d.
Soit le modèle d’échantillonnage X1 , . . . , Xn ∼ Pθ pour θ ∈] − 1, 1[ où Pθ est une loi
admettant une densité par rapport à la mesure de Lebesgue donnée par
dPθ
f (θ, x) = (x) = (1 − θ)I(−1/2 < x < 0) + (1 + θ)I(0 < x < 1/2).
dλ
On pose
n
X
Yn = card{i : Xi > 0} = I(Xi > 0).
i=1
a) Préliminaires
1. Donner l’expérience statistique associée à ces données.
2. Calculer Pθ ([0, 1/2]), la moyenne Eθ X1 et la variance Var(X1 ).
3. Donner la loi de Yn , sa moyenne et sa variance.
4. Vérifier que
f (θ, x) = (1 − θ)1−I(0<x<1/2) (1 + θ)I(0<x<1/2) .
En déduire l’expression de la vraisemblance de l’échantillon en θ en fonction de

Yn .
5. Calculer l’information de Fisher sur θ contenue dans un n-échantillon de ce
modèle.
b) Estimation de θ
1. Proposer un estimateur des moments de θ en fonction de Yn .
2. Montrer que l’estimateur du maximum de vraisemblance vaut θbnmv = n2 Yn − 1.
6 RATTRAPAGE 2015-2016 40
3. Etudier les propriétés de θbnmv : biais, variance, consistance.

4. Comparer le risque quadratique de θbnmv et la borne de Cramer-Rao. En déduire
que θbnmv atteint la borne de Cramer-Rao parmi tous les estimateurs sans biais.
√
5. Montrer que sous Pθ , n θbnmv −θ converge en loi vers N (0, 1 − θ2 ).

6. Etudier le comportement asymptotique de

√ b mv
n θ −θ
q n .
2
1 − θn
b mv
7. Construire un intervalle de confiance pour θ de niveau asymptotique α = 0.95

centré en θbnmv et de longueur proportionnelle à n−1/2 .
c) Tests
1. On considère le problème de test :
H0 : θ = 0 contre H1 : θ = 1/2
Sous quelles condition existe-t’il un test de Neyman-Pearson de niveau α (on ne

considère ici que les tests non randomizés). Dans ce cas, existe-t’il un test de
même niveau plus puissant ?
2. Pour le même problème de test, construire un test de niveau asymptotique α.
Etudier sa puissance.
3. On considère le problème de test :
H0 : θ = 0 contre H1 : θ 6= 0
Construire un test de niveau asymptotique α. Etudier sa consistance.

d) Application
i.i.d.
On considère un n-échantillon U1 , . . . , Un ∼ U([−1/2, 1/2]). Un phénomène aléatoire
perturbe les observations des Ui : pour chaque i = 1, . . . , n, la quantité |Ui | est observée
avec probabilité θ ∈ [0, 1) sinon c’est Ui qui est observée. Ces perturbations sont
indépendantes entres elles et indépendantes des Ui . On note X1 , . . . , Xn l’échantillon
finalement observé après perturbation.
1. Déterminer la loi de X1 .
2. Proposer une méthode d’estimation de θ.
3. Construire un test de niveau asymptotique α consistant permettant de décider
si un tel phénomène de perturbation s’est produit.
4. La loi des Ui n’étant plus uniforme, que suffit-il de connaître sur elle pour que
ce test reste valable ?
**********************
a) 1. L’expérience statistique associée aux données est celle d’un n-échantillon dans un modèle
dominé par la mesure de Lebesgue :
⊗n
R, B(R), {Pθ : θ ∈ Θ} .
2.
0 1/2
1 θ2
Z Z
1+θ θ
Pθ ([0, 1/2]) = , Eθ X1 = (1−θ) xdx+(1+θ) xdx = et Varθ (X1 ) = −
2 −1/2 0 4 12 16
3. Yn est le nombre de succès dans une expérience de n réalisation d’une binomiale de moyenne
P[X1 > 0] = (1 + θ)/2. C’est donc une multinomiale de paramètre M(n, (1 + θ)/2) càd pour
tout 0 ≤ k ≤ n, on a
n 1 + θ k 1 − θ n−k
P[Yn = k] =
k 2 2
On au aussi Eθ Yn = n(1 + θ)/2 et Varθ Yn = n(1 − θ2 )/4.
4. On vérifie directement l’égalité en regardant les cas −1/2 < x < 0 et 0 < x < 1/2. La
vraisemblance s’obtient alors comme suit :
n
Y 1 + θ Yn
L(θ, (Xi )i ) = (1 − θ)1−I(0<Xi <1/2) (1 + θ)I(0<Xi <1/2) = (1 − θ)n .
1−θ
i=1
5. L’information de Fisher d’un n-échantillon est In (θ) = nI1 (θ) et celle contenue dans une
seule donnée est
I1 (θ) = Eθ (∂θ log f (θ, X))2
où log f (θ, x) = log(1 − θ)I(−1/2 < x < 0) + log(1 + θ)I(0 < x < 1/2). Alors
−1 1
∂θ log f (θ, x) = I(−1/2 < x < 0) + I(0 < x < 1/2).
1−θ 1+θ
Donc
h 1 1 i
I1 (θ) = Eθ I(−1/2 < X < 0) + I(0 < X < 1/2)
(1 − θ)2 (1 + θ)2
1 1
= 2
P(−1/2 < X < 0) + P(0 < X < 1/2)
(1 − θ) (1 + θ)2
1 1−θ 1 1+θ 1 1 1
= 2
+ 2
= + = .
(1 − θ) 2 (1 + θ) 2 2(1 − θ) 2(1 + θ) 1 − θ2
On a donc In (θ) = n/(1 − θ2 ).

b) 1. On a Pθ [X1 > 0] = (1 + θ)/2. L’estimateur des moments d’ordre 1 est θ̂ tel que Yn /n =
(1 + θ̂)/2 càd
Yn
θ̂ = 2 − 1.
n
2. D’après la question 4 de la partie précédente, la log-vraisemblance est
1 + θ
θ ∈] − 1, 1[7→ n log(1 − θ) + Yn log ,
1−θ
elle est maximale en θbnmv = 2(Yn /n) − 1.
3. Eθ θbnmv = 2P[X > 0] − 1 = θ ; donc θbnmv est sans biais. La variance de l’estimateur est ici
égale à son risque quadratique et on a :
Varθ (θbnmv ) = (4/n) Varθ (I(X > 0)) = (4/n)Pθ [X > 0]Pθ [X < 0] = (1 − θ2 )/n.
p.s. p.s.
De plus, la loi forte des grands nombres dit que Yn −→ Pθ [X > 0] donc θbnmv −→ θ. Donc
θb mv est un estimateur fortement consistant.
n
4. Si θ̂ est un estimateur sans bias de θ alors la borne de Cramer-Rao dit que son risque
quadratique vérifie Rθ (θ̂) ≥ In (θ)−1 = (1 − θ2 )/n. Par ailleurs, le risque quadratique de θbnmv
vaut aussi (1 − θ2 )/n (et θbnmv est sans biais), donc θbnmv atteint bien la borne de Cramer-Rao
parmi tous les estimateurs sans biais.
5. On écrit θbnmv comme une moyenne empirique : θbnmv = n1 ni=1 (2I(Xi > 0) − 1). On applique
P
le TCL :
√
n θbnmv −θ N (0, Varθ (2I(X > 0) − 1)) = N (0, 1 − θ2 )

car Varθ (2I(X > 0) − 1) = 4 Varθ (I(X > 0)) = 4Pθ [X > 0]Pθ [X < 0] = 1 − θ2 .
6. En utilisant le résultat de convergence de la question précédente, la consistance de θbnmv et
le lemme de Slutsky, on obtient que
√ b mv
n θ −θ
q n N (0, 1).
2
1 − θb mv
n
7. On déduit de la question précédente un intervalle de confiance de niveau asymptotique α :

Pθ [θ ∈ In,α ] → 1 − α où s
2
h
N (0,1) 1 − θbnmv i
In,α = θbnmv ±q1−α/2
n
c) 1. Le rapport de vraisemblance pour 0 = θ0 < θ1 = 1/2 est :

L θ0 , (Xi )i 1 − θ0 n (1 + θ0 )(1 − θ1 ) Yn
= .
L θ1 , (Xi )i 1 − θ1 (1 − θ0 )(1 + θ1 )
Comme θ0 < θ1 , le rapport de vraisemblance est une fonction croissante de Yn , le test de

Neyman-Pearson de niveau α est donc de la forme
(
H0 si Yn /n ≤ tα
ϕα =
H1 sinon
Ce test sera exactement de niveau α s’il existe tα tel que
Pθ0 [Yn /n > tα ] = α.
Cette condition n’est pas toujours satisfaite car Yn est une variable aléatoire discrète.
√
2. D’après le TCL, sous H0 , n Yn /n − 1/2 N (0, 1/4). Il suffit alors de fixer le seuil dans
√ N (0,1)
le test précédent tel que 2 n tα − 1/2 = q1−α pour avoir un test de niveau asymptotique
p.s.
α. Sous H1 , Yn /n −→ 3/4, on en déduit que la puissance du test tends vers 1. Donc le test
est consistant.
3. On considère ( √
H0 si n| θbnmv | ≤ tα
ϕα =
H1 sinon
N (0,1) √ √ p.s.
où tα = q1−α/2 . Sous H0 , n| θbnmv | |g| où g ∼ N (0, 1) et sous H1 , n| θbnmv | −→ +∞.
Donc le test est de niveau asymptotique α et il est consistant.
d) 1. On note δi la variable aléatoire indiquant la présence de perturbation dans l’observation i,
càd δi = 1 avec probabilité θ et 0 sinon. Par hypothèse les δi sont i.i.d. B(θ) et indépendantes
de Ui . La loi de X1 est donnée par : si f est une fonction continue à support compact sur R
alors
Z 1/2

Ef (X1 ) = Ef (|Ui |)δi + f (Ui )(1 − δi ) = Ef (|Ui |)θ + f (Ui )(1 − θ) = f (|u|)θ + f (u)(1 − θ) du
−1/2
Z 1/2 Z 1/2 Z 0 Z 1/2
= 2θ f (u)du + f (u)(1 − θ)du = (1 − θ) f (u)du + (1 + θ) f (u)du.
0 −1/2 −1/2 0
Donc X1 est une variable admettant f (θ, ·) pour densité.

2. On va alors estimer θ par θbnmv = 2Yn /n − 1
3. On va considérer le problème de test de la question 3 de la partie c). On décide donc qu’il
√ N (0,1)
y aura perturbation si n| θbnmv | > q1−α/2 .
4. Le test ne dépend que de P[X > 0]. Donc pour toute loi telle que Pθ [X > 0] = (1 + θ)/2,
on aura les mêmes résultats.
7 Examen du lundi 14 novembre 2016

**********************
Exercice 7.1 (Loi géométrique)
Soit X1 , . . . , Xn un n échantillon de variables aléatoires indépendantes de loi Pθ pour
θ ∈ (0, 1), telle que pour tout entier k, on a Pθ [{k}] = θ(1 − θ)k .
1. Calculer EX1 et déterminer un estimateur de θ par la méthode des moments.
2. Déterminer l’estimateur du maximum de vraisemblance.
3. Calculer l’information de Fisher en θ contenue dans un n-échantillon de ce modèle.
4. On admettra que le modèle est régulier ; établir la normalité asymptotique de l’es-
timateur du maximum de vraisemblance.
**********************

1. On a
X X 1−θ
EX = kθ(1 − θ)k = θ(1 − θ) k(1 − θ)k−1 = .
θ
k≥0 k≥1
Un estimateur des moments est donc θ̃ tel que Xn = (1 − θ̃)/θ̃ càd

1
θ̃ = .
1 + Xn
7 EXAMEN DU LUNDI 14 NOVEMBRE 2016 44

2. La log-vraisemblance du modèle est la fonction

n
X
θ ∈ (0, 1) −→ `n (θ, X1 , . . . , Xn ) = n log θ + log(1 − θ) Xi .
i=1
Elle admet pour dérivée

n
n 1 X
∂θ `n (θ, X1 , . . . , Xn ) = − Xi .
θ 1−θ
i=1
qui s’annule uniquement en

1
θ̂ =
1 + Xn
et pour lequel on vérifie que ∂θ2 `n (θ̂, X1 , . . . , Xn ) < 0. Donc θ̂ est l’EMV.
3. On a pour tout θ ∈ (0, 1), l’information de Fisher en θ d’un n-échantillon est
n nEθ X1 n n
I(θ) = −Eθ ∂θ2 `n (θ, X1 , . . . , Xn ) = 2
+ 2
= 2+
θ (1 − θ) θ θ(1 − θ)
4. Comme le modèle est régulier, on a

√ d
n θ̂ − θ) −→ N 0, θ2 (1 − θ) .

**********************
Exercice 7.2 (Test de comparaison de moyenne)

On observe n1 variables aléatoires i.i.d. X1 , . . . , Xn1 de loi N (µ, σ 2 ) et n2 variables aléatoires
i.i.d. Y1 , . . . , Yn2 de loi N (µ + ∆, σ 2 ) indépendantes des Xi . On souhaite tester ∆ = 0 contre
∆ 6= 0 ; les deux paramètres µ et σ 2 étant inconnus.
1. Quelle est la loi de Xn1 − Yn2 où
n1 n2
1 X 1 X
Xn1 = Xi et Yn2 = Yi .
n1 n2
i=1 i=1
2. On note
1 n 2 n
2 1 X 1 X
σ̂X,n = (Xi − Xn1 )2 et σ̂Y,n
2
= (Yi − Yn2 )2
1
n1 − 1 2
n2 − 1
i=1 i=1
les variances empiriques (débiaisées) associées respectivement à chacun des deux

échantillons. Donner la loi de
U 2 = (n1 − 1)σ̂X,n
2
1
2
+ (n2 − 1)σ̂Y,n 2
.
3. On introduit √
n1 + n2 − 2Z Xn − Yn2 + ∆
T = où Z = q1 .
U/σ σ n−1 + n −1
1 2
Montrer que la loi de T est une loi de Student à n1 + n2 − 2 degrés de liberté.

4. En déduire la construction d’un test de niveau α pour le problème de test
H0 : ∆ = 0 contre H1 : ∆ 6= 0.
5. On observe pour n1 = 13 et n2 = 14, les valeurs

2 2
Xn1 = 25.97, σ̂X,n 1
= 1.36, Yn2 = 25.38, and σ̂X,n 1
= 1.77.
Calculer la p-value du test. Faut-il rejeter aux niveaux usuels 1%, 5% et 10%.
On rappelle quelques valeurs de la fonction de répartition d’une loi de Student à 25 degrés
de liberté. On note F (t) = P[X ≤ t] quand X suit une loi de Student à 25 degrés de liberté.
t 0,9 1.0125 1.125 1.2375 1.35 1.4625 1.575 1.6875 1.8

F (t) 0.811 0.839 0.864 0.886 0.905 0.921 0.936 0.948 0.958
**********************

1. La variable aléatoire Xn1 − Yn2 est une combinaison linéaire de variables Gaussiennes, c’est donc
aussi une variable Gaussienne. Pour la caractériser, il suffit de donner sa moyenne et sa variance.
On a :
1 1
E Xn1 − Yn2 = −∆ et var Xn1 − Yn2 = var Xn1 + var Yn2 = σ 2

+ .
n1 n2
On en déduit que Xn1 − Yn2 ∼ N (−∆, σ 2 (n−1 −1
1 + n2 )).
2. On peut voir U 2 comme étant la norme Euclidienne au carré de la projection du vecteur aléatoire
Gaussien G := (X1 , . . . , Xn1 , Y1 , . . . , Yn2 )> sur l’espace orthogonal à V := vect(v1 , v2 ) où
   
1 0
 .   . 
 ..   .. 
   
   
1  1  n1 +n2 1  0 
 ∈ Rn1 +n2 .
v1 = √   ∈ R  et v2 = √  (10)
n1  0  n2 
 1 
 .   . 
 ..   .. 
   
0 1
En effet, v1 et v2 sont deux vecteurs unitaires orthogonaux alors
 
Xn1
 . 
 .. 
 
 

 Xn1 
PV G = G, v1 v1 + G, v2 v2 =   Y


 n2 
 . 
 .. 
 
Yn2
et donc PV ⊥ G = G − PV G = (X1 − Xn1 , . . . , Xn1 − Xn1 , Y1 − Yn2 , . . . , Yn2 − Yn2 ). On a donc bien
U 2 = kPV ⊥ Gk22 . Par ailleurs, V ⊥ est un espace vectoriel de dimension n1 + n2 − 2 donc, d’après
le théorème de Cochran, U 2 /σ 2 est distribuée selon une χ2 à n1 + n2 − 2 degrés de liberté.

3. On peut aussi voir U 2 comme étant la norme Euclidienne au carré de la projection du vecteur
aléatoire Gaussien G0 := (X1 , . . . , Xn1 , −Y1 + ∆, . . . , −Yn2 + ∆)> sur l’espace orthogonal à V =
vect(v1 , v2 ) (défini dans (10)). On en déduit par le Théorème de Cochran que :
— PV G0 et PV ⊥ G0 sont indépendantes,
— U 2 /σ 2 = kG0 k22 /σ 2 est distribuée selon une χ2 à n1 + n2 − 2 degrés de liberté.
Par ailleurs,
PV G0 , e1 + PV ⊥ G0 , en1 +1

Z= q
σ n−1
1 + n2
−1
donc Z est indépendant de U 2 et c’est un vecteur Gaussien (en tant que combinaison linéaire de
√
Gaussiennes) de moyenne nulle et de variance 1 (cf. Question 1). On en déduit que n1 + n2 − 2Z/(U/σ)
suit une loi de Student à n1 + n2 − 2 degrès de liberté.
4. On considère la statistique de test
s
n1 + n2 − 2 (Xn1 − Yn2 )
T = −1 −1
q .
n1 + n2 2
(n1 − 1)σ̂X,n + (n 2 − 1)σ̂ 2
1 Y,n2
Sous H0 , T suit une loi de student à n1 + n2 − 2 degrés de liberté. On construit donc un test de
niveau α avec (
H0 quand |T | ≤ tα
ϕα ((Xi )i , (Yi )i ) =
H1 sinon
où tα est le quantile d’ordre 1 − α/2 d’une loi de Student à n1 + n2 − 2 degrés de liberté.
5. La p-value du test est le plus petit α pour lequel le test rejette. Ici la p-value est donnée par
α̂ ∈ (0, 1) tel que tα̂ = T . Comme
s
13 + 14 − 2 25.97 − 25.38
T = √ = 1.222,
1/13 + 1/14 12 × 1.36 + 13 × 1.77
S(25)
on cherche α̂ tel que q1−α̂/2 = 1.222. On obtient α̂ ≈ 0.24. En particulier, pour les niveaux 1%,
5% et 10%, le test va accepter.
**********************
Exercice 7.3 (Variables uniformes)

Soient X1 , . . . , Xn des variables i.i.d. uniformes sur [a, b] où a et b sont des paramètres
inconnus tels que a < b. On note par P(a,b) la loi des observations.
1. Estimateur par la méthode des moments.
(a) Soit X une variable de loi uniforme sur [a, b]. Calculer EX et EX 2 en fonction de
a et b.
(b) Proposer un estimateur (â, b̂) par la méthode des moments.
(c) Etudier la consistance de (â, b̂).
(d) Etudier la normalité asymptotique de â.

(e) Etudier la normalité asymptotique de (â, b̂). Cette question étant très calcula-
toire, on ne s’intéressera qu’à la démarche à suivre plus qu’au calcul effectif de
la matrice de covariance asymptotique. Pour les plus courageux, on ne demande
de calculer que la forme de la matrice de covariance asymptotique et de préciser
uniquement l’élément an haut à gauche de cette matrice.
2. Estimateur par maximum de vraisemblance.
(a) Donner l’estimateur (ã, b̃) maximisant la vraisemblance en (a, b).
(b) Soit > 0. Majorer P(a,b) [|ã − a| ≥ ]. En déduire la consistance de ã.
(c) Etudier la normalité asymptotique de ã.
3. Comparer les estimateurs â et ã de a.
**********************

1. Estimateur par la méthode des moments.
(a) Soit X une variable uniformément distribuée sur [a, b]. On a EX = (a + b)/2 et EX 2 =
(b2 + ab + a2 )/3.
(b) Un estimateur des moments de (a, b) est donné par (â, b̂) solution de
(
Xn := n1 ni=1 Xi = b̂+â
P
2
2 2
Xn2 := n1 ni=1 Xi2 = b̂ +â3b̂+â .
P
C’est-à-dire
 â = Xn − 3 X 2 − (Xn )2 = Xn − √3σ̂n
 q
n
 b̂ = X + 3 X 2 − (X )2 = X + √3σ̂ .
q
n n n n n
où σ̂n2 = Xn2 − (Xn )2 .

(c) Par la LFGN, (Xn )n converge p.s. vers EX et (Xn2 )n converge p.s. vers EX 2 . Par le “conti-
nuous map theorem”, on en déduit que (â, b̂) converge p.s. vers (a, b) quand n tend vers +∞.
Donc (â, b̂) est un estimateur fortement consistant de (a, b).
(d) Par le TCL (en dimension 2), on voit que (Xn , Xn2 )n converge en loi vers une Gaussienne
N (0, Σ) où
! !
var(X) cov(X, X 2 ) EX 2 − (EX)2 EX 3 − EXEX 2
Σ= =
cov(X, X 2 ) var(X 2 ) EX 3 − EXEX 2 EX 4 − (EX 2 )2
2 3 2 2 3
!
(a−b) b −b a−ba +a
= 12 12
b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
12 45
On considère la fonction

2 : y > x2 } −→
 {(x, y) ∈ R !
 R
φ: x p
 −→ x − 3(y − x2 )
y


Comme !
Xn
â = φ ,
Xn2
la méthode Delta permet d’obtenir
! !!
√ √ Xn EX d
n â − a = n φ −φ −→ N 0, Σ̄
Xn2 EX 2
où !> !
EX EX
Σ̄ = ∇φ Σ∇φ
EX 2 EX 2
et ! p √ !
x 1 y − x2 + 3x
∇φ =p √ .
y y − x2 − 3/2
On pose σ 2 = EX 2 − (EX)2 = (b − a)2 /12. On a
! √ ! !
EX 1 2σ + 3(a + b) 1 2a + 4b
∇φ 2
= √ = .
EX 2σ − 3 b−a −3
On obtient donc
(a−b)2
!
b3 −b2 a−ba2 +a3
1
12 12
Σ̄ = 2a + 4b −3 × b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
(b − a)2 12 45
!
2a + 4b 2
b4 − 4b3 a + 6b2 a2 − 4ba3 + a4

× = 2
−3 15(b − a)
(e) Par le TCL (en dimension 2), on voit que (Xn , Xn2 )n converge en loi vers une Gaussienne
N (0, Σ) où
! !
var(X) cov(X, X 2 ) EX 2 − (EX)2 EX 3 − EXEX 2
Σ= =
cov(X, X 2 ) var(X 2 ) EX 3 − EXEX 2 EX 4 − (EX 2 )2
2 3 2 2 3
!
(a−b) b −b a−ba +a
= 12 12
b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
12 45
On considère la fonction

2 : y > x2 } −→ R2
 {(x, y) ∈ R !

p !
Φ: x x − 3(y − x2 )
 −→ p
y x + 3(y − x2 )

Comme ! !
â Xn
=Φ ,
b̂ Xn2
la méthode Delta permet d’obtenir
! !! ! !!
√ â a √ Xn EX d

n − = n Φ −Φ −→ N 0, Σ̃
b̂ b Xn2 EX 2

où !> !
EX EX
Σ̃ = ∇Φ Σ∇Φ
EX 2 EX 2
et ! p √ p √ !
x 1 y − x2 + 3x y − x2 − 3x
∇Φ =p √ √ .
y y − x2 − 3/2 3/2
On pose σ 2 = EX 2 − (EX)2 = (b − a)2 /12. On a
! √ √ ! !
EX 1 σ + 3(a + b) σ − 3(a + b) 1 2a + 4b −4a − 2b
∇Φ 2
= √ √ = .
EX σ − 3 3 b−a −3 3
On obtient donc
(a−b)2
! !
2a + 4b −3 b3 −b2 a−ba2 +a3
1 12 12
Σ̃ = × b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
(b − a)2 −4a − 2b 3 12 45
! !
2a + 4b −4a − 2b 2 b − 4b a + 6b a2 − 4ba3 + a4 ?
4 3 2
× = .
−6 6 15(b − a)2 ? ?
2. Estimateur par maximum de vraisemblance.

(a) La vraisemblance du modèle d’échantillonnage à n observations est
n
! !
a Y I(a ≤ Xi ≤ b) 1
Ln , X1 , . . . , Xn = = I(a ≤ min(Xi ))I(max Xi ≤ b).
b b − a (b − a)n
i=1
La vraisemblance est donc maximale pour
ã = min Xi et b̃ = max Xi
1≤i≤n 1≤i≤n
et donc l’EMV est ici (ã, b̃) = (min1≤i≤n Xi , max1≤i≤n Xi ).

(b) Soit 0 < < b − a. On a
n
Y n
P(a,b) [|ã − a| ≥ ] = P(a,b) [ min Xi ≥ a + ] = P(a,b) [Xi ≥ a + ] = P(a,b) [X1 ≥ a + ]
1≤i≤n
i=1
b n n n
b − (a + )
Z
1
= I(x ≥ a + )dx = = 1− .
b−a a b−a b−a
On en déduit que ã est un estimateur consistant de a.
(c) On sait que (Zn ) tend en loi vers Z si et seulement si la suite des fonctions de répartition
des Zn converge simplement vers la fonction de répartition de Z en tout point de continuité
de cette dernière. On voit ici que la suite des fonctions de répartition de (n(ã − a))n tend
vers la fonction de répartition d’une loi exponentielle de paramètre 1/(b − a) càd
(
h i 0 si t ≤ 0
lim P(a,b) n(ã − a) ≤ t = −t

n→+∞ 1 − exp b−a quand t > 0
donc
d
n(ã − a) −→ E(1/(b − a))
où E(1/(b − a)) est une loi exponentielle de paramètre 1/(b − a).

√
3. la vitesse de convergence de â est en 1/ n alors que celle de ã est en 1/n. Ce dernier estimateur
est donc préférable à â.
8 Rattrapage 2016-2017
**********************
Exercice 8.1 (Test dans une urne)
Nous disposons d’une urne contenant 5 boules. Ces boules peuvent être rouges ou
blanches. On souhaite tester si les boules de l’urne sont toutes blanches ou toutes rouges.
On note par r le nombre de boules rouges dans l’urne ; on a donc 5 − r boules blanches.
On considère alors le problème de test
H0 : r ∈ {0, 5} contre H1 : r ∈ {1, 2, 3, 4}.
On tire deux boules de l’urne (avec ou sans remise) et on prend la décision suivante :
1. on accepte si les deux boules ont la même couleur
2. on rejette sinon.
On propose dans la suite d’étudier les propriétés de ce test dans les deux cas d’avec et
sans remise.
1. Quel est le risque de première espèce du test précédent dans les deux cas d’avec et
sans remise ?
2. quelle est le puissance du test quand le tirage se fait avec remise ?
3. quelle est le puissance du test quand le tirage se fait sans remise ?
**********************

1. Sous H0 , toutes le boules ont la même couleur. Alors si on effectue deux tirages avec ou sans
remise, les deux boules tirées seront de la même couleur et donc l’hypothèse H0 est acceptée. En
particulier, la probabilité de rejeter à tord est nulle. Donc le niveau du test est dans les deux cas
(avec ou sans remise) de zéro.
2. On rappelle que la puissance d’un test est la fonction qui à tout paramètre r dans l’alternative
associe la probabilité de rejeter à raison : r ∈ {1, 2, 3, 4} → Pr [test = H1 ].
On considère dans cette question un tirage avec remise.
Soit r ∈ {1, 2, 3, 4} (un paramètre dans l’alternative). La probabilité de rejeter sous Pr est
r 5 − r 2r(5 − r)
Pr [test = H1 ] = Pr [ tirer deux boules de couleur différentes] = 2 × = .
5 5 25
La puissance du test est donc la fonction
2r(5 − r)
r ∈ {1, 2, 3, 4} 7−→
25
3. On considère maintenant le problème sans remise. Soit r ∈ {1, 2, 3, 4}, on a

r 5 − r 5 − r r r(5 − r)
Pr [test = H1 ] = Pr [ tirer deux boules de couleur différentes] = × + × = .
5 4 5 4 10
La puissance du test est donc la fonction
r(5 − r)
r ∈ {1, 2, 3, 4} 7−→ .
10
**********************
Exercice 8.2 (Paramètre vectoriel - vitesses de convergence différentes)

Soient X1 , . . . , Xn des variables aléatoires i.i.d. de loi exponentielle translatée dont la
densité est de la forme :

1 (x − α)
f (x, θ, α) = exp − I[α,+∞[ (x),
θ θ
où θ > 0 et α ∈ R sont deux paramètres inconnus.
1. Donner les estimateurs du maximum de vraisemblance (α̂n , θ̂n ) du paramètre (bidi-
mensionnel) (α, θ).
2. Quelle est la loi de Xi − α ? Calculer la loi (exacte) de n(α̂n − α).
√
3. Déterminer la loi limite de n(θ̂n − θ).
4. L’objectif de cette question est de montrer que α̂n et θ̂n sont indépendants.
(a) On rappel que X(1) ≥ X(2) ≥ · ≥ X(n) sont les statistiques d’ordres de l’échantillon.
Monter que

nX(1) , (n − 1)(X(2) − X(1) ), . . . , 2(X(n−1) − X(n−2) ), X(n) − X(n−1)
est un vecteur de Rn ayant pour densité par rapport à la mesure de Lebesgue

n
!
X
y = (yi )ni=1 ∈ Rn → exp − yi I (0 < yi : i = 1, . . . , n) .
i=1
(b) En déduire que α̂n et θ̂n sont indépendants pour tout n.
**********************

1. La fonction de vraisemblance est donnée pour tout θ > 0 et α ∈ R par
n
1 h X (Xi − α) i
V (θ, α) = Πni=1 f (Xi , θ, α) = n exp −

I α ≤ min Xi .
θ θ i
i=1
On voit déjà que l’EMV pour α est

α̂n = min Xi .
1≤i≤n
P
On en déduit par dérivation de θ 7→ log V (θ, α̂n ) = −n log θ − i Xi /θ + nα̂n /θ que l’EMV pour
θ est
n
1X
θ̂n = Xi − α̂n = X̄n − min Xi .
n i
i=1
2. On voit que X suit une loi exponentielle de paramètre θ et de translatée α si et seulement si sa

fonction de répartition FX est donnée par
h −(t − α) i
FX (t) = 1 − exp I(t ≥ α).
θ
Par indépendance, on a
n n(t − α)
P[α̂n ≥ t] = P[X1 ≥ t] = exp − I(t ≥ α).
θ
Alors α̂n suit une loi expo de paramètre θ/n et translatée α. Donc n(α̂ − α) est une loi expo de
paramètre θ (et translatée nulle).
3. Si X ∼ f alors EX = θ + α et EX 2 = α2 + 2θα + 2θ2 . On a
√ √ 1 h i
n θ̂n − θ = n X̄n − (θ + α) − √ n(min Xi − α) .
n i
√
On voit que n−1/2 n(mini Xi − α) converge en probabilité vers 0 et par le TCL

n X̄n −
2

(θ + α) converge en loi vers N (0, var(X1 )) où var(X1 ) = θ . Par Slutsky, on en déduit que
√
N (0, θ2 ).

n θ̂n − θ
4. Sans perte de généralité, on peut supposer les Xi centrés et réduits, càd α = 0 et θ = 1.

(a) On note Sn l’ensemble de toutes les permutations de {1, . . . , n}. Soit B un borélien de Rn .
On a

P nX(1) , (n − 1)(X(2) − X(1) ), . . . , 2(X(n−1) − X(n−2) ), X(n) − X(n−1) ∈ B

= P[∃τ ∈ Sn : nXτ (1) , , . . . , Xτ (n) − Xτ (n−1) ∈ B et Xτ (1) < · · · < Xτ (n) ]
X
= P[ nXτ (1) , , . . . , Xτ (n) − Xτ (n−1) ∈ B et Xτ (1) < · · · < Xτ (n) ]
τ ∈Sn

= n!P[ nX1 , , . . . , Xn − Xn−1 ∈ B et X1 < · · · < Xn ]
Z Xn

= n! I (nx1 , · · · , xn − xn−1 ) ∈ B I(0 < x1 < · · · < xn ) exp − xi dx1 · · · dxn .
Rn i=1
On considère le changement de variable

(
{(x1 , . . . , xn ) : 0 < x1 < · · · < xn } −→ (R∗+ )n
Φ:
(x1 , . . . , xn )> −→ (nx1 , (n − 1)(x2 − x1 ), . . . , 2(xn−1 − xn−2 ), xn − xn−1 )>
P
On voit facilement que le déterminant du gradient (Jacobien) de Φ vaut n!. De plus xi =
P
yi pour (yi ) = Φ(xi ). On en déduit donc, par la formule de changement de variable en
dimension n que
Z X n

n! I (nx1 , · · · , xn − xn−1 ) ∈ B I(x1 < · · · < xn ) exp − xi dx1 · · · dxn
Rn i=1
Z n
X

= I (y1 , · · · , yn ) ∈ B exp − yi dy1 · · · dyn
Rn
+ i=1
Ainsi la loi de

nX(1) , (n − 1)(X(2) − X(1) ), . . . , 2(X(n−1) − X(n−2) ), X(n) − X(n−1) (11)
P
a pour densité (y1 , . . . , yn ) → exp − ni=1 yi I(0 < yi : i = 1, . . . , n).
(b) On déduit de la question précédente que les coordonnées de (11) sont indépendante et comme
α̂n = X(1) et
n−1
X
(n − k) X(k+1) − X(k) = X(n) + · · · + X(2) − (n − 1)X(1) = n(X¯n − X(1) ) = nθ̂n

k=2
on a bien que α̂n et θ̂n sont indépendantes.
**********************
Exercice 8.3 (Test du signe)

Soient X1 , . . . , Xn un n échantillon de variables i.i.d. de fonction de répartition F continue
et Y1 , . . . , Yn un n-échantillon de variables i.i.d. de fonction de répartition G continue qui
sont aussi indépendantes des Xi . On considère le problème de test
H0 : F = G contre H1 : F 6= G (12)
1. Montrer que P[Xi = Yi ] = 0 et en déduire que si F = G alors P[Xi > Yi ] = 1/2.

2. On pose N̂ = ni=1 I(Xi > Yi ). Quelle est la loi de N̂ sous H0 ?
P
3. Soit α ∈ (0, 1). Construire un test de niveau asymptotique α ayant une zone de rejet
de la forme
√
R(cα ) = {z = ((xi , yi ))ni=1 : n|N̂ (z) − 1/2| > cα }
pour un bon choix de cα .

4. On dit qu’un test est consistant quand sa fonction puissance tend vers 1 quand n
tend vers l’infini. Montrer que le test construit dans la question précédente n’est pas
consistant.
**********************

1. Soit i ∈ {1, . . . , n}. Comme les fonctions de répartition de Xi et Yi sont continues et que Xi et
Yi sont indépendantes, la fonction de répartition du couple (Xi , Yi ) est le produit tensoriel des
fonctions de répartition de Xi et Yi qui est aussi une fonction continue sur R2 ; et en particulier,
la loi de (X, Y ) ne charge pas les sous-ensembles de mesure nulle pour le mesure de Lebesgue.
On a alors Z
P[Xi = Yi ] = dP(X,Y ) (x, y) = 0
{(x,y)∈R2 :x=y}
car l’ensemble {(x, y) ∈ R2 : x = y} est de mesure nulle pour la mesure de Lebesgue. On a
1 = P[Xi > Yi ] + P[Xi = Yi ] + P[Xi < Yi ] = P[Xi > Yi ] + P[Xi < Yi ]
et comme Xi et Yi sont i.i.d. sous H0 , on a P[Xi > Yi ] = P[Xi < Yi ]. On en déduit que
P[Xi > Yi ] = 1/2 sour H0 .
2. Sous H0 , (I(Xi ) > Yi ))i est une famille de n variables de Bernoulli i.i.d. de paramètre 1/2. Donc
N̂ est une variable aléatoire multinomiale de paramètre 1/2 sous H0 .
3. Sous H0 , le TCL donne !
√ N̂ 1 d
2 n − −→ N (0, 1). (13)
n 2
N (0,1)
Ainsi pour cα = q1−α/2 /2, le test de zone de rejet R(cα ) est de niveau asymptotique α.
4. L’alternative est l’ensemble des couples de fonctions de répartition (F, G) telles que F et G
sont continues et F 6= G. Prenons pour F la fonction de répartition d’une variable aléatoire X
uniformément distribuée sur [−1, 0] ∪ [1, 2] et pour G la fonction de répartition d’une variable
aléatoire Y uniformément distribuée sur [0, 1]. On a donc bien F 6= G, F et G sont continues et
comme P[X > Y ] = P[X > 1] = 1/2, on aura aussi (13) dans ce cas et en particulier,
lim P[((Xi , Yi ))ni=1 ∈ R(cα )] = α < 1.

n→+∞
Donc le test n’est pas consistant : en au moins un point de l’alternative, la puissance ne tend pas
vers 1 quand n tend vers l’infini.

Exos Rappels Stats Ensae

Transféré par

Droits d'auteur :

Formats disponibles

Exos Rappels Stats Ensae

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Exos Rappels Stats Ensae

Transféré par

Droits d'auteur :

Formats disponibles

Exercices de statistiques mathématiques

1er septembre 2017

Table des matières

2 Vraisemblance, EMV, IC, Information de Fisher 11

5 Examen du lundi 26 octobre 2015 36

7 Examen du lundi 14 novembre 2016 44

[cv presque sure] (1) [cv en proba] (2) [cv en loi]

Démo et contre-exemple de “(1) ” : Soit  > 0. On a {Xn → X} ⊂ liminf n {|Xn − X| ≤ }. En

{|Z2n − Zn | ≥ 2} ⊂ {|Zn − Z| ≥ } ∪ {|Z2n − Z| ≥ }.

Alors, par une borne de l’union :

Exercice 1.2 (Lemme de Slutsky)

Correction de l’exercice 1.2

On a pour tout n ≥ N , par indépendance de g(Y ) avec f (Xn ) et f (X),

Exercice 1.3 (Convergence dans Lp )

On en déduit que (Yn ) est bien équi-continue.

E|Xr − Xq |p ≤ E |Xr − Xq |p I(|Xr − Xq |p ≤ ) + 2p−1 E |Xr |p + |Xq |p I(|Xr − Xq |p > )

≤  + 2p−1 E |Xr |p + |Xq |p I(|Xr − Xq |p > ) .

sup E |Xr |p 1A + sup E |Xq |p 1A ≤ /2p−1 .

P |Xn − X| ≥  ≤ −p E|Xn − X|p .

P |Xn |p > a ≤ a−1 E|Xn |p ≤ Ba−1 ≤ .

P(A) ≤ η (par définition X ∈ Lp ). On a donc pour n ≥ N et tout a ≥ a0 ,

Exercice 1.4 (Lemme de Fatou)

En déduire que si (An ) est une suite d’événements alors

limsupn P(An ) ≤ P(limsupn An ),

où on rappelle que limsupn An = ∩N ∪n≥N An .

Correction de l’exercice 1.4

Par ailleurs, on a pour tout n ∈ N,

1 − P[limsupn An ] = P[liminf n Acn ] ≤ liminf n P[Acn ].

Exercice 1.5 (lemmes de Borel-Cantelli)

Correction de l’exercice 1.5

pour x ∈ [0, 1),

P[Bn ] = P[∩p≥n Acp ] = Πp≥n P[Acp ] = Πp≥n 1 − P[Ap ]

Exercice 1.6 (la loi du 0 − 1 de Kolmogorov)  

Exercice 1.7 (convergence en loi vers une constante)

C’est donc une convergence en probabilité vers c.

Exercice 1.8 (convergence en probabilité et convergence p.s.)

c) (Xn )n converge en probabilité,

Correction de l’exercice 1.8

P[|Xn − Xm | ≥ ] ≤ P[|Xn − X| ≥ /2] + P[|Xm − X| ≥ /2].

P[|Xnj − Xnj+1 | > 2−j ] < 2−j .

2.2) On note par X la limite p.s. de (Xnj )j . Soit  > 0. On a

P[|Xn − X| ≥ ] ≤ P[|Xn − Xnj | ≥ /2] + P[|Xnj − X| ≥ /2].

Exercice 1.9 (L’asymptotique normalité implique la converge en probabilité)

Exercice 1.10 (Loi conditionnelle)

f (x) = λ2 xe−λx 1[0,+∞) (x)

1. Donner la loi jointe de (X, Y ).

Correction de l’exercice 1.10

1. Soit f une fonction continue bornée sur R2 . On a

f (X,Y ) (x, y) = 1[0,x] (y)1R+ (x)λ2 e−λx

2. La loi marginale de Y a pour densité : pour tout y ∈ R,

Soit f et g deux fonctions continues bornée. Un changement de variable x − y → t donne

(pour avoir la loi de X − Y , il suffit de prendre f ≡ 1 dans le calcul précédent). Donc Y et X − Y

Exercice 1.11 (quartile)

Correction de l’exercice 1.11

2 Vraisemblance, EMV, IC, Information de Fisher

Correction de l’exercice 2.1

où M = ni=1 I(Xi ≤ t) est une multinomiale de paramétre n et P[X1 ≤ t] = F (t). On a donc

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 11

Démo et contre-exemple de “(1) ” : Soit > 0. On a {Xn → X} ⊂ liminf n {|Xn − X| ≤ }. En

{|Z2n − Zn | ≥ 2} ⊂ {|Zn − Z| ≥ } ∪ {|Z2n − Z| ≥ }.

On a pour tout n ≥ N , par indépendance de g(Y ) avec f (Xn ) et f (X),

E|Xr − Xq |p ≤ E |Xr − Xq |p I(|Xr − Xq |p ≤ ) + 2p−1 E |Xr |p + |Xq |p I(|Xr − Xq |p > )

≤ + 2p−1 E |Xr |p + |Xq |p I(|Xr − Xq |p > ) .

sup E |Xr |p 1A + sup E |Xq |p 1A ≤ /2p−1 .

P |Xn − X| ≥ ≤ −p E|Xn − X|p .

P |Xn |p > a ≤ a−1 E|Xn |p ≤ Ba−1 ≤ .

P(A) ≤ η (par définition X ∈ Lp ). On a donc pour n ≥ N et tout a ≥ a0 ,

Exercice 1.6 (la loi du 0 − 1 de Kolmogorov)

P[|Xn − Xm | ≥ ] ≤ P[|Xn − X| ≥ /2] + P[|Xm − X| ≥ /2].

2.2) On note par X la limite p.s. de (Xnj )j . Soit > 0. On a

P[|Xn − X| ≥ ] ≤ P[|Xn − Xnj | ≥ /2] + P[|Xnj − X| ≥ /2].