Exos Rappels Stats Ensae
Exos Rappels Stats Ensae
Exos Rappels Stats Ensae
Guillaume Lecué
3 Tests 23
4 Modèle de régression 28
6 Rattrapage 2015-2016 40
8 Rattrapage 2016-2017 51
1 Rappels de probabilités
**********************
Exercice 1.1 (Théorème de la limite centrale)
Soit (Xn )n une suite de variables aléatoires i.i.d. centrées de variance σ 2 > 1. Soit
n
1 X
Zn = √ Xj .
σ n
j=1
Par le théorème de la limite centrale, cette variable converge en loi vers la loi normale
t2
centrée réduite, c’est-à-dire, pour tout t ∈ R, on a limn→+∞ E[eitZn ] = e− 2 . L’objet de cet
exercice est de montrer que la suite Zn ne peut pas converger en probabilité.
1. Calculer la fonction caractéristique de Z2n − Zn et montrer que cette différence
converge en loi.
2. En étudiant P(|Z2n − Zn | ≥ ), montrer que Zn ne converge pas en probabilité.
**********************
1
ENSAE Statistiques mathématiques
Correction de l’exercice 1.1 L’objectif de cet exercice est de manipuler les différents types de
convergence. On commence donc par rappeler les différentes convergences en probabilités. Soit (Xn )
une suite de variables aléatoires et X une autre variable aléatoire. On dit que :
— (Xn ) converge presque surement vers X quand {ω ∈ Ω : lim Xn (ω) = X(ω)} est de mesure 1 (on
vérifiera que cet ensemble est bien mesurable).
— (Xn ) converge en probabilité vers X quand pour tout > 0, P |Xn − X| ≥ → 0 quand n tend
vers +∞.
— (Xn ) converge en loi vers X quand pour toute fonction continue bornée f on a Ef (Xn ) → Ef (X).
— si p ≥ 1, on dit que (Xn ) converge dans Lp vers X quand E|Xn − X|p → 0 quand n tend vers
+∞.
On a les implications suivantes :
Il n’y a pas équivalence dans “(1) ⇒”. Voici une exemple d’une suite qui converge en probabilité
mais pas presque surement : (Xn ) des v.a. indépendantes telles que
1 1
P[Xn = 1] = et P[Xn = 0] = 1 − .
n n
La suite (Xn ) converge en probabilité vers 0 car pour tout n, on P[|Xn | > ] = P[Xn = 1] = 1/n. Mais
P
elle ne converge pas presque surement vers car on a n P({Xn = 1}) = ∞ donc d’après le “second
lemme de Borel-Cantelli” (les événements ({Xn = 1}) sont indépendants), on a P[limsupn {Xn = 1}] =
1. Notamment, (Xn ) ne converge pas presque surement vers 0.
Démo et contre-exemple de “(2) ” : Soit f une fonction continue bornée. Soit > 0 et N ∈ N
=⇒
tel que P |f (Xn ) − f (X)| ≥ ≤ (on rappel que si f est continue et (Xn ) converge en probabilité
vers X alors (f (Xn )) converge en probabilité vers f (X)). On a donc
Ef (Xn ) − Ef (X) ≤ E(f (Xn ) − f (X))I(|f (Xn ) − f (X)| ≥ )
+ E(f (Xn ) − f (X))I(|f (Xn ) − f (X)| < )
≤ 2 kf k∞ P |f (Xn ) − f (X)| ≥ + ≤ 2 kf k∞ + 1 .
La réciproque est trivialement fausse. Il suffit de prendre la suite stationnaire (Xn ) où pour tout n,
Xn = g où g est une gaussienne. Comme g est symmétrique, −g est aussi distribuée comme g. Donc
1 RAPPELS DE PROBABILITÉS 2
ENSAE Statistiques mathématiques
(Xn ) converge en loi vers g et donc aussi vers −g. Par contre |Xn − (−g)| = 2|g| ne converge pas en
probabilité vers 0. Donc (Xn ) ne converge par vers −g en probabilité.
Démo et contre-exemple de “(3) ⇑” : D’après l’inégalité de Markov, P |Xn − X ≥ | ≤
−p E|Xn − X|p . Pour le contre-exemple, on prend Xn de loi (n−1 δn2 + (1 − n−1 )δ0 ). On a P[|Xn | ≥
] ≤ n−1 donc (Xn ) converge en probabilité mais E|Xn | = n donc (Xn ) ne converge pas dans L1 vers
0.
Correction de l’exercice
1. Pour tout t ∈ R, on a par indépendance
it 1 n it 2n
X X
E exp(it(Z2n − Zn )) = E exp √ √ −1 Zj E exp √ Zj .
σ n 2 σ 2n
j=1 j=n+1
En appliquant le TCL sur chacun des membres du produit, quand n tend vers l’infini, on obtient
√
est t 7→ exp − t2 (2 − 2)/2 ,
que (Z2n − Zn )n tend vers une loi dont la fonction
p caractéristique
√
c’est donc une Gaussienne centrée de variance 2 − 2.
2. Supposons que (Zn ) converge en probabilité. Alors il existe une variable aléatoire Z telle que
pour tout > 0, on a P[|Zn − Z| > ] → 0. Soit > 0, on a
**********************
loi loi
1. Donner un exemple de suites (Xn ) et (Yn ) telles que Xn → X et Yn → Y , mais Xn + Yn
ne converge pas en loi vers X + Y .
2. Soient (Xn ), (Yn ) deux suites de variables aléatoires réelles, X et Y des variables
aléatoires réelles, telles que
loi P
(i) Xn → X et Yn → Y ,
(ii) Y est indépendante de (Xn ) et X.
Montrer que le couple (Xn , Yn ) converge en loi vers (X, Y ).
3. En déduire que si (Xn ) et (Yn ) sont deux suites de variables aléatoires réelles telles
que (Xn ) converge en loi vers une limite X et (Yn ) converge en probabilité vers une
constante c, alors (Xn + Yn ) converge en loi vers X + c et (Xn Yn ) converge en loi vers
c X.
1 RAPPELS DE PROBABILITÉS 3
ENSAE Statistiques mathématiques
**********************
On le démontre facilement, en utilisant le Théorème de Levy et en voyant que quand n tend vers
l’infini, pour tout t ∈ R,
2it Xn −it
1 it n
E exp √ δi − 1/2 = exp √ + exp √
n 2 n n
i=1
t2 t3 n −t2
= 1− + O 3/2 −→ exp .
2n n 2
Soit g une variable Gaussienne standard. Comme g est symmétrique, −g est aussi une Gaussienne
Standard. On a donc, (Xn ) converge en loi vers g et aussi (Xn ) converge en loi vers −g. Mais
(Xn + Xn ) converge en loi vers 2g 6= g + (−g) = 0. Cet exercice souligne le fait que la convergence
en loi est une convergence des lois de distribution et non des variables aléatoires elles mêmes.
2. On note par Cb (R) l’ensemble des fonctions continues bornées sur R. Pour montrer que (Xn , Yn )
converge en loi vers (X, Y ), il suffit de prouver que pour tout f, g ∈ Cb (R), on a Ef (Xn )g(Yn ) →
Ef (X)g(Y ) quand n tend vers l’infini. Par ailleurs, on sait que si (Yn ) converge en probablité
vers Y et si g est continue alors (g(Yn )) converge en probabilité vers g(Y ).
Soit f, g ∈ Cb (R) et > 0. Soit N ∈ N tel que pour tout n ≥ N ,
P |g(Yn ) − g(Y )| ≥ ≤ and Ef (Xn ) − Ef (X) ≤ .
3. Comme (Yn ) converge en probabilité vers Y = c p.p. qui est indépendante de toutes variables
aléatoires, on peut appliquer la question 2. : (Xn , Yn ) converge en probabilité vers (X, c).
Notamment, comme les applications somme et produit sont des fonctions continues de R2 dans
R, on voit que (Xn + Yn ) converge en loi vers X + c ainsi que (Xn Yn ) converge en loi vers cX.
**********************
1 RAPPELS DE PROBABILITÉS 4
ENSAE Statistiques mathématiques
**********************
Correction de l’exercice 1.3 Pour cet exercice, on va démontrer un résultat plus fort. On rappel
qu’une suite (Xn ) est équi-intégrable quand
lim sup E |Xn |I(|Xn | > a) = 0.
a→+∞ n∈N
Soit p ≥ 1 et (Xn ) une suite d’éléments de Lp . On montre que les deux assertions suivantes sont
équivalentes :
1. la suite (Xn ) converge dans Lp .
2. la suite (Xn ) converge en probabilité et la suite (|Xn |p ) est équi-intégrable.
b) implique a) : On montre d’abord que si (Yn ) est équi-intégrable alors elle est équi-continue :
càd pour tout > 0, il existe η > 0 tel que si P(A) ≤ η alors supn∈N E |Yn |1A ≤ . Soit > 0 et
a0 > 0 tel que pour tout a ≥ a0 et tout n ∈ N, E |Xn |I(|Xn | > a) ≤ . On a pour tout ensemble
mesurable A, tout n ∈ N et tout a ≥ a0 ,
E |Xn |1A = E |Xn |I(A ∩ {|Xn | ≤ a}) + E |Xn |I(A ∩ {|Xn | > a})
≤ aP(A) + E |Xn |I(|Xn | > a) ≤ aP(A) + .
Comme (|Xn |p ) est équi-continue, il existe η > 0 tel que pour tout A tel que P[A] ≤ η, on a
de Cauchy dans Lp , qui est complet, donc elle est convergente dans Lp .
a) implique b) : Par Markov, on a pour tout > 0,
Soit N ∈ N tel que pour tout n ≥ N , E|Xn − X|p ≤ /2p−1 . L’inégalité de Markov donne
où B majore uniformément la suite (E|Xn |p ) (qui est bien bornée vue que c’est une suite convergente).
Soit a0 > 0 tel que supn∈N P[|Xn |p > a0 ] ≤ η où η est tel que E |X|p 1A ≤ /2p−1 pour tout A tel que
E |Xn |p I(|Xn |p > a) ≤ 2p−1 E |Xn − X|p I(|Xn |p > a) + 2p−1 E |X|p I(|Xn |p > a) ≤ .
De plus, il est facile de voir que toute famille finie de variables aléatoires est équi-intégrable. C’est le
cas pour (Xn : 1 ≤ n ≤ N ).
1 RAPPELS DE PROBABILITÉS 5
ENSAE Statistiques mathématiques
**********************
**********************
Par convergence des deux membres, on peut passer à la limite et obtenir le résultat.
2. On utilise le lemme de Fatou pour fn = 1 − 1An = 1Acn . On a liminf n fn = 1liminf n Acn et
c
liminf n Acn = limsupn An donc
**********************
1. Le premier lemme de Borel-Cantelli dit que si (An ) est une suite d’événements telle
P
que n P[An ] < ∞ alors P[limsupn An ] = 0.
2. Le deuxième lemme de Borel-Cantelli dit que si (An ) est une suite d’événements
P
indépendants tels que n P[An ] = ∞ alors P[limsupn An ] = 1.
**********************
1 RAPPELS DE PROBABILITÉS 6
ENSAE Statistiques mathématiques
c
2. Comme limsupn An = liminf n Acn , il suffit de montrer que P[liminf n Acn ] = 0. On note Bn =
∩p≥n Ap . La suite (Bn ) est croissante et converge presque surement vers liminf n Acn . Alors, par
convergence monotone, P[Bn ] converge vers P[liminf n Acn ]. Par ailleurs, comme log(1 − x) ≤ −x
On en déduit le résultat.
**********************
**********************
Correction de l’exercice 1.6 On note αn = σ ∪p≥n σp et βn = σ ∪p<n σp . Les deux tribus αn et
βn sont indépendantes. Comme σ∞ ⊂ αn alorsσ∞ estindépendantes
de βn pour tout n. Notamment,
σ∞ est indépendante de ∪n∈N βn et donc de σ ∪n βn = σ ∪n σn = α0 . Or σ∞ ⊂ α0 donc σ∞ est
indépendante d’elle même. En particulier, si A ∈ σ∞ alors P[A] = P[A]P[A] donc P[A] ∈ {0, 1}.
**********************
**********************
Correction de l’exercice 1.7 On peut démontrer que (Yn ) converge en loi vers Y si et seulement si
pour tout Borélien A PY -continue (càd P[∂A] = 0), on a PYn [A] → PY [A].
Soit > 0. On a δc B(c, ) = 0. Alors PXn B(c, ) → δc (B(c, )) = 1. Donc P[|Xn − c| ≤ ] → 1.
**********************
1 RAPPELS DE PROBABILITÉS 7
ENSAE Statistiques mathématiques
**********************
Comme le membre de droite tend vers 0 quand n et m tendent vers +∞, on en déduit que le
membre de droite tend aussi vers 0 dans ce cas là, càd, d) est vrai.
2.1) Comme (Xn )n est une suite de Cauchy en probability, on peut construire par récurrence en
commençant à n1 = 1, une suite strictement croissante d’entiers (nj )j telle que
P[|Xnj − Xnj+1 | > 2−j ] < ∞, le lemmes de Borel-Cantelli dit que P[Ω0 ] = 0 où
P
Comme j
Ω0 = lim sup{|Xnj − Xnj+1 | > 2−j } = ∩j ∪k≥j |Xnk − Xnk+1 | > 2−j .
j→∞
Soit ω ∈ Ωc0 . La suite (Xnj (ω))j est une suite (de nombres réels) de Cauchy car pour tout j
suffisament grand et tout k > j, on a
X X 1
|Xnk (ω) − Xnj (ω)| ≤ |Xnp (ω) − Xnp+1 (ω)| ≤ = 2j−1 .
2p
p≥j p≥j
Ainsi, par complétude de R, on en déduit qu’il existe X(ω) tel que (Xnj (ω))j converge vers
X(ω). Ceci étant vrai pour tout ω ∈ Ωc0 et P[Ωc0 ] = 1, on en déduit que (Xnj )j converge presque
surement.
1 RAPPELS DE PROBABILITÉS 8
ENSAE Statistiques mathématiques
Comme (Xnj )j converge presque surement vers X, elle converge aussi en probabilité donc P[|Xnj −
X| ≥ /2] tends vers 0 quand j tends vers +∞. Par ailleurs, (Xn )n est de Cauchy en probability
donc quand n et j tendent vers +∞, P[|Xn − Xnj | ≥ /2] tends vers 0. En en déduit que
P[|Xn − X| ≥ ] tends vers 0 quand n tends vers +∞, càd (Xn )n converge vers X en probabilité.
3) On suppose que (Xn )n converge en probabilité vers X. Soit (Xnj )j une sous suite. Elle converge
donc aussi en probabilité vers X. D’après 2.1), c’est aussi une suite de Cauchy en probabilité et
donc elle admet une sous-suite qui converge presque surement vers X. Donc b) est vrai.
4.1) Dire que a) n’est pas vrai, c’est dire qu’il existe un > 0 et un δ > 0 et une sous-suite (nk )k
d’entiers tels que pour tout k,
P[|Xnk − X| ≥ ] ≥ δ. (1)
4.2) D’un autre côté, b) est vrai donc (Xnk )k admet une sous-suite qui converge presque surement
vers X. Ceci contredit (1).
**********************
**********************
Correction de l’exercice 1.9 On dit qu’une suite de v.a.r. (ζn ) est tendue quand pour tout > 0,
il existe M > 0 tel que pour tout n, P[|ζn | ≥ M ] ≤ . Si une suite converge en probabilité alors elle
est tendue. (Car on peut approcher la fonction I(· ∈ [−M , M ]) par une suite croissante de fonctions
continues bornées). Alors (rn (ζn − µ)) est tendue. Soit > 0 et M > 0 tels que supn∈N P[|ζn − µ| ≥
M /rn ] ≤ . Ce qui implique la convergence en probabilité car (rn ) tend vers +∞.
**********************
et soit Y une variable aléatoire dont la loi conditionnelle à X = x est uniforme sur [0, x] .
**********************
1 RAPPELS DE PROBABILITÉS 9
ENSAE Statistiques mathématiques
Donc la loi jointe du couple (X, Y ) a une densité donnée pour tout x, y ∈ R par
**********************
**********************
1 RAPPELS DE PROBABILITÉS 10
ENSAE Statistiques mathématiques
**********************
Soit σ ∈ P(n). Comme les Xi sont i.i.d., on voit que (Xσ(1) , . . . , Xσ(n) )> ∼ (X1 , . . . , Xn )> . Alors,
pour tout f ∈ Cb (Rn ),
Ef (Xσ(1) , . . . , Xσ(n) )I(Xσ(1) < · · · < Xσ(n) ) = Ef (X1 , . . . , Xn )I(X1 < · · · < Xn )
Z
= f (x1 , . . . , xn ) Πni=1 f (xi ) I(x1 < · · · < xn )dx1 · · · dxn .
Rn
On en déduit que la loi de (X(1) , . . . , X(n) ) admet une densité par rapport à Lebesgue donnée
par
f (x1 , . . . , xn ) = n! Πni=1 f (xi ) I(x1 < · · · < xn ).
2. On calcul la fonction de répartition de X(k) . Soit t ∈ R,
P[X(k) ≤ t] = P ∃I ⊂ {1, . . . , n} : |I| ≥ k, ∀i ∈ I, Xi ≤ t = P[M ≥ k]
n
!
X n
P[X(k) ≤ t] = F (t)j (1 − F (t))n−j .
j=k
j
Comme F est absoluement continue la cdf de X(k) l’est aussi. Donc X(k) admet une densité par
rapport à Lebesgues donnée par :
n
!
X n
jf (t)F (t)j−1 (1 − F (t))n−j + (n − j)F (t)j (−f (t))(1 − F (t))n−j−1
f (t) =
j=k
j
n!
= F (t)k−1 (1 − F (t))n−k .
(k − 1)!(n − k)!
Pour la fonction de répartition du couple (X(1) , X(n) ), on calcul la répartition du couple (X(1) , X(n) )
dans le quadrant inférieur droit. On a pour tout x, y réels :
On a :
P[X(1) > x, X(n) ≤ y] + P[X(1) ≤ x, X(n) ≤ y] = P[X(n) ≤ y] = F (y)n .
Alors,
n
F (x, y) = P[X(1) ≤ x, X(n) ≤ y] = F (y)n − I(x ≤ y) F (y) − F (x) .
∂2F n−2
f (x, y) = (x, y) = n(n − 1)I(x ≤ y)f (x)f (y) F (y) − F (x) .
∂x∂y
La loi de la statistique W = X(n) − X(1) est donnée par ce qui suit. Soit f ∈ Cb (R), on a
Z
Ef (W ) = f (y − x)dP(X(1) ,X(n) ) (x, y)
R2
Z
n−2
= n(n − 1) f (y − x)I(x ≤ y) F (y) − F (x) dxdy
R2
Z ∞ Z
n−2
= f (u) n(n − 1) F (u + x) − F (x) dx du.
0 R
**********************
k = 4. On note X̄n = n1 ni=1 Xi . Montrer que l’estimateur n1 ni=1 (Xi − X̄n )2 de la variance
P P
**********************
n n
1 X 2 1 X 2
σ̂n2 = Xi − Xi = X 2 n − X n .
n n
i=1 i=1
2
(On écrit σ̂n2 = EI XI − EI XI .)
c) On remarque d’abord que σ̂n2 n’est pas un estimateur sans biais de la variance :
1 X n 2 1 X
Eσ̂n2 = EX 2 − E Xi = EX 2 − 2 EXi Xj
n n
i=1 i,j
1 2 n − 1
= 1− EX 2 − EX = var(X).
n n
Par la LFGN, la suite (σ̂n2 ) converge presque surement vers σ 2 .
On considère la décomposition suivante :
√ √ √ 2
n σ̂n2 − σ 2 = n X 2 n − EX 2 − n X̄n .
Par le TCL, on a :
√ 2 2
n X 2 n − EX 2 N 0, E X 2 − EX 2 et E X 2 − EX 2 = µ4 − µ22 .
√
Par ailleurs, nX̄n converge en loi vers une Gaussienne et (X̄n ) converge en probabilité vers 0. Alors
√ 2
d’après Slutsky, n X̄n converge en loi vers 0, elle converge donc aussi en probabilité vers 0. On
√ 2
n X 2 n − EX 2 converge en loi vers N 0, E X 2 − EX 2
applique une seconde fois Slutsky : et
√ 2
n X̄n converge en probabilité vers 0. On en déduit que
√ 2
n σ̂n2 − σ 2 N 0, E X 2 − EX 2
.
**********************
**********************
Dans notre cas, on cherche à trouver g tel que (g(X̄n )) est asymptotiquement normal de moyenne
2
asymptotique 0 et de variance asymptotique θ(1 − θ) g 0 (θ) = 1. On est donc amener à résoudre
l’équation :
1
∀θ ∈ (0, 1), g 0 (θ) = p .
θ(1 − θ)
L’ensemble des solutions de cette équation est donnée, à une constante absolue additive près,
√
par g : θ ∈ [0, 1] 7→ 2arcsin( x) (on rappel que (arcsinx)0 = (1 − x2 )−1/2 , ∀x ∈ [−1, 1]). Cette
fonction est continûment différentiable en tout θ ∈ (0, 1), alors d’après Proposition 1.10 (voir
(2)), on a
√
n g(X̄n ) − g(θ) N (0, 1).
2
(On rappelle que g a été choisit tel que θ(1 − θ) g 0 (θ) = 1 pour tout θ ∈ (0, 1)).
3. Pour tout α[0, 2], le quantile d’ordre 1 − α/2 de la gaussienne est l’unique réel tel que P[g ∈
(−∞, qα ] = 1 − α/2. On a
h√ i
P θ ∈ Iˆn,α = P n g(X̄n ) − g(θ) ≤ zα −→ P[g ∈ [−zα , zα ]] = 1 − α
pour h zα zα i
Iˆn,α = sin2 g(X̄n ) − √ , sin2 g(X̄n ) + √
n n
**********************
Afin de modéliser ce phénomène, on suppose l’existence d’une variable aléatoire Yi∗ nor-
male, d’espérance m et de variance σ 2 , que l’on appellera « capacité de remboursement
de l’individu i », telle que : (
1 si Yi∗ > 0,
Yi =
0 si Yi∗ ≤ 0.
On note Φ la fonction de répartition de la loi normale N (0, 1).
1. Exprimer la loi de Yi en fonction de Φ.
2. Les paramètres m et σ 2 sont-ils identifiables ?
**********************
**********************
√
3. Donnez la loi asymptotique de n(θ̂n − θ).
4. Proposez un intervalle de confiance de niveau asymptotique 95% pour θ.
**********************
où Nn () est le nombre de génotypes dans l’échantillon {X1 , . . . , Xn }. On a pour tout θ ∈ (0, 1),
2n 1
L0 (θ) =
− 2Nn (AA) + Nn (Aa) .
θ θ(1 − θ)
Alors l’estimateur du maximum de vraisemblance est donné par
1
θ̂n = 1 − 2Nn (AA) + Nn (Aa) .
2n
Ici, on a θ̂n = 1 − 22/95 ≈ 0.77.
3. On peut appliquere le TCL ou la méthode générale du cours sur la normalité asymptpotique des
EMV. Pour le TCL, on a directement que
n θ − θ2
√ √ 1 X
n θ − θ̂n = n I(Xi = AA) + (1/2)I(Xi = Aa) − (1 − θ) N 0,
n 2
i=1
car
E I(X = AA) + (1/2)I(Z = Aa) = (1 − θ)2 + θ(1 − θ) = 1 − θ
et
2 3θ θ2
E I(X = AA) + (1/2)I(Z = Aa) = 1 − +
2 2
alors
θ − θ2
var(I(X = AA) + (1/2)I(Z = Aa)) = .
2
4. On applique la méthode Delta. On chercher une fonction g telle que pour tout θ ∈ (0, 1), on a :
θ − θ2
g 0 (θ)2 =1
2
√ √ √
alors g(θ) = 2 2arcsin( θ). On applique la méthode Delta : ( n(g(θ̂n ) − g(θ))) converge en loi
vers N (0, 1). Alors si P[|G| ≤ zα ] = 1 − α, où G est Gaussienne Standard, on aura, quand n tend
vers ∞, h √ √ i
P θ̂n ∈ g −1 g(θ) − zα / n, g(θ) + zα / n → 1 − α.
**********************
**********************
où Z est l’espace des observations, Z est la tribu sur l’espace des observations et {Pθ : θ ∈ Θ} est
le modèle : c’est l’ensemble des mesures de probabilités dont on suppose a priori que les données
sont issues.
Ici, on a Z = Rn qui est muni de sa tribu des Boréliens Z. Le modèle est donné par l’équation
d’autorégression : Xi = θXi−1 +ζi où ζi sont i.i.d. N (0, σ 2 ). Pour le modèle, on suppose connu σ 2 .
Ainsi le modèle est seulement paramétré par θ (sinon, il serait paramétré par (θ, σ 2 )). La loi Pθ est
X |X ,...,X1
donc la loi de (X1 , X2 , . . . , Xn ) sous l’hypothèse "AR(1)" de l’équation 3. On a Pθ i i−1 =
Xi |Xi−1
Pθ ∼ N (θXi , σ 2 ). On montre par récurrence que
(X1 ,...,Xn )
Pθ = Pθ = fθ .λ
où λ est la mesure de Lebesgues sur Rn et fθ est une fonction de densité définie sur Rn pour tout
(x1 , . . . , xn ) ∈ Rn par :
√ n−1
−n log σ 2π X12 X (Xi+1 − θXi )2
L(θ) = − 2+
2 2σ 2σ 2
i=1
et aussi
n−1 n−1 n−1
X −Xi (Xi+1 − θXi ) X X
L0 (θ) = = σ −2
θ Xi
2
− Xi i−1 .
X
σ2
i=1 i=1 i=1
n−1
X n−1
X
θ̂n = Xi Xi−1 / Xi2 .
i=1 i=1
**********************
Pour fixer vos tarifs publicitaires, vous voulez estimer le paramètre θ à partir d’un échan-
tillon X1 , . . . , Xn de n durées de connexion. On vous donne Eθ (Xi ) = 2θ et varθ (Xi ) = 2θ2 .
1. Calculez l’estimateur du maximum de vraisemblance θ̂n de θ.
2. Que vaut E(θ̂n ) ? Quelle est la variance de θ̂n ?
**********************
n
X n
L(θ) = −2n log θ + log Xi − X̄n ,
θ
i=1
où X̄n = n−1 Alors L0 (θ) = −2nθ−1 +nθ−2 X̄n et donc θ̂n ∈ argmaxθ>0 L(θ) = {(1/2)X̄n }.
P
i Xi .
1 EX 2 − (EX)2 2θ2
var(θ̂n ) = var(X1 ) = = .
4n 4n 4n
**********************
2. Calculer la probabilité pour que le système ne tombe pas en panne avant la date t.
En déduire la loi de la durée de vie Z du système. Calculer la probabilité pour que
la panne du système soit due à une défaillance de la machine 1.
3. Soit I = 1 si la panne du système est due à une défaillance de la machine 1, I = 0
sinon. Calculer P(Z > t; I = δ), pour tout t ≥ 0 et δ ∈ {0, 1}. En déduire que Z et I
sont indépendantes.
4. On dispose de n systèmes identiques et fonctionnant indépendamment les uns des
autres dont on observe les durées de vie Z1 , . . . , Zn .
(a) Écrire le modèle statistique correspondant. A-t-on suffisamment d’information
pour estimer λ1 et λ2 ?
(b) Si on observe à la fois les durées de vie des systèmes et la cause de la défaillance
(machine 1 ou 2), a-t-on alors suffisamment d’information pour estimer λ1 et λ2 ?
5. On considère maintenant un seul système utilisant une machine de type 1 et une
machine de type 2, mais on suppose que l’on dispose d’un stock de n1 machines
de type 1, de durées de vie X11 , . . . , X1n1 et d’un stock de n2 machines de type 2, de
durées de vie X21 , . . . , X2n2 . Quand une machine tombe en panne, on la remplace par
une machine du même type, tant que le stock de machines de ce type n’est pas
épuisé. Quand cela arrive, on dit que le système lui-même est en panne. On note
toujours Z la durée de vie du système. Le cas n1 = n2 = 1 correspond donc aux trois
premières questions.
(a) Montrer que la densité de la somme U de k variables indépendantes qui suivent
une loi exponentielle de même paramètre λ s’écrit, pour x ≥ 0 :
λk
fU (x) = xk−1 exp(−λx).
(k − 1)!
**********************
Réciproquement, si X est une v.a.r. telle que pour tout x > 0 ,1−FX (x) = P[X > x] = exp(−λx).
Alors X est portée sur R+ et comme FX est dérivable, X admet une densité donnée par FX0 càd
x 7→ λ exp(−λx)I(x > 0). C’est donc une variable exponentielle.
2. On note par Z la durée de vie du systéme. On a donc Z > t ssi X1 > t et X2 > t et donc par
indépendance
P[Z > t] = P[{X1 > t} ∩ {X2 > t}] = P[X1 > t]P[X2 > t] = exp − (λ1 + λ2 )t .
Donc Z ∼ E(λ1 + λ2 ). Par ailleurs, la machine sera en panne due à l’élément 1 quand X1 < X2 .
On calcul P[X1 < X2 ] :
Z
P[X1 < X2 ] = EI(X1 < X2 ) = I(x1 < x2 )fλ1 (x1 )fλ2 (x2 )dx1 dx2
R2+
Z ∞ Z ∞ Z ∞
= fλ1 (x1 ) fλ2 (x2 )dx2 dx1 = fλ1 (x1 ) exp(−λ2 x1 )dx1
0 x1 0
Z ∞ λ1
= λ1 exp − (λ1 + λ2 )x1 dx1 = .
0 λ1 + λ2
P[{Z > t} ∩ {I = 1}] = P[{X1 ∧ X2 > t} ∩ {X1 < X2 }] = P[t < X1 < X2 ]
Z ∞
λ1
= λ1 exp − (λ1 + λ2 )x1 dx1 = exp(−(λ1 + λ2 )t) = P[Z > t]P[I = 1]
t λ1 + λ2
Par symmétrie,
P[Z > t|I = 0] = P[X1 ∧ X2 > t|X1 > X2 ] = P[X1 > X2 > t]
λ2
= exp − (λ1 + λ2 )t = P[I = 0]P[Z > t].
λ2 + λ1
On en déduit que Z et I sont indépendantes.
4. a) Le modéle statistique est {E(λ1 + λ2 )⊗n : λ1 , λ2 > 0}. Ce modèle n’est pas identifiable en le
paramétre (λ1 , λ2 ).
4. b) On observe (X1i ∧ X2i , Ii ) ou Ii = 1 si X1i < X2i et Ii = 0 sinon. On peut estimer la moyenne de
Z par n−1 ni=1 Zi et on peut estimer la moyenne de I par n−1 ni=1 Ii . On peut donc estimer
P P
**********************
2. Quelle information donne la loi des grand nombres et le théorème centrale limite sur
le comportement asymptotique de θ̂n ?
3. On donne P(N > 1.64) = 5% pour N ∼ N (0, 1). En déduire n (dépendant de n et θ)
n→∞
tel que P(θ ≥ θ̂n + n ) → 5%.
4. La valeur n précédente dépend de θ. A l’aide du lemme de Slutsky, donner 0n ne
n→∞
dépendant que de n et θ̂n tel que P(θ ≥ θ̂n + 0n ) → 5%.
**********************
**********************
de grandeur que 1/n. On supposera donc par la suite que la proportion de composants
défectueux est θn = λ/n pour un certain λ > 0 et on cherche à estimer λ par λ̂n = nθ̂n . La
valeur λ est supposée indépendante de n (le cas intéressant est quand λ est petit).
1. Quelle est la limite de P(λ̂n = k) lorsque n → +∞ ? En déduire que λ̂n converge en loi
vers une variable de Poisson de paramètre λ.
2. On suppose qu’il y a une proportion θn = 3/n de composants défectueux. Sachant
que P(Z = 0) ≈ 5% pour Z de loi de Poisson de paramètre 3, montrer que P(θn >
θ̂n + 2/n) ≈ 5% pour n grand.
**********************
n! k n −k n − λ k
(n − λ)−k ∼ 1 + e
(n − k)! n−k n−k
qui converge bien vers 1. Donc λ̂n converge en loi vers une variable de Poisson de paramétre λ.
2. Comme λ̂n converge en loi vers une Poisson de paramétre 3. On a en particulier, quand n tend
vers l’infini,
P[θn > θ̂n + 2/n] = P[1 > λ̂n ] −→ P[Z = 0] ≈ 5%.
**********************
**********************
Correction de l’exercice 2.11 On rappelle les formules du cours pour le calcul de l’information de
Fisher :
In (θ) = nI1 (θ) = nEθ ∇θ log f (θ, X)∇ log f (θ, X)> = −nEθ ∇2θ log f (θ, X) = −n∇2a D(a, θ)|a=θ
où D(a, θ) = Eθ [log f (a, X)]. En utilisant une des trois formules précédentes, on obtient dans les
différents modèles :
1. modèle de Bernoulli :
n
In (θ) = .
θ(1 − θ)
L’EMV est ici la moyenne empirique et on vérifie bien qu’il est asymptotiquement normal de
variance asymptotique l’inverse de l’information de Fisher (grâce au TCL).
2. modèle Gaussien (moyenne et variance inconnues) :
!
n
v 0
In (m, v) = n
.
0 2v 2
normal (soit parce que le modèle est régulier, soit en appliquant le TCL, méthode Delta et Slutsky
en dimension 2) de variance asymptotique l’inverse de l’info de Fisher.
3. modèle uniforme : ce modèle n’est pas régulier – en particulier l’info de Fisher n’est pas défi-
nie (de manière classique). On peut néanmoins calculer, l’EMV qui est θbnmv = maxi Xi et son
comportement asymptotique en étudiant sa fonction de répartition :
1 n si x < 0
h n(θ − θb mv ) i h n(θ − X ) i
n i x
Pθ > x = Pθ ∀i = 1, . . . , n : >x = 1− n quand 0 < x < n
θ θ
0 sinon
car pour tout i, sous Pθ , (θ − Xi )/θ ∼ U([0, 1]). Alors quand n → ∞, on obtient :
(
h n(θ − θb mv ) i 1 si x < 0
n
lim Pθ >x =
n→+∞ θ exp(−x) quand x > 0
donc
n(θ − θbnmv )
E(1)
θ
où E(1) est une loi exponentielle de paramètre 1.
3 Tests
**********************
Exercice 3.1 (Test de Neyman-Pearson)
Chercher la région de rejet du test de Neyman-Pearson dans les cas suivants.
1. Loi exponentielle E(θ). Test de θ = θ0 contre θ = θ1 avec θ1 > θ0 .
3 TESTS 23
ENSAE Statistiques mathématiques
**********************
Le rapport de vraisemblance est donc une fonction croissante de X n (on a ici θ1 > θ0 ). Alors, le
test de Neyman-Pearson de niveau α est de la forme :
(
H0 quand X n ≥ tα
ϕα ((Xi )i ) =
H1 sinon
Le rapport de vraisemblance est donc une fonction décroissante de X n (on a ici θ1 > θ0 ). Alors,
le test de Neyman-Pearson de niveau α est de la forme :
(
H0 quand X n ≤ tα
ϕα ((Xi )i ) =
H1 sinon
3 TESTS 24
ENSAE Statistiques mathématiques
**********************
**********************
et la log-vraisemblance est
p
`n (p, (Xi )i ) = log [#N − #D] + (#D − #N ) log 2 + n log[2p(1 − p)].
1−p
En étudiant la fonction de log-vraisemblance, on voit que la vraisemblance est maximale en
1 #N − #D
p̂n = +1 ,
2 n
qui est donc l’estimateur du maximum de vraisemblance. Par la loi forte des grands nombres, on
a:
#N #D
−→ p2 , et −→ (1 − p)2
n n→+∞ n n→+∞
3 TESTS 25
ENSAE Statistiques mathématiques
et donc p̂n −→ p, càd p̂n est consistant. L’étude du comportement asymptotique de p̂n se
n→+∞
déduit du TCL :
n n
#N − #D 1X 1X
= I(Xi = N ) − I(Xi = D) := Zi
n n n
i=1 i=1
√
et n Z̄n − EZ1 N (0, Var Z1 ). On obtient alors :
√
√ n p(1 − p)
n p̂n − p = Z̄n − EZ1 N 0,
2 2
3. On considère le problème de test
1 1
H0 : p = contre H1 : p 6= .
2 2
La forme du test de Wald pour ce problème de test est
(
H0 quand Tn ≤ tα
ϕα ((Xi )i ) =
H1 sinon
où tα est un seuil à choisir tel que le niveau asymptotique du test est α et la statistique du test
Tn est donnée ici par :
√
Tn = 8n|p̂n − 1/2|.
N (0,1)
Sous H0 , on a Tn N (0, 1). On prend alors tα = q1−α/2 .
Sous H1 , on a Tn −→ +∞ donc le test est consistant.
n→+∞
(rem. : le test de Wald utilise Tn2 pour statistique du test (ce qui fait intervenir une χ2 (1) en loi
limite). Mais, en dimension d = 1, on peut utiliser directement Tn , les deux tests sont identiques :
χ2 (1) N (0,1)
dans le premier cas la zone de rejet est Tn2 > q1−α et dans le deuxième cas elle vaut Tn > q1−α/2 .
Ces deux zones sont identiques.
√
Numériquement, on obtient p̂n = 0.5 ∗ ((112 − 12)/200 + 1) = 0.75 et Tn = 200 ∗ 8|0.75 − 1/2| =
10. La p-value est P[|g| > 10] qui est très petite ; on va donc rejeter avec confiance.
**********************
3 TESTS 26
ENSAE Statistiques mathématiques
**********************
3. Pour avoir un niveau α ∈ (0, 1), il suffit de choisir c tel que Pθ=1 [maxi Xi > c] = α càd c =
(1 − α)1/n . Pour α = 0.05, on prend c = (0.95)1/n .
4. Pour n = 20 et M = 0.96 la p-value vaut P1 [maxi Xi > 0.96] ≈ 0.56 : on va accepter H0 . Pour
M = 1.04, la p-value vaut P1 [maxi Xi > 1.04] = 0 on rejete donc avec un très haut niveau de
confiance (c’est normal de rejeter vu qu’au moins un des Xi est plus grand que 1).
**********************
**********************
3 TESTS 27
ENSAE Statistiques mathématiques
N (0,1)
Sous p = 1/2 : Tn N (0, 1/4), on prend alors tα = qα /2.
√
4. numériquement, on obtient 2Tn = 2 1919 922/1919 − 1/2 ≈ −1.712. La p-value du test est
P[g < −1.712] = 0.04 où g ∼ N (0, 1). On rejette donc l’hypothèse avec confiance. On en déduit
que les gens “peuvent retarder leur mort”.
4 Modèle de régression
**********************
Exercice 4.1 (Modèle de régression multiple)
On considère le modèle de regression multiple
4 MODÈLE DE RÉGRESSION 28
ENSAE Statistiques mathématiques
y = Xθ + ξ, E[ξ] = 0, E[ξξ T ] = σ 2 In .
**********************
Alors ŷ = θ̂0 e+X θ̂ est la projection orthogonale de y sur vect(e, X (1) , · · · , X (k) ) où X (1) , · · · , X (k)
sont les vecteurs colonnes de X. En particulier, pour tout θ00 ∈ R, θ0 ∈ Rk , on a
où X̄ = X̄ (1) , · · · , X̄ (k) .
2. ȳe est un élément de vect(e, X (1) , · · · , X (k) ). Comme ŷ est le projeté orthogonal de y sur cet
espace, on voit que y − ŷ est orthogonal à ȳe − ŷ. par Pythagore, on a
On a donc
kŷ − ȳek22
R2 = ≤ 1.
ky − ȳek22
1. R2 = 1 signifie que y est dans vect(e, X (1) , · · · , X (k) ) (modèle sans bruit).
2. R2 = 0 signifie que ŷ = ȳe. Donc y est orthogonal à vect(X (1) , · · · , X (k) ). Alors X (1) , · · · , X (k)
sont des mauvaises variables pour expliquer ou prédire y.
>
3. Soit Proj l’opérateur de projection sur vect(e, X (1) , · · · , X (k) ). On a Z θ̂0 , θ̂ = Proj(y). On a
> >
pour tout θ00 ∈ R, θ0 ∈ Rk , y − Z θ̂0 , θ̂ , Z θ00 , θ0
= 0. Par ailleurs,
> > > >
, Z θ00 , θ0 = Z > y − Z > Z θ̂0 , θ̂ , θ00 , θ0
y − Z θ̂0 , θ̂ .
>
Donc Z > y = Z > Z θ̂0 , θ̂ . Comme la matrice carrée Z > Z de taille k + 1 est de rang k + 1, elle
−1 > >
est de rang plein donc inversible. Alors Z > Z Z y = θ̂0 , θ̂ .
On peux aussi voir que
4 MODÈLE DE RÉGRESSION 29
ENSAE Statistiques mathématiques
Alors, (θ̂0 , θ̂)> minimise la fonction convexe F (u) = ky − Zuk22 sur Rk+1 . Alors (θ̂0 , θ̂)> est
−1 > >
solution de F 0 (u) = 0 càd Z > (y − Zu) = 0. Donc Z > Z Z y = θ̂0 , θ̂ .
La matrice de covariance de Θ̂ := (θ̂0 , θ̂)> est donnée par
>
Σ = E Θ̂ − EΘ̂ Θ̂ − EΘ̂ .
Pour tout j = 0, . . . , k,
> −1 −1
= σ 2 e> >
ej = σ 2 Z > Z jj .
−1 >
4. On a θ̃ = X > X X y càd, θ̃ est le projeté de y sur vect(X (1) , . . . , X (k) ). En général θ̃ 6= θ̂
sauf quand e est orthogonal à vect(X (1) , . . . , X (k) ).
¯ Dans ce modèle R2 n’a
/ vect(X (1) , . . . , X (k) ) alors on n’a pas e, y − ŷ = 0 donc ȳ 6= ŷ.
5. Si e ∈
pas de sens.
**********************
Y = X θ + ξ .
(n,1) (n,k)(k,1) (n,1)
**********************
4 MODÈLE DE RÉGRESSION 30
ENSAE Statistiques mathématiques
Correction de l’exercice 4.2 On peut voir la régression Ridge, comme une relaxation de la mé-
thode MC dans le cas où les variables explicatives sont colinéaires (càd quand il y a de la redondance
d’information dans les variables explicatives). Pour définir l’EMC de manière unique, on a besoin que
−1 >
X > X soit inversible. Dans ce cas θM C = X > X X Y . Comme ker(X > X) = kerX, on a voit que
X > X est inversible si et seulement si les colonnes de X ne sont pas colinéaires. D’un point de vue sta-
tistiques, des colonnes de X linéairement dépendantes signifie qu’il y a de la redondance d’information
parmi les variables explicatives. Par ailleurs, quand X > X est inversible mais que son conditionement
(ratio plus grande valeur singulière sur plus petite valeur singulière) est grand alors un calcul effectif
de l’EMC est difficile. On va donc considérer, un estimateur qui “régularise” l’EMC ou “conditionne”
la matrice de Gram X > X. Pour cela, on va inverser X > X + λIk et ainsi considérer l’estimateur Ridge
−1
θ̂λ = X > X + λIk X > Y.
Cet estimateur n’est plus sans biais mais il peut améliorer le risque quadratique de l’EMC. On peut
voir ça comme un compromis biais variance : on perd un peu sur l’espérance mais on gagne sur la
variance dans l’égalité
2 2
E θ̂λ = Eθ̂λ − Eθ + var(θ̂λ ).
On doit aussi faire en sorte de bien choisir λ > 0. Ceci introduit le problème de la sélection de
paramétre en statistique (et notamment la méthode de validation croisée).
1. Quand k > n, la matrice X : Rk 7→ Rn a un noyau et comme ker(X > X) = kerX, la matrice X > X
n’est plus inversible. On sait que l’EMC est défini comme solution de l’équation X > X θ̂ = X > Y
qui admet une infinité de solution (un espace affine dirigé par ker(X > X)). L’EMC n’est donc
pas uniquement défini. On peut alors choisir parmi cet ensemble infini de solutions, une ayant
certaines propriétés supplémentaires. On va chercher celle ayant une petite norme 2.
2. On introduit la fonction
Cette fonction est strictement convexe et tend vers l’infini quand kθk2 tend vers l’infini donc elle
admet un unique minimum θ̂λ qui est solution de l’équation ∆F (θ̂λ ) = 0 càd −2X > (Y − X θ̂λ ) +
2λθ = 0. On a donc
−1 >
θ̂λ = X > X + λIk X Y.
qui est différent de θ en général. Alors l’ER est en général un estimateur biaisé. La matrice de
covariance est donnée par :
−1 −1
var(θ̂λ ) = (X > X + λk X > Eζζ > X(X > X + λk
−1 > −1
= σ 2 (X > X + λk X X(X > X + λk .
4 MODÈLE DE RÉGRESSION 31
ENSAE Statistiques mathématiques
2 2 kXk2 θ 2 σ 2 kXk22
2
E θ̂λ − θ = Eθ̂λ − Eθ + var(θ̂λ ) = −θ + 2 .
kXk22 + λ kXk22 + λ
σ 2 / kXk22
1 2
2 2 2
−1 θ + 2 < σ / kXk2 (4)
1+µ 1+µ
càd µ θ2 − σ 2 / kXk22 < 2 σ 2 / kXk22 . Si θ2 kXk22 > σ 2 alors pour tout λ tel que
2σ 2 kXk22
λ< ,
θ2 kXk22 − σ 2
le risque quadratique de l’ER est moindre que celui de l’EMC. Quand θ2 kXk22 < σ 2 alors pour
tout λ > 0, le risque quadratique de l’ER est moindre que celui de l’EMC.
Le ratio θ2 /σ 2 (et en général pour tout k, kθk22 /σ 2 ) est appelé le “signal sur bruit”. Quand il
est grand (θ2 /σ 2 > kXk−22 ), il faut choisir λ assez petit et quand il est petit, l’ER est toujours
meilleur (en terme de risque quadratique) que l’EMC pour n’importe quel λ.
**********************
Y = X θ + ξ .
(n,1) (n,k)(k,1) (n,1)
4 MODÈLE DE RÉGRESSION 32
ENSAE Statistiques mathématiques
4. En passant au risques quadratiques E kθ̃ − θk2 et E kθ̂ − θk2 , en déduire que l’es-
timateur des MC est optimal dans la classe de tous les estimateurs linéaires sans
biais.
**********************
2. On a ELY = LXθ. Pour que θ̃ = LY soit sans biais, il faut et il suffit que LXθ = θ. Ceci étant
vrai pour tout θ, on doit avoir LX = Ik .
3. Σ = E (θ̃ − θ)(θ̃ − θ)> = Lvar(Y )L> = σ 2 LL> . Comme LX = Ik , on a :
−1
∆X = LX − X > X X > X = Ik − Ik = 0
4. On a
2 Xk k
X
θ̃ − θ
= 2
(θ̃j − θj ) = e> >
j (θ̃ − θ)(θ̃ − θ) ej
2
j=1 j=1
alors
2 Xk
E
θ̃ − θ
= ej var(θ̃)ej
2
j=1
4 MODÈLE DE RÉGRESSION 33
ENSAE Statistiques mathématiques
2 P
de même E
θ̂ − θ
= kj=1 ej var(θ̂)ej . Mais d’après 3., on a var(θ̃) var(θ̂). Notamment, pour
2
tout j, e> >
j var(θ̃)ej ej var(θ̂)ej . On a donc
2
2
E
θ̃ − θ
≥ E
θ̂ − θ
.
2 2
**********************
On montre que
−1
t̂ = A> A + λId A> y (8)
L’intérêt de la dernière formule est que si n < d alors il est plus facile d’inverser la matrice
AA> + λIn de taille n × n que la matrice A> A + λId de taille d × d.
1. Montrer que pour toute matrice P telle que I + P est inversible, on a (I + P )−1 =
I − (I + P )−1 P .
2. Montrer que pour toutes matrices P et Q telles que I + P Q et I + QP sont inversibles,
on a (I + P Q)−1 P = P (I + QP )−1 .
3. En utilisant la première question, montrer que
4 MODÈLE DE RÉGRESSION 34
ENSAE Statistiques mathématiques
**********************
4. On sait déjà que I + A−1 U CV est inversible. On a I + CV A−1 U = C(C −1 + V A−1 U ) et donc
I + CV A−1 U est le produit de deux matrices inversibles, elle est donc elle-même inversible. On
applique la relation de la deuxième question à P = A−1 U et Q = CV :
(A + U CV )−1 = A−1 − (I + A−1 U CV )−1 A−1 U CV A−1 = A−1 − A−1 U (I + CV A−1 U )−1 CV A−1
= A−1 − A−1 U (C −1 + V A−1 U )−1 V A−1 .
4 MODÈLE DE RÉGRESSION 35
ENSAE Statistiques mathématiques
**********************
1 Pn 2
En étudiant la fonction `n , on voit que l’EMV est θbnmv = n i=1 Xi .
3. la biais de θbnmv est b(θ) = Eθ θbnmv −θ = Eθ X12 − θ = 0 (car EX1 = 0 donc Var X1 = EX12 ). Son
risque quadratique est
n 2 Var X 2
1 X 2θ2
Rθ (θbnmv ) = Eθ (θbnmv −θ)2 = Eθ Xi2 − θ = 1
= .
n n n
i=1
**********************
**********************
Comme x = EX est l’unique zéro de F , on est naturellement amené à considérer une méthode
de Newton stochastique :
xk+1 = xk − ηn (xk − Xk+1 ).
**********************
H0 : µ1 = 0 contre H1 : µ1 6= 0
**********************
2. On voit que le gradient de la log-vraisemblance admet un seul et unique zéro donné par X m
Xm m n m n
1 X 1X 1 hX X i
Y n où X m = Xi , Y n = Yj et v̂ = (Xi − X m )2 + (Yj − Y n )2 .
m n n+m
v̂ i=1 j=1 i=1 j=1
Donc le point (X m , Y n , v̂) est un maximum local. Par ailleurs, il n’y a qu’un seul maximum local,
c’est donc un maximum global. C’est donc l’EMV.
3. La densité (par rapport à la mesure de Lebesgue sur R2 ) du couple (X, Y ) est
1 −(x − µ )2 1 −(y − µ )2
1 2
f (µ1 , µ2 , v), (x, y) = √ exp √ exp
2πv 2v 2πv 2v
1 −1
(x − µ1 )2 + (y − µ2 )2 .
= exp
2πv 2v
La matrice d’information de Fisher en (µ1 , µ2 , v) pour une observation (X1 , Y1 ) est donnée par
>
I1 (µ1 , µ2 , v) = E(µ1 ,µ2 ,v) ∇ log f (µ1 , µ2 , v), (X, Y ) ∇ log f (µ1 , µ2 , v), (X, Y )
= −E(µ1 ,µ2 ,v) ∇2 log f (µ1 , µ2 , v), (X, Y )
1
v 0 0
= 0 v1 0
0 0 v12
4. Le modèle étant régulier, l’EMV est asymptotiquement normal de matrice de covariance asymp-
totique égale à l’inverse de la matrice d’information de Fisher :
Xm µ1 v 0 0
√
N3 0, I1 (µ1 , µ2 , v)−1 = N3 0, 0 v 0
n Y n − µ2
v̂ v 0 0 v2
√ p.s.
5. On a n X m −µ1 N (0, v) et v̂ −→ v alors par le lemme de Slutsky,
√
n X m −µ1
√ N (0, 1).
v̂
On considère le test (
H0 si Tn ≤ tα
ϕα =
H1 sinon
N (0,1)
où tα = q1−α/2 et
√
n| X m |
√
Tn = .
v̂
Le test est de niveau asymptotique α car sous H0 , Tn converge en loi vers |g| où g ∼ N (0, 1) et,
il est consistant, car sous H1 , Tn tends vers +∞ p.s..
**********************
**********************
6 Rattrapage 2015-2016
**********************
Exercice 6.1 (Modèle d’uniforme perturbées)
i.i.d.
Soit le modèle d’échantillonnage X1 , . . . , Xn ∼ Pθ pour θ ∈] − 1, 1[ où Pθ est une loi
admettant une densité par rapport à la mesure de Lebesgue donnée par
dPθ
f (θ, x) = (x) = (1 − θ)I(−1/2 < x < 0) + (1 + θ)I(0 < x < 1/2).
dλ
On pose
n
X
Yn = card{i : Xi > 0} = I(Xi > 0).
i=1
a) Préliminaires
1. Donner l’expérience statistique associée à ces données.
2. Calculer Pθ ([0, 1/2]), la moyenne Eθ X1 et la variance Var(X1 ).
3. Donner la loi de Yn , sa moyenne et sa variance.
4. Vérifier que
f (θ, x) = (1 − θ)1−I(0<x<1/2) (1 + θ)I(0<x<1/2) .
6 RATTRAPAGE 2015-2016 40
ENSAE Statistiques mathématiques
H0 : θ = 0 contre H1 : θ = 1/2
H0 : θ = 0 contre H1 : θ 6= 0
**********************
6 RATTRAPAGE 2015-2016 41
ENSAE Statistiques mathématiques
a) 1. L’expérience statistique associée aux données est celle d’un n-échantillon dans un modèle
dominé par la mesure de Lebesgue :
⊗n
R, B(R), {Pθ : θ ∈ Θ} .
2.
0 1/2
1 θ2
Z Z
1+θ θ
Pθ ([0, 1/2]) = , Eθ X1 = (1−θ) xdx+(1+θ) xdx = et Varθ (X1 ) = −
2 −1/2 0 4 12 16
3. Yn est le nombre de succès dans une expérience de n réalisation d’une binomiale de moyenne
P[X1 > 0] = (1 + θ)/2. C’est donc une multinomiale de paramètre M(n, (1 + θ)/2) càd pour
tout 0 ≤ k ≤ n, on a
n 1 + θ k 1 − θ n−k
P[Yn = k] =
k 2 2
On au aussi Eθ Yn = n(1 + θ)/2 et Varθ Yn = n(1 − θ2 )/4.
4. On vérifie directement l’égalité en regardant les cas −1/2 < x < 0 et 0 < x < 1/2. La
vraisemblance s’obtient alors comme suit :
n
Y 1 + θ Yn
L(θ, (Xi )i ) = (1 − θ)1−I(0<Xi <1/2) (1 + θ)I(0<Xi <1/2) = (1 − θ)n .
1−θ
i=1
5. L’information de Fisher d’un n-échantillon est In (θ) = nI1 (θ) et celle contenue dans une
seule donnée est
I1 (θ) = Eθ (∂θ log f (θ, X))2
où log f (θ, x) = log(1 − θ)I(−1/2 < x < 0) + log(1 + θ)I(0 < x < 1/2). Alors
−1 1
∂θ log f (θ, x) = I(−1/2 < x < 0) + I(0 < x < 1/2).
1−θ 1+θ
Donc
h 1 1 i
I1 (θ) = Eθ I(−1/2 < X < 0) + I(0 < X < 1/2)
(1 − θ)2 (1 + θ)2
1 1
= 2
P(−1/2 < X < 0) + P(0 < X < 1/2)
(1 − θ) (1 + θ)2
1 1−θ 1 1+θ 1 1 1
= 2
+ 2
= + = .
(1 − θ) 2 (1 + θ) 2 2(1 − θ) 2(1 + θ) 1 − θ2
6 RATTRAPAGE 2015-2016 42
ENSAE Statistiques mathématiques
3. Eθ θbnmv = 2P[X > 0] − 1 = θ ; donc θbnmv est sans biais. La variance de l’estimateur est ici
égale à son risque quadratique et on a :
Varθ (θbnmv ) = (4/n) Varθ (I(X > 0)) = (4/n)Pθ [X > 0]Pθ [X < 0] = (1 − θ2 )/n.
p.s. p.s.
De plus, la loi forte des grands nombres dit que Yn −→ Pθ [X > 0] donc θbnmv −→ θ. Donc
θb mv est un estimateur fortement consistant.
n
4. Si θ̂ est un estimateur sans bias de θ alors la borne de Cramer-Rao dit que son risque
quadratique vérifie Rθ (θ̂) ≥ In (θ)−1 = (1 − θ2 )/n. Par ailleurs, le risque quadratique de θbnmv
vaut aussi (1 − θ2 )/n (et θbnmv est sans biais), donc θbnmv atteint bien la borne de Cramer-Rao
parmi tous les estimateurs sans biais.
5. On écrit θbnmv comme une moyenne empirique : θbnmv = n1 ni=1 (2I(Xi > 0) − 1). On applique
P
le TCL :
√
n θbnmv −θ N (0, Varθ (2I(X > 0) − 1)) = N (0, 1 − θ2 )
car Varθ (2I(X > 0) − 1) = 4 Varθ (I(X > 0)) = 4Pθ [X > 0]Pθ [X < 0] = 1 − θ2 .
6. En utilisant le résultat de convergence de la question précédente, la consistance de θbnmv et
le lemme de Slutsky, on obtient que
√ b mv
n θ −θ
q n N (0, 1).
2
1 − θb mv
n
Cette condition n’est pas toujours satisfaite car Yn est une variable aléatoire discrète.
√
2. D’après le TCL, sous H0 , n Yn /n − 1/2 N (0, 1/4). Il suffit alors de fixer le seuil dans
√ N (0,1)
le test précédent tel que 2 n tα − 1/2 = q1−α pour avoir un test de niveau asymptotique
p.s.
α. Sous H1 , Yn /n −→ 3/4, on en déduit que la puissance du test tends vers 1. Donc le test
est consistant.
6 RATTRAPAGE 2015-2016 43
ENSAE Statistiques mathématiques
3. On considère ( √
H0 si n| θbnmv | ≤ tα
ϕα =
H1 sinon
N (0,1) √ √ p.s.
où tα = q1−α/2 . Sous H0 , n| θbnmv | |g| où g ∼ N (0, 1) et sous H1 , n| θbnmv | −→ +∞.
Donc le test est de niveau asymptotique α et il est consistant.
d) 1. On note δi la variable aléatoire indiquant la présence de perturbation dans l’observation i,
càd δi = 1 avec probabilité θ et 0 sinon. Par hypothèse les δi sont i.i.d. B(θ) et indépendantes
de Ui . La loi de X1 est donnée par : si f est une fonction continue à support compact sur R
alors
Z 1/2
Ef (X1 ) = Ef (|Ui |)δi + f (Ui )(1 − δi ) = Ef (|Ui |)θ + f (Ui )(1 − θ) = f (|u|)θ + f (u)(1 − θ) du
−1/2
Z 1/2 Z 1/2 Z 0 Z 1/2
= 2θ f (u)du + f (u)(1 − θ)du = (1 − θ) f (u)du + (1 + θ) f (u)du.
0 −1/2 −1/2 0
**********************
n nEθ X1 n n
I(θ) = −Eθ ∂θ2 `n (θ, X1 , . . . , Xn ) = 2
+ 2
= 2+
θ (1 − θ) θ θ(1 − θ)
**********************
2. On note
1 n 2 n
2 1 X 1 X
σ̂X,n = (Xi − Xn1 )2 et σ̂Y,n
2
= (Yi − Yn2 )2
1
n1 − 1 2
n2 − 1
i=1 i=1
U 2 = (n1 − 1)σ̂X,n
2
1
2
+ (n2 − 1)σ̂Y,n 2
.
3. On introduit √
n1 + n2 − 2Z Xn − Yn2 + ∆
T = où Z = q1 .
U/σ σ n−1 + n −1
1 2
H0 : ∆ = 0 contre H1 : ∆ 6= 0.
Calculer la p-value du test. Faut-il rejeter aux niveaux usuels 1%, 5% et 10%.
On rappelle quelques valeurs de la fonction de répartition d’une loi de Student à 25 degrés
de liberté. On note F (t) = P[X ≤ t] quand X suit une loi de Student à 25 degrés de liberté.
**********************
et donc PV ⊥ G = G − PV G = (X1 − Xn1 , . . . , Xn1 − Xn1 , Y1 − Yn2 , . . . , Yn2 − Yn2 ). On a donc bien
U 2 = kPV ⊥ Gk22 . Par ailleurs, V ⊥ est un espace vectoriel de dimension n1 + n2 − 2 donc, d’après
le théorème de Cochran, U 2 /σ 2 est distribuée selon une χ2 à n1 + n2 − 2 degrés de liberté.
3. On peut aussi voir U 2 comme étant la norme Euclidienne au carré de la projection du vecteur
aléatoire Gaussien G0 := (X1 , . . . , Xn1 , −Y1 + ∆, . . . , −Yn2 + ∆)> sur l’espace orthogonal à V =
vect(v1 , v2 ) (défini dans (10)). On en déduit par le Théorème de Cochran que :
— PV G0 et PV ⊥ G0 sont indépendantes,
— U 2 /σ 2 = kG0 k22 /σ 2 est distribuée selon une χ2 à n1 + n2 − 2 degrés de liberté.
Par ailleurs,
PV G0 , e1 + PV ⊥ G0 , en1 +1
Z= q
σ n−1
1 + n2
−1
donc Z est indépendant de U 2 et c’est un vecteur Gaussien (en tant que combinaison linéaire de
√
Gaussiennes) de moyenne nulle et de variance 1 (cf. Question 1). On en déduit que n1 + n2 − 2Z/(U/σ)
suit une loi de Student à n1 + n2 − 2 degrès de liberté.
4. On considère la statistique de test
s
n1 + n2 − 2 (Xn1 − Yn2 )
T = −1 −1
q .
n1 + n2 2
(n1 − 1)σ̂X,n + (n 2 − 1)σ̂ 2
1 Y,n2
Sous H0 , T suit une loi de student à n1 + n2 − 2 degrés de liberté. On construit donc un test de
niveau α avec (
H0 quand |T | ≤ tα
ϕα ((Xi )i , (Yi )i ) =
H1 sinon
où tα est le quantile d’ordre 1 − α/2 d’une loi de Student à n1 + n2 − 2 degrés de liberté.
5. La p-value du test est le plus petit α pour lequel le test rejette. Ici la p-value est donnée par
α̂ ∈ (0, 1) tel que tα̂ = T . Comme
s
13 + 14 − 2 25.97 − 25.38
T = √ = 1.222,
1/13 + 1/14 12 × 1.36 + 13 × 1.77
S(25)
on cherche α̂ tel que q1−α̂/2 = 1.222. On obtient α̂ ≈ 0.24. En particulier, pour les niveaux 1%,
5% et 10%, le test va accepter.
**********************
(e) Etudier la normalité asymptotique de (â, b̂). Cette question étant très calcula-
toire, on ne s’intéressera qu’à la démarche à suivre plus qu’au calcul effectif de
la matrice de covariance asymptotique. Pour les plus courageux, on ne demande
de calculer que la forme de la matrice de covariance asymptotique et de préciser
uniquement l’élément an haut à gauche de cette matrice.
2. Estimateur par maximum de vraisemblance.
(a) Donner l’estimateur (ã, b̃) maximisant la vraisemblance en (a, b).
(b) Soit > 0. Majorer P(a,b) [|ã − a| ≥ ]. En déduire la consistance de ã.
(c) Etudier la normalité asymptotique de ã.
3. Comparer les estimateurs â et ã de a.
**********************
C’est-à-dire
â = Xn − 3 X 2 − (Xn )2 = Xn − √3σ̂n
q
n
b̂ = X + 3 X 2 − (X )2 = X + √3σ̂ .
q
n n n n n
On considère la fonction
2 : y > x2 } −→
{(x, y) ∈ R !
R
φ: x p
−→ x − 3(y − x2 )
y
Comme !
Xn
â = φ ,
Xn2
la méthode Delta permet d’obtenir
! !!
√ √ Xn EX d
n â − a = n φ −φ −→ N 0, Σ̄
Xn2 EX 2
où !> !
EX EX
Σ̄ = ∇φ Σ∇φ
EX 2 EX 2
et ! p √ !
x 1 y − x2 + 3x
∇φ =p √ .
y y − x2 − 3/2
On pose σ 2 = EX 2 − (EX)2 = (b − a)2 /12. On a
! √ ! !
EX 1 2σ + 3(a + b) 1 2a + 4b
∇φ 2
= √ = .
EX 2σ − 3 b−a −3
On obtient donc
(a−b)2
!
b3 −b2 a−ba2 +a3
1
12 12
Σ̄ = 2a + 4b −3 × b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
(b − a)2 12 45
!
2a + 4b 2
b4 − 4b3 a + 6b2 a2 − 4ba3 + a4
× = 2
−3 15(b − a)
(e) Par le TCL (en dimension 2), on voit que (Xn , Xn2 )n converge en loi vers une Gaussienne
N (0, Σ) où
! !
var(X) cov(X, X 2 ) EX 2 − (EX)2 EX 3 − EXEX 2
Σ= =
cov(X, X 2 ) var(X 2 ) EX 3 − EXEX 2 EX 4 − (EX 2 )2
2 3 2 2 3
!
(a−b) b −b a−ba +a
= 12 12
b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
12 45
On considère la fonction
2 : y > x2 } −→ R2
{(x, y) ∈ R !
p !
Φ: x x − 3(y − x2 )
−→ p
y x + 3(y − x2 )
Comme ! !
â Xn
=Φ ,
b̂ Xn2
la méthode Delta permet d’obtenir
! !! ! !!
√ â a √ Xn EX d
n − = n Φ −Φ −→ N 0, Σ̃
b̂ b Xn2 EX 2
où !> !
EX EX
Σ̃ = ∇Φ Σ∇Φ
EX 2 EX 2
et ! p √ p √ !
x 1 y − x2 + 3x y − x2 − 3x
∇Φ =p √ √ .
y y − x2 − 3/2 3/2
On pose σ 2 = EX 2 − (EX)2 = (b − a)2 /12. On a
! √ √ ! !
EX 1 σ + 3(a + b) σ − 3(a + b) 1 2a + 4b −4a − 2b
∇Φ 2
= √ √ = .
EX σ − 3 3 b−a −3 3
On obtient donc
(a−b)2
! !
2a + 4b −3 b3 −b2 a−ba2 +a3
1 12 12
Σ̃ = × b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
(b − a)2 −4a − 2b 3 12 45
! !
2a + 4b −4a − 2b 2 b − 4b a + 6b a2 − 4ba3 + a4 ?
4 3 2
× = .
−6 6 15(b − a)2 ? ?
ã = min Xi et b̃ = max Xi
1≤i≤n 1≤i≤n
donc
d
n(ã − a) −→ E(1/(b − a))
où E(1/(b − a)) est une loi exponentielle de paramètre 1/(b − a).
√
3. la vitesse de convergence de â est en 1/ n alors que celle de ã est en 1/n. Ce dernier estimateur
est donc préférable à â.
8 Rattrapage 2016-2017
**********************
Exercice 8.1 (Test dans une urne)
Nous disposons d’une urne contenant 5 boules. Ces boules peuvent être rouges ou
blanches. On souhaite tester si les boules de l’urne sont toutes blanches ou toutes rouges.
On note par r le nombre de boules rouges dans l’urne ; on a donc 5 − r boules blanches.
On considère alors le problème de test
On tire deux boules de l’urne (avec ou sans remise) et on prend la décision suivante :
1. on accepte si les deux boules ont la même couleur
2. on rejette sinon.
On propose dans la suite d’étudier les propriétés de ce test dans les deux cas d’avec et
sans remise.
1. Quel est le risque de première espèce du test précédent dans les deux cas d’avec et
sans remise ?
2. quelle est le puissance du test quand le tirage se fait avec remise ?
3. quelle est le puissance du test quand le tirage se fait sans remise ?
**********************
2r(5 − r)
r ∈ {1, 2, 3, 4} 7−→
25
8 RATTRAPAGE 2016-2017 51
ENSAE Statistiques mathématiques
**********************
8 RATTRAPAGE 2016-2017 52
ENSAE Statistiques mathématiques
8 RATTRAPAGE 2016-2017 53
ENSAE Statistiques mathématiques
Ainsi la loi de
nX(1) , (n − 1)(X(2) − X(1) ), . . . , 2(X(n−1) − X(n−2) ), X(n) − X(n−1) (11)
P
a pour densité (y1 , . . . , yn ) → exp − ni=1 yi I(0 < yi : i = 1, . . . , n).
(b) On déduit de la question précédente que les coordonnées de (11) sont indépendante et comme
α̂n = X(1) et
n−1
X
(n − k) X(k+1) − X(k) = X(n) + · · · + X(2) − (n − 1)X(1) = n(X¯n − X(1) ) = nθ̂n
k=2
**********************
H0 : F = G contre H1 : F 6= G (12)
3. Soit α ∈ (0, 1). Construire un test de niveau asymptotique α ayant une zone de rejet
de la forme
√
R(cα ) = {z = ((xi , yi ))ni=1 : n|N̂ (z) − 1/2| > cα }
**********************
8 RATTRAPAGE 2016-2017 54
ENSAE Statistiques mathématiques
et comme Xi et Yi sont i.i.d. sous H0 , on a P[Xi > Yi ] = P[Xi < Yi ]. On en déduit que
P[Xi > Yi ] = 1/2 sour H0 .
2. Sous H0 , (I(Xi ) > Yi ))i est une famille de n variables de Bernoulli i.i.d. de paramètre 1/2. Donc
N̂ est une variable aléatoire multinomiale de paramètre 1/2 sous H0 .
3. Sous H0 , le TCL donne !
√ N̂ 1 d
2 n − −→ N (0, 1). (13)
n 2
N (0,1)
Ainsi pour cα = q1−α/2 /2, le test de zone de rejet R(cα ) est de niveau asymptotique α.
4. L’alternative est l’ensemble des couples de fonctions de répartition (F, G) telles que F et G
sont continues et F 6= G. Prenons pour F la fonction de répartition d’une variable aléatoire X
uniformément distribuée sur [−1, 0] ∪ [1, 2] et pour G la fonction de répartition d’une variable
aléatoire Y uniformément distribuée sur [0, 1]. On a donc bien F 6= G, F et G sont continues et
comme P[X > Y ] = P[X > 1] = 1/2, on aura aussi (13) dans ce cas et en particulier,
Donc le test n’est pas consistant : en au moins un point de l’alternative, la puissance ne tend pas
vers 1 quand n tend vers l’infini.
8 RATTRAPAGE 2016-2017 55