Exos Rappels Stats Ensae
Exos Rappels Stats Ensae
Exos Rappels Stats Ensae
Guillaume Lecué
27 août 2018
3 Tests 25
4 Modèle de régression 30
6 Rattrapage 2015-2016 42
8 Rattrapage 2016-2017 52
1 Rappels de probabilités
**********************
Exercice 1.1 (Théorème de la limite centrale)
Soit (Xn )n une suite de variables aléatoires i.i.d. centrées de variance σ 2 > 1. Soit
n
1 X
Zn = √ Xj .
σ n
j=1
Par le théorème de la limite centrale, cette variable converge en loi vers la loi normale
t2
centrée réduite, c’est-à-dire, pour tout t ∈ R, on a limn→+∞ E[eitZn ] = e− 2 . L’objet de cet
exercice est de montrer que la suite Zn ne peut pas converger en probabilité.
1. Calculer la fonction caractéristique de Z2n − Zn et montrer que cette différence
converge en loi.
2. En étudiant P(|Z2n − Zn | ≥ ), montrer que Zn ne converge pas en probabilité.
1
ENSAE Statistiques mathématiques
**********************
Correction de l’exercice 1.1 L’objectif de cet exercice est de manipuler les différents types de
convergence. On commence donc par rappeler les différentes convergences en probabilités. Soit (Xn )
une suite de variables aléatoires et X une autre variable aléatoire. On dit que :
— (Xn ) converge presque surement vers X quand {ω ∈ Ω : lim Xn (ω) = X(ω)} est de mesure 1 (on
vérifiera que cet ensemble est bien mesurable).
— (Xn ) converge en probabilité vers X quand pour tout > 0, P |Xn − X| ≥ → 0 quand n tend
vers +∞.
— (Xn ) converge en loi vers X quand pour toute fonction continue bornée f on a Ef (Xn ) → Ef (X).
— si p ≥ 1, on dit que (Xn ) converge dans Lp vers X quand E|Xn − X|p → 0 quand n tend vers
+∞.
On a les implications suivantes :
Il n’y a pas équivalence dans “(1) ⇒”. Voici une exemple d’une suite qui converge en probabilité
mais pas presque surement : (Xn ) des v.a. indépendantes telles que
1 1
P[Xn = 1] = et P[Xn = 0] = 1 − .
n n
La suite (Xn ) converge en probabilité vers 0 car pour tout n, on P[|Xn | > ] = P[Xn = 1] = 1/n. Mais
P
elle ne converge pas presque surement vers car on a n P({Xn = 1}) = ∞ donc d’après le “second
lemme de Borel-Cantelli” (les événements ({Xn = 1}) sont indépendants), on a P[limsupn {Xn = 1}] =
1. Notamment, (Xn ) ne converge pas presque surement vers 0.
Démo et contre-exemple de “(2) ” : Soit f une fonction continue bornée. Soit > 0 et N ∈ N
=⇒
tel que P |f (Xn ) − f (X)| ≥ ≤ (on rappel que si f est continue et (Xn ) converge en probabilité
vers X alors (f (Xn )) converge en probabilité vers f (X)). On a donc
Ef (Xn ) − Ef (X) ≤ E(f (Xn ) − f (X))I(|f (Xn ) − f (X)| ≥ )
+ E(f (Xn ) − f (X))I(|f (Xn ) − f (X)| < )
≤ 2 kf k∞ P |f (Xn ) − f (X)| ≥ + ≤ 2 kf k∞ + 1 .
La réciproque est trivialement fausse. Il suffit de prendre la suite stationnaire (Xn ) où pour tout n,
Xn = g où g est une gaussienne. Comme g est symmétrique, −g est aussi distribuée comme g. Donc
1 RAPPELS DE PROBABILITÉS 2
ENSAE Statistiques mathématiques
(Xn ) converge en loi vers g et donc aussi vers −g. Par contre |Xn − (−g)| = 2|g| ne converge pas en
probabilité vers 0. Donc (Xn ) ne converge par vers −g en probabilité.
Démo et contre-exemple de “(3) ⇑” : D’après l’inégalité de Markov, P |Xn − X ≥ | ≤
−p E|Xn − X|p . Pour le contre-exemple, on prend Xn de loi (n−1 δn2 + (1 − n−1 )δ0 ). On a P[|Xn | ≥
] ≤ n−1 donc (Xn ) converge en probabilité mais E|Xn | = n donc (Xn ) ne converge pas dans L1 vers
0.
Correction de l’exercice
1. Pour tout t ∈ R, on a par indépendance
it 1 n it 2n
X X
E exp(it(Z2n − Zn )) = E exp √ √ −1 Zj E exp √ Zj .
σ n 2 σ 2n
j=1 j=n+1
En appliquant le TCL sur chacun des membres du produit, quand n tend vers l’infini, on obtient
√
est t 7→ exp − t2 (2 − 2)/2 ,
que (Z2n − Zn )n tend vers une loi dont la fonction
p caractéristique
√
c’est donc une Gaussienne centrée de variance 2 − 2.
2. Supposons que (Zn ) converge en probabilité. Alors il existe une variable aléatoire Z telle que
pour tout > 0, on a P[|Zn − Z| > ] → 0. Soit > 0, on a
**********************
loi loi
1. Donner un exemple de suites (Xn ) et (Yn ) telles que Xn → X et Yn → Y , mais Xn + Yn
ne converge pas en loi vers X + Y .
2. Soient (Xn ), (Yn ) deux suites de variables aléatoires réelles, X et Y des variables
aléatoires réelles, telles que
loi P
(i) Xn → X et Yn → Y ,
(ii) Y est indépendante de (Xn ) et X.
Montrer que le couple (Xn , Yn ) converge en loi vers (X, Y ).
3. En déduire que si (Xn ) et (Yn ) sont deux suites de variables aléatoires réelles telles
que (Xn ) converge en loi vers une limite X et (Yn ) converge en probabilité vers une
constante c, alors (Xn + Yn ) converge en loi vers X + c et (Xn Yn ) converge en loi vers
c X.
1 RAPPELS DE PROBABILITÉS 3
ENSAE Statistiques mathématiques
**********************
On le démontre facilement, en utilisant le Théorème de Levy et en voyant que quand n tend vers
l’infini, pour tout t ∈ R,
2it Xn −it
1 it n
E exp √ δi − 1/2 = exp √ + exp √
n 2 n n
i=1
t2 t3 n −t2
= 1− + O 3/2 −→ exp .
2n n 2
Soit g une variable Gaussienne standard. Comme g est symmétrique, −g est aussi une Gaussienne
Standard. On a donc, (Xn ) converge en loi vers g et aussi (Xn ) converge en loi vers −g. Mais
(Xn + Xn ) converge en loi vers 2g 6= g + (−g) = 0. Cet exercice souligne le fait que la convergence
en loi est une convergence des lois de distribution et non des variables aléatoires elles mêmes.
2. On note par Cb (R) l’ensemble des fonctions continues bornées sur R. Pour montrer que (Xn , Yn )
converge en loi vers (X, Y ), il suffit de prouver que pour tout f, g ∈ Cb (R), on a Ef (Xn )g(Yn ) →
Ef (X)g(Y ) quand n tend vers l’infini. Par ailleurs, on sait que si (Yn ) converge en probablité
vers Y et si g est continue alors (g(Yn )) converge en probabilité vers g(Y ).
Soit f, g ∈ Cb (R) et > 0. Soit N ∈ N tel que pour tout n ≥ N ,
P |g(Yn ) − g(Y )| ≥ ≤ and Ef (Xn ) − Ef (X) ≤ .
3. Comme (Yn ) converge en probabilité vers Y = c p.p. qui est indépendante de toutes variables
aléatoires, on peut appliquer la question 2. : (Xn , Yn ) converge en probabilité vers (X, c).
Notamment, comme les applications somme et produit sont des fonctions continues de R2 dans
R, on voit que (Xn + Yn ) converge en loi vers X + c ainsi que (Xn Yn ) converge en loi vers cX.
**********************
1 RAPPELS DE PROBABILITÉS 4
ENSAE Statistiques mathématiques
**********************
Correction de l’exercice 1.3 Pour cet exercice, on va démontrer un résultat plus fort. On rappel
qu’une suite (Xn ) est équi-intégrable quand
lim sup E |Xn |I(|Xn | > a) = 0.
a→+∞ n∈N
Soit p ≥ 1 et (Xn ) une suite d’éléments de Lp . On montre que les deux assertions suivantes sont
équivalentes :
1. la suite (Xn ) converge dans Lp .
2. la suite (Xn ) converge en probabilité et la suite (|Xn |p ) est équi-intégrable.
b) implique a) : On montre d’abord que si (Yn ) est équi-intégrable alors elle est équi-continue :
càd pour tout > 0, il existe η > 0 tel que si P(A) ≤ η alors supn∈N E |Yn |1A ≤ . Soit > 0 et
a0 > 0 tel que pour tout a ≥ a0 et tout n ∈ N, E |Xn |I(|Xn | > a) ≤ . On a pour tout ensemble
mesurable A, tout n ∈ N et tout a ≥ a0 ,
E |Xn |1A = E |Xn |I(A ∩ {|Xn | ≤ a}) + E |Xn |I(A ∩ {|Xn | > a})
≤ aP(A) + E |Xn |I(|Xn | > a) ≤ aP(A) + .
Comme (|Xn |p ) est équi-continue, il existe η > 0 tel que pour tout A tel que P[A] ≤ η, on a
de Cauchy dans Lp , qui est complet, donc elle est convergente dans Lp .
a) implique b) : Par Markov, on a pour tout > 0,
Soit N ∈ N tel que pour tout n ≥ N , E|Xn − X|p ≤ /2p−1 . L’inégalité de Markov donne
où B majore uniformément la suite (E|Xn |p ) (qui est bien bornée vue que c’est une suite convergente).
Soit a0 > 0 tel que supn∈N P[|Xn |p > a0 ] ≤ η où η est tel que E |X|p 1A ≤ /2p−1 pour tout A tel que
E |Xn |p I(|Xn |p > a) ≤ 2p−1 E |Xn − X|p I(|Xn |p > a) + 2p−1 E |X|p I(|Xn |p > a) ≤ .
De plus, il est facile de voir que toute famille finie de variables aléatoires est équi-intégrable. C’est le
cas pour (Xn : 1 ≤ n ≤ N ).
1 RAPPELS DE PROBABILITÉS 5
ENSAE Statistiques mathématiques
**********************
**********************
Par convergence des deux membres, on peut passer à la limite et obtenir le résultat.
2. On utilise le lemme de Fatou pour fn = 1 − 1An = 1Acn . On a liminf n fn = 1liminf n Acn et
c
liminf n Acn = limsupn An donc
**********************
1. Le premier lemme de Borel-Cantelli dit que si (An ) est une suite d’événements telle
P
que n P[An ] < ∞ alors P[limsupn An ] = 0.
2. Le deuxième lemme de Borel-Cantelli dit que si (An ) est une suite d’événements
P
indépendants tels que n P[An ] = ∞ alors P[limsupn An ] = 1.
**********************
1 RAPPELS DE PROBABILITÉS 6
ENSAE Statistiques mathématiques
c
2. Comme limsupn An = liminf n Acn , il suffit de montrer que P[liminf n Acn ] = 0. On note Bn =
∩p≥n Ap . La suite (Bn ) est croissante et converge presque surement vers liminf n Acn . Alors, par
convergence monotone, P[Bn ] converge vers P[liminf n Acn ]. Par ailleurs, comme log(1 − x) ≤ −x
On en déduit le résultat.
**********************
**********************
Correction de l’exercice 1.6 On note αn = σ ∪p≥n σp et βn = σ ∪p<n σp . Les deux tribus αn et
βn sont indépendantes. Comme σ∞ ⊂ αn alorsσ∞ estindépendantes
de βn pour tout n. Notamment,
σ∞ est indépendante de ∪n∈N βn et donc de σ ∪n βn = σ ∪n σn = α0 . Or σ∞ ⊂ α0 donc σ∞ est
indépendante d’elle même. En particulier, si A ∈ σ∞ alors P[A] = P[A]P[A] donc P[A] ∈ {0, 1}.
**********************
**********************
Correction de l’exercice 1.7 On peut démontrer que (Yn ) converge en loi vers Y si et seulement si
pour tout Borélien A PY -continue (càd P[∂A] = 0), on a PYn [A] → PY [A].
Soit > 0. On a δc B(c, ) = 1. Alors PXn B(c, ) → δc (B(c, )) = 1. Donc P[|Xn − c| ≤ ] → 1.
**********************
1 RAPPELS DE PROBABILITÉS 7
ENSAE Statistiques mathématiques
**********************
Comme le membre de droite tend vers 0 quand n et m tendent vers +∞, on en déduit que le
membre de droite tend aussi vers 0 dans ce cas là, càd, d) est vrai.
2.1) Comme (Xn )n est une suite de Cauchy en probability, on peut construire par récurrence en
commençant à n1 = 1, une suite strictement croissante d’entiers (nj )j telle que
P[|Xnj − Xnj+1 | > 2−j ] < ∞, le lemmes de Borel-Cantelli dit que P[Ω0 ] = 0 où
P
Comme j
Ω0 = lim sup{|Xnj − Xnj+1 | > 2−j } = ∩j ∪k≥j |Xnk − Xnk+1 | > 2−j .
j→∞
Soit ω ∈ Ωc0 . La suite (Xnj (ω))j est une suite (de nombres réels) de Cauchy car pour tout j
suffisament grand et tout k > j, on a
X X 1
|Xnk (ω) − Xnj (ω)| ≤ |Xnp (ω) − Xnp+1 (ω)| ≤ = 2j−1 .
2p
p≥j p≥j
Ainsi, par complétude de R, on en déduit qu’il existe X(ω) tel que (Xnj (ω))j converge vers
X(ω). Ceci étant vrai pour tout ω ∈ Ωc0 et P[Ωc0 ] = 1, on en déduit que (Xnj )j converge presque
surement.
1 RAPPELS DE PROBABILITÉS 8
ENSAE Statistiques mathématiques
Comme (Xnj )j converge presque surement vers X, elle converge aussi en probabilité donc P[|Xnj −
X| ≥ /2] tends vers 0 quand j tends vers +∞. Par ailleurs, (Xn )n est de Cauchy en probability
donc quand n et j tendent vers +∞, P[|Xn − Xnj | ≥ /2] tends vers 0. En en déduit que
P[|Xn − X| ≥ ] tends vers 0 quand n tends vers +∞, càd (Xn )n converge vers X en probabilité.
3) On suppose que (Xn )n converge en probabilité vers X. Soit (Xnj )j une sous suite. Elle converge
donc aussi en probabilité vers X. D’après 2.1), c’est aussi une suite de Cauchy en probabilité et
donc elle admet une sous-suite qui converge presque surement vers X. Donc b) est vrai.
4.1) Dire que a) n’est pas vrai, c’est dire qu’il existe un > 0 et un δ > 0 et une sous-suite (nk )k
d’entiers tels que pour tout k,
P[|Xnk − X| ≥ ] ≥ δ. (1)
4.2) D’un autre côté, b) est vrai donc (Xnk )k admet une sous-suite qui converge presque surement
vers X. Ceci contredit (1).
**********************
**********************
Correction de l’exercice 1.9 On dit qu’une suite de v.a.r. (ζn ) est tendue quand pour tout > 0,
il existe M > 0 tel que pour tout n, P[|ζn | ≥ M ] ≤ . Si une suite converge en probabilité alors elle
est tendue. (Car on peut approcher la fonction I(· ∈ [−M , M ]) par une suite croissante de fonctions
continues bornées). Alors (rn (ζn − µ)) est tendue. Soit > 0 et M > 0 tels que supn∈N P[|ζn − µ| ≥
M /rn ] ≤ . Ce qui implique la convergence en probabilité car (rn ) tend vers +∞.
**********************
et soit Y une variable aléatoire dont la loi conditionnelle à X = x est uniforme sur [0, x] .
**********************
1 RAPPELS DE PROBABILITÉS 9
ENSAE Statistiques mathématiques
Donc la loi jointe du couple (X, Y ) a une densité donnée pour tout x, y ∈ R par
**********************
**********************
1 RAPPELS DE PROBABILITÉS 10
ENSAE Statistiques mathématiques
**********************
Soit σ ∈ P(n). Comme les Xi sont i.i.d., on voit que (Xσ(1) , . . . , Xσ(n) )> ∼ (X1 , . . . , Xn )> . Alors,
pour tout f ∈ Cb (Rn ),
Ef (Xσ(1) , . . . , Xσ(n) )I(Xσ(1) < · · · < Xσ(n) ) = Ef (X1 , . . . , Xn )I(X1 < · · · < Xn )
Z
= f (x1 , . . . , xn ) Πni=1 f (xi ) I(x1 < · · · < xn )dx1 · · · dxn .
Rn
On en déduit que la loi de (X(1) , . . . , X(n) ) admet une densité par rapport à Lebesgue donnée
par
f (x1 , . . . , xn ) = n! Πni=1 f (xi ) I(x1 < · · · < xn ).
2. On calcul la fonction de répartition de X(k) . Soit t ∈ R,
P[X(k) ≤ t] = P ∃I ⊂ {1, . . . , n} : |I| ≥ k, ∀i ∈ I, Xi ≤ t = P[M ≥ k]
n
!
X n
P[X(k) ≤ t] = F (t)j (1 − F (t))n−j .
j=k
j
Comme F est absoluement continue la cdf de X(k) l’est aussi. Donc X(k) admet une densité par
rapport à Lebesgues donnée par :
n
!
X n
jf (t)F (t)j−1 (1 − F (t))n−j + (n − j)F (t)j (−f (t))(1 − F (t))n−j−1
f (t) =
j=k
j
n!
= F (t)k−1 (1 − F (t))n−k .
(k − 1)!(n − k)!
Pour la fonction de répartition du couple (X(1) , X(n) ), on calcul la répartition du couple (X(1) , X(n) )
dans le quadrant inférieur droit. On a pour tout x, y réels :
On a :
P[X(1) > x, X(n) ≤ y] + P[X(1) ≤ x, X(n) ≤ y] = P[X(n) ≤ y] = F (y)n .
Alors,
n
F (x, y) = P[X(1) ≤ x, X(n) ≤ y] = F (y)n − I(x ≤ y) F (y) − F (x) .
∂2F n−2
f (x, y) = (x, y) = n(n − 1)I(x ≤ y)f (x)f (y) F (y) − F (x) .
∂x∂y
La loi de la statistique W = X(n) − X(1) est donnée par ce qui suit. Soit f ∈ Cb (R), on a
Z
Ef (W ) = f (y − x)dP(X(1) ,X(n) ) (x, y)
R2
Z
n−2
= n(n − 1) f (y − x)I(x ≤ y) F (y) − F (x) dxdy
R2
Z ∞ Z
n−2
= f (u) n(n − 1) F (u + x) − F (x) dx du.
0 R
**********************
k = 4. On note X̄n = n1 ni=1 Xi . Montrer que l’estimateur n1 ni=1 (Xi − X̄n )2 de la variance
P P
**********************
n n
1 X 2 1 X 2
σ̂n2 = Xi − Xi = X 2 n − X n .
n n
i=1 i=1
2
(On écrit σ̂n2 = EI XI − EI XI .)
c) On remarque d’abord que σ̂n2 n’est pas un estimateur sans biais de la variance :
1 X n 2 1 X
Eσ̂n2 = EX 2 − E Xi = EX 2 − 2 EXi Xj
n n
i=1 i,j
1 2 n − 1
= 1− EX 2 − EX = var(X).
n n
Par la LFGN, la suite (σ̂n2 ) converge presque surement vers σ 2 .
On considère la décomposition suivante :
√ √ √ 2
n σ̂n2 − σ 2 = n X 2 n − EX 2 − n X̄n .
Par le TCL, on a :
√ 2 2
n X 2 n − EX 2 N 0, E X 2 − EX 2 et E X 2 − EX 2 = µ4 − µ22 .
√
Par ailleurs, nX̄n converge en loi vers une Gaussienne et (X̄n ) converge en probabilité vers 0. Alors
√ 2
d’après Slutsky, n X̄n converge en loi vers 0, elle converge donc aussi en probabilité vers 0. On
√ 2
n X 2 n − EX 2 converge en loi vers N 0, E X 2 − EX 2
applique une seconde fois Slutsky : et
√ 2
n X̄n converge en probabilité vers 0. On en déduit que
√ 2
n σ̂n2 − σ 2 N 0, E X 2 − EX 2
.
**********************
**********************
Dans notre cas, on cherche à trouver g tel que (g(X̄n )) est asymptotiquement normal de moyenne
2
asymptotique 0 et de variance asymptotique θ(1 − θ) g 0 (θ) = 1. On est donc amener à résoudre
l’équation :
1
∀θ ∈ (0, 1), g 0 (θ) = p .
θ(1 − θ)
L’ensemble des solutions de cette équation est donnée, à une constante absolue additive près,
√
par g : θ ∈ [0, 1] 7→ 2arcsin( x) (on rappel que (arcsinx)0 = (1 − x2 )−1/2 , ∀x ∈ [−1, 1]). Cette
fonction est continûment différentiable en tout θ ∈ (0, 1), alors d’après Proposition 1.10 (voir
(2)), on a
√
n g(X̄n ) − g(θ) N (0, 1).
2
(On rappelle que g a été choisit tel que θ(1 − θ) g 0 (θ) = 1 pour tout θ ∈ (0, 1)).
3. Pour tout α[0, 2], le quantile d’ordre 1 − α/2 de la gaussienne est l’unique réel tel que P[g ∈
(−∞, qα ] = 1 − α/2. On a
h√ i
P θ ∈ Iˆn,α = P n g(X̄n ) − g(θ) ≤ zα −→ P[g ∈ [−zα , zα ]] = 1 − α
pour h zα zα i
Iˆn,α = sin2 g(X̄n ) − √ , sin2 g(X̄n ) + √
n n
**********************
Afin de modéliser ce phénomène, on suppose l’existence d’une variable aléatoire Yi∗ nor-
male, d’espérance m et de variance σ 2 , que l’on appellera « capacité de remboursement
de l’individu i », telle que : (
1 si Yi∗ > 0,
Yi =
0 si Yi∗ ≤ 0.
On note Φ la fonction de répartition de la loi normale N (0, 1).
1. Exprimer la loi de Yi en fonction de Φ.
2. Les paramètres m et σ 2 sont-ils identifiables ?
**********************
**********************
√
3. Donnez la loi asymptotique de n(θ̂n − θ).
4. Proposez un intervalle de confiance de niveau asymptotique 95% pour θ.
**********************
où Nn () est le nombre de génotypes dans l’échantillon {X1 , . . . , Xn }. On a pour tout θ ∈ (0, 1),
2n 1
L0 (θ) =
− 2Nn (AA) + Nn (Aa) .
θ θ(1 − θ)
Alors l’estimateur du maximum de vraisemblance est donné par
1
θ̂n = 1 − 2Nn (AA) + Nn (Aa) .
2n
Ici, on a θ̂n = 1 − 22/95 ≈ 0.77.
3. On peut appliquere le TCL ou la méthode générale du cours sur la normalité asymptpotique des
EMV. Pour le TCL, on a directement que
n θ − θ2
√ √ 1 X
n θ − θ̂n = n I(Xi = AA) + (1/2)I(Xi = Aa) − (1 − θ) N 0,
n 2
i=1
car
E I(X = AA) + (1/2)I(Z = Aa) = (1 − θ)2 + θ(1 − θ) = 1 − θ
et
2 3θ θ2
E I(X = AA) + (1/2)I(Z = Aa) = 1 − +
2 2
alors
θ − θ2
var(I(X = AA) + (1/2)I(Z = Aa)) = .
2
4. On applique la méthode Delta. On chercher une fonction g telle que pour tout θ ∈ (0, 1), on a :
θ − θ2
g 0 (θ)2 =1
2
√ √ √
alors g(θ) = 2 2arcsin( θ). On applique la méthode Delta : ( n(g(θ̂n ) − g(θ))) converge en loi
vers N (0, 1). Alors si P[|G| ≤ zα ] = 1 − α, où G est Gaussienne Standard, on aura, quand n tend
vers ∞, h √ √ i
P θ̂n ∈ g −1 g(θ) − zα / n, g(θ) + zα / n → 1 − α.
**********************
**********************
où Z est l’espace des observations, Z est la tribu sur l’espace des observations et {Pθ : θ ∈ Θ} est
le modèle : c’est l’ensemble des mesures de probabilités dont on suppose a priori que les données
sont issues.
Ici, on a Z = Rn qui est muni de sa tribu des Boréliens Z. Le modèle est donné par l’équation
d’autorégression : Xi = θXi−1 +ζi où ζi sont i.i.d. N (0, σ 2 ). Pour le modèle, on suppose connu σ 2 .
Ainsi le modèle est seulement paramétré par θ (sinon, il serait paramétré par (θ, σ 2 )). La loi Pθ est
X |X ,...,X1
donc la loi de (X1 , X2 , . . . , Xn ) sous l’hypothèse "AR(1)" de l’équation 3. On a Pθ i i−1 =
Xi |Xi−1
Pθ ∼ N (θXi , σ 2 ). On montre par récurrence que
(X1 ,...,Xn )
Pθ = Pθ = fθ .λ
où λ est la mesure de Lebesgues sur Rn et fθ est une fonction de densité définie sur Rn pour tout
(x1 , . . . , xn ) ∈ Rn par :
√ n−1
−n log σ 2π X12 X (Xi+1 − θXi )2
L(θ) = − 2+
2 2σ 2σ 2
i=1
et aussi
n−1 n−1 n−1
X −Xi (Xi+1 − θXi ) X X
L0 (θ) = = σ −2
θ Xi
2
− Xi i−1 .
X
σ2
i=1 i=1 i=1
n−1
X n−1
X
θ̂n = Xi Xi−1 / Xi2 .
i=1 i=1
**********************
Pour fixer vos tarifs publicitaires, vous voulez estimer le paramètre θ à partir d’un échan-
tillon X1 , . . . , Xn de n durées de connexion. On vous donne Eθ (Xi ) = 2θ et varθ (Xi ) = 2θ2 .
1. Calculez l’estimateur du maximum de vraisemblance θ̂n de θ.
2. Que vaut E(θ̂n ) ? Quelle est la variance de θ̂n ?
**********************
n
X n
L(θ) = −2n log θ + log Xi − X̄n ,
θ
i=1
où X̄n = n−1 Alors L0 (θ) = −2nθ−1 +nθ−2 X̄n et donc θ̂n ∈ argmaxθ>0 L(θ) = {(1/2)X̄n }.
P
i Xi .
1 EX 2 − (EX)2 2θ2
var(θ̂n ) = var(X1 ) = = .
4n 4n 4n
**********************
2. Calculer la probabilité pour que le système ne tombe pas en panne avant la date t.
En déduire la loi de la durée de vie Z du système. Calculer la probabilité pour que
la panne du système soit due à une défaillance de la machine 1.
3. Soit I = 1 si la panne du système est due à une défaillance de la machine 1, I = 0
sinon. Calculer P(Z > t; I = δ), pour tout t ≥ 0 et δ ∈ {0, 1}. En déduire que Z et I
sont indépendantes.
4. On dispose de n systèmes identiques et fonctionnant indépendamment les uns des
autres dont on observe les durées de vie Z1 , . . . , Zn .
(a) Écrire le modèle statistique correspondant. A-t-on suffisamment d’information
pour estimer λ1 et λ2 ?
(b) Si on observe à la fois les durées de vie des systèmes et la cause de la défaillance
(machine 1 ou 2), a-t-on alors suffisamment d’information pour estimer λ1 et λ2 ?
5. On considère maintenant un seul système utilisant une machine de type 1 et une
machine de type 2, mais on suppose que l’on dispose d’un stock de n1 machines
de type 1, de durées de vie X11 , . . . , X1n1 et d’un stock de n2 machines de type 2, de
durées de vie X21 , . . . , X2n2 . Quand une machine tombe en panne, on la remplace par
une machine du même type, tant que le stock de machines de ce type n’est pas
épuisé. Quand cela arrive, on dit que le système lui-même est en panne. On note
toujours Z la durée de vie du système. Le cas n1 = n2 = 1 correspond donc aux trois
premières questions.
(a) Montrer que la densité de la somme U de k variables indépendantes qui suivent
une loi exponentielle de même paramètre λ s’écrit, pour x ≥ 0 :
λk
fU (x) = xk−1 exp(−λx).
(k − 1)!
**********************
Réciproquement, si X est une v.a.r. telle que pour tout x > 0 ,1−FX (x) = P[X > x] = exp(−λx).
Alors X est portée sur R+ et comme FX est dérivable, X admet une densité donnée par FX0 càd
x 7→ λ exp(−λx)I(x > 0). C’est donc une variable exponentielle.
2. On note par Z la durée de vie du systéme. On a donc Z > t ssi X1 > t et X2 > t et donc par
indépendance
P[Z > t] = P[{X1 > t} ∩ {X2 > t}] = P[X1 > t]P[X2 > t] = exp − (λ1 + λ2 )t .
Donc Z ∼ E(λ1 + λ2 ). Par ailleurs, la machine sera en panne due à l’élément 1 quand X1 < X2 .
On calcul P[X1 < X2 ] :
Z
P[X1 < X2 ] = EI(X1 < X2 ) = I(x1 < x2 )fλ1 (x1 )fλ2 (x2 )dx1 dx2
R2+
Z ∞ Z ∞ Z ∞
= fλ1 (x1 ) fλ2 (x2 )dx2 dx1 = fλ1 (x1 ) exp(−λ2 x1 )dx1
0 x1 0
Z ∞ λ1
= λ1 exp − (λ1 + λ2 )x1 dx1 = .
0 λ1 + λ2
P[{Z > t} ∩ {I = 1}] = P[{X1 ∧ X2 > t} ∩ {X1 < X2 }] = P[t < X1 < X2 ]
Z ∞
λ1
= λ1 exp − (λ1 + λ2 )x1 dx1 = exp(−(λ1 + λ2 )t) = P[Z > t]P[I = 1]
t λ1 + λ2
Par symmétrie,
P[Z > t|I = 0] = P[X1 ∧ X2 > t|X1 > X2 ] = P[X1 > X2 > t]
λ2
= exp − (λ1 + λ2 )t = P[I = 0]P[Z > t].
λ2 + λ1
On en déduit que Z et I sont indépendantes.
4. a) Le modéle statistique est {E(λ1 + λ2 )⊗n : λ1 , λ2 > 0}. Ce modèle n’est pas identifiable en le
paramétre (λ1 , λ2 ).
4. b) On observe (X1i ∧ X2i , Ii ) ou Ii = 1 si X1i < X2i et Ii = 0 sinon. On peut estimer la moyenne de
Z par n−1 ni=1 Zi et on peut estimer la moyenne de I par n−1 ni=1 Ii . On peut donc estimer
P P
**********************
2. Quelle information donne la loi des grand nombres et le théorème centrale limite sur
le comportement asymptotique de θ̂n ?
3. On donne P(N > 1.64) = 5% pour N ∼ N (0, 1). En déduire n (dépendant de n et θ)
n→∞
tel que P(θ ≥ θ̂n + n ) → 5%.
4. La valeur n précédente dépend de θ. A l’aide du lemme de Slutsky, donner 0n ne
n→∞
dépendant que de n et θ̂n tel que P(θ ≥ θ̂n + 0n ) → 5%.
**********************
**********************
de grandeur que 1/n. On supposera donc par la suite que la proportion de composants
défectueux est θn = λ/n pour un certain λ > 0 et on cherche à estimer λ par λ̂n = nθ̂n . La
valeur λ est supposée indépendante de n (le cas intéressant est quand λ est petit).
1. Quelle est la limite de P(λ̂n = k) lorsque n → +∞ ? En déduire que λ̂n converge en loi
vers une variable de Poisson de paramètre λ.
2. On suppose qu’il y a une proportion θn = 3/n de composants défectueux. Sachant
que P(Z = 0) ≈ 5% pour Z de loi de Poisson de paramètre 3, montrer que P(θn >
θ̂n + 2/n) ≈ 5% pour n grand.
**********************
n! k n −k n − λ k
(n − λ)−k ∼ 1 + e
(n − k)! n−k n−k
qui converge bien vers 1. Donc λ̂n converge en loi vers une variable de Poisson de paramétre λ.
2. Comme λ̂n converge en loi vers une Poisson de paramétre 3. On a en particulier, quand n tend
vers l’infini,
P[θn > θ̂n + 2/n] = P[1 > λ̂n ] −→ P[Z = 0] ≈ 5%.
**********************
**********************
Correction de l’exercice 2.11 On rappelle les formules du cours pour le calcul de l’information de
Fisher :
In (θ) = nI1 (θ) = nEθ ∇θ log f (θ, X)∇ log f (θ, X)> = −nEθ ∇2θ log f (θ, X) = −n∇2a D(a, θ)|a=θ
où D(a, θ) = Eθ [log f (a, X)]. En utilisant une des trois formules précédentes, on obtient dans les
différents modèles :
1. modèle de Bernoulli :
n
In (θ) = .
θ(1 − θ)
L’EMV est ici la moyenne empirique et on vérifie bien qu’il est asymptotiquement normal de
variance asymptotique l’inverse de l’information de Fisher (grâce au TCL).
2. modèle Gaussien (moyenne et variance inconnues) :
!
n
v 0
In (m, v) = n
.
0 2v 2
normal (soit parce que le modèle est régulier, soit en appliquant le TCL, méthode Delta et Slutsky
en dimension 2) de variance asymptotique l’inverse de l’info de Fisher.
3. modèle uniforme : ce modèle n’est pas régulier – en particulier l’info de Fisher n’est pas défi-
nie (de manière classique). On peut néanmoins calculer, l’EMV qui est θbnmv = maxi Xi et son
comportement asymptotique en étudiant sa fonction de répartition :
1 n si x < 0
h n(θ − θb mv ) i h n(θ − Xi ) i
n x
Pθ > x = Pθ ∀i = 1, . . . , n : >x = 1− n quand 0 < x < n
θ θ
0 sinon
car pour tout i, sous Pθ , (θ − Xi )/θ ∼ U([0, 1]). Alors quand n → ∞, on obtient :
(
h n(θ − θb mv ) i 1 si x < 0
n
lim Pθ >x =
n→+∞ θ exp(−x) quand x > 0
donc
n(θ − θbnmv )
E(1)
θ
où E(1) est une loi exponentielle de paramètre 1.
**********************
L’objectif de cet exercice est de faire un lien entre “difficulté statistique” et distance
entre les mesures du modèle {P0 , P1 }, càd entre P0 et P1 au sens de la variation totale.
Plus précisément, si on souhaite estimer un paramètre θ0 associé à P0 et θ1 associé à P1
à partir d’une donnée de l’expérience (X , A, {P0 , P1 }) et que T V (P0 , P1 ) ≤ α alors on aura
pour tout estimateur θ̂ :
(θ0 − θ1 )2 1 − α
2
sup Ex (θ̂ − θx ) ≥ (5)
x∈{0,1} 4 2
(θ0 − θ1 )2
sup Ex (θ̂ − θx )2 ≥ sup Px (φ̂ 6= x) (7)
x∈{0,1} 4 x∈{0,1}
3) Montrer que
1 − T V (P0 , P1 )
sup Px (φ̂ 6= x) ≥ . (8)
x∈{0,1} 2
4) Prouver le “Le Cam’s two-points argument ”.
**********************
R R
et donc T V (P0 , P1 ) ≤ (1/2) |p0 − p1 |dν. On a donc bien T V (P0 , P1 ) = (1/2) |p0 − p1 |dν. On a aussi
R R
immédiatement que (1/2) |p0 − p1 |dν = 1 − min(p0 , p1 )dν.
2) Pour tout x ∈ {0, 1}, on a
(θ0 − θ1 )2
Ex (θ̂ − θx )2 ≥ Ex (θ̂ − θx )2 I(φ̂ 6= x) ≥ Px (φ̂ 6= x)
4
3 Tests
**********************
Exercice 3.1 (Test de Neyman-Pearson)
Chercher la région de rejet du test de Neyman-Pearson dans les cas suivants.
1. Loi exponentielle E(θ). Test de θ = θ0 contre θ = θ1 avec θ1 > θ0 .
2. Loi de Bernoulli B(θ). Test de θ = θ0 contre θ = θ1 pour θ1 > θ0 . Quel problème
rencontre-t-on dans ce cas ?
**********************
L(θ0 , (Xi )i ) X
= exp − (θ0 − θ1 ) Xi .
L(θ1 , (Xi )i )
i
3 TESTS 25
ENSAE Statistiques mathématiques
Le rapport de vraisemblance est donc une fonction croissante de X n (on a ici θ1 > θ0 ). Alors, le
test de Neyman-Pearson de niveau α est de la forme :
(
H0 quand X n ≥ tα
ϕα ((Xi )i ) =
H1 sinon
Le rapport de vraisemblance est donc une fonction décroissante de X n (on a ici θ1 > θ0 ). Alors,
le test de Neyman-Pearson de niveau α est de la forme :
(
H0 quand X n ≤ tα
ϕα ((Xi )i ) =
H1 sinon
**********************
3 TESTS 26
ENSAE Statistiques mathématiques
3. À l’aide du test de Wald, tester l’hypothèse que p = 1/2 contre l’alternative p 6= 1/2
(on donnera la forme de la région critique et la p-value du test). On suppose connues
les valeurs de la fonction de répartition de la loi normale standard.
**********************
et la log-vraisemblance est
p
`n (p, (Xi )i ) = log [#N − #D] + (#D − #N ) log 2 + n log[2p(1 − p)].
1−p
En étudiant la fonction de log-vraisemblance, on voit que la vraisemblance est maximale en
1 #N − #D
p̂n = +1 ,
2 n
qui est donc l’estimateur du maximum de vraisemblance. Par la loi forte des grands nombres, on
a:
#N #D
−→ p2 , et −→ (1 − p)2
n n→+∞ n n→+∞
et donc p̂n −→ p, càd p̂n est consistant. L’étude du comportement asymptotique de p̂n se
n→+∞
déduit du TCL :
n n
#N − #D 1X 1X
= I(Xi = N ) − I(Xi = D) := Zi
n n n
i=1 i=1
√
et n Z̄n − EZ1 N (0, Var Z1 ). On obtient alors :
√
√ n p(1 − p)
n p̂n − p = Z̄n − EZ1 N 0,
2 2
3. On considère le problème de test
1 1
H0 : p = contre H1 : p 6= .
2 2
3 TESTS 27
ENSAE Statistiques mathématiques
où tα est un seuil à choisir tel que le niveau asymptotique du test est α et la statistique du test
Tn est donnée ici par :
√
Tn = 8n|p̂n − 1/2|.
N (0,1)
Sous H0 , on a Tn N (0, 1). On prend alors tα = q1−α/2 .
Sous H1 , on a Tn −→ +∞ donc le test est consistant.
n→+∞
(rem. : le test de Wald utilise Tn2 pour statistique du test (ce qui fait intervenir une χ2 (1) en loi
limite). Mais, en dimension d = 1, on peut utiliser directement Tn , les deux tests sont identiques :
χ2 (1) N (0,1)
dans le premier cas la zone de rejet est Tn2 > q1−α et dans le deuxième cas elle vaut Tn > q1−α/2 .
Ces deux zones sont identiques.
√
Numériquement, on obtient p̂n = 0.5 ∗ ((112 − 12)/200 + 1) = 0.75 et Tn = 200 ∗ 8|0.75 − 1/2| =
10. La p-value est P[|g| > 10] qui est très petite ; on va donc rejeter avec confiance.
**********************
**********************
3. Pour avoir un niveau α ∈ (0, 1), il suffit de choisir c tel que Pθ=1 [maxi Xi > c] = α càd c =
(1 − α)1/n . Pour α = 0.05, on prend c = (0.95)1/n .
3 TESTS 28
ENSAE Statistiques mathématiques
4. Pour n = 20 et M = 0.96 la p-value vaut P1 [maxi Xi > 0.96] ≈ 0.56 : on va accepter H0 . Pour
M = 1.04, la p-value vaut P1 [maxi Xi > 1.04] = 0 on rejete donc avec un très haut niveau de
confiance (c’est normal de rejeter vu qu’au moins un des Xi est plus grand que 1).
**********************
**********************
N (0,1)
Sous p = 1/2 : Tn N (0, 1/4), on prend alors tα = qα /2.
3 TESTS 29
ENSAE Statistiques mathématiques
√
4. numériquement, on obtient 2Tn = 2 1919 922/1919 − 1/2 ≈ −1.712. La p-value du test est
P[g < −1.712] = 0.04 où g ∼ N (0, 1). On rejette donc l’hypothèse avec confiance. On en déduit
que les gens “peuvent retarder leur mort”.
4 Modèle de régression
**********************
Exercice 4.1 (Modèle de régression multiple)
On considère le modèle de regression multiple
y = Xθ + ξ, E[ξ] = 0, E[ξξ T ] = σ 2 In .
**********************
Alors ŷ = θ̂0 e+X θ̂ est la projection orthogonale de y sur vect(e, X (1) , · · · , X (k) ) où X (1) , · · · , X (k)
sont les vecteurs colonnes de X. En particulier, pour tout θ00 ∈ R, θ0 ∈ Rk , on a
4 MODÈLE DE RÉGRESSION 30
ENSAE Statistiques mathématiques
où X̄ = X̄ (1) , · · · , X̄ (k) .
2. ȳe est un élément de vect(e, X (1) , · · · , X (k) ). Comme ŷ est le projeté orthogonal de y sur cet
espace, on voit que y − ŷ est orthogonal à ȳe − ŷ. par Pythagore, on a
On a donc
2 kŷ − ȳek22
R = ≤ 1.
ky − ȳek22
1. R2 = 1 signifie que y est dans vect(e, X (1) , · · · , X (k) ) (modèle sans bruit).
2. R2 = 0 signifie que ŷ = ȳe. Donc y est orthogonal à vect(X (1) , · · · , X (k) ). Alors X (1) , · · · , X (k)
sont des mauvaises variables pour expliquer ou prédire y.
>
3. Soit Proj l’opérateur de projection sur vect(e, X (1) , · · · , X (k) ). On a Z θ̂0 , θ̂ = Proj(y). On a
> >
pour tout θ00 ∈ R, θ0 ∈ Rk , y − Z θ̂0 , θ̂ , Z θ00 , θ0
= 0. Par ailleurs,
> > > >
, Z θ00 , θ0 = Z > y − Z > Z θ̂0 , θ̂ , θ00 , θ0
y − Z θ̂0 , θ̂ .
>
Donc Z > y = Z > Z θ̂0 , θ̂ . Comme la matrice carrée Z > Z de taille k + 1 est de rang k + 1, elle
−1 > >
est de rang plein donc inversible. Alors Z > Z Z y = θ̂0 , θ̂ .
On peux aussi voir que
Alors, (θ̂0 , θ̂)> minimise la fonction convexe F (u) = ky − Zuk22 sur Rk+1 . Alors (θ̂0 , θ̂)> est
−1 > >
solution de F 0 (u) = 0 càd Z > (y − Zu) = 0. Donc Z > Z Z y = θ̂0 , θ̂ .
La matrice de covariance de Θ̂ := (θ̂0 , θ̂)> est donnée par
>
Σ = E Θ̂ − EΘ̂ Θ̂ − EΘ̂ .
Pour tout j = 0, . . . , k,
> −1 −1
= σ 2 e> >
ej = σ 2 Z > Z jj .
4 MODÈLE DE RÉGRESSION 31
ENSAE Statistiques mathématiques
−1 >
4. On a θ̃ = X > X X y càd, θ̃ est le projeté de y sur vect(X (1) , . . . , X (k) ). En général θ̃ 6= θ̂
sauf quand e est orthogonal à vect(X (1) , . . . , X (k) ).
¯ Dans ce modèle R2 n’a
/ vect(X (1) , . . . , X (k) ) alors on n’a pas e, y − ŷ = 0 donc ȳ 6= ŷ.
5. Si e ∈
pas de sens.
**********************
Y = X θ + ξ .
(n,1) (n,k)(k,1) (n,1)
**********************
Correction de l’exercice 4.2 On peut voir la régression Ridge, comme une relaxation de la mé-
thode MC dans le cas où les variables explicatives sont colinéaires (càd quand il y a de la redondance
d’information dans les variables explicatives). Pour définir l’EMC de manière unique, on a besoin que
−1 >
X > X soit inversible. Dans ce cas θM C = X > X X Y . Comme ker(X > X) = kerX, on a voit que
X > X est inversible si et seulement si les colonnes de X ne sont pas colinéaires. D’un point de vue sta-
tistiques, des colonnes de X linéairement dépendantes signifie qu’il y a de la redondance d’information
parmi les variables explicatives. Par ailleurs, quand X > X est inversible mais que son conditionement
(ratio plus grande valeur singulière sur plus petite valeur singulière) est grand alors un calcul effectif
de l’EMC est difficile. On va donc considérer, un estimateur qui “régularise” l’EMC ou “conditionne”
la matrice de Gram X > X. Pour cela, on va inverser X > X + λIk et ainsi considérer l’estimateur Ridge
−1 >
θ̂λ = X > X + λIk X Y.
Cet estimateur n’est plus sans biais mais il peut améliorer le risque quadratique de l’EMC. On peut
voir ça comme un compromis biais variance : on perd un peu sur l’espérance mais on gagne sur la
variance dans l’égalité
2 2
E θ̂λ = Eθ̂λ − Eθ + var(θ̂λ ).
4 MODÈLE DE RÉGRESSION 32
ENSAE Statistiques mathématiques
On doit aussi faire en sorte de bien choisir λ > 0. Ceci introduit le problème de la sélection de
paramétre en statistique (et notamment la méthode de validation croisée).
1. Quand k > n, la matrice X : Rk 7→ Rn a un noyau et comme ker(X > X) = kerX, la matrice X > X
n’est plus inversible. On sait que l’EMC est défini comme solution de l’équation X > X θ̂ = X > Y
qui admet une infinité de solution (un espace affine dirigé par ker(X > X)). L’EMC n’est donc
pas uniquement défini. On peut alors choisir parmi cet ensemble infini de solutions, une ayant
certaines propriétés supplémentaires. On va chercher celle ayant une petite norme 2.
2. On introduit la fonction
Cette fonction est strictement convexe et tend vers l’infini quand kθk2 tend vers l’infini donc elle
admet un unique minimum θ̂λ qui est solution de l’équation ∆F (θ̂λ ) = 0 càd −2X > (Y − X θ̂λ ) +
2λθ = 0. On a donc
−1 >
θ̂λ = X > X + λIk X Y.
qui est différent de θ en général. Alors l’ER est en général un estimateur biaisé. La matrice de
covariance est donnée par :
−1 −1
var(θ̂λ ) = (X > X + λk X > Eζζ > X(X > X + λk
−1 > −1
= σ 2 (X > X + λk X X(X > X + λk .
σ 2 / kXk22
1 2
2 2 2
−1 θ + 2 < σ / kXk2 (9)
1+µ 1+µ
4 MODÈLE DE RÉGRESSION 33
ENSAE Statistiques mathématiques
càd µ θ2 − σ 2 / kXk22 < 2 σ 2 / kXk22 . Si θ2 kXk22 > σ 2 alors pour tout λ tel que
2σ 2 kXk22
λ< ,
θ2 kXk22 − σ 2
le risque quadratique de l’ER est moindre que celui de l’EMC. Quand θ2 kXk22 < σ 2 alors pour
tout λ > 0, le risque quadratique de l’ER est moindre que celui de l’EMC.
Le ratio θ2 /σ 2 (et en général pour tout k, kθk22 /σ 2 ) est appelé le “signal sur bruit”. Quand il
est grand (θ2 /σ 2 > kXk−22 ), il faut choisir λ assez petit et quand il est petit, l’ER est toujours
meilleur (en terme de risque quadratique) que l’EMC pour n’importe quel λ.
**********************
Y = X θ + ξ .
(n,1) (n,k)(k,1) (n,1)
4. En passant au risques quadratiques E kθ̃ − θk2 et E kθ̂ − θk2 , en déduire que l’es-
timateur des MC est optimal dans la classe de tous les estimateurs linéaires sans
biais.
**********************
4 MODÈLE DE RÉGRESSION 34
ENSAE Statistiques mathématiques
2. On a ELY = LXθ. Pour que θ̃ = LY soit sans biais, il faut et il suffit que LXθ = θ. Ceci étant
vrai pour tout θ, on doit avoir LX = Ik .
3. Σ = E (θ̃ − θ)(θ̃ − θ)> = Lvar(Y )L> = σ 2 LL> . Comme LX = Ik , on a :
−1 >
∆X = LX − X > X X X = Ik − Ik = 0
4. On a
2 Xk k
X
θ̃ − θ
= 2
(θ̃j − θj ) = e> >
j (θ̃ − θ)(θ̃ − θ) ej
2
j=1 j=1
alors
2 Xk
E
θ̃ − θ
= ej var(θ̃)ej
2
j=1
2 P
de même E
θ̂ − θ
= kj=1 ej var(θ̂)ej . Mais d’après 3., on a var(θ̃) var(θ̂). Notamment, pour
2
tout j, e> >
j var(θ̃)ej ej var(θ̂)ej . On a donc
2
2
E
θ̃ − θ
≥ E
θ̂ − θ
.
2 2
**********************
4 MODÈLE DE RÉGRESSION 35
ENSAE Statistiques mathématiques
On montre que
−1
t̂ = A> A + λId A> y (13)
L’intérêt de la dernière formule est que si n < d alors il est plus facile d’inverser la matrice
AA> + λIn de taille n × n que la matrice A> A + λId de taille d × d.
1. Montrer que pour toute matrice P telle que I + P est inversible, on a (I + P )−1 =
I − (I + P )−1 P .
2. Montrer que pour toutes matrices P et Q telles que I + P Q et I + QP sont inversibles,
on a (I + P Q)−1 P = P (I + QP )−1 .
3. En utilisant la première question, montrer que
**********************
4 MODÈLE DE RÉGRESSION 36
ENSAE Statistiques mathématiques
4. On sait déjà que I + A−1 U CV est inversible. On a I + CV A−1 U = C(C −1 + V A−1 U ) et donc
I + CV A−1 U est le produit de deux matrices inversibles, elle est donc elle-même inversible. On
applique la relation de la deuxième question à P = A−1 U et Q = CV :
(A + U CV )−1 = A−1 − (I + A−1 U CV )−1 A−1 U CV A−1 = A−1 − A−1 U (I + CV A−1 U )−1 CV A−1
= A−1 − A−1 U (C −1 + V A−1 U )−1 V A−1 .
**********************
1. Soit θ > 0. L’information de Fisher contenue dans un n-échantillon vaut n fois celle contenue
dans une seule donnée : In (θ) = nI1 (θ). L’information de Fisher dans une donnée est :
2 h −1 X 2 2 i Var X 2 1
I1 (θ) = Eθ ∂θ log f (θ, X) = Eθ + 2 = 4
= 2.
2θ 2θ 4θ 2θ
2. La fonction de vraisemblance en θ > 0 est
−1 X n
1 n/2 2
L θ, (Xi )i = exp − Xi
2πθ 2θ
i=1
et donc la log-vraisemblance est
n
n 1 X 2
`n θ, (Xi )i = − log(2πθ) − Xi .
2 2θ
i=1
3. la biais de θbnmv est b(θ) = Eθ θbnmv −θ = Eθ X12 − θ = 0 (car EX1 = 0 donc Var X1 = EX12 ). Son
risque quadratique est
n 2 Var X 2
1 X 2θ2
Rθ (θbnmv ) = Eθ (θbnmv −θ)2 = Eθ Xi2 − θ = 1
= .
n n n
i=1
**********************
**********************
Comme x = EX est l’unique zéro de F , on est naturellement amené à considérer une méthode
de Newton stochastique :
xk+1 = xk − ηn (xk − Xk+1 ).
xn est donc un estimateur on-line de la moyenne.
**********************
H0 : µ1 = 0 contre H1 : µ1 6= 0
**********************
2. On voit que le gradient de la log-vraisemblance admet un seul et unique zéro donné par X m
Xm m n m n
1 X 1X 1 hX 2
X
2
i
Yn où X = X , Y = Y et v̂ = (X − X ) + (Y − Y ) .
m i n j i m j n
m n n+m
v̂ i=1 j=1 i=1 j=1
Donc le point (X m , Y n , v̂) est un maximum local. Par ailleurs, il n’y a qu’un seul maximum local,
c’est donc un maximum global. C’est donc l’EMV.
3. La densité (par rapport à la mesure de Lebesgue sur R2 ) du couple (X, Y ) est
1 −(x − µ )2 1 −(y − µ )2
1 2
f (µ1 , µ2 , v), (x, y) = √ exp √ exp
2πv 2v 2πv 2v
1 −1
(x − µ1 )2 + (y − µ2 )2 .
= exp
2πv 2v
La matrice d’information de Fisher en (µ1 , µ2 , v) pour une observation (X1 , Y1 ) est donnée par
>
I1 (µ1 , µ2 , v) = E(µ1 ,µ2 ,v) ∇ log f (µ1 , µ2 , v), (X, Y ) ∇ log f (µ1 , µ2 , v), (X, Y )
= −E(µ1 ,µ2 ,v) ∇2 log f (µ1 , µ2 , v), (X, Y )
1
v 0 0
= 0 v1 0
0 0 v12
4. Le modèle étant régulier, l’EMV est asymptotiquement normal de matrice de covariance asymp-
totique égale à l’inverse de la matrice d’information de Fisher :
Xm µ1 v 0 0
√
N3 0, I1 (µ1 , µ2 , v)−1 = N3 0, 0 v 0
n Y n − µ2
v̂ v 0 0 v2
√ p.s.
5. On a n X m −µ1 N (0, v) et v̂ −→ v alors par le lemme de Slutsky,
√
n X m −µ1
√ N (0, 1).
v̂
On considère le test (
H0 si Tn ≤ tα
ϕα =
H1 sinon
N (0,1)
où tα = q1−α/2 et
√
n| X m |
Tn = √ .
v̂
Le test est de niveau asymptotique α car sous H0 , Tn converge en loi vers |g| où g ∼ N (0, 1) et,
il est consistant, car sous H1 , Tn tends vers +∞ p.s..
**********************
**********************
6 Rattrapage 2015-2016
**********************
Exercice 6.1 (Modèle d’uniforme perturbées)
i.i.d.
Soit le modèle d’échantillonnage X1 , . . . , Xn ∼ Pθ pour θ ∈] − 1, 1[ où Pθ est une loi
admettant une densité par rapport à la mesure de Lebesgue donnée par
dPθ
f (θ, x) = (x) = (1 − θ)I(−1/2 < x < 0) + (1 + θ)I(0 < x < 1/2).
dλ
On pose
n
X
Yn = card{i : Xi > 0} = I(Xi > 0).
i=1
a) Préliminaires
1. Donner l’expérience statistique associée à ces données.
2. Calculer Pθ ([0, 1/2]), la moyenne Eθ X1 et la variance Var(X1 ).
3. Donner la loi de Yn , sa moyenne et sa variance.
4. Vérifier que
f (θ, x) = (1 − θ)1−I(0<x<1/2) (1 + θ)I(0<x<1/2) .
6 RATTRAPAGE 2015-2016 42
ENSAE Statistiques mathématiques
H0 : θ = 0 contre H1 : θ = 1/2
H0 : θ = 0 contre H1 : θ 6= 0
**********************
2.
0 1/2
1 θ2
Z Z
1+θ θ
Pθ ([0, 1/2]) = , Eθ X1 = (1−θ) xdx+(1+θ) xdx = et Varθ (X1 ) = −
2 −1/2 0 4 12 16
3. Yn est le nombre de succès dans une expérience de n réalisation d’une binomiale de moyenne
P[X1 > 0] = (1 + θ)/2. C’est donc une multinomiale de paramètre M(n, (1 + θ)/2) càd pour
tout 0 ≤ k ≤ n, on a
n 1 + θ k 1 − θ n−k
P[Yn = k] =
k 2 2
On au aussi Eθ Yn = n(1 + θ)/2 et Varθ Yn = n(1 − θ2 )/4.
6 RATTRAPAGE 2015-2016 43
ENSAE Statistiques mathématiques
4. On vérifie directement l’égalité en regardant les cas −1/2 < x < 0 et 0 < x < 1/2. La
vraisemblance s’obtient alors comme suit :
n
Y 1 + θ Yn
L(θ, (Xi )i ) = (1 − θ)1−I(0<Xi <1/2) (1 + θ)I(0<Xi <1/2) = (1 − θ)n .
1−θ
i=1
5. L’information de Fisher d’un n-échantillon est In (θ) = nI1 (θ) et celle contenue dans une
seule donnée est
I1 (θ) = Eθ (∂θ log f (θ, X))2
où log f (θ, x) = log(1 − θ)I(−1/2 < x < 0) + log(1 + θ)I(0 < x < 1/2). Alors
−1 1
∂θ log f (θ, x) = I(−1/2 < x < 0) + I(0 < x < 1/2).
1−θ 1+θ
Donc
h1 1 i
I1 (θ) = Eθ I(−1/2 < X < 0) + I(0 < X < 1/2)
(1 − θ)2 (1 + θ)2
1 1
= P(−1/2 < X < 0) + P(0 < X < 1/2)
(1 − θ)2 (1 + θ)2
1 1−θ 1 1+θ 1 1 1
= 2
+ 2
= + = .
(1 − θ) 2 (1 + θ) 2 2(1 − θ) 2(1 + θ) 1 − θ2
On a donc In (θ) = n/(1 − θ2 ).
b) 1. On a Pθ [X1 > 0] = (1 + θ)/2. L’estimateur des moments d’ordre 1 est θ̂ tel que Yn /n =
(1 + θ̂)/2 càd
Yn
θ̂ = 2 − 1.
n
2. D’après la question 4 de la partie précédente, la log-vraisemblance est
1 + θ
θ ∈] − 1, 1[7→ n log(1 − θ) + Yn log ,
1−θ
elle est maximale en θbnmv = 2(Yn /n) − 1.
3. Eθ θbnmv = 2P[X > 0] − 1 = θ ; donc θbnmv est sans biais. La variance de l’estimateur est ici
égale à son risque quadratique et on a :
Varθ (θbnmv ) = (4/n) Varθ (I(X > 0)) = (4/n)Pθ [X > 0]Pθ [X < 0] = (1 − θ2 )/n.
p.s. p.s.
De plus, la loi forte des grands nombres dit que Yn −→ Pθ [X > 0] donc θbnmv −→ θ. Donc
θbnmv est un estimateur fortement consistant.
4. Si θ̂ est un estimateur sans bias de θ alors la borne de Cramer-Rao dit que son risque
quadratique vérifie Rθ (θ̂) ≥ In (θ)−1 = (1 − θ2 )/n. Par ailleurs, le risque quadratique de θbnmv
vaut aussi (1 − θ2 )/n (et θbnmv est sans biais), donc θbnmv atteint bien la borne de Cramer-Rao
parmi tous les estimateurs sans biais.
5. On écrit θb mv comme une moyenne empirique : θb mv = 1 n (2I(Xi > 0) − 1). On applique
P
n n n i=1
le TCL :
√
n θbnmv −θ N (0, Varθ (2I(X > 0) − 1)) = N (0, 1 − θ2 )
car Varθ (2I(X > 0) − 1) = 4 Varθ (I(X > 0)) = 4Pθ [X > 0]Pθ [X < 0] = 1 − θ2 .
6 RATTRAPAGE 2015-2016 44
ENSAE Statistiques mathématiques
Cette condition n’est pas toujours satisfaite car Yn est une variable aléatoire discrète.
√
2. D’après le TCL, sous H0 , n Yn /n − 1/2 N (0, 1/4). Il suffit alors de fixer le seuil dans
√ N (0,1)
le test précédent tel que 2 n tα − 1/2 = q1−α pour avoir un test de niveau asymptotique
p.s.
α. Sous H1 , Yn /n −→ 3/4, on en déduit que la puissance du test tends vers 1. Donc le test
est consistant.
3. On considère ( √
H0 si n| θbnmv | ≤ tα
ϕα =
H1 sinon
N (0,1) √ √ p.s.
où tα = q1−α/2 . Sous H0 , n| θbnmv | |g| où g ∼ N (0, 1) et sous H1 , n| θbnmv | −→ +∞.
Donc le test est de niveau asymptotique α et il est consistant.
d) 1. On note δi la variable aléatoire indiquant la présence de perturbation dans l’observation i,
càd δi = 1 avec probabilité θ et 0 sinon. Par hypothèse les δi sont i.i.d. B(θ) et indépendantes
de Ui . La loi de X1 est donnée par : si f est une fonction continue à support compact sur R
alors
Z 1/2
Ef (X1 ) = Ef (|Ui |)δi + f (Ui )(1 − δi ) = Ef (|Ui |)θ + f (Ui )(1 − θ) = f (|u|)θ + f (u)(1 − θ) du
−1/2
Z 1/2 Z 1/2 Z 0 Z 1/2
= 2θ f (u)du + f (u)(1 − θ)du = (1 − θ) f (u)du + (1 + θ) f (u)du.
0 −1/2 −1/2 0
6 RATTRAPAGE 2015-2016 45
ENSAE Statistiques mathématiques
**********************
**********************
2. On note
1n 2 n
2 1 X 1 X
σ̂X,n = (Xi − Xn1 )2 et σ̂Y,n
2
= (Yi − Yn2 )2
1
n1 − 1 2
n2 − 1
i=1 i=1
U 2 = (n1 − 1)σ̂X,n
2
1
2
+ (n2 − 1)σ̂Y,n 2
.
3. On introduit √
n1 + n2 − 2Z Xn − Yn2 + ∆
T = où Z = q1 .
U/σ σ n−1 + n −1
1 2
H0 : ∆ = 0 contre H1 : ∆ 6= 0.
2 2
Xn1 = 25.97, σ̂X,n 1
= 1.36, Yn2 = 25.38, and σ̂X,n 1
= 1.77.
Calculer la p-value du test. Faut-il rejeter aux niveaux usuels 1%, 5% et 10%.
On rappelle quelques valeurs de la fonction de répartition d’une loi de Student à 25 degrés
de liberté. On note F (t) = P[X ≤ t] quand X suit une loi de Student à 25 degrés de liberté.
**********************
et donc PV ⊥ G = G − PV G = (X1 − Xn1 , . . . , Xn1 − Xn1 , Y1 − Yn2 , . . . , Yn2 − Yn2 ). On a donc bien
U 2 = kPV ⊥ Gk22 . Par ailleurs, V ⊥ est un espace vectoriel de dimension n1 + n2 − 2 donc, d’après
le théorème de Cochran, U 2 /σ 2 est distribuée selon une χ2 à n1 + n2 − 2 degrés de liberté.
3. On peut aussi voir U 2 comme étant la norme Euclidienne au carré de la projection du vecteur
aléatoire Gaussien G0 := (X1 , . . . , Xn1 , −Y1 + ∆, . . . , −Yn2 + ∆)> sur l’espace orthogonal à V =
vect(v1 , v2 ) (défini dans (15)). On en déduit par le Théorème de Cochran que :
— PV G0 et PV ⊥ G0 sont indépendantes,
— U 2 /σ 2 = kG0 k22 /σ 2 est distribuée selon une χ2 à n1 + n2 − 2 degrés de liberté.
Par ailleurs,
PV G0 , e1 + PV ⊥ G0 , en1 +1
Z= q
σ n−1
1 + n2
−1
donc Z est indépendant de U 2 et c’est un vecteur Gaussien (en tant que combinaison linéaire de
√
Gaussiennes) de moyenne nulle et de variance 1 (cf. Question 1). On en déduit que n1 + n2 − 2Z/(U/σ)
suit une loi de Student à n1 + n2 − 2 degrès de liberté.
Sous H0 , T suit une loi de student à n1 + n2 − 2 degrés de liberté. On construit donc un test de
niveau α avec (
H0 quand |T | ≤ tα
ϕα ((Xi )i , (Yi )i ) =
H1 sinon
où tα est le quantile d’ordre 1 − α/2 d’une loi de Student à n1 + n2 − 2 degrés de liberté.
5. La p-value du test est le plus petit α pour lequel le test rejette. Ici la p-value est donnée par
α̂ ∈ (0, 1) tel que tα̂ = T . Comme
s
13 + 14 − 2 25.97 − 25.38
T = √ = 1.222,
1/13 + 1/14 12 × 1.36 + 13 × 1.77
S(25)
on cherche α̂ tel que q1−α̂/2 = 1.222. On obtient α̂ ≈ 0.24. En particulier, pour les niveaux 1%,
5% et 10%, le test va accepter.
**********************
**********************
C’est-à-dire
â = Xn − 3 X 2 − (Xn )2 = Xn − √3σ̂n
q
n
b̂ = X + 3 X 2 − (X )2 = X + √3σ̂ .
q
n n n n n
On considère la fonction
2 : y > x2 } −→
{(x, y) ∈ R !
R
φ: x p
−→ x − 3(y − x2 )
y
Comme !
Xn
â = φ ,
Xn2
la méthode Delta permet d’obtenir
! !!
√ √ Xn EX d
n â − a = n φ −φ −→ N 0, Σ̄
Xn2 EX 2
où !> !
EX EX
Σ̄ = ∇φ Σ∇φ
EX 2 EX 2
et ! p √ !
x 1 y − x2 + 3x
∇φ =p √ .
y y − x2 − 3/2
On pose σ 2 = EX 2 − (EX)2 = (b − a)2 /12. On a
! √ ! !
EX 1 2σ + 3(a + b) 1 2a + 4b
∇φ 2
= √ = .
EX 2σ − 3 b−a −3
On obtient donc
(a−b)2
!
b3 −b2 a−ba2 +a3
1
12 12
Σ̄ = 2a + 4b −3 × b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
(b − a)2 12 45
!
2a + 4b 2
b4 − 4b3 a + 6b2 a2 − 4ba3 + a4
× = 2
−3 15(b − a)
(e) Par le TCL (en dimension 2), on voit que (Xn , Xn2 )n converge en loi vers une Gaussienne
N (0, Σ) où
! !
var(X) cov(X, X 2 ) EX 2 − (EX)2 EX 3 − EXEX 2
Σ= =
cov(X, X 2 ) var(X 2 ) EX 3 − EXEX 2 EX 4 − (EX 2 )2
2 3 2 2 3
!
(a−b) b −b a−ba +a
= 12 12
b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
12 45
On considère la fonction
2 : y > x2 } −→ R2
{(x, y) ∈ R !
p !
Φ: x x − 3(y − x2 )
−→ p
y x + 3(y − x2 )
Comme ! !
â Xn
=Φ ,
b̂ Xn2
la méthode Delta permet d’obtenir
! !! ! !!
√ â a √ Xn EX d
n − = n Φ −Φ −→ N 0, Σ̃
b̂ b Xn2 EX 2
où !> !
EX EX
Σ̃ = ∇Φ Σ∇Φ
EX 2 EX 2
et ! p √ p √ !
x 1 y − x2 + 3x y − x2 − 3x
∇Φ =p √ √ .
y y − x2 − 3/2 3/2
On pose σ 2 = EX 2 − (EX)2 = (b − a)2 /12. On a
! √ √ ! !
EX 1 σ + 3(a + b) σ − 3(a + b) 1 2a + 4b −4a − 2b
∇Φ 2
= √ √ = .
EX σ − 3 3 b−a −3 3
On obtient donc
(a−b)2
! !
2a + 4b −3 b3 −b2 a−ba2 +a3
1 12 12
Σ̃ = × b3 −b2 a−ba2 +a3 4b4 −b3 a−6b2 a2 −ba3 +4a4
(b − a)2 −4a − 2b 3 12 45
! !
2a + 4b −4a − 2b 2 b − 4b a + 6b a2 − 4ba3 + a4 ?
4 3 2
× = .
−6 6 15(b − a)2 ? ?
ã = min Xi et b̃ = max Xi
1≤i≤n 1≤i≤n
donc
d
n(ã − a) −→ E(1/(b − a))
8 Rattrapage 2016-2017
**********************
8 RATTRAPAGE 2016-2017 52
ENSAE Statistiques mathématiques
On tire deux boules de l’urne (avec ou sans remise) et on prend la décision suivante :
1. on accepte si les deux boules ont la même couleur
2. on rejette sinon.
On propose dans la suite d’étudier les propriétés de ce test dans les deux cas d’avec et
sans remise.
1. Quel est le risque de première espèce du test précédent dans les deux cas d’avec et
sans remise ?
2. quelle est le puissance du test quand le tirage se fait avec remise ?
3. quelle est le puissance du test quand le tirage se fait sans remise ?
**********************
8 RATTRAPAGE 2016-2017 53
ENSAE Statistiques mathématiques
**********************
**********************
8 RATTRAPAGE 2016-2017 54
ENSAE Statistiques mathématiques
Par indépendance, on a
n n(t − α)
P[α̂n ≥ t] = P[X1 ≥ t] = exp − I(t ≥ α).
θ
Alors α̂n suit une loi expo de paramètre θ/n et translatée α. Donc n(α̂ − α) est une loi expo de
paramètre θ (et translatée nulle).
3. Si X ∼ f alors EX = θ + α et EX 2 = α2 + 2θα + 2θ2 . On a
√ √ 1 h i
n θ̂n − θ = n X̄n − (θ + α) − √ n(min Xi − α) .
n i
√
On voit que n−1/2 n(mini Xi − α) converge en probabilité vers 0 et par le TCL
n X̄n −
(θ + α) converge en loi vers N (0, var(X1 )) où var(X1 ) = θ2 . Par Slutsky, on en déduit que
√
N (0, θ2 ).
n θ̂n − θ
Ainsi la loi de
nX(1) , (n − 1)(X(2) − X(1) ), . . . , 2(X(n−1) − X(n−2) ), X(n) − X(n−1) (16)
P
a pour densité (y1 , . . . , yn ) → exp − ni=1 yi I(0 < yi : i = 1, . . . , n).
8 RATTRAPAGE 2016-2017 55
ENSAE Statistiques mathématiques
(b) On déduit de la question précédente que les coordonnées de (16) sont indépendante et comme
α̂n = X(1) et
n−1
X
(n − k) X(k+1) − X(k) = X(n) + · · · + X(2) − (n − 1)X(1) = n(X¯n − X(1) ) = nθ̂n
k=2
**********************
H0 : F = G contre H1 : F 6= G (17)
3. Soit α ∈ (0, 1). Construire un test de niveau asymptotique α ayant une zone de rejet
de la forme
√
R(cα ) = {z = ((xi , yi ))ni=1 : n|N̂ (z) − 1/2| > cα }
pour un bon choix de cα .
4. On dit qu’un test est consistant quand sa fonction puissance tend vers 1 quand n
tend vers l’infini. Montrer que le test construit dans la question précédente n’est pas
consistant.
**********************
et comme Xi et Yi sont i.i.d. sous H0 , on a P[Xi > Yi ] = P[Xi < Yi ]. On en déduit que
P[Xi > Yi ] = 1/2 sour H0 .
2. Sous H0 , (I(Xi ) > Yi ))i est une famille de n variables de Bernoulli i.i.d. de paramètre 1/2. Donc
N̂ est une variable aléatoire multinomiale de paramètre 1/2 sous H0 .
8 RATTRAPAGE 2016-2017 56
ENSAE Statistiques mathématiques
Donc le test n’est pas consistant : en au moins un point de l’alternative, la puissance ne tend pas
vers 1 quand n tend vers l’infini.
1. Vérifier que pour tout θ > 0, f (θ, ·) est bien une densité sur R par rapport à la mesure
de Lebesgue λ. Si X est distribuée selon f (θ, ·).λ, calculer Eθ X 2 .
2. Expliciter l’estimateur du maximum de vraisemblance θ̂n de θ. Montrer qu’il est sans
biais et consistant.
3. Calculer la variance de l’estimateur θ̂n (on rappelle que Eg 4 = 3 pour g ∼ N (0, 1)).
4. On admettra que le modèle statistique en question est régulier. Calculer l’information
de Fisher associée à ce modèle. Comparer la avec la variance de θ̂n . Conclusion ?
Mettre ce résultat en perspective avec la Borne de Cramer-Rao.
√
5. Déterminer la loi limite quand n → ∞ de n(θ̂n − θ).
6. Soit α ∈]0, 1[. Proposer un test de niveau asymptotique α de l’hypothèse H0 : θ < 3
contre l’alternative H1 : θ > 3.
7. Déterminer la loi de probabilité de la variable aléatoire 2X12 /θ. En déduire que la
loi de la variable aléatoire ζ = m2 /θ ne depend pas de θ où on note m2 le moment
empirique d’ordre 2 associé à l’échantillon X1 , . . . , Xn , càd m2 = (1/n) ni=1 Xi2 .
P
8. Déterminer les réels a et b tels que [m2 /a, m2 /b] soit un intervalle de confiance de
niveau non-asymptotique 1 − α pour θ.
**********************
De plus, si X a pour densité f (θ, ·) pour un certain θ > 0 alors, après un changement de variable
p
(u = x 2/θ), on voit que
2x2
Z
θ
Eθ X 2 = √ exp − x2 /θ dx = .
x>0 πθ 2
Pour tout θ > 0, les Xi sont presque sûrement positifs sous Pθ alors mini Xi > 0 p.s. et donc La
log-vraisemblance est ici :
n
−n 1X 2
`n (θ, (Xi )i ) = log(πθ) + n log 2 − Xi .
2 θ
i=1
En étudiant, cette fonction en θ > 0, on voit que la vraisemblance est maximale en θbnmv =
2 P 2 b mv 2
n i Xi . Alors Eθ θn = 2Eθ X = 2(θ/2) = θ et donc l’EMV est sans biais. Il est consistant par
la LFGN.
3. La variance de θbnmv est donnée, sous Pθ , par
n
2 X 2 4(3θ2 /4 − θ2 /4) 2θ2
Varθ (θbnmv ) = Eθ Xi2 −θ = (4/n) Varθ (X 2 ) = (4/n) Eθ X 4 −(Eθ X 2 )2 = = .
n n n
i=1
l’inverse de l’information de Fisher. Ce résultat est à mettre en parallèle avec le résultat sur la nor-
malité asymptotique des EMV dans les modèles réguliers qui assure que la variance asymptotique
des EMV vaut l’inverse de l’information de Fisher :
√
n θbnmv −θ N (0, I1 (θ)−1 )
quand n → ∞. Ici, on a
2
nEθ θbnmv −θ = I1 (θ)−1
pour tout n (càd de manière non-asymptotique). On peut aussi voir ce résultat comme un résultat
d’optimalité dans la borne de Cramer-Rao pour les estimateurs sans biais (ce qui est le cas de
θbnmv ).
5. On a rappelé précédemment que, dans les modèles réguliers (ce qui est admis ici), l’EMV est
asymptotiquement normal de variance asymptotique donnée par l’information de Fisher. On a
donc ici :
√
n θb mv −θ N (0, I1 (θ)−1 )
n
Étant donné la normalité asymptotique de l’EMV énoncé dans la question précédente, on voit
que le supθ<3 est obtenu en θ = 3 et donc
√ √
sup limsup Pθ [ n θbnmv −3 > tα ] = limsup P3 [ n θbnmv −3 > tα ] = P[I1 (3)−1/2 g > tα ]
θ<3 n→+∞ n→+∞
√
où g ∼ N (0, 1) et I1 (3) = 18. Il suffit alors de prendre tα = q1−α / 18, où q1−α est le quantile
d’ordre 1 − α d’une N (0, 1). Pour conclure, un test de niveau asymptotique α est donné par
√
H0 quand n θbnmv −3 ≤ q31−α
(
√
ϕα (X1 , . . . , Xn ) = 2
H1 sinon.
7. Soit g : R → R une fonction continue à support compact. Pour le changement de variable
u = 2x2 /θ (pour x > 0), on obtient
Z +∞ 2 Z
2 2x 2 2
du
Eg(2X /θ) = g √ exp −x /θ dx = g(u) exp(−u/2) √ .
0 θ πθ u>0 2πu
Donc la loi de 2X 2 /θ admet une densité par rapport à la mesure de Lebesgue donnée par h :
√
u → exp(−u/2)I(u > 0)/ 2πu. C’est la desnité d’une χ2 (1). Par ailleurs, nm2 /θ est une somme
de n variables i.i.d. qui admettent h pour densité. Donc, nm2 /θ a pour densité le produit de
convolution n fois de h avec lui-même et donc m2 /θ admet une densité indépendante de θ. On
peut aussi dire que une nm2 /θ ∼ χ2 (n).
P2 [2 ∈
/ [m2 /a, m2 /b]] = α.
√
10. Le TCL dit que pour tout θ > 0, sous Pθ , n(ζ − 1/2) tends en loi vers une N (0, 1/2). On en
déduit donc que asymptotiquement (de manière informelle),
m2 1 1
∼ + √ N (0, 1).
θ 2 2n
On note q1−α/2 le quantile d’ordre 1 − α/2 d’une N (0, 1), on en déduit alors que pour tout θ > 0,
h√ i
Pθ 2n|m2 /θ − 1/2| ≤ q1−α/2 → 1 − α.
**********************
fumeur non-fumeur
cancer diagnostiqué 11 5
pas de cancer 39 45
√
1. Si θf 6= θnf , quelle est la limite de n|X̄n − Ȳn | ?
2. On suppose que θf = θnf = θ et on note θ̂ = (X̄n + Ȳn )/2. Montrez que
n
r
loi
(X̄n − Ȳn ) → N (0, 1).
2θ̂(1 − θ̂)
fumeur non-fumeur
cancer diagnostiqué 33 15
pas de cancer 117 135
**********************
loi
— sous H0 , Tn → N (0, 1),
p.s.
— sous H1 , |Tn | → +∞.
On note par q1−α/2 le quantile d’ordre 1 − α/2 d’une Gaussienne standard N (0, 1) et on construit
le test (
H0 quand |Tn | < q1−α/2
ϕα (X1 , . . . , Xn ) =
H1 sinon.
On a alors, sous H0 , la probabilité de rejeter à tord tends vers P[|g| > q1−α/2 ] = α quand n tends
vers +∞. Pour α = 5%, on a bien un test de niveau asymptotique à 5% pour q1−α/2 = 1.96.
Dans le cas des données de la figure 1, on obtient pour n = 50,
s
50 6
T50 = 16 8
= 1.636 < 1.96
50 1 − 50
50
donc on accepte.
4. Pour le deuxième jeux de données, on obtient pour n = 300
s
150 33 15
T300 = 48 24
− = 2.83 > 1.96.
150 1 − 150
150 150
On rejette ici pour ce deuxième jeu de données bien qu’il soit dans les mêmes proportions que le
premier jeu de données.
5. On reprend la statistique de test
n
r
Tn = (X̄n − Ȳn ).
2θ̂(1 − θ̂)
loi p.s.
Sous H0 , on a Tn → N (0, 1). Sous H1 , on a Tn → +∞. On construit le test
(
H0 quand Tn < q1−α
ϕα (X1 , . . . , Xn ) =
H1 sinon.
où q1−α est le quantile d’ordre 1 − α d’une N (0, 1). Pour α = 5%, on a q1−α = 1.64 et le test
ϕα est bien un test de niveau asymptotique à 5%. On a obtenu sur les données du premier jeu,
T50 = 1.636 et T300 = 2.84. La p-value dans la 1er cas est de 5.1% et dans le deuxième cas, elle
est de 0.2%. Dans le premier cas, on rejette et dans le deuxième cas on rejette avec un grand
niveau de confiance.
**********************
On pourra utiliser que P(Z > 1.645) ≈ 5%, pour Z ∼ N (0, 1).
3. Une association "anti-OGM" veut s’assurer qu’il n’y a effectivement pas plus de
1% d’OGM dans les produits labélisés "bio". En particulier, elle s’inquiète de sa-
voir si le test parvient à éliminer les produits pour lesquels le pourcentage d’OGM
dépasse de 50% le maximum autorisé. Quelle est la probabilité que le test ne re-
jette pas H0 lorsque le pourcentage d’OGM est de 1.5% ? On pourra utiliser que
√
1.645 − 25 log(1.5) ≈ −0.38 et que le quantile d’ordre 0.648 d’une gaussienne centrée
réduite vaut approximativement 0.38).
4. Scandalisée par le résultat précédent, l’association milite pour que le test du fabri-
quant prouve effectivement que le pourcentage d’OGM est inférieur à 1%. Détermi-
ner le problème de test logiquement posé par l’association anti-OGM. Construire un
test de niveau 5% pour ce test et montrer sa consistance.
**********************
Comme θ1 − θ0 > 0, on voit que le test de Neyman-Pearson (de zone de rejet de la forme
{z : f (θ1 , z) > cf (θ0 , z)} pour c une constante à déterminer en fonction du niveau) a une zone
de rejet de la forme X̄n > tn,α pour un certain seuil tn,α à fixer.
2. Dans l’approche classique en test, on souhaite, avant tout, se couvrir contre le risque de 1ère
espèce, càd, éviter de rejeter à tord. On a donc tendance à privilégier H0 et, en conséquence, à
trop souvent accepter. Le fabriquant d’OGM a donc raison de choisir pour H0 l’hypothèse qui
lui est la plus favorable ; aux associations anti-OGM de montrer que cette hypothèse doit être
rejetée. C’est donc aux associations anti-OGM d’apporter une preuve que cette hypothèse n’est
pas acceptable parce que dans le doute, l’hypothèse H0 sera acceptée.
Pour tout n, X̄n est distribuée, sous Pθ , selon une N (θ, 1/n). On note par q1−α le quantile d’ordre
1 − α d’une N (0, 1). On a alors pour tout θ ≤ 0,
√ √ √
Pθ [X̄n > q1−α / n] ≤ Pθ [X̄n > θ + q1−α / n] = P0 [X̄n > q1−α / n] = α.
On a donc bien
√
sup Pθ [X̄n > q1−α / n] = α.
α≤0
(On remarque au passage que le supθ≤0 est atteint en θ = 0). On peut alors prendre tn,α =
√ √
q1−α / n et donc t25,5% = q95% / 25 pour n = 25 observations et α = 5% comme niveau. On a
approximativement q95% = 1.645.
3. On pose θ1 = log(1.5) et on cherche à calculer la probabilité d’accepter sous Pθ1 :
h √ i
Pθ1 [X̄25 ≤ t25,5% ] = P g ≤ q95% − 25 log(1.5) = P [g ≤ −0.38] = 0.352
√
où g ∼ N (0, 1) et on a fait l’approximation que q95% − 25 log(1.5) ≈ −0.38). On a donc 35% de
chance d’accepter l’hypothèse qu’il y a moins de 1% d’OGM alors qu’en réalité il y en a 1.5%.
4. Pour l’association anti-OGM, le pourcentage d’OGM est supérieur à 1% sauf preuve du contraire.
Le choix de problème de test par cette association va donc être "H0 : θ ≥ 0" contre "H1 : θ < 0".
On est donc bien dans le cas où c’est le fabriquant qui doit apporter la preuve que ses produits
contiennent bien moins de 1% d’OGM. Pour ce choix de problème de test, on choisi par défaut
l’hypothèse qu’il y a plus de 1% d’OGM, c’est bien l’hypothèse que l’association anti-OGM
souhaite garder par défaut.
On construit maintenant un test de H0 contre H1 tel que la probabilité que le test rejette à tort
H0 soit inférieure à 5%. Pour ce type de test, on sait que le test de Neyman-Pearson est UPP.
La forme de la zone de rejet associée au test de NP est ici donnée par X̄n ≤ sn,α où sn,α est un
seuil à définir en fonction du niveau α. On choisit sn,α tel que supθ≥0 Pθ [X̄n < sn,α ] = α. Comme
√
supθ≥0 Pθ [X̄n < sn,α ] = P0 [X̄n < sn,α ] on peut prendre sn,α = qαN / n.
(
H0 quand X̄n ≥ sn,5%
ϕα (X1 , . . . , Xn ) =
H1 sinon.
Sous H1 , on a pour tout θ < 0, X̄n tends p.s. vers θ < 0 donc la puissance tends vers 1 sur toute
l’alternative.