Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

TD Godichon-Baggioni L3

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 24

Sorbonne Université Année 2020/2021

L3 Deuxième semestre

Statistique inférentielle
TD

Antoine Godichon-Baggioni
2

TD1 : Rappels de probabilités


Exercice 1 :
1. Rappeler les définitions de la convergence en loi, en probabilité, presque sûre et en moyenne
quadratique .
2. Montrer que la convergence en moyenne quadratique implique la convergence en probabi-
lité.
3. Soit a une constante et ( Xn ) une suite de variables aléatoires. Montrer que si ( Xn ) converge
en loi vers a, alors ( Xn ) converge en probabilité vers a.
4. Soit ( Xn ) une suite de variables aléatoires convergeant en loi vers une constante a et soit
h : R −→ R une fonction continue. Montrer que h ( Xn ) converge en probabilité vers h( a).
5. Etudier la convergence de la suite ( Xn ) dans chacun des cas suivants :
— Xn = 1/n.
— Xn = (−1)n .
— Xn = 1 An où An est une suite d’évènements et P [ An ] converge vers 0.
— Xn = Zn 1 Bn où Zn converge en loi vers une variable aléatoire Z et P [ Bn ] converge vers
1.

Exercice 2 : Soient X1 , X2 , . . . , Xn des variables aléatoires indépendantes et identiquement distri-


buées, à valeurs dans un ensemble A. Soit D ⊂ A tel que p = P [ X1 ∈ D ] 6= 0.
Pour tout n ≥ 1, on pose Sn = ∑nj=1 1{Xj ∈ D} .

1. Calculer E [Sn ] et V [Sn ].


Sn
2. Montrer que la suite converge presque sûrement vers p.
n
 2 
Sn
3. Calculer l’erreur quadratique moyenne E n −p . En déduire une majoration uni-
forme en p de l’erreur quadratique moyenne.
4. Démontrer que pour tout p ∈]0, 1[ et pour tout ε > 0,
 
Sn 1
P −p ≥e ≤ .
n 4ne2

Sn
5. Enoncer le théorème de limite centrale que satisfait la variable .
n

Exercice 3 : Soit ( Xn ) une suite de variables aléatoires centrées, de même variance σ2 et satisfaisant
pour tout entiers i 6= j
Cov Xi , X j = σ2 α| j−i|


avec α ∈ (0, 1). Pour tout n ≥ 1, on pose Sn = ∑in=1 Xi .


1. Calculer E [Sn ].
3

2. Montrer que
2ασ2 1 − α n −1
 
V [Sn ] = nσ +
2
( n − 1) − α .
1−α 1−α

3. En déduire la convergence en moyenne quadratique de Sn /n.

Exercice 4 : On considère une suite de variables aléatoires ( Xn ). Dans chacun des cas suivants,
donner la normalité asymptotique de g ( Xn ).

1. g : x 7−→ x, θ > 0 et
√  L
n Xn − θ 2 −−−−→ N (0, 1) .
n→+∞

2. g : x 7−→ x −1 , θ 6= 0 et

   
1 L 1
n Xn − −−−−→ N 0, 2 .
θ n→+∞ θ

3. g : x ←− e x , θ > 0 et
√ L
n ( Xn − ln(θ )) −−−−→ N 0, (ln θ )2

n→+∞

Exercice 5 : Soit X une variable aléatoire suivant une loi uniforme sur [0, 1].

1. Donner la loi de Z = − log( X ).


2. Soit Z1 , ..., Zn des variables aléatoires indépendantes et identiquement distribuées de même
loi que Z. Donner la normalité asymptotique de Z n .
3. En déduire la normalité asymptotique de

1
Yn = .
(∏in=1 Xi )1/n

Exercice 6 (Loi exponentielle translatée). Soit Y une variable aléatoire suivant une loi exponen-
tielle de paramètre 1, i.e de densité f définie pour tout x ∈ R par

f ( x ) = exp (− x ) 1R∗+ ( x )

Soit θ, on considère la variable aléatoire X = Y + θ de densité

f θ ( x ) = exp (−( x − θ )) 1[θ,+∞[ ( x ).

1. Donner les fonctions de répartitions des variables X et Y.


2. Soit X1 , . . . , Xn des variables aléatoires indépendantes et de même loi que X. On considère
la variable aléatoire Zn = mini=1,...,n Xi . Donner la fonction de répartition de Zn .
3. En déduire que Zn converge en probabilité vers θ.
4. Montrer que la variable n ( Zn − θ ) suit une loi exponentielle de paramètre 1.
4

Exercice 7 : (inégalité de Hölder). L’objectif de cette exercice est de démontrer l’inégalité de Hölder
1
"généralisée" suivante. Soient p, q, r > 0 tels que+ 1q = p
1
r, et X, Y deux variables aléatoires
admettant respectivement un moment d’ordre p et q. Alors
1 1 1
(E [| XY |r ]) r ≤ (E [| X | p ]) p (E [|Y |q ]) q .

1. Montrer que pour tout a, b ≥ 0

1 1 1
( ab)r ≤ a p + bq .
r p q

2. En déduire l’inégalité de Hölder.


3. Soit ( Xn ) (Yn ) deux suites de variables aléatoires convergeant vers 0 respectivement à l’ordre
2p
p > 2 et p−2 , i.e
 
2p
p
E | Xn | E |Yn |

−−−−→ 0 et p −2 −−−−→ 0.
n→+∞ n→+∞

Montrer que Xn Yn converge en moyenne quadratique vers 0.


5

TD2 : Estimation

Exercice 1 : estimation de la moyenne et de la variance. Soit X une variable aléatoire de moyenne


µ et de variance σ2 inconnues. Soit X1 , . . . , Xn des variables aléatoires indépendantes et de même
loi que X.

1. Rappeler l’estimateur de la moyenne. Montrer qu’il est sans biais, fortement consistant et
donner son erreur quadratique moyenne ainsi que sa normalité asymptotique.

2. On souhaite maintenant estimer σ2 . On propose l’estimateur suivant :

1 n 2 1 n 2
σ̂n2 = ∑
n i =1
Xi − X n = ∑ Xi2 − X n .
n i =1

Expliquer ce choix.

3. Montrer que
1 n 2
σ̂n2 = ∑
n i =1
( Xi − µ ) 2 − X n − µ .

h i
4. Soit τ 4 = E ( X − µ)4 . A l’aide du Théorème de Slutsky, donner la normalité asymptotique
de σ̂n2 .

5. Calculer E σ̂n2 . L’estimateur σ̂n est-il sans biais ?


 

6. En déduire un estimateur sans biais de σ2 et donner sa normalité asymptotique.

Exercice 2 : estimation de la covariance. Soit ( X, Y ) un couple de variables aléatoires réelles d’es-


pérances respectives µ X , µY et de variances respectives σX2 , σY2 . On s’intéresse ici à l’estimation de
la covariance C de X, Y, définie par

C = E [( X − E[ X ])(Y − E[Y ])] = E[ XY ] − E[ X ]E[Y ]

Soient ( X1 , Y1 ) , . . . , ( Xn , Yn ) des couples de variables aléatoires indépendants et de même loi que


( X, Y ). On s’intéresse à l’estimateur Cn défini par

1 n

 
Cn = Xi − X n Yi − Y n .
n i =1

1. Justifier la proposition de cet estimateur.

2. Montrer que

n n
∑ ∑
     
Xj − Xn Yj − Y n = Xj − µX Yj − µY − n X n − µ X Y n − µY .
j =1 j =1
6

3. Montrer que

n
n2 X n − µ X ∑ Yj − µY + ∑ ( Xi − µ X ) Yj − µY .
    
Y n − µY = Xj − µX
j =1 i6= j

4. Calculer E [Cn ]. Que pouvez vous en déduire ?


5. Proposer un estimateur sans biais de C.
 
6. En posant Zj = X j − µ X Yj − µY , montrer que Cn converge en probabilité vers C.
7. Montrer, soit à l’aide des inégalités de Markov et de Cauchy-Schwarz, soit à l’aide du théo-
rème de Slutsky, que
√   P
n X n − µX Y n − µY −−−−→ 0.
n→+∞
h i
8. Soit τ 4 = E ( X − µ X )2 (Y − µY )2 < +∞. Donner la normalité asymptotique de Cn , et en
déduire celle de l’estimateur sans biais.

Exercice 3 : méthode des moments. Soit θ ∈ Θ où Θ est un ouvert de R, et ϕ : Θ −→ ϕ(Θ) un


C1 -difféomorphisme. Soit k ∈ N∗ tel que
h i
E X k = ϕ ( θ ).

De plus, on suppose que X admet un moment d’ordre 2k.


1. Soit X1 , . . . , Xn des variables aléatoires indépendantes et identiquement distribuées de même
loi que X. Proposer un estimateur de ϕ(θ ).
2. Est-il consistant ? Asymptotiquement normal ?
3. En déduire un estimateur de θ.
4. Est-il consistant ?
5. On suppose que ϕ0 (θ ) 6= 0. En déduire la normalité asymptotique de l’estimateur de θ.

Exercice 4 : (loi géométrique). Soit X une variable aléatoire suivant une loi géométrique de para-
mètre p, i.e pour tout entier k ≥ 1, P [ X = k ] = (1 − p)k−1 p.
1. Rappeler l’espérance et la variance de X.
2. Soit X1 , . . . , Xn des variables aléatoires indépendantes et de même loi que X. Par la méthode
des moments, donner un estimateur p̂n de p.
3. Est-il consistant ? Fortement consistant ? Asymptotiquement normal ?
4. Donner l’estimateur p̂nMV du maximum de vraisemblance de p. Que pouvez vous en conclure ?

Exercice 5 : (loi exponentielle). Soit X une variable aléatoire suivant une loi exponentielle de
paramètre θ > 0. On rappelle que la densité de X est définie pour tout x ∈ R par

f ( x ) = θ exp (− xθ ) 1[0,+∞[ ( x ).
7

1. Calculer E[ X ] et V[ X ].
2. Soit X1 , . . . , Xn des variables aléatoires indépendantes et de même loi que X. A l’aide de la
méthode des moments, proposer un estimateur θ̂n de θ.
3. Est-il consistant ? Fortement consistant ?
4. Donner sa normalité asymptotique.
5. Donner l’estimateur (si il existe) du maximum de vraisemblance θ̂nMV de θ.
6. Que pouvez vous en conclure ?

 X suivant
Exercice 6 : (loi de Rayleigh). Soit θ un entier positif. On considère une variable aléatoire 2
une loi de Rayleigh de paramètre θ, i.e de f θ définie pour tout x ∈ R par f θ ( x ) = λx exp − xθ 1 R+ ( x ) .
1. Calculer λ.
2. Calculer l’espérance et la variance de X.
3. Soit X1 , . . . , Xn des variables aléatoires indépendantes et de même loi que X. En déduire un
estimateur θ̂n de θ.
4. Est-il consistant ? Fortement consistant ? Asymptotiquement normal ?
5. Donner l’estimateur du maximum de vraisemblance θ̂nMV de θ.
6. Donner la normalité asymptotique de cet estimateur.
7. Que pouvez-vous en conclure ?

Exercice 7 : (loi de Poisson). On considère une variable aléatoire X suivant une loi de Poisson de
paramètre θ.
1. Soit ( X1 , . . . , Xn ) i.i.d de même loi que X. A l’aide de la méthode des moments, proposer un
estimateur de θ.
2. Est-il consistant ? Fortement consistant ? Asymptotiquement normal ?
3. Donner l’estimateur du maximum de vraisembance.
4. Est-il consistant ? Fortement consistant ? Asymptotiquement normal ?

Exercice 8 (loi exponentielle translatée). Soit Y une variable aléatoire suivant une loi exponen-
tielle de paramètre 1, i.e de densité f définie pour tout x ∈ R par

f ( x ) = exp (− x ) 1R+ ( x )

Soit θ, on considère la variable aléatoire X = Y + θ de densité

f θ ( x ) = exp (−( x − θ )) 1[θ,+∞[ ( x ).

1. Calculer E[Y ] et en déduire E[ X ].


8

2. Soit X1 , . . . , Xn des variables aléatoires indépendantes et de même loi que X. En déduire un


estimateur θ̂n de θ. Cet estimateur est-il consistant ? Fortement consistant ? Sans biais ?
3. Calculer V[Y ] et en déduire V[ X ].
4. Donner la normalité asymptotique de θ̂n .
5. Donner l’erreur quadratique moyenne de θ̂n .
6. Donner l’estimateur θ̂nMV du maximum de vraisemblance.
7. Soit Zn = mini=1,...,n Xi . Rappeler la loi de n ( Zn − θ ).
8. Quel estimateur choisiriez vous ?
9. Calculer sonr erreur quadratique moyenne.
Exercice 9 : (loi uniforme dilatée). Soit θ > 0. On considère une variable aléatoire X suivant une
loi uniforme sur [0, θ ]. Soit x1 , ..., xn des réalisation des variables aléatoires indépendantes X1 , ..., Xn
et de même loi que X.
1. Par la méthode des moments, proposer un estimateur convergent de θ et donner sa conver-
gence.
2. Cet estimateur est-il sans biais ?
3. Donner son erreur quadratique moyenne.
4. Donner sa normalité asymptotique.
5. Donner l’estimateur du maximum de vraisemblance de θ.
6. Calculer la fonction de répartition de X.
7. On considère maintenant X(n) = maxi=1,...,n Xi . Donner sa fonction de répartition.
8. Montrer que X(n) converge en probabilité vers θ.
9. A l’aide du lemme de Borel-Cantelli, en déduire la forte consistance de X(n) .
10. Donner la fonction de répartition d’une loi exponentielle de paramètre θ −1 .
 
11. Montrer que n θ − X(n) converge en loi vers une loi exponentielle de paramètre θ −1 .
12. Quel estimateur de θ choisiriez vous ?
Exercice 10 : (loi normale). Soit X une variable aléatoire suivant une loi normale de moyenne µ
et de variance σ2 . Soit x1 , . . . , xn des réalisations des variables aléatoires indépendantes X1 , . . . , Xn
de même loi que X.
1. Ecrire la vraisemblance
2. En déduire les estimateur du maximums de vraisemblance de µ et σ2 .
3. Commenter.
9

TD3 : Intervalles de confiance

Exercice 1 : Dans un centre avicole, des études antérieures ont montré que le poids d’un oeuf
choisi au hasard peut être considéré comme la réalisation d’une variable aléatoire gaussienne X,
d’espérance µ et de variance σ2 . On admet que les poids des oeufs sont indépendants les uns des
autres. On prend un échantillon de n = 36 oeufs que l’on pèse. Les mesures obtenues (exprimées
en g) sont données (par ordre croissant) dans le tableau suivant :

50.34 52.62 53.79 54.99 55.82 57.67 51.41 53.13 53.89


55.04 55.91 57.99 51.51 53.28 54.63 55.12 55.95 58.10
52.07 53.30 54.76 55.24 57.05 59.30 52.22 53.32 54.78
55.28 57.18 60.58 52.38 53.39 54.93 55.56 57.31 63.15

TABLE 1 – Mesure des poids des oeufs (en g).

1. La figure ci-dessous présente l’histogramme en fréquences des poids des oeufs sur lequel
on a superposé une version lissée de l’histogramme. Quelles conclusions peut-on tirer de
cet histogramme sur la distribution des oeufs ?
0.15
0.10
Density
0.05
0.00

50 52 54 56 58 60 62 64
Poids des oeufs

F IGURE 1 – Histogramme en fréquence des poids des oeufs.

2. Donner une estimation de la moyenne µ et de la variance σ2 . On les notera m et s2 .

Pour vous aider, on fournit les informations suivantes : si x1 , x2 , . . . , x36 désignent les poids
mesurés, alors
36 36
∑ x j = 1982, 99 et ∑ x2j = 109481, 1
j =1 j =1

3. Construire un intervalle de confiance au niveau 95% pour le poids moyen des oeufs. Com-
menter le résultat obtenu. Pour s’aider, soit Z ∼ N (0, 1), T35 et T36 suivant des loi de
10

Student à 35 et 36 degrés de liberté. On dispose des résultats suivants :

P [ Z ≤ 1.64] = 0.95, P [ Z ≤ 1.96] = 0.975, P [ Z ≤ 2.58] = 0.995


P [ T36 ≤ 1.69] = 0.95 P [ T36 ≤ 2.03] = 0.975 P [ T36 ≤ 2.72] = 0.995
P [ T35 ≤ 1.69] = 0.95 P [ T35 ≤ 2.03] = 0.975 P [ T35 ≤ 2.72] = 0.995

4. Construire un intervalle de confiance au niveau 95% pour la variance. Commenter. Pour


s’aider, soit χ35 et χ36 des variables suivants des loi du Khi-deux à 35 et 36 degrés de liberté.
On dispose des résultats suivants :

P [χ36 ≤ 51] = 0.95 P [χ36 ≤ 54.4] = 0.975 P [χ36 ≤ 23.3] = 0.05 P [χ36 ≤ 21.3] = 0.025
P [χ35 ≤ 49.8] = 0.95 P [χ35 ≤ 53.2] = 0.975 P [χ35 ≤ 22.5] = 0.05 P [χ35 ≤ 20.6] = 0.025

5. A quel niveau de confiance correspondrait un intervalle centré en m et de demi-longueur


0.76 ?

Exercice 2 : On considère une variable aléatoire X dont la loi dépend d’un paramètre inconnu
p > 0 et telle que E X 2 = p12 et E X 4 = p16 + p14 , et on pose θ = p−2 .
   

1. Proposer un estimateur θ̂n de θ. Est-il consistant ? Fortement consistant ?


2. Est-il sans biais ?
3. Donner son erreur quadratique moyenne.
4. Donner sa normalité asymptotique.
5. En déduire un intervalle de confiance asymptotique de niveau 1 − α pour θ.
6. En déduire un intervalle de confiance asymptotique de niveau 1 − α pour p.
7. Proposer un estimateur p̂n de p et montrer sa forte consistance.
8. Donner sa normalité asymptotique.
9. En déduire un nouvel intervalle de confiance asymptotique de niveau 1 − α pour p.

Exercice 3 : Soit θ > 0 et Y une variable aléatoire suivant une loi exponentielle de paramètre θ −1 .
Soit X = Y + θ, sa densité f θ est définie pour tout x par

x−θ
 
f θ ( x ) = Cθ exp − 1[θ,+∞[ ( x ).
θ

Dans ce qui suit, on considère x1 , . . . , xn qui sont des réalisations des variables aléatoires indépen-
dantes X1 , . . . , Xn de même loi que X.
1. Que vaut Cθ ?
2. Calculer E[ X ] et V[ X ].
11

3. Par la méthode des moments, en déduire un estimateur de θ.


4. Est-il consistant ? Fortement consistant ? Asymptotiquement normal ?
5. Soit α ∈ (0, 1), construire un intervalle de confiance asymptotique de niveau 1 − α du para-
mètre θ.
6. Donner l’estimateur du maximum de vraisemblance.
7. On considère maintenant X(1) = mini=1,...,n ( Xi ). Donner la fonction de répartition de X. En
déduire celle de X(1) .
 
8. Donner la loi de n X(1) − θ .
9. En déduire la convergence en probabilité de X(1) .
10. Montrer que l’estimateur X(1) est biaisé mais asymptotiquement sans biais.
11. En déduire la convergence en moyenne quadratique de X(1) .
12. Donner un nouvel intervalle de confiance pour le paramètre θ.
13. Commenter

2
Exercice 4 : Soit X une variable aléatoire de densité f θ ( x ) = θ2
x1[0,θ ] ( x ), avec θ > 0. On considère
dans ce qui suit des réalisations x1 , . . . , xn des variables aléatoires indépendantes X1 , . . . , Xn de
même loi que X.
1. Calculer E[ X ] et V[ X ].
2. Par la méthode des moments, en déduire un estimateur θ̂n de θ.
3. Est-il consistant ? Fortement consistant ? Asymptotiquement normal ?
4. Soit α ∈ (0, 1), construire un intervalle de confiance asymptotique de niveau 1 − α du para-
mètre θ.
5. Donner l’estimateur du maximum de vraisemblance.
6. On considère maintenant X(n) = maxi=1,...,n Xi . Donner la fonction de répartition de X.
7. En déduire la fonction de répartition de X(n) .
8. En déduire la densité de X(n) .
9. L’estimateur X(n) est-il sans biais ?
 2 
10. Calculer le risque quadratique E X(n) − θ .
 
11. Donner la convergence en loi de n θ − X(n) .
12. Donner un nouvel intervalle de confiance au niveau 1 − α de θ.
13. Quel intervalle de confiance choisiriez vous ?

Exercice 5 : Soient X1 , . . . , Xn des variables aléatoires indépendantes suivant une loi de Poisson de
paramètre θ > 0.
12

1. Donner E [ X1 ] et V [ X1 ]. En déduire un estimateur θ̂n de θ.


2. Donner la normalité asymptotique de l’estimateur θ̂n .
3. Par la méthode du plug-in, donner un intervalle de confiance asymptotique à 95% pour θ.
4. Trouver une fonction g : R+ −→ R telle que
√   L
n g θ̂n ) − g(θ ) −−−→ N (0, 1).
n→∞

5. En déduire un nouvel intervalle de confiance pour θ.


6. Vérifier que les deux résultats sont équivalents, i.e si on note [ an , bn ] et [ a0n , bn0 ] les deux
intervalles obtenus, on a

an P bn P
−−−−→ 1 et −−−−→ 1.
a0n n→+∞ bn0 n→+∞

Exercice 6 : Loi de Laplace translatée. Soit Y une variable aléatoire suivant une loi de Laplace, i.e
de densité f Y définie pour tout x ∈ R par

1
fY (x) = exp (− | x |) .
2

Soit θ > 0 et X une variable aléatoire suivant une loi de Laplace translatée, i.e de densité f X définie
pour tout x ∈ R par
1
f X (x) = exp (− |θ − x |) .
2
Dans ce qui suit on considère des variables aléatoires indépendantes X1 , . . . , Xn de même loi que
X.
1. Calculer E[ X ] et V[ X ].
2. Par la méthode des moments , donner un estimateur de θ. Est-il consistant ? Asymptotique-
ment normal ? Que pouvez vous en conclure ?
3. Construire un intervalle de confiance asymptotique de niveau 0.90 pour θ.
4. Que vaut l’estimateur du maximum de vraisemblance ?
5. On note m̂n l’estimateur du maximum de vraisemblance, on suppose qu’il existe et est
consistant. Que pouvez-vous en conclure ?

Exercice 7 : Débiaiser ou ne pas débiaiser. On considère une variable aléatoire X ∼ U ([0, θ ]) avec
θ > 0 et on considère l’estimateur θ̂n = X(n) .
1. Est-il biaisé ? Calculer l’erreur quadratique moyenne.
2. Proposer un estimateur non biaisé et calculer son erreur quadratique moyenne.
13

3. On considère l’estimateur θ̂α,n = αX(n) . Calculer l’erreur quadratique moyenne.


4. Choisir α afin de minimiser l’erreur quadratique moyenne.
5. Conclure.

Exercice 8 : J’existe ? On considère une variable aléatoire X suivant une loi binomiale X ∼ B p, λ−1


avec λ > 1 et θ̂ ( X ) un estimateur de λ.


1. Calculer E θ̂ ( X ) .
 

2. Sachant qu’un polynôme non nul de degré p admet au plus p racines, qu’observez-vous si
θ̂ ( X ) est non biaisé ?

Exercice 9 : Estimation de deux paramètres. Soit Y ∼ E (λ) avec λ > 0 inconnu. Soit X = Y + θ
avec θ > 0 inconnu. On admettra que X a pour densité f θ,λ définie pour tout x par

f θ,λ ( x ) = λ exp (−λ( x − θ )) 1[θ,+∞[ ( x ).

Soient X1 , . . . , Xn des variables aléatoires i.i.d de même loi que X.


1. Calculer E[ X ] et V[ X ].
2. Déterminer l’estimateur du maximum de vraisemblance de θ.
3. Calculer la fonction de répartition de X(1) .
4. En déduire l’erreur quadratique moyenne de X(1) .
5. Déduire de la question 5
√  
P
n X(1) − θ −−−−→ 0.
n→+∞

Que pouvez-vous en déduire ?


6. En déduire un estimateur de λ.
7. Montrer que l’estimateur de λ est consistant. Pour s’aider, on admettra que si ( An ) et ( Bn )
sont deux suites de variables aléatoires convergeant en probabilités vers a et b, et g : I ×
J −→ R est une fonction continue en ( a, b), alors

P
g ( An , Bn ) −−−−→ g( a, b).
n→+∞

avec I, J des intervalles ouvert de R.


8. Montrer que

   
1 L 1
n X n − θ̂n − −−−−→ N 0, 2 .
λ n→+∞ λ
9. En déduire la normalité asymptotique de l’estimateur de λ.
10. Soit α ∈ (0, 1), en déduire un intervalle de confiance asymptotique de λ.
14

11. Montrer que  


n X (1) − θ ∼ E ( λ ) .

12. Pour tout α ∈ (0, 1), donner le quantile qλ,1−α d’ordre 1 − α de la loi exponentielle de para-
mètre λ.
13. Donner la convergence de
   
n X(1) − θ − qλ̂n ,1−α − qλ,1−α .

− ln(α)
avec qλ̂n = λ̂n
.
14. Déterminer un intervalle de confiance asymptotique de niveau 1 − α pour θ.

Exercice 10 : On considère une urne dans laquelle il y a m1 boules rouges et m2 boules noires. Le
nombre de boules de chaque couleur est inconnu, et le nombre total de boules est bien trop consé-
quent pour que l’on s’amuse à les compter. L’objectif est donc de proposer différentes stratégies
m1
pour estimer la proportion p = m1 + m2 de boules rouges.
1. On propose d’effectuer N tirages avec remise et on note Xi = 1 si le i-ème tirage est une
boule rouge et Xi = 0 sinon.
(a) Proposer un estimateur de p et donner son erreur quadratique moyenne.
(b) Donner sa normalité asymptotique et en déduire un intervalle de confiance asympto-
tique de niveau 1 − α de p.
2. On propose d’effectuer N tirages sans remise et on note Y le nombre de boules rouges tirées
(N << m1 + m2 ).
(a) Quelle est la loi de Y ? On admettra que E [Y ] = N p et V[Y ] = N p(1 − p) mm11++mm22−−N1 .
(b) Proposer un nouvel estimateur de p et donner son erreur quadratique moyenne. Quel
estimateur choisiriez-vous ?
(c) Donner un intervalle de confiance de niveau au moins 1 − α de p.
N
3. On propose d’effectuer la même expérience n fois, mais en n’effectuant que K = n (on
suppose K entier) tirages sans remise et on note Yi le nombre de boules rouges tirées à la
i-ème expérience.
(a) Proposer un nouvel estimateur de p et donner son erreur quadratique moyenne. Quel
estimateur choisiriez-vous ?
(b) Donner sa normalité asymptotique et en déduire un nouvelle intervalle de confiance.
4. On a m1 = 2500, m2 = 7500, N = 1000, K = 10 et on obtient des intervalles de confiance
(dans l’ordre) de taille 0.054, 0.14, 0.053. Comment interpréter ces résultats ?
15

TD4 : Théorème de Cochran et modèle linéaire

Exercice : Le principe de la régression linéaire est de modéliser une variable y à partir de


T
variables explicatives x = x1 , . . . , x p , i.e de considérer

y = β 1 x1 + . . . + β p x p ,

où β = x1 , . . . , x p est inconnu. En pratique, on dispose d’un échantillon (x1 , y1 ) , . . . , (xn , yn ),
mais on obtient jamais réellement une droite (erreurs de mesures...). On va donc considérer le
modèle linéaire
y = β 1 x1 + . . . + β p x p + e

avec e ∼ N 0, σ2 . On parle alors de modèle linéaire gaussien. On suppose maintenant que les


données suivent le modèle suivant :

Yi = β 1 xi,1 + . . . + β p xi,p + ei ,

avec
— Yi est une variable aléatoire et on observe les réalisations yi .
T
— Les xi = xi,1 , . . . , xi,p sont déterministes.
T
— Le paramètre β = β 1 , . . . , β p est inconnu et déterministe.
— Les ei sont i.i.d et e1 ∼ N 0, σ2 .


1. Vérifier que le modèle peut s’écrire comme

Y = Xβ + e,

avec Y = (Y1 , . . . , Yn )T , e = (e1 , . . . , en )T et


 
x1,1 . . . x1,p
 . .. .. 
X= .
 . . . 
..
xn,1 . xn,p

2. Donner la loi de e et en déduire la loi de Y. Quelle est la loi de Yi ?

3. On considère à partir de maintenant que rang( X ) = p, et on note D = Im( X ). On


s’intéresse à l’estimateur des moindres carrés défini par

β̂ = arg minp kY − Xhk2


h ∈R

Montrer que la matrice X T X est symétrique et définie positive. On rappellera qu’une


16

matrice symétrique M est définie positive si pour tout h ∈ R p \{0},

h T Mh > 0

4. On note G (h) = kY − Xhk2 . Calculer le gradient et la Hessienne de G et en déduire β̂.


5. Soit Rd = E ⊕⊥ F. Soit P une matrice p × p. On rappelle que P est le projecteur orthogonal
sur E (parallèlement à F) si
— P est symétrique.
— P2 = P.
— Pour tout h ∈ E, P(h) = h.
— Pour tout h ∈ F, P(h) = 0.
 −1 T
Montrer que PD = X X T X X est le projecteur orthogonal sur D parallèlement à D ⊥ .
6. Que pouvez vous en déduire sur X β̂ ?
7. Donner la loi de X β̂ et en déduire celle de β̂.
8. On suppose σ2 connu. Soit x0 ∈ R p \{0}, donner un intervalle de confiance de niveau au
moins 1 − α de x0T β. Que se passe-t-il si σ2 est inconnu ?
9. On suppose maintenant que σ2 est inconnu et on considère l’estimateur

1 2
σ̂2 = Y − X β̂
n−p

(a) Expliquer ce choix d’estimateur.


(b) Exprimer σ̂2 à l’aide de projections.
(c) Enoncer le théorème de Cochran dans ce cas.
(d) En déduire un intervalle de confiance pour x0T β.
17

TD5 : Tests
Exercice 1 : Dans les années 70, les athlètes féminines de RDA étaient réputées pour leur forte
corpulence et soupçonnées par le comité éthique olympique de dopages via la prise de substances
hormonales virilisantes (dites androgènes). Des mesures ont été effectuées sur la quantité
d’androgènes par litre de sang chez 9 athlètes, et on obtient les résultats suivants :

3.22 3.07 3.17 2.91 3.40 3.58 3.23 3.11 3.62

On veut tester l’hypothèse nulle "les athlètes de RDA ne sont pas dopées", sachant que chez une
femme "lambda", le quantité moyenne d’androgènes est de 3.1
1. Quel test faut-il effectuer ?
2. Quels sont les hypothèses à vérifier ?
3. Creer un vecteur data comprenant toutes les données.
4. Rentrer la commande suivante et commenter :

hist(data)

5. Faire le test au risque de 5%. Pour cela on pourra s’aider, i.e rentrer

help(t.test)

6. Pourquoi peut-on remettre en question le protocole expérimental et donc la conclusion du


test ?

Exercice 2 : Soient X1 , X2 , . . . , X p des variables aléatoires indépendantes et de même loi N (µ1 , σ12 )
et soient Y1 , Y2 , . . . , Yq des variables aléatoires indépendantes et de même loi N (µ2 , σ22 ). On
suppose que les deux échantillons sont indépendants et de même variance, c’est à dire que
σ12 = σ22 = σ2 .
On s’intéresse à l’estimation de la différence µ1 − µ2 .

1. Proposer un estimateur de µ1 − µ2 . On le notera D.


2. Etablir la loi de cet estimateur.
( p + q −2) S2
3. Proposer un estimateur de σ2 . On le notera S2 et démontrer que σ2
suit une loi du
Khi-deux à ( p + q − 2) ddl et S2 indépendant de X p et Y q .
4. Etablir alors que
D − ( µ1 − µ2 )
s ∼ Tp+q−2
1 1
S +
p q

5. Construire un intervalle de confiance pour la différence (µ1 − µ2 ) au niveau de confiance


(1 − α) avec α ∈]0, 1[.
18

6. Soient x1 , . . . , x15 des réalisations de X1 , . . . , X15 et y1 , . . . , y9 des réalisations de Y1 , . . . , Y9 .


Tester au risque de 1% l’hypothèse nulle H0 : "µ1 = µ2 " contre l’hypothèse alternative H1 :
"µ1 6= µ2 " sachant que :

15 15
∑ xi = 16.2 ∑ xi2 = 28.7
i =1 i =1
9 9
∑ yi = 8.9 ∑ y2i = 31.5.
i =1 i =1

On pourra également s’aider de la commande suivante :

help(qt)

Exercice 3 : Lors d’une petite expérimentation sur des souris atteintes d’une maladie mortelle, on
a tiré au sort parmi 16 souris, 7 qui reçoivent un nouveau traitement alors que les 9 autres sont
des contrôles qui reçoivent un placebo. Leurs durées de survie sont mesurées en jours et donnent
les résultats suivants :

Survie (en jours)


Groupe 1 (Placebo) Groupe 2 (Traitement)
n1 = 9 mesures n2 = 7 mesures

52, 10, 40, 104, 50, 94, 38, 23, 197,


27, 146, 31, 46 99, 16, 141
n n
∑ j=1 1 x j,1 = 506 ∑ j=2 1 x j,2 = 608
n n
∑ j=1 1 x2j,1 = 42842 ∑ j=2 1 x2j,2 = 79556

On supposera que les données du groupe 1 sont des réalisations indépendantes d’une variable
aléatoire X1 de loi normale N (µ1 , σ12 ) et que les données du groupe 2 sont des réalisations
indépendantes d’une variable aléatoire X2 de loi normale N (µ2 , σ22 ).

1. Creer un vecteur placebo et un vecteur traitement.


2. Calculer la moyenne des durées de survie des souris des groupe 1 et 2 On les notera m1 et
m2 respectivement. Commenter les résultats obtenus. En particulier, que peut-on dire sur
l’effet du traitement sur la durée de survie ? On pourra s’aider de la commande suivante

help(mean)

3. Construire des intervalles de confiance au niveau de confiance 95% pour les moyennes
réelles µ1 et µ2 et calculer leur réalisation. Commenter les résultats obtenus. En particulier,
que peut-on dire sur l’effet du traitement sur la durée de survie ? On pourra s’aider de la
commande suivante :

help(qt)
19

4. On suppose que σ12 = σ22 . Tester au risque de 1% l’hypothèse nulle H0 : "µ1 = µ2 " contre
l’hypothèse alternative H1 : "µ1 6= µ2 ”. On pourra s’aider de la commande suivante :

help(t.test)

5. Quelles conclusions peut-on tirer de cette expérience ? Pour argumenter, on pourra s’aider
de la commande suivante :

boxplot(placebo,traitement,names=c("placebo","traitement"))

6. Tester au risque de 1% l’égalité des variances. Pour cela, on pourra s’aider de la commande

help(var.test)

Exercice 4 : On veut tester la précision d’une balance en effectuant une série de 15 mesures du
poids d’un kilo de riz. On obtient les mesures suivantes :

Poids (en g)
n = 15 mesures
996.17, 994.45, 998.78, 997.2, 1007.01, 998.45, 1003.93, 995.23,
997.01, 999.36, 997.64, 993.81, 1004.33, 991.38, 1000.97
∑nj=1 x j = 14975.72
∑nj=1 x2j = 14951732

On supposera que les données sont des réalisations indépendantes d’une variable aléatoire X de
loi normale N (µ, σ2 ).

1. Créer un vecteur poids contenant les mesures. Rentrer la commande suivante et


commenter :

plot(hist(poids))

2. Calculer le poids mesuré moyen que l’on notera m. On pourra s’aider de la commande
suivante :

help(mean)

3. Donner une estimation de σ2 . On la notera s2 . On pourra s’aider de la commande suivante :

help(var)

4. Construire un intervalle de confiance à 90% pour la moyenne. On pourra s’aider de la


commande suivante :

help(qt)

5. Construire un intervalle de confiance à 95% pour la variance. On pourra s’aider de la


commande suivante :
20

help(qchisq)
6. Tester au risque de 1% la précision de la balance. On pourra s’aider de la commande
suivante
help(t.test)
.
Exercice 5 : On s’intéresse au salaire journalier des employés d’une entreprise. On obtient les
salaires suivants :
Salaires (en euro)
n = 16 mesures
41, 40, 50, 45, 41, 41, 40,43, 45, 52, 40, 48, 50, 40, 47, 46
∑nj=1 x j = 709
∑nj=1 x2j = 31675

On supposera que les données sont des réalisations indépendantes d’une variable aléatoire X de
loi normale N (µ, σ2 ).
1. Calculer le salaire moyen mesuré que l’on notera m. On pourra s’aider de la commande
suivante
help(mean)
2. Donner une estimation de σ2 . On la notera s2 . On pourra s’aider de la commande suivante
help(var)
3. L’entreprise prétend payer en moyenne ses salariés plus de 47 euros par jour. Au risque de
5%, pouvez vous confirmer cette affirmation ? Au risque de 1% ? On pourra s’aider de la
commande suivante
help(t.test)
4. L’entreprise prétend également avoir très peu de différences de salaires au sein de
l’entreprise, i.e avoir une variance des salaires σ02 = 5. Dit-elle vrai ?On pourra s’aider de la
commande suivante
help(qchisq)
Exercice 6 : On souhaite comparer les longueurs des mâchoires inférieures de 10 chacals mâles et
10 chacals femelles. On a les mesures suivantes :

Longueur (en mm)


Groupe 1 (Mâles) Groupe 2 (Femelles)
n1 = 10 mesures n2 = 10 mesures

120, 107, 110, 116, 114, 111, 113, 117, 114, 112 110, 111, 107, 108, 110, 105, 107, 106, 111, 111
n n
∑ j=1 1 x j,1 = 1134 ∑ j=2 1 x j,2 = 1086
n1 n2
∑ j=1 x2j,1 = 128720 ∑ j=1 x2j,2 = 117986
21

On supposera que les données du groupe 1 sont des réalisations indépendantes d’une variable
aléatoire X1 de loi normale N (µ1 , σ2 ) et que les données du groupe 2 sont des réalisations
indépendantes d’une variable aléatoire X2 de loi normale N (µ2 , σ2 ).
1. Créer des vecteurs "males" et "femelles", rentrer la commande suivante et commenter :
boxplot(males,femelles)
2. Calculer la moyenne des longueurs des mâchoires des groupe 1 et 2. On pourra s’aider de
la commande suivante :
help(mean)
On les notera respectivement m1 et m2 .
3. Donner une estimation de σ2 . On la notera s2 .
4. Tester au risque de 5% le fait que le sexe des individus n’a pas d’incidence sur la longueur
moyenne de leur mâchoire. On pourra s’aider de la commande suivante :
help(t.test)
5. On suppose maintenant que les variables aléatoires X1 et X2 sont de variance σ12 et σ22 .
Tester au risque de 5% l’égalité de ces variances. On pourra s’aider de la commande
suivante :
help(var.test)
Exercice 7 : On considère un groupe de 28 individus souffrant d’un même handicap. Les
individus ont été répartis en deux groupe, suivant deux apprentissages différents. Le premier
consiste en de l’imitation (les sujets doivent imiter les gestes faits), le second consiste en la
guidance (les sujets sont aidés physiquement pour effectuer les gestes). Le tableau ci-dessous
donne les scores obtenus par les différents individus.

Scores
Groupe 1 (Imitation) Groupe 2 (Guidance)
n1 = 15 mesures n2 = 13 mesures

19, 16, 24, 13, 9, 14, 17, 10, 19, 22, 23, 5, 7, 13, 11 15, 18, 23, 10, 8, 11, 12, 14, 21, 15, 18, 6, 7
n n
∑ j=1 1 x j,1 = 222 ∑ j=2 1 x j,2 = 178
n n
∑ j=1 1 x2j,1 = 3766 ∑ j=2 1 x2j,2 = 2778

On supposera que les données du groupe 1 sont des réalisations indépendantes d’une variable
aléatoire X1 de loi normale N (µ1 , σ12 ) et que les données du groupe 2 sont des réalisations
indépendantes d’une variable aléatoire X2 de loi normale N (µ2 , σ22 ).
22

1. Créer un vecteur imitation et un vecteur guidance.Effectuer un test de Shapiro et conclure.


On pourra s’aider de la commande suivante :

help(shapiro.test)

2. Rentrer la commande suivante et commenter :

boxplot(imiation,guidance,names=c("imitation","guidance"))

3. Tester au risque de 5% le fait que les variabilités des scores dans chacun des groupes ne
sont pas différentes. On pourra s’aider de la commande suivante :

help(var.test)

4. Tester au risque de 5% le fait que la méthode choisie n’impacte pas le score moyen. On
pourra s’aider de la commande suivante

help(t.test)

Exercice 8 : On étudie l’influence du magnésium sur la croissance d’une moisissure. On procède


à deux expériences distinctes :
Expérience 1: On cultive la moisissure dans 20 boîtes, on injecte une dose de 5mg dans 10
boîtes et une dose de 10mg dans les 10 autres. La croissance moyenne dans les 10 premières boîtes
est de 1.03µm avec une variance de 0.05µm2 , la croissance moyenne dans les 10 dernières boîtes
est de 1.12µm avec une variance de 0.1µm2 .
Expérience 2: On cultive les moisissures dans 10 boîtes, puis on sépare chaque boîte en
deux. Dans une partie, on injecte 5mg de magnésium, dans l’autre 10mg de magnésium. La
différence moyenne est égale à 0.08µm et la variance de la différence est égale à 0.02µm2 .

1. Expliquer la différence entre les deux expériences.


2. Pour chaque expérience, après avoir rappelé le cadre théorique, mettre en oeuvre un test
au risque de 5% pour l’égalité des croissances moyennes. On pourra saider de la
commande suivante :

help(qt)

3. Les deux tests mènent-ils à la même conclusion ?

Exercice 9 : Une entreprise a mis au point un nouveau traitement contre le phylloxera, puceron
qui ravage les vignes. Il est testé sur une parcelle de 600 plants sur lesquels on observe les
résultats suivants :

Effet Eradication Amélioration Sans effet


Nombre de plants 280 210 110

Les résultats promis par l’entreprise sont de 60% d’éradication, 30% d’amélioration et 10% sans
effet.
23

1. Tester au risque de 1% la véracité des dires de l’entreprise. On pourra s’aider de la


commande suivante

help(qchisq)

2. On traite une deuxième parcelle avec le traitement habituel. Les réulstats observé sur 400
plants sont les suivants :

Effet Eradication Amélioration Sans effet


Nombre de plants 220 90 90

(a) Proposer un test qui permet de rejeter ou non l’hypothèse "le nouveau traitement est
différent de l’ancien".
(b) Tester au risque de 5% si les traitements sont différents. On pourra s’aider de la
commande suivante

help(qchisq)

Exercice 10 : On souhaite savoir si le rhésus dépend du groupe sanguin. Pour cela, on dispose du
tableau de données suivant :

O A B AB Total
Rhésus + 370 381 62 28
Rhésus - 70 72 12 5
Total

Au risque de 5%, tester si le rhésus est indépendant du groupe sanguin. On pourra s’aider de la
commande suivante

help(qchisq)

Exercice 11 : Le couvert végétal du domaine vital d’un orignal (élan d’amérique) se compose de
peuplements feuillus (25% de la superficie du domaine vital), de peuplements mixtes (38% de la
superficie), de peuplements résineux (25.8%) et d’un marécage (11.2%). Dans ce domaine,
l’orignal a été localisé à 511 reprises au cours de l’année. Sur les 511 localisations, 118 se trouvaient
dans le feuillus, 201 dans les peuplements mixtes, 110 dans les résineux, et 83 dans les marécages.

1. On veut montrer que l’orignal fréquente préférentiellement certains milieux. Proposer un


test statistique pour vérifier cette hypothèse.
2. Réaliser le test et proposer une interprétation biologique du résultat. On pourra s’aider de
la commande suivante

help(qchisq)
24

Exercice 12 : Dans une étude sur un répulsif de moustique, on compte le nombre de piqûres de
chaque personne à partir d’un échantillon de 150 personnes. On obtient

Nb de piqûres 0 1 2 3 4 5 6 >6
Nb d’individus 32 54 34 21 6 2 1 0

Tester au risque de 5% que le nombre de piqûres pour une personne est une variable aléatoire
suivant une loi de Poisson de paramètre 1. Pour s’aider, soit X ∼ P (1), on a

k 0 1 2 3 4 5 6 >6
P[ X = k ] 0.37 0.37 0.18 0.061 0.015 0.0031 0.00051 8.10− 5

On pourra s’aider de la commande suivante

help(qchisq)

Vous aimerez peut-être aussi