Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Cours Outils Proba 2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 20

OUTILS PROBABILISTES POUR LA STATISTIQUE 2

NICOLAS PÉTRÉLIS

Contents
1. Convergence presque sure, en probabilité et Lp . 1
1.1. Rappels: définitions, exemples 1
1.2. Application de la LFGN: le théorème de Glivenko Cantelli 3
2. Convergence en Loi 4
2.1. Définition, spécificité 4
2.2. Estimations de fluctuations. 5
2.3. Illustrations de la convergence en loi. 6
3. Conditionnement 7
3.1. Loi d’une variable aléatoire conditionnée par un événement de probabilité non
nulle 7
3.2. Loi d’une variable aléatoire conditionnée par une autre variable aléatoire 8
3.3. Espérance conditionnelle 11
3.4. Espérance d’une variable aléatoire conditionnée par une variable aléatoire. 12
4. Vecteurs Gaussiens 15
4.1. Manipulations de vecteurs aléatoires 15
4.2. Rappel sur les lois Gaussiennes 15
4.3. Vecteur Gaussien 16

1. Convergence presque sure, en probabilité et Lp .


1.1. Rappels: définitions, exemples. Pour ces trois modes de convergence, on con-
sidère une suite (Xn )n≥1 de variables aléatoires définies sur un même espace de probabilité
(Ω, A, P) et une variable aléatoire limite X également définies sur (Ω, A, P).
Donnons tout d’abord la définition de la plus faible de ces trois convergences: la conver-
gence en probabilité. On notera ||x||∞ := max{|x1 |, . . . , |xd |} pour x = (x1 , . . . , xd ) ∈ Rd .

Definition 1.1. Une suite (Xn )n≥1 de vecteurs aléatoires à valeurs dans Rd définis sur un
même espace de probabilité (Ω, A, P) converge en P-probabilité vers X définie sur (Ω, A, P)
si pour tout ε > 0 on a

lim P ||Xn − X||∞ > ε = 0.
n→∞
Dans ce cas on note
P-proba
lim Xn = X en P-proba ou encore Xn −→ X
n→∞ n→∞

Date: November 2, 2023.

1
2 NICOLAS PÉTRÉLIS

Exemple 1.2. Soit ϑ > 0, on considère une suite i.i.d. de variables aléatoires (Xi )i≥1 de
loi Unif([0, ϑ]) et on note Mn := max{X1 , . . . , Xn }. Montrer que ∀ε > 0 et ∀n ≥ 1 on a
n
P Mn − ϑ| > ε = 1 − ϑε ,

(1.1)
de sorte que lim Mn = ϑ en P-proba.
n→∞

Nous poursuivons avec la convergence en norme Lp pour p ∈ [1, ∞[ qu’on utilise habituelle-
ment avec des variables aléatoires réelles plutôt qu’avec des vecteurs aléatoires.
Definition 1.3. Soit p ∈ [1, ∞[. Soit (Xn )n≥1 et X des variables aléatoires réelles dans
Lp (Ω, A, P). On dit que la suite (Xn )n≥1 converge vers X dans Lp si
lim E(|Xn − X|p ) = 0. (1.2)
n→∞

Dans ce cas on note


Lp ||·||p
Xn −→ X ou encore Xn −→ X.
n→∞ n→∞

Exemple 1.4. On revient à l’exemple 1.2. Ainsi, ϑ > 0 et on considère de nouveau une
suite i.i.d. (Xi )i≥1 de loi Unif([0, ϑ]) avec Mn = max{X1 , . . . , Xn }.
(1) En déduire que Montrer que
lim E[(Mn − ϑ)2 ] = 0.
n→∞

L2
Ainsi Mn −→ ϑ.
n→∞
(2) La convergence L2 de Mn vers ϑ nous donne une autre preuve de la convergence en
proba. de Mn vers ϑ (cf: cours outils proba 1: il faut utiliser l’inégalité de Markov).
Nous en venons à la convergence presque-sure et à la loi forte des grands nombres.
Definition 1.5. Une suite (Xn )n≥1 de vecteurs aléatoires à valeurs dans Rd définis sur
un même espace de probabilité (Ω, A, P) converge P-presque surement vers X définie sur
(Ω, A, P) si
 
P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n→∞
Dans ce cas, on note
P-p.s.
lim Xn = X P-p.s. ou encore Xn −→ X
n→∞ n→∞

Exemple 1.6. On revient à l’exemple 1.2. Soit ϑ > 0, on considère de nouveau une suite
i.i.d. (Xi )i≥1 de loi Unif([0, ϑ]) avec Mn = max{X1 , . . . , Xn }.
(1) Montrer à l’aide de (1.1) et du Lemme de Borel Cantelli (cf. cour outils proba.1) que
P-p.s.
Mn −→ ϑ.
n→∞

(2) Donner une autre preuve de cette convergence presque sure sans utiliser le lemme de
Borel Cantelli, mais en remarquant que Mn étant croissante et bornée supérieurement
par ϑ elle converge P-p.s. dans R.
OUTILS PROBABILISTES POUR LA STATISTIQUE 2 3

Remarque 1.7. La convergence presque sure implique la convergence en probabilité. En


revanche, la convergence en probabilité n’implique pas la convergence presque sure. On
P-proba
peut tout de même dire que si Xn −→ X alors il existe ϕ : N → N strictement croissante
n→∞
P-p.s.
telle que Xϕ(n) −→ X (cf. cours outils proba 1). Il faut utiliser l’inégalité de Markov
n→∞
combinée au lemme de Borel Cantelli.
Le troisième exemple de convergence presque sure que nous considérons est donné par
la loi forte des grands nombre qui nous permet de conclure de manière très générale que
la moyenne empirique d’une suite de variable aléatoire i.i.d. et intégrable converge vers la
moyenne de l’une quelconque de ces variables.
Theorem 1.8. [Loi forte des grands nombres] Soit (Xi )i≥1 une suite i.i.d. de variables
aléatoires réelles telle que X1 ∈ L1 (Ω, A, P) (i.e., E(|X1 |) < ∞). Alors

X1 + · · · + Xn P-p.s.
X̄n := −→ E(X1 ). (1.3)
n n→∞

1.2. Application de la LFGN: le théorème de Glivenko Cantelli. On considère


(Xn )n∈N une suite de variables aléatoires i.i.d. définie sur (Ω, A, P ) et de fonction de
répartition F . Pour tout n ∈ N et tout ω ∈ Ω, on note
n
1X
µn,ω = δXi (ω)
n
i=1

la mesure de probabilité empirique associée a n observations. On note aussi Fn,ω la fonction


de répartition de µn,ω .
Theorem 1.9. [Glivenko-Cantelli]

lim sup Fn,ω (t) − F (t) = 0 P -presque surement en ω. (1.4)


n→∞ t∈R

Proof. Pour tout x ∈]0, 1[ on définit le pseudo inverse F −1 de la fonction de répartition F


par F −1 (x) := inf{u ∈ R : F (u) ≥ x}.
1) Prouver que ∀x ∈]0, 1[ et t ∈ R on a
F −1 (x) ≤ t ⇐⇒ x ≤ F (t).
2) En déduire que si (Ui )i≥1 est une suite i.i.d. de v.a. définies sur un espace de probabilité
(Ω, A, P ) et qui suivent une loi uniforme sur [0, 1], alors (F −1 (Ui ))i≥1 a même loi que
(Xi )i≥1 .
3) En déduire que (1.4) sera prouvée si on montre que
n
1X
lim sup 1{Ui ≤F (t)} − F (t) = 0 P -presque surement en ω. (1.5)
n→∞ t∈R n
i=1

4) Expliquer pourquoi il suffit finalement de montrer que


n
1X
lim sup 1{Ui ≤x} − x = 0 P -presque surement en ω, (1.6)
n→∞ x∈[0,1] n
i=1
4 NICOLAS PÉTRÉLIS

5) Montrer qu’il existe N ∈ A tel que P (N ) = 0 et tel que pour tout ω ∈ Ω \ N et pour
tout x ∈ [0, 1] ∩ Q on ait
n
1X
lim 1{Ui ≤x} = x.
n→∞ n
i=1
6) Prouver (1.6) à l’aide du deuxième théorème de Dini.

2. Convergence en Loi

2.1. Définition, spécificité. Pour les trois modes de convergence de suite de variables
aléatoires vues jusqu’ici, les variables aléatoires de la suite ainsi que leur limite doivent être
définies sur le même espace de probabilité. De plus la limite est unique à égalité P-presque
sure près. En effet, si (Xn ) et X et Y sont des variables aléatoire définies sur un même
espace de probabilité et si à la fois
Prob. Prob.
Xn −→ X et Xn −→ Y
n→∞ n→∞

alors X = Y P-presque surement.


La convergence en loi que nous étudions maintenant est d’une nature différente, puisque
les variables n’ont même pas besoin d’être définies sur le même espace de proba. pour qu’on
puisse envisager une convergence en loi.
Definition 2.1. Soit (Xn )n≥1 et X des vecteurs aléatoires.à valeur dans Rd . On dit que la
suite (Xn )n≥1 converge en loi vers X si l’une des deux conditions (équivalentes) suivantes
est vérifiée:
 
(1) ∀f : R 7→ R continue bornée, on a E f (Xn ) −→ E f (X) .
n→∞
(2) ΦXn (t) −→ ΦX (t) ∀t ∈ R.
n→∞
Dans ce cas on note
Loi
Xn −→ X.
n→∞

Remarque 2.2. Dans le cas où les variables aléatoires considérées sont réelles (à valeur
dans R) on a une troisième caractérisation de la convergence en loi, donnée par le Théorème
de Helly (cf. cours outils proba.1), qui s’énonce ainsi:
(3) FXn (t) −→ FX (t) pour tout t ∈ R point de continuité de FX .
n→∞

Remarque 2.3. On constate que la convergence en loi d’une suite de variable aléatoire
vers une autre variable aléatoire ne dépend que des lois de ces variables. Ainsi, si (µn )n≥1
et µ sont des lois de probabilité sur (R, Bor(R)), la convergence
Loi
µn −→ µ,
n→∞
OUTILS PROBABILISTES POUR LA STATISTIQUE 2 5

signifie que toute suite de variables aléatoires (Xn )n≥1 telle que PXn = µn , ∀n ≥ 1 converge
en loi vers toute variable aléatoire X telle que PX = µ. Pour une telle suite (Xn )n≥1 on
peut aussi écrire
Loi
Xn −→ µ.
n→∞

Exemples:
• La convergence en probabilité implique la convergence en loi. La réciproque est fausse
en générale, mais elle est vraie quand la convergence a lieu vers une constante ainsi,
si a ∈ R
Loi Prob.
Xn −→ a =⇒ Xn −→ a
n→∞ n→∞

2.2. Estimations de fluctuations. On a vu, notamment avec la LFGN, des exemples de


suite de variables aléatoires réelles (Zn )n≥1 qui convergent P-p.s. ou bien en probabilité
vers une constante κ ∈ R. Pour aller plus loin, on peut essayer de déterminer l’ordre des
fluctuations de Zn autour de κ, c’est à dire d’estimer la distance typique (en fonction de n)
qui sépare Zn de κ quand n devient grand. L’une des solutions consiste à chercher α > 0
tel que nα (Zn − κ) converge en loi vers une variable aléatoire Ze non-triviale (c ’est a dire
qui ne soit ni 0 ni +∞ P-p.s.). Ceci nous garantira que les fluctuations de Zn autour de κ
sont de l’ordre de 1/nα .
En effet, si a < b ∈ R sont des points de continuité de Fe la fonction de répartition de Ze
alors la caractérisation (3) de la Définition 2.1 (cf. Remarque 2.2) nous garantit que
h 1 i
lim P (Zn − κ) ∈ α [a, b] = Fe(b) − Fe(a).
n→∞ n
Exemple:
• Reprenons l’exemple des variables i.i.d. (Xi )i≥1 de loi Unif([0, ϑ]) avec
Mn := max{X1 , . . . , Xn }.
On a vu que Mn converge P-presque surement vers ϑ quand n → ∞. On veut a
présent déterminer l’ordre des fluctuations de Mn à gauche de ϑ. On peut prouver
que
Loi
n(Mn − ϑ) −→ Exp( ϑ1 ).
n→∞
On dit alors l’ordre des fluctuations de Mn à gauche de ϑ est 1/n, ou encore que la
vitesse de convergence de Mn vers ϑ est 1/n.
• Reprenons l’énoncé de la Loi Forte des Grands Nombre (Th. (1.8)). En renforçant
les hypothèses, on peut determiner l’ordre des fluctuations de X̄n autour de E(X1 ).
C’est l’objet du théorème centrale limite.

Theorem 2.4. [Théorème centrale limite] Soit (Xi )i≥1 une suite i.i.d. de variables aléatoires
réelles telle que X1 ∈ L2 (Ω, A, P) (i.e., E(|X1 |2 ) < ∞). On note m := E(X1 ), σ 2 :=
Var(X1 ) et aussi Sn = X1 + · · · + Xn ∀n ≥ 1. Alors
Sn − n m Loi
√ −→ N (0, 1). (2.1)
nσ n→∞
On rappelle que X̄n = Sn /n et alors on peut écrire de manière équivalente que

n Loi
(X̄n − m) −→ N (0, 1). (2.2)
σ n→∞
6 NICOLAS PÉTRÉLIS

Remarque 2.5.√ Le TCL nous indique donc que la vitesse de convergence de X̄n vers
E(X1 ) est de 1/ n.

2.3. Illustrations de la convergence en loi.


Application d’une fonction à une suite de variable aléatoire qui converge en loi.
Loi
Vous avez vu dans le cours Outils probabiliste 1 que si Xn −→ X dans Rd et si f est une
n→∞
fonction continue sur Rd alors
Loi
f (Xn ) −→ f (X).
n→∞
Dans des cas plus sophistiqués, on peut conserver une convergence en loi en appliquant une
fonction a une suite de variable aléatoire qui converge en loi. C’est l’objet de la méthode
Delta que nous présentons maintenant.
Theorem 2.6. [Méthode Delta] Soit (Xn )n≥1 une suite de variables aléatoires réelles. Soit
Prob. √ Loi.
ϑ ∈ R tel que Xn −→ ϑ et soit Z une variable aléatoire telle que n(Xn − ϑ) −→ Z. Soit
n→∞ n→∞
g une fonction dérivable en ϑ. Alors
√   Loi.
n g(Xn ) − g(ϑ) −→ g 0 (ϑ) Z
n→∞

Exemple. Soit (Xn )n≥1 une suite i.i.d. de variables aléatoires dans L2 . On note m =
E(X1 ) et σ 2 = Var(X1 ). Soit g : R 7→ R, dérivable en m. Pour tout n ≥ 1 on pose
X̄n = n1 (X1 + · · · + Xn ). Alors, la loi forte des grands nombres et le TCL nous permettent
de vérifier que les hypothèses de la Méthode Delta sont vérifiées pour (X̄n )n≥1 . On en
déduit que
√   Loi.
n g(X̄n ) − g(m) −→ N 0, σ 2 (g 0 (m))2 .

n→∞
Considérons le cas
√ particulier où X1 Poisson(ϑ). Alors E(X1 ) = Var(X1 ) = ϑ et avec la
fonction g(x) = x nous obtenons
√ hp √ i Loi.
n X̄n − ϑ −→ N 0, 14 .

n→∞

Convergence en loi d’une suite de variables aléatoires définie par récurrence.


Soit ϑ ∈]0, ∞[. On considère une suite (Un )n≥1 de variables aléatoire i.i.d. telle que U1
N (0, 1). On pose X0 = 0 et pour tout n ≥ 1,
Xn = ϑXn−1 + Un .
1) Montrer à l’aide des fonction génératrices que si Y1 et Y2 sont indépendantes et que
Y1 N (m1 , σ12 ) et Y2 N (m2 , σ22 ) on a Y1 + Y2 N (m1 + m2 , σ12 + σ22 ).

2) Déterminer la loi de Xn pour tout n ≥ 1.

3) Etudier la convergence en loi de la suite (Xn )n≥1 en fonction de la valeur de ϑ.


OUTILS PROBABILISTES POUR LA STATISTIQUE 2 7

3. Conditionnement
Dans ce chapitre, nous allons étendre la notion de conditionnement d’un évènement par
un autre évènement au conditionnement d’une variable aléatoire par une autre variable
aléatoire. En Section 3.1 nous définissons la loi et l’espérance d’une variable aléatoire con-
ditionnée par un évènement de probabilité non nulle. Puis en Section 3.2, nous définissons la
loi d’une variable aléatoire conditionnellement à la réalisation d’une autre variable aléatoire.
En Section 3.3 nous définissons l’espérance d’une variable aléatoire X : (Ω, A, P) 7→
(R, BorR) conditionnée par une sous tribu G de A. Enfin, pour Y : (Ω, A, P) 7→ (R, BorR),
nous appliquons cette dernière définition au cas ou G est la tribu σ(Y ) engendrée par Y
pour définir l’espérance d’une variable aléatoire conditionnée par la réalisation d’une autre
variable aléatoire.

3.1. Loi d’une variable aléatoire conditionnée par un événement de probabilité


non nulle.
Vous connaissez déjà la définition suivante qui permet de calculer la probabilité d’un
évènement conditionnellement à la réalisation d’un autre évènement.
Definition 3.1. Soit (Ω, A, P) un espace de probabilité et B ∈ A un évènement de prob-
abilité strictement positive, i.e., P(B) > 0. Alors, ∀A ∈ A on définit
P(A ∩ B)
P(A | B) = .
P(B)
Dès lors on obtient
P( · | B) : A 7→ [0, 1] (3.1)
A 7→ P(A | B)
qui est une loi de proba sur (Ω, A).
A présent on va définir la loi d’une variable aléatoire conditionnellement à un évènement
de probabilité non nulle.
Definition 3.2. Soit X : (Ω, A, P) 7→ (Rk , Bor(Rk )) et B ∈ A tel que P(B) > 0. Alors la
loi conditionnelle de X sachant B, notée P(X ∈ · | B) correspond à la loi de
X : Ω, A, P( · | B) 7→ (Rk , Bor(Rk )),


c’est à dire à la loi de la variable X quand la loi sur l’espace de départ est la probabilité
conditionnelle sachant B.
Pour finir, nous définissons l’espérance d’une variable aléatoire conditionnellement à un
évènement de probabilité non nulle.
Definition 3.3. Soit X ∈ L1 (Ω, A, P) et B ∈ A tel que P(B) > 0. Alors l’ésperance de X
conditionnellement à B, notée E(X | B) est définie comme suit

E(X | B) := E P(·|B) X .
On peut prouver que
E X 1B )
E(X | B) = .
P(B)
Exemples:
8 NICOLAS PÉTRÉLIS

(1) Soit X la variable aléatoire représentant le résultat d’un lancé de dé non truqué. Ainsi
X Unif({1, . . . , 6}). Alors, la loi conditionnelle de X sachant que le résultat du
lancé est pair (i.e., {X ∈ {2, 4, 6}) est une Unif({2, 4, 6}) et son espérance condition-
nellement à ce même évènement est 4.
(2) Soit X une variable aléatoire réelle telle que X Exp(λ) avec λ > 0. Alors , ∀t > 0
la loi conditionnelle de X − t sachant {X > t} est encore une Exp(λ). Dès lors
l’espérance de X conditionnellement à {X > t} est t + (1/λ).
(3) Soit (X1 , . . . , Xn ) des variable aléatoires i.i.d. telle que X1 Unif([0, 1]). On note
mn := min{X1 , . . . , Xn } et Mn := max{X1 , . . . , Xn }.
Soit 0 ≤ a < b ≤ 1. Alors, conditionnellement à l’évènement {a ≤ mn ≤ Mn ≤
b} le vecteur aléatoire (X1 , . . . , Xn ) a ses coordonnées i.i.d. et qui suivent une loi
Unif([a, b]).
3.2. Loi d’une variable aléatoire conditionnée par une autre variable aléatoire.
Theorem 3.4. [Lemme de Doob] Soit (X, Y ) : (Ω, A, P) 7→ (R2 , Bor(R2 )) un vecteur
aléatoire. Il existe une famille (Ky )y∈R de loi de probabilité sur (R, Bor(R)) telle que
• ∀B ∈ Bor(R), y ∈ R 7→ Ky (B) est mesurable,
• ∀g : R2 7→ R, mesurable bornée (ou mesurable positive), on a
Z Z 
 
E g(X, Y ) = g(x, y) dKy (x) d PY (y). (3.2)
R R
On note alors Ky = PX|Y =y que l’on appelle loi conditionnelle de X sachant Y = y.
On va à présent appliquer le théorème précédent dans trois cas particuliers très impor-
tants, tout d’abord, celui où X et Y sont indépendantes, puis celui où Y prends un nombre
dénombrable de valeur et enfin le cas ou le vecteur (X, Y ) est à densité.
Premier cas particulier: les variables aléatoires X et Y sont indépendantes.
Dans ce cas on prouve facilement que la loi conditionnelle de X sachant Y reste la loi de
X quelque soit la valeur prise par Y , i.e.,
PX|Y =y = PX , ∀y ∈ R. (3.3)
En effet, on considère g : (R2 , Bor(R2 )) 7→ (R, Bor(R)) mesurable positive et on calcule
Z
 
E g(X, Y ) = g(x, y)dP(X,Y ) (x, y) (théorème de transfert) (3.4)
2
ZR
= g(x, y)d(PX ⊗ PY )(x, y) (indépendance de X et Y )
R2
Z hZ i
= g(x, y)dPX (x) dPY (y) (Fubini positif)
R R
ce qui d’après le Lemme de Doob ci-dessus prouve (3.3).

Second cas particulier: la variable aléatoire Y prend un nombre au plus dénombrable


de valeurs. Notons HY l’ensemble des valeurs prises par Y avec une probabilité positive,
i.e., HY := {ai , i ∈ I} où I est au plus dénombrable et
P(Y = ai ) > 0, ∀i ∈ I et P(Y ∈ {ai , i ∈ I}) = 1.
Pour la proposition suivante, on rappelle la définition (3.2).
OUTILS PROBABILISTES POUR LA STATISTIQUE 2 9

Proposition 3.5. Soit (X, Y ) un vecteur aléatoire tel que Y admet une loi discrète. Alors
pour tout i ∈ I
PX|Y =ai = P(X ∈ · | Y = ai ), ∀i ∈ I.

Proof. Pour simplifier la preuve, on se place dans le cas où I = N (le cas I fini est plus
simple). On considère g : (R2 , Bor(R2 )) 7→ (R, Bor(R)) mesurable positive et on calcule
  h X i
E g(X, Y ) = E g(X, Y ) 1{ai } (Y ) (3.5)
i∈N
X h i
= E g(X, ai )1{ai } (Y ) (convergence monotone)
i∈N
h i
X E g(X, ai )1{ai } (Y )
= P(Y = ai )
P(Y = ai )
i∈N
X h i
= P(Y = ai ) E g(X, ai ) | Y = ai
i∈N
Z h i
= E g(X, y) | Y = y dPY (y)
{ai ,i∈N}
Z h
= E P(·|Y =y) g(X, y)] dPY (y)
{ai ,i∈N}
Z Z 
= g(x, y) dP (X ∈ · | Y = y)(x) dPY (y)
{ai ,i∈N} R
on obtient donc bien le résultat voulu. 
Exemple 3.6. Soient X et Y deux variables aléatoires indépendantes telle que Y
Poiss(λ) et X Exp(β). On pose alors N = 1{X>Y } . Montrer que la loi conditionnelle de
N sachant Y est
PN | Y =k = Bernoulli(e−βk ), ∀k ∈ N.
Exemple 3.7. On considère Z une variable aléatoire à densité
1
fZ (x) = 1 (x)
log 2(1 + x) ]0,1[
On considère les deux variables aléatoires suivantes:
j1k 1 j1k
Y = et X = − .
Z Z Z
Montrer que pour tout k ∈ N∗ la loi conditionnelle de X sachant Y = k est à densité et
que cette densité vaut:
1 1
fX | Y =k (t) = 1 (t).
(k+1)2 (k + t)(k + 1 + t) [0,1]
log k(k+2)

Troisième cas particulier: le couple (X, Y ) est à densité. Notons f(X,Y ) la densité
du couple (X, Y ). Dans ce cas on sait que Y est à densité, notée fY et définie par
Z
fY (y) = f(X,Y ) (x, y)dx.
R
On note HY := {y ∈ R : fY (y) > 0} et on obtient la proposition suivante.
10 NICOLAS PÉTRÉLIS

Proposition 3.8. Si le vecteur aléatoire (X, Y ) est à densité, alors la loi conditionnelle
PX| Y =y est définie de manière unique pour tout y ∈ HY et elle admet pour densité
f(X,Y ) (x, y)
fX| Y =y (x) = , x∈R
fY (y)

Proof. On remarque que si y ∈ / HY alors f(X,Y ) (x, y) = 0 λ−presque surement en x. Dès


lors, on considère g : (R2 , Bor(R2 )) 7→ (R, Bor(R)) mesurable bornée et on peut écrire
Z
 
E g(X, Y ) = g(x, y) f(X,Y ) (x, y) dxdy (3.6)
R2
Z Z 
= g(x, y) f(X,Y ) (x, y) dx dy (Fubini)
R R
f(X,Y ) (x, y)
Z Z 
= f Y (y) g(x, y) dx dy
HY R f Y (y)
f(X,Y ) (x, y)
Z Z 
= g(x, y) dx dPY (y)
HY R f Y (y)
on obtient donc bien le résultat voulu. 
On remarque que la loi conditionnelle de X sachant Y = y n’est pas définie de manière
unique pour y ∈/ HY . En effet, quel que soit le choix fait pour PX|Y =y avec y ∈
/ HY , ceci
ne change pas la valeur du membre de droite dans (3.2) .

Exemple 3.9. Soit (X, Y ) un couple de variables aléatoires ayant pour loi
d P(X,Y ) (x, y) = λ2 e−λy 1 [0,∞[ (y) 1 [0,y] (x) dx dy
(1) Montrer que HY =]0, ∞[

(2) Montrer que pour tout y > 0:


PX| Y =y = Unif[0,y]

Si un vecteur aléatoire (X, Y ) vérifie que Y est à densité et que la loi conditionnelle de
X sachant Y est également à densité alors le couple (X, Y ) est à densité et la proposition
suivante nous permet de calculer cette densité.
Proposition 3.10. Soit (X, Y ) un vecteur aléatoire tel que Y est à densité (notée fY ) et
tel que pour tout y ∈ R la loi conditionnelle de X sachant Y = y est également à densité
(notée fX | Y =y ). Alors, le vecteur (X, Y ) est à densité et celle-ci peut être calculée à l’aide
de la formule
f(X,Y ) (x, y) = fX | Y =y (x) · fY (y), (x, y) ∈ R2 .

Exemple 3.11. Soit (X, Y ) un couple de variables aléatoires tel que


Y Unif[0,1] et PX | Y =y = Unif[0,y] ∀y ∈]0, 1[.
Montrer que
1
d P(X,Y ) (x, y) = 1 (y) 1 ]0,y[ (x) dx dy.
y ]0,1[
OUTILS PROBABILISTES POUR LA STATISTIQUE 2 11

3.3. Espérance conditionnelle.


Définition heuristique: Il s’agit à présent de définir E(X | G) l’espérance conditionnelle
d’une variable aléatoire X : (Ω, A, P) 7→ (R, Bor(R)) (intégrable ou positive) par rapport à
une sous tribu G de A. Pour avoir l’intuition de ce qu’est l’espérance conditionnelle, il faut
définir ce qu’est une partie minimale d’une tribu. Ainsi A ∈ G est minimale si on ne peut
pas la ”casser” dans G, i.e., si on ne peut pas l’écrire sous la forme A = B∪C avec B∩C = ∅,
B, C ∈ G, B 6= ∅ et C 6= ∅. Ainsi une variable aléatoire Y : (Ω, G, P) 7→ (R, Bor(R)) est
nécessairement constante sur les partie minimale de G.
Intuitivement, on peut se dire que la tribu G est plus grossière que la tribu A, c’est
à dire qu’elle contient moins de partie de Ω que A. Ainsi, certaines parties peuvent être
minimales pour G sans être minimales pour A. Dès lors, E(X | G) qui est une variable
aléatoire G-mesurable, est constante sur toute partie A ∈ G minimale et sa valeur sur A
est obtenue en moyennant X sur A, i.e., elle vaut E(X | A).
Donnons à présent une définition rigoureuse de l’espérance conditionnelle.
Proposition 3.12. Soit X : (Ω, A, P) 7→ (R, Bor(R)) intégrable (i.e., X ∈ L1 (Ω, A, P)).
Soit G une sous tribu de A. Alors, il existe une unique (à égalité P-presque sure près)
variable aléatoire Y telle que
• Y ∈ L1 (Ω, G, P )
• E(X 1A ) = E(Y 1A ), ∀A ∈ G.
Soit X : (Ω, A, P) 7→ (R+ , Bor(R+ )) une variable aléatoire positive. Soit G une sous
tribu de A. Alors, il existe une unique (à égalité P-presque sure près) variable aléatoire Y
telle que
• Y ≥ 0 P-presque surement et Y est G-mesurable
• E(X 1A ) = E(Y 1A ), ∀A ∈ G.
Dans ce cas la variable aléatoire Y est appelée espérance conditionnelle de X sachant G
et on la note E(X | G).

Proof. Nous prouverons simplement l’existence de l’espérance conditionnelle en renforçant


dans L2 (Ω, A, P). Ainsi, on veut montrer que ∀X ∈ L2 (Ω, A, P), il existe Y une variable
aléatoire telle que
• Y ∈ L2 (Ω, G, P)
• E(X 1A ) = E(Y 1A ), ∀A ∈ G.
Pour cela on munit L2 (Ω, A, P) du produit scalaire < Z, W >= E(ZW ) associé à
la norme L2 et on rappelle que (L2 (Ω, A, P), || · ||2 ) est un espace de Hilbert. De plus,
L2 (Ω, G, P) est un sous espace vectoriel fermé de L2 (Ω, A, P). On peut donc considérer
T : L2 (Ω, A, P) 7→ L2 (Ω, G, P) la projection orthogonale sur L2 (Ω, G, P). On obtient donc
que
< X − T (X), Z > = E (X − T (X)) Z = 0, ∀Z ∈ L2 (Ω, G, P)
 
(3.7)
2
 
ainsi E XZ] = E T (X)Z]. On peut donc remarquer que T (X) ∈ L (Ω, G, P) et appliquer
l’égalité précédente avec Z = 1A pour A ∈ G. Ainsi
E(X 1A ) = E(T (X) 1A )
et donc T (X) vérifie les conditions pour être l’espérance conditionnelle de X par G et
prouve donc son existence.
12 NICOLAS PÉTRÉLIS


Nous donnons à présent une liste de propriétés de l’espérance conditionnelle .
Proposition 3.13. Soit (Ω, A, P) un espace de probabilité et G une sous tribu de A. Soit
X et Y deux variables aléatoire de L1 (Ω, A, P).
(1) ∀λ ∈ R, E(λX + Y | G) = λE(X | G) + E(Y | G),

(2) si X ≥ Y P-presque surement, alors E(X | G) ≥ E(Y | G) P-presque suremement,

(3) E[ E(X | G)] = E(X),

(4) si X est indépendante de G alors E(X | G) = E(X) P-presque surement,

(5) si X est G−mesurable alors E(X | G) = X P-presque surement,

(6) si B est une sous tribu de G alors E(X | B) = E[ E(X | G) | B],

(7) si X ∈ L1 (Ω, A, P) et Y ∈ L∞ (Ω, G, P) ou bien si X ∈ L2 (Ω, A, P) et Y ∈ L2 (Ω, G, P)


alors
E(XY | G) = Y E(X | G).

3.4. Espérance d’une variable aléatoire conditionnée par une variable aléatoire.

Dans cette section nous allons considérer un cas particulier de l’espérance condition-
nelle. En effet, la sous-tribu par laquelle une variable aléatoire est conditionnée peut
être choisie comme la tribu engendrée par une autre variable aléatoire. Pour être plus
précis, on considère X et Y deux variables aléatoires de (Ω, A, P) 7→ (R, Bor(R)) telle que
X ∈ L1 (Ω, A, P) ou X ≥ 0 P-presque surement. On pose alors
E(X | Y ) = E(X | σ(Y ))
où on rappelle que σ(Y ) = {(Y )−1 (B), B
∈ Bor(R)} est la plus petite tribu sur Ω qui rend
Y mesurable.
Le second lemme de Doob que nous énonçons maintenant nous garantit que E(X | Y )
peut toujours s’écrire comme une fonction de Y .

Proposition 3.14. [Lemme de Doob] Soit X : (Ω, A, P) 7→ (Rd , Bor(Rd )) une variable
aléatoire et Y : (Ω, A, P) 7→ (E, E) une variable aléatoire. Alors, X est σ(Y )-mesurable si
et seulement si il existe h : (E, E) 7→ (Rd , Bor(Rd )) mesurable telle que X = h(Y ).

Remarque 3.15. On déduit du lemme précédent que pour calculer E(X | Y ) il faut en
réalité calculer la fonction h

Premier cas particulier: les variables X et Y sont indépendantes. Il s’agit d’un


cas particulier du point (4) de la Proposition 3.13. En effet, la définition de X et Y
indépendantes est justement que σ(X) et σ(Y ) sont des sous-tribus indépendante, ou de
OUTILS PROBABILISTES POUR LA STATISTIQUE 2 13

manière équivalente que X est indépendante de σ(Y ). Ainsi, si X ≥ 0 P-presque surement


ou si X ∈ L1 on a
E(X | Y ) = E(X | σ(Y )) = E(X), P-presque surement.

Second cas particulier: la variable Y est discrète. On rappelle que dans ce cas, on note
HY l’ensemble des valeurs prises par Y avec une probabilité positive, i.e., HY := {ai , i ∈ I}
où I est au plus dénombrable et
P(Y = ai ) > 0, ∀i ∈ I et P(Y ∈ HY ) = 1.

Proposition 3.16. Soit X une variable aléatoire de (Ω, A, P) 7→ (R, Bor(R)) tel que
X ≥ 0 P-presque surement ou X ∈ L1 (Ω, A, P). Soit Y : (Ω, A, P) 7→ (R, Bor(R)) une
variable aléatoire aléatoire discrète, alors E(X | Y ) = h(Y ) P-presque surement avec
X
h(y) = E[X | Y = ai ] 1{ai } (y), ∀y ∈ R.
i∈I

Exemple 3.17. Reprenons l’exemple 3.6 dans lequel X et Y sont deux variables aléatoires
indépendantes telle que Y Poiss(λ) et X Exp(β). On rappelle que N = 1{X>Y } .
Montrer que
E(N | Y ) = e−βY P-presque surement.

Troisième cas particulier: le vecteur (X, Y ) est à densité. On se place dans le cas
où le vecteur aléatoire (X, Y ) est à densité notée f . On suppose que X est intégrable, i.e.,
Z Z
|x| f (x, y)dydx < ∞.
R R
On rappelle que la densité de Y est notée fY et que HY := {y ∈ R : fY (y) > 0}. On obtient
la proposition suivante.
Proposition 3.18. Si le vecteur aléatoire (X, Y ) est à densité et que X ∈ L1 , alors
E(X | Y ) = h(Y ) P-presque surement avec
R
x f (x, y)dx
h(y) = R 1HY (y), y ∈ R.
fY (y)

Exemple 3.19. Reprenons l’exemple (3.9) où (X, Y ) est un couple de variables aléatoires
ayant pour loi
d P(X,Y ) (x, y) = λ2 e−λy 1 [0,∞[ (y) 1 [0,y] (x) dx dy.
On a montré précédemment que que HY =]0, ∞[.

(1) Montrer que :


Y
E(X | Y ) = , P-presque surement.
2
(2) En déduire E(X).
14 NICOLAS PÉTRÉLIS

Exemple 3.20. Soit (X, Y ) un couple de variables aléatoires ayant pour densité
4y
d P(X,Y ) (x, y) = 3 1 ]0,1[ (x) 1 ]0,x2 [ (y) dx dy.
x

(1) Calculer les lois marginales de X et Y .


(2) Déterminer HX et HY .
(3) Montrer que
2 X2
E(Y | X) = , P-presque surement.
3
(4) Montrer que
2Y  1 
E(X | Y ) = √ −1 , P-presque surement.
1−Y Y

Lien entre l’espérance conditionnelle et la loi conditionnelle. Remarquons ici que


si (X, Y ) un vecteur aléatoire tel que X ∈ L1 (Ω, A, P), l’espérance conditionnelle de X
sachant Y peut être calculée en intégrant x contre la loi conditionnelle de X sachant Y .
On a donc E(X | Y ) = h(Y ) P-presque surement avec
Z
h(y) = x dPX|Y =y (x), y ∈ HY . (3.8)
R
En effet, le lemma de Doob (énoncé dans le Theorème 3.4) appliqué avec la fonction
g(x, y) = x 1B (y) où B ∈ Bor(R) nous permet d’écrire que
Z Z
E X 1B (Y )) = x1B (y)dPX|Y =y (x)dPY (y) (3.9)
ZR R Z 
= 1B (y) xdPX|Y =y (x) dPY (y) (3.10)
R R
 
= E 1B (Y ) h(Y ) (3.11)
avec h définie en (3.8).

Applications: Les propositions 3.8 et 3.18 sont l’illustration de ce lien pour les vecteurs
aléatoires réels à densité. Les propositions 3.5 et 3.16 sont l’illustration de ce lien pour les
vecteurs (X, Y ) pour lesquels Y est une variable aléatoire discrète.
OUTILS PROBABILISTES POUR LA STATISTIQUE 2 15

4. Vecteurs Gaussiens
4.1. Manipulations de vecteurs aléatoires.

Matrices aléatoires. Soit k, p ∈ N∗ , on note Mk,p (R) l’ensemble des matrices réelles à k
lignes et p colonnes. Dans cette section on considère
Z : (Ω, A, P) 7→ Mk,p (R), Bor Rk×p

(4.1)

ω 7→ Z(ω) := Zi,j (ω) (i,j)∈{1,...,k}×{1,...,p}

une matrice aléatoire à k ∈ N∗ lignes et p ∈ N∗ colonnes. Ainsi, ∀(i, j) ∈ {1, . . . , k} ×


{1, . . . , p}, la coordonnées
Zi,j : (Ω, A, P) 7→ (R, Bor(R))
est une variable aléatoire.

Definition 4.1. Soit r ∈ N∗ . La matrice aléatoire Z à k lignes et p colonnes est dite


r-intégrable si chacune de ses coordonnées est dans Lr , i.e., E(|Zi,j |r ) < ∞ pour tout i, j.
On note alors Z ∈ Lrk,p .

Definition 4.2. Soit Z ∈ L1k,p , puisque Zi,j ∈ L1 ∀(i, j) ∈ {1, . . . , k} × {1, . . . , p} on peut
définir l’espérance de Z comme suit

E(Z) = E(Zi,j ) (i,j)∈{1,...,k}×{1,...,p} ∈ Mk,p (R) (4.2)

Cas particulier des vecteurs aléatoires. Dans tout ce chapitre, on identifiera Rk à


l’ensembles des vecteurs lignes de taille k, i.e., à M1,k (R). On notera t Λ pour transformer
le vecteur ligne Λ ∈ Rk en vecteur colonne.

Matrice des covariances.


Definition 4.3. Soit X ∈ L2k et Y ∈ L2p , on appelle matrice des covariance de X et Y la
matrice
Cov(X, Y ) := (cov(Xi , Yj ))(i,j)∈{1,...,k}×{1,...,p} ∈ Mk,p (R)
On prouve alors que
Cov(X, Y ) = E(t X Y ) −t E(X)E(Y ) (4.3)
On notera Var(X) = Cov(X, X) dans le cas particulier X = Y .

4.2. Rappel sur les lois Gaussiennes.

Densité. Soit m ∈ R et σ 2 > 0, la loi Gaussienne N (m, σ 2 ) admet pour densité


1 (x−m)2
fm,σ2 (x) = √ e− 2σ 2 , x ∈ R.
2πσ 2
Dans le cas où σ 2 = 0, la loi Gaussienne N (m, 0) est simplement la masse de Dirac en m,
i.e., N (m, 0) = δ{m} .
16 NICOLAS PÉTRÉLIS

Moment, fonctions caractéristique et transformations affines. Soit X N (m, σ 2 ),


alors
(1) X ∈ L2 et E(X) = m et Var(X) = σ 2

σ 2 t2
(2) ϕX (t) = E eitX = eimt− 2 ,

t∈R

(3) si (a, b) ∈ R2 alors aX + b N (am + b, a2 σ 2 ).

Loi Gamma, loi du χ2 . On rappelle que pour a, b > 0 la loi Γ(a, b) admet pour densité
1 a a−1 −bx
fa,b (x) = b x e 1[0,∞[ (x), x ∈ R.
Γ(a)
On a prouvé en Outil proba. 1 que si X N (0, 1) alors X 2 Γ(1/2, 1/2). On a prouvé
aussi que si X et Y sont indépendante et que X Γ(λ, µ) et Y Γ(β, µ) alors X + Y
Γ(λ + β, µ). Ainsi, si (X1 , . . . , Xn ) sont i.i.d. de loi N (0, 1) on a bien
n 1
X12 + · · · + Xn2 Γ( , )
2 2
dont la loi est appelée aussi chi-deux à n degrés de liberté et notée χ2 (n).
4.3. Vecteur Gaussien. On définit à présent une nouvelle classe de vecteurs aléatoires,
dit Gaussien, qui en réalité étendent les variables aléatoire Gaussienne à la dimension k ≥ 2.
On considère donc dans la suite un vecteur aléatoire
X : (Ω, A, P) 7→ (Rk , Bor(Rk )) (4.4)
ω → (X1 (ω), X2 (ω), . . . , Xk (ω))

Definition 4.4. Le vecteur aléatoire X : (Ω, A, P) 7→ (Rk , Bor(Rk )) est dit Gaussien si
toutes combinaison linéaire de ses coordonnées est une variable gaussienne, i.e., ∀λ ∈ Rk
la variable aléatoire < λ, X >= λt X = ki=1 λi Xi suit une loi Gaussienne.
P

Remarque 4.5.
• Toute les coordonnées d’un vecteur Gaussien admettent une loi Gaussienne.
• Si (X1 , . . . , Xk ) est un vecteur Gaussien et si {i1 , i2 , . . . , ip } ⊂ {1, . . . , k} alors (Xi1 , . . . , Xip )
est également un vecteur Gaussien.
• Attention, un vecteur aléatoire peut avoir toutes ses coordonnées Gaussiennes sans
être lui-même un vecteur Gaussien. On peut considérer par exemple U et Y indépendantes
telles que Y N (0, 1) et U Ber(1/2). On pose X := (2U − 1)Y alors X et Y sont
Gaussiennes mais Cov(X, Y ) = 0 alors que X et Y ne sont pas indépendantes donc
(X, Y ) n’est pas un vecteur Gaussien.

Proposition 4.6. Un vecteur aléatoire X := (X1 , . . . , Xk ) est Gaussien si et seulement si


X ∈ L2k et si il admet pour fonction caractéristique
t µ− 1 vΣ t v
ΦX (v) = ei v 2 (4.5)
Pk 1 t
= ei j=1 vj µj − 2 (v1 ,...,vk )Σ (v1 ,...,vk ) , v ∈ Rk ,
OUTILS PROBABILISTES POUR LA STATISTIQUE 2 17

avec µ = E(X) ∈ Rk et Σ := Var(X)

Remarque 4.7. Puisque la fonction caractéristique caractérise la loi d’un vecteur aléatoire,
la proposition 4.6 nous garantit que la loi d’un vecteur Gaussien est entièrement déterminée
par son espérance et sa matrice de covariance. Dans la suite on notera
X Nk (µ, Σ)
pour désigner que le vecteur aléatoire X de dimension k est Gaussien d’espérance µ ∈ Rk
et de covariance Σ ∈ Mk,k (R).

Exemple 4.8. Soit X := (X1 , X2 , X3 ) un vecteur Gaussien de moyenne nulle et de matrice


de covariance
1 21 12
 
1 1 1
2 2
1 1
2 2 1
(1) Montrer que X1 − X2 + 2X3 N (0, 5)
(2) Montrer que la fonction caractéristique de X = (X1 , X2 , X3 ) est
1 2 +y 2 +z 2 +xy+yz+xz)
ΦX (x, y, z) = e− 2 (x

Exemple 4.9. Soit X1 , . . . , Xk des variables aléatoires réelles définies sur le même espace
de probabilité, indépendantes et telles que Xi N (mi , σi2 ) ∀i ∈ {1, . . . , k}. Alors le
vecteur X := (X1 , . . . , Xk ) est un vecteur Gaussien d’espérance (m1 , . . . , mk ) et de matrice
de covariance  
σ12 0 . . . 0
 0 σ 2 . . . ... 
 
Cov(X) =  . .
 2 
 .. .. ... 0  
0 . . . 0 σk 2

Exemple 4.10. Soit X = (X1 , . . . , Xk ) Nk (µ, Σ) et A ∈ Mk,p (R) alors


XA Np (µA, t AΣA)

Proposition 4.11. Soit X := (X1 , . . . , Xk ) un vecteur Gaussien. Les variables (Xi )ki=1
sont indépendantes si et seulement si la matrice de covariance de X est diagonale, i.e., si
et seulement si
Cov(Xi , Xj ) = 0 ∀i 6= j, i, j ≤ k.

Remarque 4.12. Soient k, p ∈ N∗ et soient X = (X1 , . . . , Xk ) ∈ L2k et Y = (Y1 , . . . , Yp ) ∈


L2p deux vecteurs aléatoires tels que
Z = (X, Y ) = (X1 , . . . , Xk , Y1 , . . . , Yp ) est un vecteur Gaussien.
Alors X et Y sont indépendants si et seulement si Cov(Xi , Yj ) = 0 ∀i ∈ {1, . . . , k} and
∀j ∈ {1, . . . , p}, i.e.,
18 NICOLAS PÉTRÉLIS

Proposition 4.13. [Densité d’un vecteur Gaussien] Soit X un vecteur Gaussien X :=


(X1 , . . . , Xk ) de moyenne m := E(X) et de matrice de covariance Σ := Var(X). Alors, X
admet une densité si et seulement si det(Σ) 6= 0 et dans ce cas
1 1 −1 t (x−m)
fX (x1 , . . . , xk ) = e− 2 (x−m)Σ , x ∈ Rk . (4.6)
(2π)k/2 (detΣ)1/2

Exemple 4.14. Soit (X, Y, Z) un vecteur Gaussien de moyenne m = (2, 0, 1) et de matrice


de covariance  
2 1 1
= 1 2 −1
1 −1 2
(1) Montrer que Y − X N (−2, 2).
(2) Montrer que le vecteur (X, Y ) admet pour densité
1 1 2 2
f(X,Y ) (x, y) = √ e− 3 ((x−2) −(x−2)y+y ) , (x, y) ∈ R2 .
2 3π

Theorem 4.15. [TCL multivarié] Soit (Xi )i≥1 une suite i.i.d. de vecteurs aléatoires de
tailles k ∈ N∗ et tels que X1 ∈ L2k (i.e., E(X1,i
2 ) < ∞, ∀i ∈ {1, . . . , k}). On a la convergence

en loi Pn
i=1 Xi√ − nE(X1 ) Loi
−→ Nk (0, ΣX1 ) (4.7)
n n→∞

Remarque 4.16. On vérifie bien que la formule (4.7) généralise le TCL (en dimension
1) énoncé au Theorem 2.4.

Theorem 4.17. [Theorème de Cochran] Soit n ∈ N∗ et X = (X1 , . . . , Xn ) un vecteur


Gaussien centré de matrice de Covariance In . Soit F un sous espace vectoriel de Rn et F ⊥
son supplémentaire sur Rn . On note PF et PF ⊥ les matrice de projection orthogonales sur
F et F ⊥ de sorte que Z1 := PF · X et Z2 := PF ⊥ · X sont les projections orthogonales de
X sur F et F ⊥ respectivement. Alors
• Z1 et Z2 sont des vecteurs Gaussiens indépendants de loi respectives Nn (0, PF ) et
Nn (0, PF ⊥ ).

• ||Z1 ||22 et ||Z2 ||22 sont indépendantes de loi respectives χ2 (d) et χ2 (n − d) avec d =
dimF .

Exemple 4.18. Soit X = (X1 , X2 , X3 , X4 ) un vecteur Gaussien centré de matrice de


covariance I4 .
(1) A l’aide du théorème de Cochran, déterminer la loi de
(X1 − X2 )2 /2 + (X1 + X2 )2 /2.
(2) Faites de même pour la variable
(X1 − X2 )2
.
(X1 + X2 )2
OUTILS PROBABILISTES POUR LA STATISTIQUE 2 19

(3) Déterminer la projection orthogonale PE (X) de X sur



E = Vect (1, 1, 0, 0), (0, 0, 1, 1)
.
(4) A l’aide du théorème de Cochran, déterminer la loi de
||PE (X)||2 et ||X − PE (X)||2 .
Exemple 4.19. Soit (X1 , . . . , Xn ) des variables aléatoires i.i.d. telle que X1 N (0, 1).
On note
n
X1 + · · · + Xn X
X̄n := et Yn := (Xi − X̄n )2
n
i=1
.
(1) Montrer que X̄n N (0, n1 ).
(2) Montrer que Xn et Yn sont indépendantes.
(3) Montrer que Yn χ2 (n − 1).

Theorem 4.20. [Vecteurs Gaussiens et conditionnement] Soit k ∈ N∗ et X = (X1 , . . . , Xn )


un vecteur Gaussien. On note H1k−1 := Vect(1, X1 , . . . , Xk−1 ) le sous-espace vectoriel de
L2 (Ω, A, P) engendré par 1, X1 , . . . , Xk−1 . On note PH k−1 la matrice de projection orthog-
1
onale sur H1k−1 . Alors
• Xk − PH k−1 (Xk ) N1 (0, ||Xk − PH k−1 (Xk )||22 ),
1 1

• E(Xk | X1 , . . . , Xk−1 ) = PH k−1 (Xk ),


1

• la loi conditionnelle de Xk sachant X1 , . . . , Xk−1


 est une Gaussienne de moyenne
PH k−1 (Xk ) et de variance E (Xk − PH k−1 (Xk ))2 . La variance ne dépend donc pas
1 1
de la réalisation de (X1 , . . . , Xk−1 ).

Exemple 4.21. On reprend l’énoncé de l’exercice 4.14.


(1) Le vecteur (X, Y, Z) admet-il une densité?
(2) Monter que E(Z | X, Y ) = X − Y − 1.
(3) Quelle méthode pouvez vous utiliser pour calculer E (2X − 4 − Y )2 | Y ?
 

Exemple 4.22. Soit (X1 , . . . , Xn ) des variables aléatoires i.i.d. telles que X1 N (0, 1).
On souhaite calculer E(X1 | Sn ) ainsi que la loi conditionnelle de X1 sachant Sn .
(1) Prouver que (X1 , Sn ) est un vecteur Gaussien.
(2) Calculer PVect(1,Sn ) (X1 ) sous la forme λ0 + λ1 Sn et en déduire que
Sn
E(X1 | Sn ) =
.
n
(3) En déduire également que la loi conditionnelle de X1 sachant Sn vaut
t 1
LX1 |Sn =t = N ,1 − .
n n
20 NICOLAS PÉTRÉLIS

Laboratoire de Mathématiques Jean Leray UMR 6629, Université de Nantes, 2 Rue de la


Houssinière, BP 92208, F-44322 Nantes Cedex 03, France
Email address: nicolas.petrelis@univ-nantes.fr

Vous aimerez peut-être aussi