Cours Outils Proba 2

OUTILS PROBABILISTES POUR LA STATISTIQUE 2
NICOLAS PÉTRÉLIS
Contents
1. Convergence presque sure, en probabilité et Lp . 1
1.1. Rappels: définitions, exemples 1
1.2. Application de la LFGN: le théorème de Glivenko Cantelli 3
2. Convergence en Loi 4
2.1. Définition, spécificité 4
2.2. Estimations de fluctuations. 5
2.3. Illustrations de la convergence en loi. 6
3. Conditionnement 7
3.1. Loi d’une variable aléatoire conditionnée par un événement de probabilité non
nulle 7
3.2. Loi d’une variable aléatoire conditionnée par une autre variable aléatoire 8
3.3. Espérance conditionnelle 11
3.4. Espérance d’une variable aléatoire conditionnée par une variable aléatoire. 12
4. Vecteurs Gaussiens 15
4.1. Manipulations de vecteurs aléatoires 15
4.2. Rappel sur les lois Gaussiennes 15
4.3. Vecteur Gaussien 16
1. Convergence presque sure, en probabilité et Lp .

1.1. Rappels: définitions, exemples. Pour ces trois modes de convergence, on con-
sidère une suite (Xn )n≥1 de variables aléatoires définies sur un même espace de probabilité
(Ω, A, P) et une variable aléatoire limite X également définies sur (Ω, A, P).
Donnons tout d’abord la définition de la plus faible de ces trois convergences: la conver-
gence en probabilité. On notera ||x||∞ := max{|x1 |, . . . , |xd |} pour x = (x1 , . . . , xd ) ∈ Rd .
Definition 1.1. Une suite (Xn )n≥1 de vecteurs aléatoires à valeurs dans Rd définis sur un
même espace de probabilité (Ω, A, P) converge en P-probabilité vers X définie sur (Ω, A, P)
si pour tout ε > 0 on a

lim P ||Xn − X||∞ > ε = 0.
n→∞
Dans ce cas on note
P-proba
lim Xn = X en P-proba ou encore Xn −→ X
n→∞ n→∞
Date: November 2, 2023.
1
2 NICOLAS PÉTRÉLIS
Exemple 1.2. Soit ϑ > 0, on considère une suite i.i.d. de variables aléatoires (Xi )i≥1 de
loi Unif([0, ϑ]) et on note Mn := max{X1 , . . . , Xn }. Montrer que ∀ε > 0 et ∀n ≥ 1 on a
n
P Mn − ϑ| > ε = 1 − ϑε ,

(1.1)
de sorte que lim Mn = ϑ en P-proba.
n→∞
Nous poursuivons avec la convergence en norme Lp pour p ∈ [1, ∞[ qu’on utilise habituelle-
ment avec des variables aléatoires réelles plutôt qu’avec des vecteurs aléatoires.
Definition 1.3. Soit p ∈ [1, ∞[. Soit (Xn )n≥1 et X des variables aléatoires réelles dans
Lp (Ω, A, P). On dit que la suite (Xn )n≥1 converge vers X dans Lp si
lim E(|Xn − X|p ) = 0. (1.2)
n→∞
Dans ce cas on note

Lp ||·||p
Xn −→ X ou encore Xn −→ X.
n→∞ n→∞
Exemple 1.4. On revient à l’exemple 1.2. Ainsi, ϑ > 0 et on considère de nouveau une
suite i.i.d. (Xi )i≥1 de loi Unif([0, ϑ]) avec Mn = max{X1 , . . . , Xn }.
(1) En déduire que Montrer que
lim E[(Mn − ϑ)2 ] = 0.
n→∞
L2
Ainsi Mn −→ ϑ.
n→∞
(2) La convergence L2 de Mn vers ϑ nous donne une autre preuve de la convergence en
proba. de Mn vers ϑ (cf: cours outils proba 1: il faut utiliser l’inégalité de Markov).
Nous en venons à la convergence presque-sure et à la loi forte des grands nombres.
Definition 1.5. Une suite (Xn )n≥1 de vecteurs aléatoires à valeurs dans Rd définis sur
un même espace de probabilité (Ω, A, P) converge P-presque surement vers X définie sur
(Ω, A, P) si

P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n→∞
Dans ce cas, on note
P-p.s.
lim Xn = X P-p.s. ou encore Xn −→ X
n→∞ n→∞
Exemple 1.6. On revient à l’exemple 1.2. Soit ϑ > 0, on considère de nouveau une suite
i.i.d. (Xi )i≥1 de loi Unif([0, ϑ]) avec Mn = max{X1 , . . . , Xn }.
(1) Montrer à l’aide de (1.1) et du Lemme de Borel Cantelli (cf. cour outils proba.1) que
P-p.s.
Mn −→ ϑ.
n→∞
(2) Donner une autre preuve de cette convergence presque sure sans utiliser le lemme de
Borel Cantelli, mais en remarquant que Mn étant croissante et bornée supérieurement
par ϑ elle converge P-p.s. dans R.
OUTILS PROBABILISTES POUR LA STATISTIQUE 2 3
Remarque 1.7. La convergence presque sure implique la convergence en probabilité. En

revanche, la convergence en probabilité n’implique pas la convergence presque sure. On
P-proba
peut tout de même dire que si Xn −→ X alors il existe ϕ : N → N strictement croissante
n→∞
P-p.s.
telle que Xϕ(n) −→ X (cf. cours outils proba 1). Il faut utiliser l’inégalité de Markov
n→∞
combinée au lemme de Borel Cantelli.
Le troisième exemple de convergence presque sure que nous considérons est donné par
la loi forte des grands nombre qui nous permet de conclure de manière très générale que
la moyenne empirique d’une suite de variable aléatoire i.i.d. et intégrable converge vers la
moyenne de l’une quelconque de ces variables.
Theorem 1.8. [Loi forte des grands nombres] Soit (Xi )i≥1 une suite i.i.d. de variables
aléatoires réelles telle que X1 ∈ L1 (Ω, A, P) (i.e., E(|X1 |) < ∞). Alors
X1 + · · · + Xn P-p.s.
X̄n := −→ E(X1 ). (1.3)
n n→∞
1.2. Application de la LFGN: le théorème de Glivenko Cantelli. On considère

(Xn )n∈N une suite de variables aléatoires i.i.d. définie sur (Ω, A, P ) et de fonction de
répartition F . Pour tout n ∈ N et tout ω ∈ Ω, on note
n
1X
µn,ω = δXi (ω)
n
i=1
la mesure de probabilité empirique associée a n observations. On note aussi Fn,ω la fonction

de répartition de µn,ω .
Theorem 1.9. [Glivenko-Cantelli]
lim sup Fn,ω (t) − F (t) = 0 P -presque surement en ω. (1.4)

n→∞ t∈R
Proof. Pour tout x ∈]0, 1[ on définit le pseudo inverse F −1 de la fonction de répartition F

par F −1 (x) := inf{u ∈ R : F (u) ≥ x}.
1) Prouver que ∀x ∈]0, 1[ et t ∈ R on a
F −1 (x) ≤ t ⇐⇒ x ≤ F (t).
2) En déduire que si (Ui )i≥1 est une suite i.i.d. de v.a. définies sur un espace de probabilité
(Ω, A, P ) et qui suivent une loi uniforme sur [0, 1], alors (F −1 (Ui ))i≥1 a même loi que
(Xi )i≥1 .
3) En déduire que (1.4) sera prouvée si on montre que
n
1X
lim sup 1{Ui ≤F (t)} − F (t) = 0 P -presque surement en ω. (1.5)
n→∞ t∈R n
i=1
4) Expliquer pourquoi il suffit finalement de montrer que

n
1X
lim sup 1{Ui ≤x} − x = 0 P -presque surement en ω, (1.6)
n→∞ x∈[0,1] n
i=1
5) Montrer qu’il existe N ∈ A tel que P (N ) = 0 et tel que pour tout ω ∈ Ω \ N et pour
tout x ∈ [0, 1] ∩ Q on ait
n
1X
lim 1{Ui ≤x} = x.
n→∞ n
i=1
6) Prouver (1.6) à l’aide du deuxième théorème de Dini.
2. Convergence en Loi
2.1. Définition, spécificité. Pour les trois modes de convergence de suite de variables
aléatoires vues jusqu’ici, les variables aléatoires de la suite ainsi que leur limite doivent être
définies sur le même espace de probabilité. De plus la limite est unique à égalité P-presque
sure près. En effet, si (Xn ) et X et Y sont des variables aléatoire définies sur un même
espace de probabilité et si à la fois
Prob. Prob.
Xn −→ X et Xn −→ Y
n→∞ n→∞
alors X = Y P-presque surement.

La convergence en loi que nous étudions maintenant est d’une nature différente, puisque
les variables n’ont même pas besoin d’être définies sur le même espace de proba. pour qu’on
puisse envisager une convergence en loi.
Definition 2.1. Soit (Xn )n≥1 et X des vecteurs aléatoires.à valeur dans Rd . On dit que la
suite (Xn )n≥1 converge en loi vers X si l’une des deux conditions (équivalentes) suivantes
est vérifiée:

(1) ∀f : R 7→ R continue bornée, on a E f (Xn ) −→ E f (X) .
n→∞
(2) ΦXn (t) −→ ΦX (t) ∀t ∈ R.
n→∞
Dans ce cas on note
Loi
Xn −→ X.
n→∞
Remarque 2.2. Dans le cas où les variables aléatoires considérées sont réelles (à valeur
dans R) on a une troisième caractérisation de la convergence en loi, donnée par le Théorème
de Helly (cf. cours outils proba.1), qui s’énonce ainsi:
(3) FXn (t) −→ FX (t) pour tout t ∈ R point de continuité de FX .
n→∞
Remarque 2.3. On constate que la convergence en loi d’une suite de variable aléatoire
vers une autre variable aléatoire ne dépend que des lois de ces variables. Ainsi, si (µn )n≥1
et µ sont des lois de probabilité sur (R, Bor(R)), la convergence
Loi
µn −→ µ,
n→∞
signifie que toute suite de variables aléatoires (Xn )n≥1 telle que PXn = µn , ∀n ≥ 1 converge
en loi vers toute variable aléatoire X telle que PX = µ. Pour une telle suite (Xn )n≥1 on
peut aussi écrire
Loi
Xn −→ µ.
n→∞
Exemples:
• La convergence en probabilité implique la convergence en loi. La réciproque est fausse
en générale, mais elle est vraie quand la convergence a lieu vers une constante ainsi,
si a ∈ R
Loi Prob.
Xn −→ a =⇒ Xn −→ a
n→∞ n→∞
2.2. Estimations de fluctuations. On a vu, notamment avec la LFGN, des exemples de

suite de variables aléatoires réelles (Zn )n≥1 qui convergent P-p.s. ou bien en probabilité
vers une constante κ ∈ R. Pour aller plus loin, on peut essayer de déterminer l’ordre des
fluctuations de Zn autour de κ, c’est à dire d’estimer la distance typique (en fonction de n)
qui sépare Zn de κ quand n devient grand. L’une des solutions consiste à chercher α > 0
tel que nα (Zn − κ) converge en loi vers une variable aléatoire Ze non-triviale (c ’est a dire
qui ne soit ni 0 ni +∞ P-p.s.). Ceci nous garantira que les fluctuations de Zn autour de κ
sont de l’ordre de 1/nα .
En effet, si a < b ∈ R sont des points de continuité de Fe la fonction de répartition de Ze
alors la caractérisation (3) de la Définition 2.1 (cf. Remarque 2.2) nous garantit que
h 1 i
lim P (Zn − κ) ∈ α [a, b] = Fe(b) − Fe(a).
n→∞ n
Exemple:
• Reprenons l’exemple des variables i.i.d. (Xi )i≥1 de loi Unif([0, ϑ]) avec
Mn := max{X1 , . . . , Xn }.
On a vu que Mn converge P-presque surement vers ϑ quand n → ∞. On veut a
présent déterminer l’ordre des fluctuations de Mn à gauche de ϑ. On peut prouver
que
Loi
n(Mn − ϑ) −→ Exp( ϑ1 ).
n→∞
On dit alors l’ordre des fluctuations de Mn à gauche de ϑ est 1/n, ou encore que la
vitesse de convergence de Mn vers ϑ est 1/n.
• Reprenons l’énoncé de la Loi Forte des Grands Nombre (Th. (1.8)). En renforçant
les hypothèses, on peut determiner l’ordre des fluctuations de X̄n autour de E(X1 ).
C’est l’objet du théorème centrale limite.
Theorem 2.4. [Théorème centrale limite] Soit (Xi )i≥1 une suite i.i.d. de variables aléatoires
réelles telle que X1 ∈ L2 (Ω, A, P) (i.e., E(|X1 |2 ) < ∞). On note m := E(X1 ), σ 2 :=
Var(X1 ) et aussi Sn = X1 + · · · + Xn ∀n ≥ 1. Alors
Sn − n m Loi
√ −→ N (0, 1). (2.1)
nσ n→∞
On rappelle que X̄n = Sn /n et alors on peut écrire de manière équivalente que
√
n Loi
(X̄n − m) −→ N (0, 1). (2.2)
σ n→∞
Remarque 2.5.√ Le TCL nous indique donc que la vitesse de convergence de X̄n vers
E(X1 ) est de 1/ n.
2.3. Illustrations de la convergence en loi.

Application d’une fonction à une suite de variable aléatoire qui converge en loi.
Loi
Vous avez vu dans le cours Outils probabiliste 1 que si Xn −→ X dans Rd et si f est une
n→∞
fonction continue sur Rd alors
Loi
f (Xn ) −→ f (X).
n→∞
Dans des cas plus sophistiqués, on peut conserver une convergence en loi en appliquant une
fonction a une suite de variable aléatoire qui converge en loi. C’est l’objet de la méthode
Delta que nous présentons maintenant.
Theorem 2.6. [Méthode Delta] Soit (Xn )n≥1 une suite de variables aléatoires réelles. Soit
Prob. √ Loi.
ϑ ∈ R tel que Xn −→ ϑ et soit Z une variable aléatoire telle que n(Xn − ϑ) −→ Z. Soit
n→∞ n→∞
g une fonction dérivable en ϑ. Alors
√ Loi.
n g(Xn ) − g(ϑ) −→ g 0 (ϑ) Z
n→∞
Exemple. Soit (Xn )n≥1 une suite i.i.d. de variables aléatoires dans L2 . On note m =
E(X1 ) et σ 2 = Var(X1 ). Soit g : R 7→ R, dérivable en m. Pour tout n ≥ 1 on pose
X̄n = n1 (X1 + · · · + Xn ). Alors, la loi forte des grands nombres et le TCL nous permettent
de vérifier que les hypothèses de la Méthode Delta sont vérifiées pour (X̄n )n≥1 . On en
déduit que
√ Loi.
n g(X̄n ) − g(m) −→ N 0, σ 2 (g 0 (m))2 .

n→∞
Considérons le cas
√ particulier où X1 Poisson(ϑ). Alors E(X1 ) = Var(X1 ) = ϑ et avec la
fonction g(x) = x nous obtenons
√ hp √ i Loi.
n X̄n − ϑ −→ N 0, 14 .

n→∞
Convergence en loi d’une suite de variables aléatoires définie par récurrence.

Soit ϑ ∈]0, ∞[. On considère une suite (Un )n≥1 de variables aléatoire i.i.d. telle que U1
N (0, 1). On pose X0 = 0 et pour tout n ≥ 1,
Xn = ϑXn−1 + Un .
1) Montrer à l’aide des fonction génératrices que si Y1 et Y2 sont indépendantes et que
Y1 N (m1 , σ12 ) et Y2 N (m2 , σ22 ) on a Y1 + Y2 N (m1 + m2 , σ12 + σ22 ).
2) Déterminer la loi de Xn pour tout n ≥ 1.
3) Etudier la convergence en loi de la suite (Xn )n≥1 en fonction de la valeur de ϑ.

3. Conditionnement
Dans ce chapitre, nous allons étendre la notion de conditionnement d’un évènement par
un autre évènement au conditionnement d’une variable aléatoire par une autre variable
aléatoire. En Section 3.1 nous définissons la loi et l’espérance d’une variable aléatoire con-
ditionnée par un évènement de probabilité non nulle. Puis en Section 3.2, nous définissons la
loi d’une variable aléatoire conditionnellement à la réalisation d’une autre variable aléatoire.
En Section 3.3 nous définissons l’espérance d’une variable aléatoire X : (Ω, A, P) 7→
(R, BorR) conditionnée par une sous tribu G de A. Enfin, pour Y : (Ω, A, P) 7→ (R, BorR),
nous appliquons cette dernière définition au cas ou G est la tribu σ(Y ) engendrée par Y
pour définir l’espérance d’une variable aléatoire conditionnée par la réalisation d’une autre
variable aléatoire.
3.1. Loi d’une variable aléatoire conditionnée par un événement de probabilité

non nulle.
Vous connaissez déjà la définition suivante qui permet de calculer la probabilité d’un
évènement conditionnellement à la réalisation d’un autre évènement.
Definition 3.1. Soit (Ω, A, P) un espace de probabilité et B ∈ A un évènement de prob-
abilité strictement positive, i.e., P(B) > 0. Alors, ∀A ∈ A on définit
P(A ∩ B)
P(A | B) = .
P(B)
Dès lors on obtient
P( · | B) : A 7→ [0, 1] (3.1)
A 7→ P(A | B)
qui est une loi de proba sur (Ω, A).
A présent on va définir la loi d’une variable aléatoire conditionnellement à un évènement
de probabilité non nulle.
Definition 3.2. Soit X : (Ω, A, P) 7→ (Rk , Bor(Rk )) et B ∈ A tel que P(B) > 0. Alors la
loi conditionnelle de X sachant B, notée P(X ∈ · | B) correspond à la loi de
X : Ω, A, P( · | B) 7→ (Rk , Bor(Rk )),

c’est à dire à la loi de la variable X quand la loi sur l’espace de départ est la probabilité
conditionnelle sachant B.
Pour finir, nous définissons l’espérance d’une variable aléatoire conditionnellement à un
évènement de probabilité non nulle.
Definition 3.3. Soit X ∈ L1 (Ω, A, P) et B ∈ A tel que P(B) > 0. Alors l’ésperance de X
conditionnellement à B, notée E(X | B) est définie comme suit

E(X | B) := E P(·|B) X .
On peut prouver que
E X 1B )
E(X | B) = .
P(B)
Exemples:
(1) Soit X la variable aléatoire représentant le résultat d’un lancé de dé non truqué. Ainsi
X Unif({1, . . . , 6}). Alors, la loi conditionnelle de X sachant que le résultat du
lancé est pair (i.e., {X ∈ {2, 4, 6}) est une Unif({2, 4, 6}) et son espérance condition-
nellement à ce même évènement est 4.
(2) Soit X une variable aléatoire réelle telle que X Exp(λ) avec λ > 0. Alors , ∀t > 0
la loi conditionnelle de X − t sachant {X > t} est encore une Exp(λ). Dès lors
l’espérance de X conditionnellement à {X > t} est t + (1/λ).
(3) Soit (X1 , . . . , Xn ) des variable aléatoires i.i.d. telle que X1 Unif([0, 1]). On note
mn := min{X1 , . . . , Xn } et Mn := max{X1 , . . . , Xn }.
Soit 0 ≤ a < b ≤ 1. Alors, conditionnellement à l’évènement {a ≤ mn ≤ Mn ≤
b} le vecteur aléatoire (X1 , . . . , Xn ) a ses coordonnées i.i.d. et qui suivent une loi
Unif([a, b]).
3.2. Loi d’une variable aléatoire conditionnée par une autre variable aléatoire.
Theorem 3.4. [Lemme de Doob] Soit (X, Y ) : (Ω, A, P) 7→ (R2 , Bor(R2 )) un vecteur
aléatoire. Il existe une famille (Ky )y∈R de loi de probabilité sur (R, Bor(R)) telle que
• ∀B ∈ Bor(R), y ∈ R 7→ Ky (B) est mesurable,
• ∀g : R2 7→ R, mesurable bornée (ou mesurable positive), on a
Z Z

E g(X, Y ) = g(x, y) dKy (x) d PY (y). (3.2)
R R
On note alors Ky = PX|Y =y que l’on appelle loi conditionnelle de X sachant Y = y.
On va à présent appliquer le théorème précédent dans trois cas particuliers très impor-
tants, tout d’abord, celui où X et Y sont indépendantes, puis celui où Y prends un nombre
dénombrable de valeur et enfin le cas ou le vecteur (X, Y ) est à densité.
Premier cas particulier: les variables aléatoires X et Y sont indépendantes.
Dans ce cas on prouve facilement que la loi conditionnelle de X sachant Y reste la loi de
X quelque soit la valeur prise par Y , i.e.,
PX|Y =y = PX , ∀y ∈ R. (3.3)
En effet, on considère g : (R2 , Bor(R2 )) 7→ (R, Bor(R)) mesurable positive et on calcule
Z

E g(X, Y ) = g(x, y)dP(X,Y ) (x, y) (théorème de transfert) (3.4)
2
ZR
= g(x, y)d(PX ⊗ PY )(x, y) (indépendance de X et Y )
R2
Z hZ i
= g(x, y)dPX (x) dPY (y) (Fubini positif)
R R
ce qui d’après le Lemme de Doob ci-dessus prouve (3.3).
Second cas particulier: la variable aléatoire Y prend un nombre au plus dénombrable

de valeurs. Notons HY l’ensemble des valeurs prises par Y avec une probabilité positive,
i.e., HY := {ai , i ∈ I} où I est au plus dénombrable et
P(Y = ai ) > 0, ∀i ∈ I et P(Y ∈ {ai , i ∈ I}) = 1.
Pour la proposition suivante, on rappelle la définition (3.2).
Proposition 3.5. Soit (X, Y ) un vecteur aléatoire tel que Y admet une loi discrète. Alors
pour tout i ∈ I
PX|Y =ai = P(X ∈ · | Y = ai ), ∀i ∈ I.
Proof. Pour simplifier la preuve, on se place dans le cas où I = N (le cas I fini est plus
simple). On considère g : (R2 , Bor(R2 )) 7→ (R, Bor(R)) mesurable positive et on calcule
h X i
E g(X, Y ) = E g(X, Y ) 1{ai } (Y ) (3.5)
i∈N
X h i
= E g(X, ai )1{ai } (Y ) (convergence monotone)
i∈N
h i
X E g(X, ai )1{ai } (Y )
= P(Y = ai )
P(Y = ai )
i∈N
X h i
= P(Y = ai ) E g(X, ai ) | Y = ai
i∈N
Z h i
= E g(X, y) | Y = y dPY (y)
{ai ,i∈N}
Z h
= E P(·|Y =y) g(X, y)] dPY (y)
{ai ,i∈N}
Z Z
= g(x, y) dP (X ∈ · | Y = y)(x) dPY (y)
{ai ,i∈N} R
on obtient donc bien le résultat voulu.
Exemple 3.6. Soient X et Y deux variables aléatoires indépendantes telle que Y
Poiss(λ) et X Exp(β). On pose alors N = 1{X>Y } . Montrer que la loi conditionnelle de
N sachant Y est
PN | Y =k = Bernoulli(e−βk ), ∀k ∈ N.
Exemple 3.7. On considère Z une variable aléatoire à densité
1
fZ (x) = 1 (x)
log 2(1 + x) ]0,1[
On considère les deux variables aléatoires suivantes:
j1k 1 j1k
Y = et X = − .
Z Z Z
Montrer que pour tout k ∈ N∗ la loi conditionnelle de X sachant Y = k est à densité et
que cette densité vaut:
1 1
fX | Y =k (t) = 1 (t).
(k+1)2 (k + t)(k + 1 + t) [0,1]
log k(k+2)
Troisième cas particulier: le couple (X, Y ) est à densité. Notons f(X,Y ) la densité
du couple (X, Y ). Dans ce cas on sait que Y est à densité, notée fY et définie par
Z
fY (y) = f(X,Y ) (x, y)dx.
R
On note HY := {y ∈ R : fY (y) > 0} et on obtient la proposition suivante.
Proposition 3.8. Si le vecteur aléatoire (X, Y ) est à densité, alors la loi conditionnelle
PX| Y =y est définie de manière unique pour tout y ∈ HY et elle admet pour densité
f(X,Y ) (x, y)
fX| Y =y (x) = , x∈R
fY (y)
Proof. On remarque que si y ∈ / HY alors f(X,Y ) (x, y) = 0 λ−presque surement en x. Dès

lors, on considère g : (R2 , Bor(R2 )) 7→ (R, Bor(R)) mesurable bornée et on peut écrire
Z

E g(X, Y ) = g(x, y) f(X,Y ) (x, y) dxdy (3.6)
R2
Z Z
= g(x, y) f(X,Y ) (x, y) dx dy (Fubini)
R R
f(X,Y ) (x, y)
Z Z
= f Y (y) g(x, y) dx dy
HY R f Y (y)
f(X,Y ) (x, y)
Z Z
= g(x, y) dx dPY (y)
HY R f Y (y)
on obtient donc bien le résultat voulu.
On remarque que la loi conditionnelle de X sachant Y = y n’est pas définie de manière
unique pour y ∈/ HY . En effet, quel que soit le choix fait pour PX|Y =y avec y ∈
/ HY , ceci
ne change pas la valeur du membre de droite dans (3.2) .
Exemple 3.9. Soit (X, Y ) un couple de variables aléatoires ayant pour loi
d P(X,Y ) (x, y) = λ2 e−λy 1 [0,∞[ (y) 1 [0,y] (x) dx dy
(1) Montrer que HY =]0, ∞[
(2) Montrer que pour tout y > 0:

PX| Y =y = Unif[0,y]
Si un vecteur aléatoire (X, Y ) vérifie que Y est à densité et que la loi conditionnelle de
X sachant Y est également à densité alors le couple (X, Y ) est à densité et la proposition
suivante nous permet de calculer cette densité.
Proposition 3.10. Soit (X, Y ) un vecteur aléatoire tel que Y est à densité (notée fY ) et
tel que pour tout y ∈ R la loi conditionnelle de X sachant Y = y est également à densité
(notée fX | Y =y ). Alors, le vecteur (X, Y ) est à densité et celle-ci peut être calculée à l’aide
de la formule
f(X,Y ) (x, y) = fX | Y =y (x) · fY (y), (x, y) ∈ R2 .
Exemple 3.11. Soit (X, Y ) un couple de variables aléatoires tel que

Y Unif[0,1] et PX | Y =y = Unif[0,y] ∀y ∈]0, 1[.
Montrer que
1
d P(X,Y ) (x, y) = 1 (y) 1 ]0,y[ (x) dx dy.
y ]0,1[
3.3. Espérance conditionnelle.

Définition heuristique: Il s’agit à présent de définir E(X | G) l’espérance conditionnelle
d’une variable aléatoire X : (Ω, A, P) 7→ (R, Bor(R)) (intégrable ou positive) par rapport à
une sous tribu G de A. Pour avoir l’intuition de ce qu’est l’espérance conditionnelle, il faut
définir ce qu’est une partie minimale d’une tribu. Ainsi A ∈ G est minimale si on ne peut
pas la ”casser” dans G, i.e., si on ne peut pas l’écrire sous la forme A = B∪C avec B∩C = ∅,
B, C ∈ G, B 6= ∅ et C 6= ∅. Ainsi une variable aléatoire Y : (Ω, G, P) 7→ (R, Bor(R)) est
nécessairement constante sur les partie minimale de G.
Intuitivement, on peut se dire que la tribu G est plus grossière que la tribu A, c’est
à dire qu’elle contient moins de partie de Ω que A. Ainsi, certaines parties peuvent être
minimales pour G sans être minimales pour A. Dès lors, E(X | G) qui est une variable
aléatoire G-mesurable, est constante sur toute partie A ∈ G minimale et sa valeur sur A
est obtenue en moyennant X sur A, i.e., elle vaut E(X | A).
Donnons à présent une définition rigoureuse de l’espérance conditionnelle.
Proposition 3.12. Soit X : (Ω, A, P) 7→ (R, Bor(R)) intégrable (i.e., X ∈ L1 (Ω, A, P)).
Soit G une sous tribu de A. Alors, il existe une unique (à égalité P-presque sure près)
variable aléatoire Y telle que
• Y ∈ L1 (Ω, G, P )
• E(X 1A ) = E(Y 1A ), ∀A ∈ G.
Soit X : (Ω, A, P) 7→ (R+ , Bor(R+ )) une variable aléatoire positive. Soit G une sous
tribu de A. Alors, il existe une unique (à égalité P-presque sure près) variable aléatoire Y
telle que
• Y ≥ 0 P-presque surement et Y est G-mesurable
• E(X 1A ) = E(Y 1A ), ∀A ∈ G.
Dans ce cas la variable aléatoire Y est appelée espérance conditionnelle de X sachant G
et on la note E(X | G).
Proof. Nous prouverons simplement l’existence de l’espérance conditionnelle en renforçant

dans L2 (Ω, A, P). Ainsi, on veut montrer que ∀X ∈ L2 (Ω, A, P), il existe Y une variable
aléatoire telle que
• Y ∈ L2 (Ω, G, P)
• E(X 1A ) = E(Y 1A ), ∀A ∈ G.
Pour cela on munit L2 (Ω, A, P) du produit scalaire < Z, W >= E(ZW ) associé à
la norme L2 et on rappelle que (L2 (Ω, A, P), || · ||2 ) est un espace de Hilbert. De plus,
L2 (Ω, G, P) est un sous espace vectoriel fermé de L2 (Ω, A, P). On peut donc considérer
T : L2 (Ω, A, P) 7→ L2 (Ω, G, P) la projection orthogonale sur L2 (Ω, G, P). On obtient donc
que
< X − T (X), Z > = E (X − T (X)) Z = 0, ∀Z ∈ L2 (Ω, G, P)

(3.7)
2

ainsi E XZ] = E T (X)Z]. On peut donc remarquer que T (X) ∈ L (Ω, G, P) et appliquer
l’égalité précédente avec Z = 1A pour A ∈ G. Ainsi
E(X 1A ) = E(T (X) 1A )
et donc T (X) vérifie les conditions pour être l’espérance conditionnelle de X par G et
prouve donc son existence.

Nous donnons à présent une liste de propriétés de l’espérance conditionnelle .
Proposition 3.13. Soit (Ω, A, P) un espace de probabilité et G une sous tribu de A. Soit
X et Y deux variables aléatoire de L1 (Ω, A, P).
(1) ∀λ ∈ R, E(λX + Y | G) = λE(X | G) + E(Y | G),
(2) si X ≥ Y P-presque surement, alors E(X | G) ≥ E(Y | G) P-presque suremement,
(3) E[ E(X | G)] = E(X),
(4) si X est indépendante de G alors E(X | G) = E(X) P-presque surement,
(5) si X est G−mesurable alors E(X | G) = X P-presque surement,
(6) si B est une sous tribu de G alors E(X | B) = E[ E(X | G) | B],
(7) si X ∈ L1 (Ω, A, P) et Y ∈ L∞ (Ω, G, P) ou bien si X ∈ L2 (Ω, A, P) et Y ∈ L2 (Ω, G, P)

alors
E(XY | G) = Y E(X | G).
3.4. Espérance d’une variable aléatoire conditionnée par une variable aléatoire.
Dans cette section nous allons considérer un cas particulier de l’espérance condition-
nelle. En effet, la sous-tribu par laquelle une variable aléatoire est conditionnée peut
être choisie comme la tribu engendrée par une autre variable aléatoire. Pour être plus
précis, on considère X et Y deux variables aléatoires de (Ω, A, P) 7→ (R, Bor(R)) telle que
X ∈ L1 (Ω, A, P) ou X ≥ 0 P-presque surement. On pose alors
E(X | Y ) = E(X | σ(Y ))
où on rappelle que σ(Y ) = {(Y )−1 (B), B
∈ Bor(R)} est la plus petite tribu sur Ω qui rend
Y mesurable.
Le second lemme de Doob que nous énonçons maintenant nous garantit que E(X | Y )
peut toujours s’écrire comme une fonction de Y .
Proposition 3.14. [Lemme de Doob] Soit X : (Ω, A, P) 7→ (Rd , Bor(Rd )) une variable
aléatoire et Y : (Ω, A, P) 7→ (E, E) une variable aléatoire. Alors, X est σ(Y )-mesurable si
et seulement si il existe h : (E, E) 7→ (Rd , Bor(Rd )) mesurable telle que X = h(Y ).
Remarque 3.15. On déduit du lemme précédent que pour calculer E(X | Y ) il faut en
réalité calculer la fonction h
Premier cas particulier: les variables X et Y sont indépendantes. Il s’agit d’un

cas particulier du point (4) de la Proposition 3.13. En effet, la définition de X et Y
indépendantes est justement que σ(X) et σ(Y ) sont des sous-tribus indépendante, ou de
manière équivalente que X est indépendante de σ(Y ). Ainsi, si X ≥ 0 P-presque surement

ou si X ∈ L1 on a
E(X | Y ) = E(X | σ(Y )) = E(X), P-presque surement.
Second cas particulier: la variable Y est discrète. On rappelle que dans ce cas, on note
HY l’ensemble des valeurs prises par Y avec une probabilité positive, i.e., HY := {ai , i ∈ I}
où I est au plus dénombrable et
P(Y = ai ) > 0, ∀i ∈ I et P(Y ∈ HY ) = 1.
Proposition 3.16. Soit X une variable aléatoire de (Ω, A, P) 7→ (R, Bor(R)) tel que
X ≥ 0 P-presque surement ou X ∈ L1 (Ω, A, P). Soit Y : (Ω, A, P) 7→ (R, Bor(R)) une
variable aléatoire aléatoire discrète, alors E(X | Y ) = h(Y ) P-presque surement avec
X
h(y) = E[X | Y = ai ] 1{ai } (y), ∀y ∈ R.
i∈I
Exemple 3.17. Reprenons l’exemple 3.6 dans lequel X et Y sont deux variables aléatoires
indépendantes telle que Y Poiss(λ) et X Exp(β). On rappelle que N = 1{X>Y } .
Montrer que
E(N | Y ) = e−βY P-presque surement.
Troisième cas particulier: le vecteur (X, Y ) est à densité. On se place dans le cas
où le vecteur aléatoire (X, Y ) est à densité notée f . On suppose que X est intégrable, i.e.,
Z Z
|x| f (x, y)dydx < ∞.
R R
On rappelle que la densité de Y est notée fY et que HY := {y ∈ R : fY (y) > 0}. On obtient
la proposition suivante.
Proposition 3.18. Si le vecteur aléatoire (X, Y ) est à densité et que X ∈ L1 , alors
E(X | Y ) = h(Y ) P-presque surement avec
R
x f (x, y)dx
h(y) = R 1HY (y), y ∈ R.
fY (y)
Exemple 3.19. Reprenons l’exemple (3.9) où (X, Y ) est un couple de variables aléatoires
ayant pour loi
d P(X,Y ) (x, y) = λ2 e−λy 1 [0,∞[ (y) 1 [0,y] (x) dx dy.
On a montré précédemment que que HY =]0, ∞[.
(1) Montrer que :

Y
E(X | Y ) = , P-presque surement.
2
(2) En déduire E(X).
Exemple 3.20. Soit (X, Y ) un couple de variables aléatoires ayant pour densité
4y
d P(X,Y ) (x, y) = 3 1 ]0,1[ (x) 1 ]0,x2 [ (y) dx dy.
x
(1) Calculer les lois marginales de X et Y .

(2) Déterminer HX et HY .
(3) Montrer que
2 X2
E(Y | X) = , P-presque surement.
3
(4) Montrer que
2Y 1
E(X | Y ) = √ −1 , P-presque surement.
1−Y Y
Lien entre l’espérance conditionnelle et la loi conditionnelle. Remarquons ici que

si (X, Y ) un vecteur aléatoire tel que X ∈ L1 (Ω, A, P), l’espérance conditionnelle de X
sachant Y peut être calculée en intégrant x contre la loi conditionnelle de X sachant Y .
On a donc E(X | Y ) = h(Y ) P-presque surement avec
Z
h(y) = x dPX|Y =y (x), y ∈ HY . (3.8)
R
En effet, le lemma de Doob (énoncé dans le Theorème 3.4) appliqué avec la fonction
g(x, y) = x 1B (y) où B ∈ Bor(R) nous permet d’écrire que
Z Z
E X 1B (Y )) = x1B (y)dPX|Y =y (x)dPY (y) (3.9)
ZR R Z
= 1B (y) xdPX|Y =y (x) dPY (y) (3.10)
R R

= E 1B (Y ) h(Y ) (3.11)
avec h définie en (3.8).
Applications: Les propositions 3.8 et 3.18 sont l’illustration de ce lien pour les vecteurs
aléatoires réels à densité. Les propositions 3.5 et 3.16 sont l’illustration de ce lien pour les
vecteurs (X, Y ) pour lesquels Y est une variable aléatoire discrète.
4. Vecteurs Gaussiens
4.1. Manipulations de vecteurs aléatoires.
Matrices aléatoires. Soit k, p ∈ N∗ , on note Mk,p (R) l’ensemble des matrices réelles à k
lignes et p colonnes. Dans cette section on considère
Z : (Ω, A, P) 7→ Mk,p (R), Bor Rk×p

(4.1)

ω 7→ Z(ω) := Zi,j (ω) (i,j)∈{1,...,k}×{1,...,p}
une matrice aléatoire à k ∈ N∗ lignes et p ∈ N∗ colonnes. Ainsi, ∀(i, j) ∈ {1, . . . , k} ×

{1, . . . , p}, la coordonnées
Zi,j : (Ω, A, P) 7→ (R, Bor(R))
est une variable aléatoire.
Definition 4.1. Soit r ∈ N∗ . La matrice aléatoire Z à k lignes et p colonnes est dite

r-intégrable si chacune de ses coordonnées est dans Lr , i.e., E(|Zi,j |r ) < ∞ pour tout i, j.
On note alors Z ∈ Lrk,p .
Definition 4.2. Soit Z ∈ L1k,p , puisque Zi,j ∈ L1 ∀(i, j) ∈ {1, . . . , k} × {1, . . . , p} on peut
définir l’espérance de Z comme suit

E(Z) = E(Zi,j ) (i,j)∈{1,...,k}×{1,...,p} ∈ Mk,p (R) (4.2)
Cas particulier des vecteurs aléatoires. Dans tout ce chapitre, on identifiera Rk à

l’ensembles des vecteurs lignes de taille k, i.e., à M1,k (R). On notera t Λ pour transformer
le vecteur ligne Λ ∈ Rk en vecteur colonne.
Matrice des covariances.

Definition 4.3. Soit X ∈ L2k et Y ∈ L2p , on appelle matrice des covariance de X et Y la
matrice
Cov(X, Y ) := (cov(Xi , Yj ))(i,j)∈{1,...,k}×{1,...,p} ∈ Mk,p (R)
On prouve alors que
Cov(X, Y ) = E(t X Y ) −t E(X)E(Y ) (4.3)
On notera Var(X) = Cov(X, X) dans le cas particulier X = Y .
4.2. Rappel sur les lois Gaussiennes.
Densité. Soit m ∈ R et σ 2 > 0, la loi Gaussienne N (m, σ 2 ) admet pour densité

1 (x−m)2
fm,σ2 (x) = √ e− 2σ 2 , x ∈ R.
2πσ 2
Dans le cas où σ 2 = 0, la loi Gaussienne N (m, 0) est simplement la masse de Dirac en m,
i.e., N (m, 0) = δ{m} .
Moment, fonctions caractéristique et transformations affines. Soit X N (m, σ 2 ),

alors
(1) X ∈ L2 et E(X) = m et Var(X) = σ 2
σ 2 t2
(2) ϕX (t) = E eitX = eimt− 2 ,

t∈R
(3) si (a, b) ∈ R2 alors aX + b N (am + b, a2 σ 2 ).
Loi Gamma, loi du χ2 . On rappelle que pour a, b > 0 la loi Γ(a, b) admet pour densité
1 a a−1 −bx
fa,b (x) = b x e 1[0,∞[ (x), x ∈ R.
Γ(a)
On a prouvé en Outil proba. 1 que si X N (0, 1) alors X 2 Γ(1/2, 1/2). On a prouvé
aussi que si X et Y sont indépendante et que X Γ(λ, µ) et Y Γ(β, µ) alors X + Y
Γ(λ + β, µ). Ainsi, si (X1 , . . . , Xn ) sont i.i.d. de loi N (0, 1) on a bien
n 1
X12 + · · · + Xn2 Γ( , )
2 2
dont la loi est appelée aussi chi-deux à n degrés de liberté et notée χ2 (n).
4.3. Vecteur Gaussien. On définit à présent une nouvelle classe de vecteurs aléatoires,
dit Gaussien, qui en réalité étendent les variables aléatoire Gaussienne à la dimension k ≥ 2.
On considère donc dans la suite un vecteur aléatoire
X : (Ω, A, P) 7→ (Rk , Bor(Rk )) (4.4)
ω → (X1 (ω), X2 (ω), . . . , Xk (ω))
Definition 4.4. Le vecteur aléatoire X : (Ω, A, P) 7→ (Rk , Bor(Rk )) est dit Gaussien si
toutes combinaison linéaire de ses coordonnées est une variable gaussienne, i.e., ∀λ ∈ Rk
la variable aléatoire < λ, X >= λt X = ki=1 λi Xi suit une loi Gaussienne.
P
Remarque 4.5.
• Toute les coordonnées d’un vecteur Gaussien admettent une loi Gaussienne.
• Si (X1 , . . . , Xk ) est un vecteur Gaussien et si {i1 , i2 , . . . , ip } ⊂ {1, . . . , k} alors (Xi1 , . . . , Xip )
est également un vecteur Gaussien.
• Attention, un vecteur aléatoire peut avoir toutes ses coordonnées Gaussiennes sans
être lui-même un vecteur Gaussien. On peut considérer par exemple U et Y indépendantes
telles que Y N (0, 1) et U Ber(1/2). On pose X := (2U − 1)Y alors X et Y sont
Gaussiennes mais Cov(X, Y ) = 0 alors que X et Y ne sont pas indépendantes donc
(X, Y ) n’est pas un vecteur Gaussien.
Proposition 4.6. Un vecteur aléatoire X := (X1 , . . . , Xk ) est Gaussien si et seulement si

X ∈ L2k et si il admet pour fonction caractéristique
t µ− 1 vΣ t v
ΦX (v) = ei v 2 (4.5)
Pk 1 t
= ei j=1 vj µj − 2 (v1 ,...,vk )Σ (v1 ,...,vk ) , v ∈ Rk ,
avec µ = E(X) ∈ Rk et Σ := Var(X)
Remarque 4.7. Puisque la fonction caractéristique caractérise la loi d’un vecteur aléatoire,
la proposition 4.6 nous garantit que la loi d’un vecteur Gaussien est entièrement déterminée
par son espérance et sa matrice de covariance. Dans la suite on notera
X Nk (µ, Σ)
pour désigner que le vecteur aléatoire X de dimension k est Gaussien d’espérance µ ∈ Rk
et de covariance Σ ∈ Mk,k (R).
Exemple 4.8. Soit X := (X1 , X2 , X3 ) un vecteur Gaussien de moyenne nulle et de matrice

de covariance
1 21 12
 
1 1 1
2 2
1 1
2 2 1
(1) Montrer que X1 − X2 + 2X3 N (0, 5)
(2) Montrer que la fonction caractéristique de X = (X1 , X2 , X3 ) est
1 2 +y 2 +z 2 +xy+yz+xz)
ΦX (x, y, z) = e− 2 (x
Exemple 4.9. Soit X1 , . . . , Xk des variables aléatoires réelles définies sur le même espace
de probabilité, indépendantes et telles que Xi N (mi , σi2 ) ∀i ∈ {1, . . . , k}. Alors le
vecteur X := (X1 , . . . , Xk ) est un vecteur Gaussien d’espérance (m1 , . . . , mk ) et de matrice
de covariance  
σ12 0 . . . 0
 0 σ 2 . . . ... 
 
Cov(X) =  . .
 2 
 .. .. ... 0  
0 . . . 0 σk 2
Exemple 4.10. Soit X = (X1 , . . . , Xk ) Nk (µ, Σ) et A ∈ Mk,p (R) alors

XA Np (µA, t AΣA)
Proposition 4.11. Soit X := (X1 , . . . , Xk ) un vecteur Gaussien. Les variables (Xi )ki=1
sont indépendantes si et seulement si la matrice de covariance de X est diagonale, i.e., si
et seulement si
Cov(Xi , Xj ) = 0 ∀i 6= j, i, j ≤ k.
Remarque 4.12. Soient k, p ∈ N∗ et soient X = (X1 , . . . , Xk ) ∈ L2k et Y = (Y1 , . . . , Yp ) ∈

L2p deux vecteurs aléatoires tels que
Z = (X, Y ) = (X1 , . . . , Xk , Y1 , . . . , Yp ) est un vecteur Gaussien.
Alors X et Y sont indépendants si et seulement si Cov(Xi , Yj ) = 0 ∀i ∈ {1, . . . , k} and
∀j ∈ {1, . . . , p}, i.e.,
Proposition 4.13. [Densité d’un vecteur Gaussien] Soit X un vecteur Gaussien X :=

(X1 , . . . , Xk ) de moyenne m := E(X) et de matrice de covariance Σ := Var(X). Alors, X
admet une densité si et seulement si det(Σ) 6= 0 et dans ce cas
1 1 −1 t (x−m)
fX (x1 , . . . , xk ) = e− 2 (x−m)Σ , x ∈ Rk . (4.6)
(2π)k/2 (detΣ)1/2
Exemple 4.14. Soit (X, Y, Z) un vecteur Gaussien de moyenne m = (2, 0, 1) et de matrice

de covariance  
2 1 1
= 1 2 −1
1 −1 2
(1) Montrer que Y − X N (−2, 2).
(2) Montrer que le vecteur (X, Y ) admet pour densité
1 1 2 2
f(X,Y ) (x, y) = √ e− 3 ((x−2) −(x−2)y+y ) , (x, y) ∈ R2 .
2 3π
Theorem 4.15. [TCL multivarié] Soit (Xi )i≥1 une suite i.i.d. de vecteurs aléatoires de
tailles k ∈ N∗ et tels que X1 ∈ L2k (i.e., E(X1,i
2 ) < ∞, ∀i ∈ {1, . . . , k}). On a la convergence
en loi Pn
i=1 Xi√ − nE(X1 ) Loi
−→ Nk (0, ΣX1 ) (4.7)
n n→∞
Remarque 4.16. On vérifie bien que la formule (4.7) généralise le TCL (en dimension
1) énoncé au Theorem 2.4.
Theorem 4.17. [Theorème de Cochran] Soit n ∈ N∗ et X = (X1 , . . . , Xn ) un vecteur

Gaussien centré de matrice de Covariance In . Soit F un sous espace vectoriel de Rn et F ⊥
son supplémentaire sur Rn . On note PF et PF ⊥ les matrice de projection orthogonales sur
F et F ⊥ de sorte que Z1 := PF · X et Z2 := PF ⊥ · X sont les projections orthogonales de
X sur F et F ⊥ respectivement. Alors
• Z1 et Z2 sont des vecteurs Gaussiens indépendants de loi respectives Nn (0, PF ) et
Nn (0, PF ⊥ ).
• ||Z1 ||22 et ||Z2 ||22 sont indépendantes de loi respectives χ2 (d) et χ2 (n − d) avec d =
dimF .
Exemple 4.18. Soit X = (X1 , X2 , X3 , X4 ) un vecteur Gaussien centré de matrice de

covariance I4 .
(1) A l’aide du théorème de Cochran, déterminer la loi de
(X1 − X2 )2 /2 + (X1 + X2 )2 /2.
(2) Faites de même pour la variable
(X1 − X2 )2
.
(X1 + X2 )2
(3) Déterminer la projection orthogonale PE (X) de X sur

E = Vect (1, 1, 0, 0), (0, 0, 1, 1)
.
(4) A l’aide du théorème de Cochran, déterminer la loi de
||PE (X)||2 et ||X − PE (X)||2 .
Exemple 4.19. Soit (X1 , . . . , Xn ) des variables aléatoires i.i.d. telle que X1 N (0, 1).
On note
n
X1 + · · · + Xn X
X̄n := et Yn := (Xi − X̄n )2
n
i=1
.
(1) Montrer que X̄n N (0, n1 ).
(2) Montrer que Xn et Yn sont indépendantes.
(3) Montrer que Yn χ2 (n − 1).
Theorem 4.20. [Vecteurs Gaussiens et conditionnement] Soit k ∈ N∗ et X = (X1 , . . . , Xn )

un vecteur Gaussien. On note H1k−1 := Vect(1, X1 , . . . , Xk−1 ) le sous-espace vectoriel de
L2 (Ω, A, P) engendré par 1, X1 , . . . , Xk−1 . On note PH k−1 la matrice de projection orthog-
1
onale sur H1k−1 . Alors
• Xk − PH k−1 (Xk ) N1 (0, ||Xk − PH k−1 (Xk )||22 ),
1 1
• E(Xk | X1 , . . . , Xk−1 ) = PH k−1 (Xk ),

1
• la loi conditionnelle de Xk sachant X1 , . . . , Xk−1

est une Gaussienne de moyenne
PH k−1 (Xk ) et de variance E (Xk − PH k−1 (Xk ))2 . La variance ne dépend donc pas
1 1
de la réalisation de (X1 , . . . , Xk−1 ).
Exemple 4.21. On reprend l’énoncé de l’exercice 4.14.

(1) Le vecteur (X, Y, Z) admet-il une densité?
(2) Monter que E(Z | X, Y ) = X − Y − 1.
(3) Quelle méthode pouvez vous utiliser pour calculer E (2X − 4 − Y )2 | Y ?

Exemple 4.22. Soit (X1 , . . . , Xn ) des variables aléatoires i.i.d. telles que X1 N (0, 1).
On souhaite calculer E(X1 | Sn ) ainsi que la loi conditionnelle de X1 sachant Sn .
(1) Prouver que (X1 , Sn ) est un vecteur Gaussien.
(2) Calculer PVect(1,Sn ) (X1 ) sous la forme λ0 + λ1 Sn et en déduire que
Sn
E(X1 | Sn ) =
.
n
(3) En déduire également que la loi conditionnelle de X1 sachant Sn vaut
t 1
LX1 |Sn =t = N ,1 − .
n n
Laboratoire de Mathématiques Jean Leray UMR 6629, Université de Nantes, 2 Rue de la

Houssinière, BP 92208, F-44322 Nantes Cedex 03, France
Email address: nicolas.petrelis@univ-nantes.fr

Cours Outils Proba 2

Transféré par

Droits d'auteur :

Formats disponibles

Cours Outils Proba 2

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Outils Proba 2

Transféré par

Droits d'auteur :

Formats disponibles

OUTILS PROBABILISTES POUR LA STATISTIQUE 2

1. Convergence presque sure, en probabilité et Lp .

Date: November 2, 2023.

Dans ce cas on note

Remarque 1.7. La convergence presque sure implique la convergence en probabilité. En

1.2. Application de la LFGN: le théorème de Glivenko Cantelli. On considère

la mesure de probabilité empirique associée a n observations. On note aussi Fn,ω la fonction

lim sup Fn,ω (t) − F (t) = 0 P -presque surement en ω. (1.4)

Proof. Pour tout x ∈]0, 1[ on définit le pseudo inverse F −1 de la fonction de répartition F

4) Expliquer pourquoi il suffit finalement de montrer que

alors X = Y P-presque surement.

2.2. Estimations de fluctuations. On a vu, notamment avec la LFGN, des exemples de

2.3. Illustrations de la convergence en loi.

Convergence en loi d’une suite de variables aléatoires définie par récurrence.

2) Déterminer la loi de Xn pour tout n ≥ 1.

3) Etudier la convergence en loi de la suite (Xn )n≥1 en fonction de la valeur de ϑ.

3.1. Loi d’une variable aléatoire conditionnée par un événement de probabilité

Second cas particulier: la variable aléatoire Y prend un nombre au plus dénombrable

Proof. On remarque que si y ∈ / HY alors f(X,Y ) (x, y) = 0 λ−presque surement en x. Dès

(2) Montrer que pour tout y > 0:

Exemple 3.11. Soit (X, Y ) un couple de variables aléatoires tel que

3.3. Espérance conditionnelle.

Proof. Nous prouverons simplement l’existence de l’espérance conditionnelle en renforçant

(2) si X ≥ Y P-presque surement, alors E(X | G) ≥ E(Y | G) P-presque suremement,

(3) E[ E(X | G)] = E(X),

(4) si X est indépendante de G alors E(X | G) = E(X) P-presque surement,

(5) si X est G−mesurable alors E(X | G) = X P-presque surement,

(6) si B est une sous tribu de G alors E(X | B) = E[ E(X | G) | B],

(7) si X ∈ L1 (Ω, A, P) et Y ∈ L∞ (Ω, G, P) ou bien si X ∈ L2 (Ω, A, P) et Y ∈ L2 (Ω, G, P)

Premier cas particulier: les variables X et Y sont indépendantes. Il s’agit d’un

manière équivalente que X est indépendante de σ(Y ). Ainsi, si X ≥ 0 P-presque surement

(1) Montrer que :

(1) Calculer les lois marginales de X et Y .

Lien entre l’espérance conditionnelle et la loi conditionnelle. Remarquons ici que

une matrice aléatoire à k ∈ N∗ lignes et p ∈ N∗ colonnes. Ainsi, ∀(i, j) ∈ {1, . . . , k} ×

Definition 4.1. Soit r ∈ N∗ . La matrice aléatoire Z à k lignes et p colonnes est dite

Cas particulier des vecteurs aléatoires. Dans tout ce chapitre, on identifiera Rk à

Matrice des covariances.

4.2. Rappel sur les lois Gaussiennes.

Densité. Soit m ∈ R et σ 2 > 0, la loi Gaussienne N (m, σ 2 ) admet pour densité

Moment, fonctions caractéristique et transformations affines. Soit X N (m, σ 2 ),

(3) si (a, b) ∈ R2 alors aX + b N (am + b, a2 σ 2 ).

Proposition 4.6. Un vecteur aléatoire X := (X1 , . . . , Xk ) est Gaussien si et seulement si

avec µ = E(X) ∈ Rk et Σ := Var(X)

Exemple 4.8. Soit X := (X1 , X2 , X3 ) un vecteur Gaussien de moyenne nulle et de matrice

Exemple 4.10. Soit X = (X1 , . . . , Xk ) Nk (µ, Σ) et A ∈ Mk,p (R) alors

Remarque 4.12. Soient k, p ∈ N∗ et soient X = (X1 , . . . , Xk ) ∈ L2k et Y = (Y1 , . . . , Yp ) ∈

Proposition 4.13. [Densité d’un vecteur Gaussien] Soit X un vecteur Gaussien X :=

Exemple 4.14. Soit (X, Y, Z) un vecteur Gaussien de moyenne m = (2, 0, 1) et de matrice

Theorem 4.17. [Theorème de Cochran] Soit n ∈ N∗ et X = (X1 , . . . , Xn ) un vecteur

Exemple 4.18. Soit X = (X1 , X2 , X3 , X4 ) un vecteur Gaussien centré de matrice de

(3) Déterminer la projection orthogonale PE (X) de X sur

Theorem 4.20. [Vecteurs Gaussiens et conditionnement] Soit k ∈ N∗ et X = (X1 , . . . , Xn )

• E(Xk | X1 , . . . , Xk−1 ) = PH k−1 (Xk ),

• la loi conditionnelle de Xk sachant X1 , . . . , Xk−1

Exemple 4.21. On reprend l’énoncé de l’exercice 4.14.

Laboratoire de Mathématiques Jean Leray UMR 6629, Université de Nantes, 2 Rue de la

Vous aimerez peut-être aussi