Esperance Conditionnelle

Université Rennes 2
Licence MASS 3
Espérance conditionnelle
&
Chaînes de Markov
Arnaud Guyader
Table des matières
1 Espérance conditionnelle 1
1.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Cas absolument continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2 La régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Interprétation géométrique de l’espérance conditionnelle . . . . . . . . . . . . . . . 20
1.5 Espérance conditionnelle : le cas général . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 Vecteurs gaussiens et conditionnement 63

2.1 Rappels sur les vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.1.1 Variables gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.1.2 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.2 Conditionnement des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . 78
2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78
2.2.2 Hyperplan de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.2.3 Espérance conditionnelle gaussienne . . . . . . . . . . . . . . . . . . . . . . 83
2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3 Chaînes de Markov 113

3.1 Définition d’une chaîne de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.2 Equations de Chapman-Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.3 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.4 Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
A Annales 147
i
Chapitre 1
Espérance conditionnelle
Introduction
L’espérance conditionnelle est un outil d’usage constant en probabilités et statistiques. Néanmoins,
sa définition dans le cas général n’est pas simple. C’est pourquoi ce chapitre présente l’idée par
étapes et de façon intuitive : cas discret, cas absolument continu, interprétation géométrique dans
L2 et enfin extension à L1 .
1.1 Cas discret

On considère un couple aléatoire discret (X, Y ), c’est-à-dire une application mesurable

(Ω, F, P) → X × Y
(X, Y ) :
ω 7→ (X(ω), Y (ω))
avec les ensembles X = (xi )i∈I et Y = (yj )j∈J au plus dénombrables (i.e. finis ou dénombrables).
Autrement dit, les ensembles d’indices I et J sont au plus dénombrables : penser à des ensembles
finis, à N, à Z. Pour calculer des quantités liées à ce couple aléatoire, il faut bien sûr connaître la
probabilité de tomber sur un couple (xi , yj ). Nous adoptons la notation :
pij = P(X = xi , Y = yj ).
La suite double (pij )i∈I,j∈J est appelée loi jointe du couple (X, Y ). Il est clair que :

0 ≤ pij ≤ 1
P
i∈I,j∈J pij = 1
Exemple. On tire deux chiffres au hasard, indépendamment et de façon équiprobable entre 1 et

3. Soit X le maximum des chiffres obtenus et Y la somme des chiffres obtenus. La loi jointe du
couple (X, Y ) se représente sous forme d’un tableau (voir figure 1.1).
Définition 1 (Lois marginales)

Soit (X, Y ) un couple aléatoire. Les variables aléatoires X et Y sont dites marginales. La loi de
X, dite loi marginale, est entièrement déterminée par les probabilités pi. de tomber sur les points
xi : X X
pi. = P(X = xi ) = P(X = xi , Y = yj ) = pij
j∈J j∈J
De même pour la loi marginale de Y et les probabilités p.j de tomber sur les points yj :
X X
p.j = P(Y = yj ) = P(X = xi , Y = yj ) = pij
i∈I i∈I
1
2 Chapitre 1. Espérance conditionnelle
Y
2 3 4 5 6
X
1
1 9 0 0 0 0
2 1
2 0 9 9 0 0
2 2 1
3 0 0 9 9 9
Figure 1.1 – Loi jointe pour le max et la somme.
Exemple. Pour l’exemple précédent, on calcule aisément les lois marginales de X et Y : il suffit
de sommer sur chaque ligne pour la loi de X et sur chaque colonne pour la loi de Y (voir figure
1.1).
5
9
4
9
3
9
2
9
1
9
2 3 4 5 6 Y
Figure 1.2 – Loi jointe et lois marginales pour le max et la somme.
Achtung ! La connaissance des lois marginales ne suffit pas à déterminer la loi du couple (X, Y ).
Autrement dit, on peut trouver deux couples (X1 , Y1 ) et (X2 , Y2 ) n’ayant pas même loi jointe, mais
tels que les lois de X1 et X2 soient égales, ainsi que les lois de Y1 et Y2 (cf. figure 1.3).
La situation agréable est celle où les variables marginales X et Y sont indépendantes. Celle-ci se
vérifie facilement une fois connues la loi jointe et les lois marginales.
Proposition 1 (Lois marginales et indépendance)

Les variables aléatoires marginales X et Y sont indépendantes si et seulement si :
∀(i, j) ∈ I × J P(X = xi , Y = yj ) = P(X = xi )P(Y = yj ),
Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

1.1. Cas discret 3
Y1 Y2
1 2 3 1 2 3
X1 X2
1 1 1 1
1 0 4 0 1 16 8 16
1 1 1 1 1
2 4 0 4 2 8 4 8
1 1 1 1
3 0 4 0 3 16 8 16
Figure 1.3 – Mêmes lois marginales mais loi jointe différente.
c’est-à-dire avec nos notations : pij = pi. p.j .
Exemples :
1. Sur l’exemple précédent du max et de la somme, il est clair que X et Y ne sont pas indé-
pendantes puisque par exemple :
1 1 1 1
p12 = 6= p1. × p.2 = × =
9 9 9 81
2. Jeu de cartes : on tire une carte au hasard dans un jeu de 32 cartes. Le résultat de ce tirage
est représenté par le couple aléatoire (X, Y ), où X est la couleur et Y la valeur. Autrement
dit, X appartient à l’ensemble {Pique, Cœur, Carreau, Trèfle} et Y à l’ensemble {7, 8, 9, 10,
Valet, Dame, Roi, As}. Il est clair que :
1 1 1
∀(i, j) ∈ I × J P(X = xi , Y = yj ) = = × = P(X = xi )P(Y = yj ),
32 4 8
donc X et Y sont indépendantes.
Remarque. Soit i ∈ I fixé. Notons qu’on peut avoir pij = 0, c’est-à-dire que l’événement
{X = xi , Y = yj } ne se réalise jamais. Par contre, on exclut le cas où pi. = 0 : ceci signifie-
rait que X ne prend jamais la valeur xi , auquel cas cette valeur n’aurait rien à faire dans X .
Puisque chacune des probabilités pi. est non nulle, on peut définir la probabilité conditionnelle de
Y = yj sachant X = xi par la formule :
P(X = xi , Y = yj ) pij
pj|i = P(Y = yj |X = xi ) = =
P(X = xi ) pi.
Définition 2 (Probabilités conditionnelles)
Soit xi ∈ X . La loi conditionnelle de Y sachant X = xi est la loi discrète prenant les valeurs yj
avec les probabilités pj|i = P(Y = yj |X = xi ).
Exemple : Lois de Poisson.

Soit Y ∼ P(α) et Z ∼ P(β) deux variables aléatoires de Poisson indépendantes. On s’intéresse à
leur somme X = Y + Z. X est bien sûr une variable aléatoire. On rappelle que Y suit une loi de
Poisson de paramètre α si Y est à valeurs dans N, avec (voir aussi figure 1.4) :
αn
∀n ∈ N P(Y = n) = e−α .
n!
Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

0.28 0.09
0.08
0.24
P(2) P(20)
0.07
0.20
0.06
0.16
0.05
0.04
0.12
0.03
0.08
0.02
0.04
0.01
0.00 0.00
0 1 2 3 4 5 6 7 8 9 10 0 4 8 12 16 20 24 28 32 36 40
Figure 1.4 – Lois de Poisson de paramètres 2 et 20.
1. Loi de X ?
La variable aléatoire X est à valeurs dans N en tant que somme de variables aléatoires à
valeurs dans N. On commence par déterminer sa loi. Soit donc n ∈ N fixé, alors :
n
! n
[ X
P(X = n) = P(Y + Z = n) = P {Y = k, Z = n − k} = P(Y = k, Z = n − k).
k=0 k=0
Or Y et Z sont indépendantes, donc :

n
X n
X n
k
−α α −β β n−k e−(α+β) X n k n−k
P(X = n) = P(Y = k)P(Z = n−k) = e e = α β ,
k! (n − k)! n! k
k=0 k=0 k=0
et on reconnaît la formule du binôme :

(α + β)n
P(X = n) = e−(α+β) .
n!
C’est-à-dire que X suit une loi de Poisson de paramètre (α + β). Ce résultat se généralise
d’ailleurs sans problème : si les Xi ∼ P(λi ) sont globalement indépendantes, alors leur somme
S suit encore une loi de Poisson :
S ∼ P(λ1 + · · · + λn ).
D’un point de vue théorie de la mesure, on vient de montrer que le produit de convolution
de deux lois de Poisson est une loi de Poisson.
2. Loi de Y sachant X ?
Soit n ∈ N, déterminons la loi de Y sachant X = n. Puisque X = Y + Z, il est clair que,
sachant X = n, Y est à valeurs dans {0, 1, . . . , n}. Soit donc k ∈ {0, 1, . . . , n} :
P(Y = k, X = n) P(Y = k, Z = n − k) P(Y = k)P(Z = n − k)
P(Y = k|X = n) = = = .
P(X = n) P(X = n) P(X = n)
Et il suffit alors d’exprimer tout ceci grâce aux lois de Poisson, ce qui donne après simplifi-
cations : k n−k
n α β
P(Y = k|X = n) = .
k α+β α+β

1.1. Cas discret 5

α
Ainsi, sachant X = n, Y suit une loi binômiale B n, α+β .
Revenons au cas général et supposons que Y soit intégrable. Si X est figée à xi , il est naturel de
considérer la valeur moyenne de la variable aléatoire Y lorsque X = xi : c’est ce qu’on appelle
l’espérance conditionnelle de Y sachant X = xi . Elle s’écrit :
X
E[Y |X = xi ] = pj|i yj
j∈J
Or on sait que X prend la valeur X = xi avec la probabilité pi. .
Définition 3 (Espérance conditionnelle)

Supposons Y intégrable. La variable aléatoire qui prend les valeurs E[Y |X = xi ] avec les probabilités
pi. est appelée espérance conditionnelle de Y sachant X et notée E[Y |X].
Nota Bene. Il faut noter qu’en général l’espérance conditionnelle E[Y |X] est une variable aléa-
toire et non un nombre. On peut l’interpréter comme la valeur moyenne prise par Y lorsque l’on
connaît X. Elle pourra donc s’écrire comme une fonction de X.
Exemple. On reprend l’exemple précédent. L’espérance de Y sachant X = n est l’espérance d’une

α
loi binômiale B(n, α+β ). Donc pour tout n ≥ 0 :
αn
E[Y |X = n] = .
α+β
Puisque ceci est vrai pour tout entier naturel n, l’espérance conditionnelle de Y sachant X est :
αX
E[Y |X] = ,
α+β
qui est bien une fonction de X, donc une variable aléatoire, et non un nombre.
Théorème 1 (Calcul d’espérance par conditionnement)

Si Y est intégrable, alors la variable aléatoire E[Y |X] aussi et on a :
E[E[Y |X]] = E[Y ].
Exemple. Sur l’exemple précédent, les paramètres α et β étant des constantes, on peut écrire :
α
E[E[Y |X]] = E[X],
α+β
or l’espérance d’une loi de Poisson de paramètre (α + β) est tout simplement (α + β), donc :
α
E[E[Y |X]] (α + β) = α = E[Y ].
α+β
Preuve. C’est l’âne qui trotte :
 
X X X
E[E[Y |X]] = pi. E[Y |X = xi ] = pi.  pj|iyj  ,
i∈I i∈I j∈J
pij
or pj|i = pi. , donc :
  !
X X X X
E[E[Y |X]] =  pij yj  = pij yj ,
i∈I j∈J j∈J i∈I

P
or, par définition, p.j = i∈I pij , donc :
X
E[E[Y |X]] = p.j yj = E[Y ].
j∈J

Remarque. Ce résultat permet souvent de calculer l’espérance de Y en deux étapes : on exprime
d’abord E[Y |X] comme une fonction ϕ(X) de la variable aléatoire X. Puis, si cette fonction ϕ et
la loi de X sont “assez simples”, on calcule E[ϕ(X)]. Voir par exemple les exercices ”Un dé et une
pièce” et ”Somme aléatoire de variables aléatoires” en fin de chapitre.
On vient de dire que, dans le cas général, l’espérance conditionnelle E[Y |X] est une variable aléa-
toire et pas un nombre. Il existe cependant un cas particulier : lorsque X et Y sont indépendantes.
Propriétés 1 (Espérance conditionnelle et indépendance)

Si Y est intégrable, si X et Y sont indépendantes, alors la variable aléatoire E[Y |X] est constante,
égale à E[Y ].
Preuve. Si X et Y sont indépendantes, alors pour tout couple (i, j) ∈ I × J :
pij = pi. p.j .
On en déduit que :
∀(i, j) ∈ I × J pj|i = p.j ,
donc pour tout xi ∈ X :
X X
E[Y |X = xi ] = pj|iyj = p.j yj = E[Y ],
j∈J j∈J
or par définition E[Y |X] est la variable aléatoire qui prend les valeurs E[Y |X = xi ] avec les
probabilités pi. . On en déduit que E[Y |X] est la variable aléatoire constante égale à E[Y ].

Dans de nombreuses situations, on désire calculer la valeur moyenne prise par une fonction du
couple (X, Y ), c’est-à-dire : Z
E[h(X, Y )] = h(X, Y ) dP,
Ω
où h est une fonction de R dans R. Par exemple si on veut calculer la moyenne de la somme de
2
deux variables, ou la moyenne de leur produit.
Rappel : Théorème de transfert

Sous réserve d’intégrabilité, le théorème de transfert assure que l’espérance précédente s’écrit
comme une somme double : X
E[h(X, Y )] = h(xi , yj )pij
i∈I,j∈J
Le cas simple est celui où, d’une, h se décompose en produit :
h(x, y) = f (x)g(y),
et, de deux, X et Y sont indépendantes. Dans ce cas, on a immédiatement :

! 
X X
E[h(X, Y )] = f (xi )pi.  g(yj )p.j  = E[f (X)]E[g(Y )],
i∈I j∈J

1.2. Cas absolument continu 7
c’est-à-dire qu’il suffit de calculer deux espérances discrètes classiques.
Dans le cas général, h ne se décompose pas aussi simplement et les variables X et Y ne sont pas
indépendantes. Néanmoins, sous les hypothèses usuelles d’intégrabilité, on peut toujours écrire :
 
X X X
E[h(X, Y )] =  h(xi , yj )pj|i  pi. = E[h(xi , Y )|X = xi ]P(X = xi )
i∈I j∈J i∈I
Ceci est une autre façon de dire que :
E[h(X, Y )] = E[E[h(X, Y )|X]]
où E[h(X, Y )|X] est la variable aléatoire qui prend les valeurs E[h(xi , Y )|X = xi ] avec les proba-
bilités pi. . On a ainsi ramené le calcul d’une somme double à deux calculs de sommes simples.
1.2 Cas absolument continu

Pour une variable aléatoire réelle X, les deux situations classiques sont les suivantes : X est dis-
crète ou X est absolument continue, c’est-à-dire qu’elle admet une densité. Dans le paragraphe
précédent, on a vu le pendant d’une loi discrète pour un couple aléatoire. Etudions maintenant
l’analogue d’une loi absolument continue pour un couple aléatoire (X, Y ) à valeurs dans R2 (ou
un sous-ensemble de R2 ).
Par définition, la loi jointe PX,Y du couple est la mesure de probabilité sur (R2 , B2 ) définie par :
∀B ∈ B2 , PX,Y (B) = P((X, Y ) ∈ B),
que l’on peut voir comme la probabilité que le point aléatoire M de coordonnées (X, Y ) tombe
dans l’ensemble borélien B.
Définition 4 (Loi jointe absolument continue)

On dit que la loi PX,Y est absolument continue 1 s’il existe une fonction mesurable f : (R2 , B2 ) →
(R, B) telle que : ZZ
∀B ∈ B2 , PX,Y (B) = f (x, y) dx dy.
B
La fonction f est appelée densité de probabilité du couple (X, Y ). On la note parfois fX,Y .
Pour qu’une fonction f soit une densité de probabilité, il faut et il suffit qu’elle soit positive et
intègre à 1 :
fRR(x, y) ≥ 0
R2 f (x, y) dx dy = 1
Remarque. En pratique, dans tout ce paragraphe, on peut faire le parallèle avec ce qui a été vu
dans le cas discret : il suffit de remplacer xi par x, yj par y, pij par f (x, y) et les sommes par des
intégrales.
Exemple. On considère un couple (X, Y ) de densité :
f (x, y) = 2e−(x+y) 1{0≤x≤y}
1. sous-entendu : par rapport à la mesure de Lebesgue sur R.

2

2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0
y
0
1
x 2
0 3
1
2 4
3
4
5
Figure 1.5 – Représentation de la densité jointe f (x, y) = 2e−(x+y) 1{0≤x≤y} .
On vérifie que ceci définit bien une densité de probabilité sur R2 . En effet, f est positive et par le
théorème de Fubini-Tonelli, on a pour le calcul de l’intégrale double :
Z Z +∞ Z y Z +∞ Z +∞
−(x+y) −(x+y)
f (x, y) dx dy = 2e dx dy = 2e dy dx.
R2 0 0 0 x
Prenons par exemple la première expression :

Z Z +∞ Z +∞
−y
−x y
f (x, y) dx dy = 2e −e dy = (2e−y − 2e−2y ) dy,
R2 0
0
0
ce qui donne finalement :

Z
+∞
f (x, y) dx dy = −2e−y + e−2y 0 = 1.
R2
La représentation de la densité f est donnée figure 1.5.
Comme dans le cas discret, on peut définir les lois des variables aléatoires marginales X et Y .
Proposition 2 (Lois marginales)

Si le couple (X, Y ) est absolument continu, les variables marginales X et Y sont absolument conti-
nues et la densité jointe f (x, y) détermine les densités marginales f (x) et f (y) :
Z Z
f (x) = fX (x) = f (x, y) dy & f (y) = fY (y) = f (x, y) dx
R R
Convention. Suivant le contexte, la densité marginale de X sera notée f (x) ou fX , mais rarement
fX (x), qui est lourdingue. Idem pour Y .

Exemple. Pour l’exemple précédent, on obtient (voir figure 1.6) :

f (x) = 2e−2x 1[0,+∞[(x)
f (y) = 2e−y (1 − e−y )1[0,+∞[ (y)
Une fois connues les lois marginales, on peut effectuer les calculs usuels sur les variables aléa-
toires absolument continues. Par exemple, sous réserve d’intégrabilité, l’espérance de X est alors
simplement : Z
E[X] = xf (x) dx.
R
2.0 0.5
1.8
1.6 0.4
1.4
1.2 0.3
1.0
0.8 0.2
fX (x) fY (y)
0.6
0.4 0.1
0.2
0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 x 0 1 2 3 4 5 6 y
Figure 1.6 – Représentation des densités marginales f (x) et f (y).
Chausse-trappe 2 . Pour l’exemple précédent, puisque X suit une loi exponentielle E(2), on a
E[X] = 21 . On rappelle au passage que si X ∼ E(λ), c’est-à-dire si X a pour densité :
f (x) = λe−λx 1[0,+∞[(x),
alors E[X] = λ1 . Les Anglo-Saxons adoptent la convention inverse : pour eux, la variable aléatoire
T suit une loi exponentielle de paramètre θ si T a pour densité :
1 −t
f (t) = e θ 1[0,+∞[(t),
θ
auquel cas on a bien sûr tout simplement E[T ] = θ. Lorsqu’on veut simuler des lois exponentielles
à l’aide d’un logiciel, il faut donc faire attention à la convention utilisée par celui-ci.
Dans le cas général, par définition, les variables aléatoires X et Y sont indépendantes si pour tout
couple de boréliens B et B ′ de R, on a :
P(X ∈ B, Y ∈ B ′ ) = P(X ∈ B)P(Y ∈ B ′ ),
ou encore si pour toutes fonctions bornées (ou positives) g et h de R dans R :
E[g(X)h(Y )] = E[g(X)]E[h(Y )].
Si la loi jointe est absolument continue, l’indépendance se vérifie de façon simple.
2. Les cuistres écrivent plutôt “chausse-trape”, les deux orthographes étant acceptées.

Proposition 3 (Indépendance)
Avec les notations précédentes, les variables aléatoires X et Y sont indépendantes si et seulement
si pour tout couple (x, y) ∈ R2 :
f (x, y) = f (x)f (y).
Exemple. Pour l’exemple précédent, X et Y ne sont pas indépendantes puisque :
f (0, 0) = 2 6= fX (0)fY (0) = 0.
Remarque. Le raisonnement sur les supports permet parfois de conclure rapidement à la non-
indépendance. Le support de la loi de X est l’adhérence de l’endroit où X a des chances de tomber :
Supp(X) = Adh{x ∈ R : f (x) 6= 0}.
C’est généralement un intervalle fermé IX . On définit de même le support IY de la loi de Y . Mais

alors, si X et Y sont indépendantes, le support du couple (X, Y ) est IX × IY , produit cartésien de
IX par IY . C’est-à-dire, en général, un pavé (fermé) de R2 . Donc si le support du couple (X, Y )
n’est pas un pavé, X et Y ne sont pas indépendantes.
y y
Supp(X, Y )
Supp(X)×Supp(Y )
x x
Figure 1.7 – Support du couple (X, Y ) (à gauche) et produit cartésien des supports de X et de
Y (à droite).
Exemple. Pour l’exemple précédent, le support de X est égal au support de Y , à savoir R+ =

[0, +∞[. Donc si X et Y étaient indépendantes, le support du couple (X, Y ) serait le pavé R+ × R+ .
Or le support de (X, Y ) est :
Supp(X, Y ) = {(x, y) ∈ R2 : 0 ≤ x ≤ y} =
6 R+ × R+ ,
donc X et Y ne sont pas indépendantes (voir figure 1.7).
On veut maintenant définir l’analogue des probabilités conditionnelles vues dans le cas discret.
Définition 5 (Lois conditionnelles)

La densité conditionnelle de Y sachant X = x est :
(
f (x,y)
f (x) si f (x) > 0
f (y|x) = fY |X (y|x) =
0 si f (x) = 0

Interprétation graphique. Pour la représentation de la densité conditionnelle f (y|x0 ), il suffit

de faire une coupe de la surface définie par la densité jointe f (x, y) par le plan d’équation x = x0 .
On obtient ainsi la fonction y 7→ f (x0 , y) : au facteur de normalisation f (x0 ) près, ceci donne une
idée de la densité conditionnelle f (y|x0 ).
f (y|x)
y
x
Figure 1.8 – Densité conditionnelle f (y|x) = e−(y−x) 1{y≥x} .
Exemple. Pour l’exemple précédent, pour tout x ≥ 0, on a :
f (y|x) = e−(y−x) 1{y≥x} ,
c’est-à-dire que, conditionnellement à X = x, Y suit une loi exponentielle de paramètre 1 transla-

tée sur l’intervalle [x, +∞[. Ceci est illustré figure 1.8.
Ainsi définie, pour tout x ≥ 0, la fonction f (.|x) est une densité de probabilité, c’est-à-dire qu’elle
est positive et somme à 1. Les relations déjà vues dans le cas discret entre marginales et condition-
nelles sont encore valables : il suffit de remplacer les sommes discrètes par des intégrales. Ainsi on
a par exemple : Z
f (y) = f (y|x)f (x) dx.
R
De plus, si les variables aléatoires X et Y sont indépendantes, on a bien sûr fX|Y = fX et
fY |X = fY .
On veut maintenant définir l’espérance conditionnelle. Pour x fixé, l’espérance conditionnelle de

Y sachant X = x est : Z
E[Y |X = x] = yf (y|x) dy.
R
La fonction
ϕ : x 7→ ϕ(x) = E[Y |X = x]
est une fonction réelle de la variable réelle. ϕ(X) est donc une variable aléatoire : c’est l’espérance
conditionnelle de Y sachant X.

La variable aléatoire qui prend les valeurs E[Y |X = x] avec la densité f (x) est appelée espérance
conditionnelle de Y sachant X et on la note E[Y |X].
Exemple. Pour l’exemple précédent, on obtient pour tout x ≥ 0 :
E[Y |X = x] = (x + 1)1{x≥0} ,

2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
Figure 1.9 – Densité de la variable aléatoire E[Y |X].
donc E[Y |X] = X + 1. Or on a vu que X ∼ E(2), donc la variable aléatoire E[Y |X] suit une loi
exponentielle de paramètre 2 translatée sur l’intervalle [1, +∞[ (voir figure 1.9).
Propriétés 2 (Calcul d’espérance par conditionnement)

Si Y est intégrable, alors la variable aléatoire E[Y |X] aussi et on a :
E[E[Y |X]] = E[Y ].
Preuve. La preuve est la même que dans le cas discret. La variable aléatoire E[Y |X] prend les
valeurs E[Y |X = x] avec densité f (x), donc son espérance vaut :
Z Z Z
E[E[Y |X]] = E[Y |X = x]f (x) dx = yf (y|x) dy f (x) dx,
R R R
donc d’après le théorème de Fubini :
Z Z
E[E[Y |X]] = y f (y|x)f (x) dx dy,
R R
R
et puisque f (y) = R f (y|x)f (x) dx, on retrouve bien :
Z
E[E[Y |X]] = yf (y) dy = E[Y ].
R

Exemple. Pour l’exemple précédent, on a obtenu E[Y |X] = X + 1, avec X ∼ E(2), d’où :
3
E[Y ] = E[X + 1] = E[X] + 1 = ,
2
résultat que l’on retrouve bien en considérant la loi marginale de Y :
Z Z
1 3
E[Y ] = yf (y) dy = y(2e−y − 2e−2y ) dy = 2 − = .
R R+ 2 2

Dans le cas général, on retrouve alors pour les couples absolument continus les propriétés vues pour
les couples discrets. On commence par définir l’espérance conditionnelle d’un couple sachant l’une
des variables. Soit h : R2 → R une fonction, l’espérance mathématique de la variable aléatoire
h(X, Y ) est définie si : Z
|h(x, y)|f (x, y) dx dy < +∞,
R2
auquel cas elle vaut : Z
E[h(X, Y )] = h(x, y)f (x, y) dx dy,
R2
que l’on peut encore écrire :
Z Z
E[h(X, Y )] = h(x, y)f (y|x) dy f (x) dx.
R R
La définition suivante est alors naturelle.
Définition 7 (Espérance conditionnelle d’un couple)

L’espérance conditionnelle de h(X, Y ) sachant X = x est :
Z
E[h(X, Y )|X = x] = h(x, y)f (y|x) dy = E[h(x, Y )|X = x].
R
L’espérance conditionnelle de h(X, Y ) sachant X, notée E[h(X, Y )|X], est la variable aléatoire qui
prend les valeurs E[h(x, Y )|X = x] avec la densité de probabilité f (x).
On peut alors énumérer différentes propriétés de l’espérance conditionnelle. Dans ce qui suit, on ne
considère que des “bonnes fonctions”, c’est-à-dire telles qu’on n’ait pas de problème d’intégrabilité.
Propriétés 3 (Propriétés de l’espérance conditionnelle)

Sous réserve d’intégrabilité des variables aléatoires, on a les propriétés suivantes :
– Calcul d’espérance par conditionnement :
Z
E[E[h(X, Y )|X]] = E[h(x, Y )|X = x]f (x) dx = E[h(X, Y )].
R
– Indépendance : si X et Y sont indépendantes, alors E[g(Y )|X] = E[g(Y )]. En particulier,
E[Y |X] = E[Y ].
– On a E[g(X)|X] = g(X). En particulier E[X|X] = X.
– Linéarité :
E[αg(X) + βh(Y )|X] = αE[g(X)|X] + βE[h(Y )|X] = αg(X) + βE[h(Y )|X].
– Linéarité(bis) :
E[g(X)h(Y )|X] = g(X)E[h(Y )|X].
Preuve. Toutes les démonstrations se font sans difficulté en revenant à la définition de l’espérance
conditionnelle. Pour la première relation, il suffit par exemple de dire que :

– La variable aléatoire E[h(X, Y )|X] prend les valeurs E[h(x, Y )|X = x] avec densité de probabilité
f (x). Donc son espérance vaut :
Z
E[E[h(X, Y )|X]] = E[h(x, Y )|X = x]f (x) dx.
R
Par ailleurs, on a pour tout réel x :
Z
E[h(x, Y )|X = x] = h(x, y)f (y|x) dy,
R
d’où il vient, puisque f (x, y) = f (y|x)f (x) :
Z Z Z
E[E[h(X, Y )|X]] = h(x, y)f (y|x) dy f (x) dx = h(x, y)f (x, y) dx dy,
R R R2
et on reconnaît E[h(X, Y )].
– Und so weiter...

Remarque. Tout comme l’espérance classique, l’espérance conditionnelle est linéaire. La dernière
propriété est assez spectaculaire : du point de vue de l’espérance conditionnelle, toute fonction de
la variable aléatoire X se comporte comme une constante, on peut donc la sortir du crochet.
1.3 Applications
Toute cette section est valable aussi bien dans le cas discret que dans le cas absolument continu.
Ce n’est que par souci de simplification qu’on se place parfois dans l’une des deux situations.
1.3.1 Probabilités conditionnelles

Soit A un événement qui s’exprime en fonction de X et Y , par exemple :
A = {X < Y } = {ω ∈ Ω : X(ω) < Y (ω)}.
On peut écrire sa probabilité comme l’espérance d’une indicatrice :

Z
P(A) = E[1A ] = E[1{X<Y } ] = 1{x<y} (x, y)f (x, y) dx dy,
R2
or il est souvent plus facile de calculer cette quantité en commençant par geler l’une des variables
et en intégrant par rapport à l’autre. C’est le principe du conditionnement.
Définition 8 (Probabilités conditionnelles)

La probabilité conditionnelle de l’événement A sachant X = x est la quantité :
Z
P(A|X = x) = E[1A |X = x] = 1A (x, y)f (y|x) dy.
R
La probabilité conditionnelle de A sachant X, notée P(A|X), est la variable aléatoire prenant les
valeurs P(A|X = x) avec densité f (x).

1.3. Applications 15
Remarque. Il faut noter que, tout comme l’espérance conditionnelle E[Y |X], la probabilité condi-
tionnelle P(A|X) est une variable aléatoire.
D’après les résultats de la section précédente, on peut alors appliquer la technique de calcul d’es-
pérance par conditionnement.
Proposition 4 (Calcul de probabilité par conditionnement)

Z
P(A) = P(A|X = x)f (x) dx.
R
Preuve. Il suffit d’appliquer le calcul d’espérance par conditionnement (propriétés 3) à la fonction
h(x, y) = 1{(x,y)∈A} .

Pour revenir à l’exemple initial, on a alors :
P(A|X = x) = P(1{X<Y } |X = x) = E[1{X<Y } |X = x] = E[1{x<Y } |X = x] = P(Y > x|X = x).

En particulier, si X et Y sont indépendantes : P(x < Y |X = x) = P(x < Y ).
Exemple. Soit X et Y deux variables aléatoires indépendantes, avec X ∼ E(λ) et Y ∼ E(µ). On

veut calculer la probabilité P(X < Y ). On écrit donc :
Z Z
P(X < Y ) = P(x < Y |X = x)f (x) dx = P(x < Y |X = x)λe−λx dx.
R R+
Or on a par hypothèse d’indépendance :
P(x < Y |X = x) = P(x < Y ) = 1 − FY (x) = e−µx .

D’où il vient : Z
λ
P(X < Y ) = λe−(λ+µ)x dx = .
R+ λ+µ
Ce type de résultat intervient constamment dans l’étude des processus markoviens de sauts (par
exemple les files d’attente).
1.3.2 La régression
Approximation d’une variable aléatoire par une constante
Soit Y une variable aléatoire de carré intégrable. On veut approcher Y par une constante. Si on
s’intéresse à l’erreur quadratique, la solution est donnée par l’espérance.
Proposition 5 (Approximation par une constante)

Supposons Y telle que E[Y 2 ] < +∞. Parmi tous les réels a, la quantité E[(Y − a)2 ] est minimale
lorsque a = E[Y ]. C’est-à-dire :
min E[(Y − a)2 ] = E[(Y − E[Y ])2 ] = E[Y 2 ] − (E[Y ])2 = VarY.
a∈R

Preuve. Notons m = E[Y ], alors pour tout réel a :
E[(Y − a)2 ] = E[((Y − m) + (m − a))2 ].
On utilise la linéarité de l’espérance :
E[(Y − a)2 ] = E[(Y − m)2 ] + 2(m − a)E[(Y − m)] + (m − a)2
Or E[(Y − m)] = 0 et par suite :
E[(Y − a)2 ] = E[(Y − m)2 ] + (m − a)2 .
Cette quantité est minimale lorsque a = m = E[Y ].

Remarque. Si on considère l’erreur en norme L1 , c’est-à-dire si on cherche le réel a tel que E|Y −a|
soit minimale, on obtient non pas la moyenne de Y , mais sa médiane.
Rappel. Si Y admet un moment d’ordre 2, i.e. si E[Y 2 ] < +∞, alors Y admet un moment
d’ordre 1, i.e. E|Y | < +∞. De manière générale, si Y admet un moment d’ordre p ∈ N∗ , i.e. si
E[|Y |p ] < +∞, alors Y admet un moment d’ordre k pour tout k ∈ {1, . . . , p}. Plus précisément,
on a l’inégalité suivante entre moments :
1 1
1 ≤ p ≤ q ⇒ E [|Y p |] p ≤ E [|Y q |] q .
Approximation d’une variable aléatoire par une droite

On considère un couple aléatoire (X, Y ), dont on connaît la loi jointe. On suppose que les variables
marginales X et Y sont toutes deux de carré intégrable. Parler de la covariance du couple (X, Y )
a alors un sens puisque :
1
∀ω ∈ Ω |X(ω)Y (ω)| ≤ (X 2 (ω) + Y 2 (ω)),
2
ce qui implique en passant aux espérances :
1 1
E|XY | ≤ E[X 2 + Y 2 ] = (E[X 2 ] + E[Y 2 ]) < +∞.
2 2
Supposons qu’on observe des réalisations de la variable aléatoire X, mais pas celles de Y : pour
chaque valeur x de X, on voudrait deviner la valeur y de Y . Ceci est impossible, puisque même
sachant X = x, Y est aléatoire. On peut néanmoins chercher à faire l’erreur la plus petite possible
en moyenne.
Une idée simple est d’approcher Y par une fonction affine de X, c’est-à-dire chercher la variable
aléatoire Y = aX + b la plus proche possible, en moyenne, de Y . Pour l’erreur quadratique, on
cherche donc à minimiser :
E[(Y − (aX + b))2 ] = E[X 2 ]a2 + 2E[X]ab + b2 − 2E[XY ]a − 2E[Y ]b + E[Y 2 ] = φ(a, b).
Cette fonction φ des deux variables a et b est en fait issue d’une forme quadratique définie positive
et atteint son minimum au point :
(
a = Cov(X,Y
σ2 (X)
)
Cov(X,Y )
b = E[Y ] − σ2 (X)
E[X]

comme le montre la factorisation de Gauss :

2 Cov(X, Y ) 2 Cov2 (X, Y )
φ(a, b) = (b − (E[Y ] − E[X]a)) + σ(X)a − + σ 2 (Y ) − .
σ(X) σ 2 (X)
En notant ρ le coefficient de corrélation linéaire :
Cov(X, Y )
ρ= ,
σ(X)σ(Y )
l’erreur minimale moyenne, appelée erreur quadratique, est donc :
min E[(Y − (aX + b))2 ] = σ 2 (Y )(1 − ρ2 ).

a,b
Noter que ceci suppose σ(X) 6= 0 : si σ(X) = 0, la variable aléatoire X est presque sûrement
constante, donc chercher à approcher Y par une fonction affine de X revient à approcher Y par
une constante c. On a vu précédemment que le mieux est de prendre c = E[Y ].
On voit que l’erreur quadratique est d’autant plus faible que :

1. La valeur absolue |ρ| du coefficient de corrélation linéaire est proche de 1. En général, on sait
simplement que :
−1 ≤ ρ ≤ 1.
Lorsque ρ = 0, X et Y sont dits décorrélés et le mieux qu’on puisse faire est à nouveau
d’approcher Y par sa moyenne E[Y ]. Lorsque ρ = ±1, X et Y sont liés par une relation
affine et l’erreur est nulle.
2. La variable Y est peu dispersée autour de sa moyenne.
yi Mi
∆a,b
x
xi
Figure 1.10 – Droite de régression.
Remarque. En statistiques, c’est-à-dire dans la vraie vie, on ne connaît pas la loi du couple (X, Y ).
On dispose simplement d’un nuage de points (xi , yi )1≤i≤n . Or, si on cherche la droite d’équation
y = ax + b qui minimise la somme des carrés :
n
X
(yi − (axi + b))2 ,
i=1
on retrouve la droite de régression ci-dessus en considérant les espérances, variances et covariances

empiriques (voir figure 1.10).

Approximation d’une variable aléatoire par une fonction

On reprend le problème précédent. On considère donc un couple aléatoire (X, Y ) dont on connaît la
loi jointe, avec Y de carré intégrable. On suppose toujours qu’on n’observe que la variable aléatoire
X et qu’on veut approcher au mieux la variable aléatoire Y . Par rapport à ce qui précède, on ne se
restreint pas à une approximation de Y par une fonction affine de X : parmi toutes les fonctions
possibles, on cherche la fonction de X qui approche le mieux Y . On retrouve alors l’espérance
conditionnelle.
Définition 9 (Courbe de régression)

La courbe x 7→ y = E[Y |X = x] est appelée courbe de régression de Y en X.
Par exemple, si X et Y sont indépendantes, la courbe de régression de Y en X est tout simplement

la droite horizontale y = E[Y ].
Exemples.
1. On considère à nouveau le couple (X, Y ) de densité :
f (x, y) = 2e−(x+y) 1{0≤x≤y}
La fonction de régression de Y en X est la fonction :

[0, +∞[ → R
u:
x 7→ (x + 1)
Sur cet exemple, on voit que la courbe de régression coïncide avec la droite de régression :
ceci n’est pas vrai en général, comme le montre l’exemple suivant.
2. Soit (X, Y ) un couple aléatoire de densité jointe :
12
f (x, y) = y(2 − y − x)1]0,1[2 (x, y).
5
Quelques calculs permettent de montrer que pour tout x ∈]0, 1[ :
5 − 4x
E[Y |X = x] = .
8 − 6x
La courbe de régression est donc un morceau d’hyperbole (voir figure 1.11).
La fonction de régression vérifie une propriété de minimalité souvent utilisée en statistiques. On
considère une fonction u : R → R et la quantité :
E[(Y − u(X))2 ].
Cette quantité varie lorsque la fonction u varie. Quand est-elle minimale ? Ce genre de problème,
dit de calcul des variations, est en général difficile : on cherche une fonction minimisant un certain
critère (et non un point de l’espace de dimension finie Rn comme en optimisation classique). Mais
ici tout est simple, au moins d’un point de vue théorique...
Théorème 2 (Espérance conditionnelle et régression)

Supposons Y telle que E[Y 2 ] < +∞. Parmi toutes les fonctions u : R → R, l’erreur d’approxi-
mation E[(Y − u(X))2 ] est minimale lorsque u est la fonction de régression x 7→ E[Y |X = x], i.e.
lorsque u(X) = E[Y |X].

y
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
x
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
5−4x
Figure 1.11 – Courbe de régression y = 8−6x .
La preuve est calquée sur celle déjà vue pour l’approximation de Y par une constante.
Preuve. Notons m(X) = E[Y |X], alors pour toute fonction u : R → R, on peut écrire :
E[(Y − u(X))2 ] = E[((Y − m(X)) + (m(X) − u(X)))2 ]
On utilise la linéarité de l’espérance :
E[(Y − u(X))2 ] = E[(Y − m(X))2 ] + 2E[(Y − m(X))(m(X) − u(X))] + E[(u(X) − m(X))2 ].
Or le calcul d’espérance par conditionnement assure que :
E[(Y − m(X))(m(X) − u(X))] = E[E[(Y − m(X))(m(X) − u(X))|X]],
et puisque m(X) − u(X) est une fonction de X, on sait que :
E[(Y − m(X))(m(X) − u(X))] = E[E[(Y − m(X))|X](m(X) − u(X))],
or par linéarité de l’espérance conditionnelle et puisque E[m(X)|X] = m(X) = E[Y |X], on en
déduit que :
E[(Y − m(X))|X] = E[Y |X] − E[m(X)|X] = E[Y |X] − m(X) = 0.
On a donc obtenu :
E[(Y − u(X))2 ] = E[(Y − m(X))2 ] + E[(u(X) − m(X))2 ].
Cette quantité est minimale lorsque u(X) = E[Y |X].

On donne un nom au minimum obtenu.
Définition 10 (Erreur quadratique moyenne)

La quantité
σ 2 = min E[(Y − u(X))2 ] = E[(Y − E[Y |X])2 ]
u
est appelée l’erreur quadratique moyenne, ou la variance résiduelle, ou encore le résidu.
Nous allons voir que cette dernière approche peut s’interpréter géométriquement et fournir une
représentation très commode de l’espérance conditionnelle.

1.4 Interprétation géométrique de l’espérance conditionnelle

Soit (Ω, F, P) un espace probabilisé. On note L2 (Ω, F, P) ou plus simplement L2 (Ω) l’ensemble
des variables aléatoires X : Ω → R de carré intégrable, i.e. telles que :
E[X 2 ] < +∞.
On convient de plus d’identifier deux variables aléatoires presque sûrement égales.
Propriétés 4 (Propriétés de L2 (Ω))

– Si X et Y appartiennent à L2 (Ω), alors XY est intégrable.
– L2 (Ω) est un espace vectoriel.
Preuve. On a déjà vu dans le paragraphe sur la régression que si X et Y sont de carré intégrable,
la variable aléatoire XY est elle aussi intégrable. Alors si α et β sont deux scalaires, la variable
aléatoire (αX + βY ) est dans L2 (Ω) puisque :
(αX + βY )2 = α2 X 2 + 2αβXY + β 2 Y 2 ,
qui est une somme de variables aléatoires intégrables. Ceci fait de L2 (Ω) un sous-espace vectoriel
de l’espace des variables aléatoires sur (Ω, F, P).

A part dans le cas où l’espace Ω est fini, l’espace L2 (Ω) est de dimension infinie. Nous allons main-
tenant voir en quoi L2 (Ω) “ressemble” à l’espace usuel Rn muni de la norme euclidienne. Rappelons
qu’un produit scalaire est une forme bilinéaire symétrique définie positive, dont on peut déduire
une norme.
Proposition 6 (Le produit scalaire dans L2 (Ω))

L’application
2
L (Ω) × L2 (Ω) → R
h., .i :
(X, Y ) 7→ hX, Y i = E[XY ]
est un produit scalaire sur L2 (Ω). La norme associée est :
p
kXk = E[X 2 ].
Remarque. On écrit la norme kXk plutôt que kXk2 afin de ne pas alourdir les notations.
Preuve. L’intégrabilité de XY a été vue ci-dessus donc l’application est bien définie sur l’espace
produit L2 (Ω) × L2 (Ω). La bilinéarité et la symétrie sont évidentes. Soit maintenant X ∈ L2 (Ω), il
est clair que hX, Xi = E[X 2 ] ≥ 0. Supposons que E[X 2 ] = 0, alors par l’inégalité de Tchebychev,
pour tout n ∈ N∗ :
1
P X≥ ≤ n2 E[X 2 ] = 0,
n
d’où l’on déduit par sous-sigma-additivité d’une mesure de probabilité :
[
+∞ ! X +∞
1 1
P(X > 0) = P X≥ ≤ P X≥ = 0,
n n
n=1 n=1
c’est-à-dire que X est presque sûrement égale à 0. Puisqu’on a convenu au début de ce paragraphe
d’identifier deux variables presque sûrement égales, on a donc X = 0. Ainsi h., .i est bien une forme
bilinéaire symétrique définie positive, c’est-à-dire un produit scalaire.

1.4. Interprétation géométrique de l’espérance conditionnelle 21

Dans ce cadre, dire que les variables aléatoires X et Y sont orthogonales pour le produit scalaire
h., .i signifie que E[XY ] = 0. Dans le cas de variables centrées, l’orthogonalité correspond donc à
la non-corrélation. On récupère automatiquement les propriétés d’une norme issue d’un produit
scalaire, vues en cours d’algèbre linéaire.
Propriétés 5 (Propriétés de la norme dans L2 (Ω))

– Positivité : kXk ≥ 0 et kXk = 0 seulement pour X = 0.
– Homogénéité : pour tout réel a, kaXk = |a|kXk.
– Inégalité triangulaire : kX + Y k ≤ kXk + kY k.
– Inégalité de Cauchy-Schwarz : hX, Y i ≤ kXkkY k.
La norme k.k permet de mesurer la distance entre deux variables aléatoires :
d(X, Y ) = kY − Xk
On l’appelle la distance en moyenne quadratique entre X et Y . On peut alors associer à cette

norme la notion de convergence en moyenne quadratique : la suite de variables aléatoires (Xn )n≥0
converge en moyenne quadratique vers la variable aléatoire X et on note :
L2
Xn −→ X
si limn→∞ kX − Xn k = 0, c’est-à-dire si
lim E[(X − Xn )2 ] = 0.
n→∞
Nous donnons maintenant un résultat dû à F. Riesz et d’une grande importance théorique.
Théorème 3 (Espace de Hilbert)

L’espace L2 (Ω) est complet, c’est-à-dire que toute suite (Xn )n≥0 de L2 (Ω) vérifiant le critère de
Cauchy converge en moyenne quadratique vers une variable aléatoire X de L2 (Ω).
Comme en analyse, l’intérêt du critère de Cauchy dans un espace complet est de permettre de
montrer la convergence d’une suite sans connaître sa limite.
Preuve. Soit (Xn )n≥0 une suite de Cauchy dans L2 (Ω). Il existe donc une suite d’indices (nk )k≥0
telle que :
1
∀n ≥ nk , ∀p ≥ 0 kXn+p − Xn k ≤ k .
2
En particulier, la suite de variables aléatoires (Yk )k≥0 définie par Y0 = Xn0 et :
∀k ≥ 1 Yk = Xnk − Xnk−1
est telle que :

+∞
X +∞
X 1
kYk k ≤ kXn0 k + = kXn0 k + 2 < +∞.
2k
k=0 k=0
On va montrer que (Yk )k≥0 converge presque sûrement vers une variable aléatoire X. Considérons
la variable aléatoire Z définie pour tout ω ∈ Ω par :
K
X +∞
X
Z(ω) = lim ZK (ω) = lim |Yk (ω)| = |Yk (ω)| ≤ +∞,
K→+∞ K→+∞
k=0 k=0

avec les variables aléatoires ZK définie pour tout ω ∈ Ω par :

K
X
ZK (ω) = |Yk (ω)| < +∞.
k=0
Autrement dit, la suite croissante de variables aléatoires positives (ZK )K≥0 converge presque sûre-
ment vers Z. Il en va de même de la suite (ZK 2 ) 2
K≥0 vers Z et on peut donc appliquer le théorème
de Beppo Lévi :
E[Z 2 ] = lim E[ZK 2
].
K→+∞
Mais par l’inégalité triangulaire on a aussi pour tout K ≥ 0 :

K
!2 +∞
!2
X X
2 2
E[ZK ] = kZK k ≤ kYk k ≤ kYk k < +∞.
k=0 k=0
On en déduit que E[Z 2 ] < +∞. Mais alors par Tchebychev, pour tout n ∈ N∗ :
E[Z 2 ]
P (Z ≥ n) ≤ ,
n2
d’où l’on déduit par continuité monotone décroissante d’une mesure de probabilité :
+∞
!
\
P(Z = +∞) = P {Z ≥ n} = lim P (Z ≥ n) ,
n→+∞
n=1
ce qui donne :
E[Z 2 ]
P(Z = +∞) ≤ lim = 0,
n→+∞ n2
c’est-à-dire que Z est presque sûrement finie. Puisqu’on convient de confondre deux variables
aléatoires presque sûrement égales, quitte à remplacer Z(ω) par 0 aux éventuels points ω où on
aurait Z(ω) = +∞, on peut donc considérer que pour tout ω ∈ Ω, on a :
+∞
X
|Yk (ω)| < +∞.
k=0
P
En particulier, la série de variables aléatoires k≥0 Yk est absolument convergente sur Ω, donc
simplement convergente, et il existe une variable aléatoire X finie sur Ω telle que pour tout ω ∈ Ω :
+∞
X
X(ω) = Yk (ω).
k=0
La variable aléatoire X est de carré intégrable puisque par définition, pour tout ω ∈ Ω :
|X(ω)| ≤ Z(ω),
et on a prouvé ci-dessus que Z ∈ L2 (Ω). Il reste à voir que :

+∞
XK X +∞
X 1

X − Yk = Yk ≤ kYk k ≤ K −−−−−→ 0.
2 K→+∞
k=0 k=K+1 k=K+1
On revient enfin à la suite (Xn )n≥0 . Pour tout n ≥ nK , on a par inégalité triangulaire :
kX − Xn k ≤ kX − XnK k + kXn − XnK k,

or il est clair que :

K
X
XnK = Yk ,
k=0
d’où il vient :
1 1 1
kX − Xn k ≤ K
+ K = K−1 −−−−−→ 0,
2 2 2 K→+∞
et la suite (Xn )n≥0 converge en moyenne quadratique vers la variable aléatoire X.

Remarque. Qu’a-t-on utilisé comme outils ? Beppo Lévi et la continuité monotone décroissante,
or ceux-ci sont valables dans tout espace mesuré (Ω, F, m). Ainsi, le résultat qu’on vient d’établir
est en fait très général : on le retrouve par exemple dans l’espace classique d’intégration (R, B, λ)
lorsqu’on considère les fonctions f de carré intégrable sur R. On le retrouve aussi dans l’espace
des suites (N P, P(N), µ) muni de Pla mesure de comptage, autrement dit dans l’étude des séries
numériques n≥0 un telles que +∞ u
n=0 n
2 < +∞. Dans ce dernier espace, le produit scalaire est :
+∞
X
hu, vi = u n vn .
n=0
Un espace vectoriel ayant un produit scalaire et complet pour la norme induite par celui-ci est ap-
pelé espace de Hilbert. Ces espaces jouissent de nombreuses propriétés. Celle qui suit est cruciale.
Y − πH (Y )
πH (Y )
Figure 1.12 – Projeté orthogonal πH (Y ) de Y sur le sous-espace H.
Théorème 4 (Théorème de la projection orthogonale)

Soit H un sous-espace fermé de L2 (Ω). Pour tout Y de L2 (Ω), il existe une unique variable aléatoire
de H, notée πH (Y ), qui soit à plus courte distance de Y . On l’appelle le projeté orthogonal de Y
sur H et elle est entièrement caractérisée par la double propriété :

πH (Y ) ∈ H
Y − πH (Y ) ⊥ H
L’application Y 7→ πH (Y ) est linéaire sur L2 (Ω). De plus, πH (Y ) = Y ssi Y ∈ H, et kπH (Y )k2 <
kY k si Y ∈/ H (voir figure 1.12).

Preuve. Notons :
d = inf d(X, Y ).
X∈H
Rappelons l’identité du parallélogramme, valable dès qu’on considère un produit scalaire (cf. figure
1.13) :
kU + V k2 + kU − V k2 = 2(kU k2 + kV k2 ).
En considérant deux variables aléatoires X1 et X2 de H, on l’applique à U = (X1 − Y ) et V =
(X2 − Y ) :
2
X1 + X2
4 − Y + kX1 − X2 k2 = 2(kX1 − Y k2 + kX2 − Y k2 ).

2
Mais, puisque H est un sous-espace de L2 (Ω), la variable aléatoire milieu (X1 + X2 )/2 appartient
à H et vérifie :
X1 + X2
−Y
2 ≥ d,
d’où l’on déduit que pour tout couple (X1 , X2 ) de H :
kX1 − X2 k2 ≤ 2(kX1 − Y k2 + kX2 − Y k2 ) − 4d2 . (1.1)
Cette inégalité prouve que l’inf ne peut être atteint par deux éléments distincts X1 et X2 de H,
sinon on aurait kX1 − X2 k2 < 0. Par définition d’une borne inf, il existe une suite (Xn ) de H telle
que :
lim d(Xn , Y ) = d.
n→+∞
Si on applique l’inégalité 1.1, on obtient pour tout couple d’entiers naturels (n, p) :
U +V
U −V
V
Figure 1.13 – Identité du parallélogramme : kU + V k2 + kU − V k2 = 2(kU k2 + kV k2 ).
kXn+p − Xn k2 ≤ 2(kXn+p − Y k2 + kXn − Y k2 ) − 4d2 .
Pour n assez grand, cette quantité peut être rendue arbitrairement petite, indépendamment de p,
ce qui prouve que (Xn ) est une suite de Cauchy de H, sous-espace de L2 (Ω). Par le théorème de
Riesz, elle est donc convergente vers une variable aléatoire de L2 (Ω). Mais puisque H est fermé
par hypothèse, celle-ci appartient nécessairement à H : on la note πH (Y ) et on l’appelle le projeté
orthogonal de Y sur H.
Montrons que (Y − πH (Y )) est orthogonale à toute variable aléatoire X de H. Soit donc X ∈ H,
alors pour tout réel α, on a aussi αX ∈ H et par définition de la borne inf, on a donc :
kπH (Y ) + αX − Y k2 ≥ kπH (Y ) − Y k2 ,
ce qui s’écrit en développant avec le produit scalaire :
∀α ∈ R kXk2 α2 + 2hπH (Y ) − Y, V iα ≥ 0.

Ce trinôme en α ne peut être de signe constant que si hπH (Y ) − Y, V i = 0.

Les deux propriétés
πH (Y ) ∈ H
Y − πH (Y ) ⊥ H
caractérisent bien πH (Y ), car si X est un autre élément de H ayant ces deux propriétés, alors
(πH (Y ) − X) = (Y − πH (Y )) + (πH (Y ) − X) est dans H et orthogonal à tout élément de H
donc à lui-même, donc c’est le vecteur nul. Cette caractérisation permet de voir facilement que la
projection πH est un opérateur linéaire. Par ailleurs, il est clair que si Y ∈ H, alors πH (Y ) = Y .
Enfin, puisque (Y − πH (Y )) et πH (Y ) sont orthogonaux, la relation de Pythagore dans le triangle
rectangle d’hypoténuse Y implique que kπH (Y )k < kY k, sauf si Y = πH (Y ) ∈ H.

Remarque. Le théorème de projection est encore valable si on considère un ensemble convexe
fermé non vide C à la place du sous-espace vectoriel fermé H.
Considérons maintenant une variable aléatoire X. On lui associe :
L2 (X) = {u(X) avec u : R → R borélienne telle que E[u2 (X)] < +∞},
∆
ensemble des variables aléatoires qui s’expriment comme fonctions de X et de carré intégrable. Il
est clair que L2 (X) est un sous-espace de L2 (Ω). On peut de plus montrer que c’est un sous-espace
fermé de L2 (Ω).
Lemme 1 (L2 (X) sous-espace fermé de L2 (Ω))

Soit X une variable aléatoire, alors l’espace L2 (X) est un sous-espace fermé de l’espace L2 (Ω) des
variables aléatoires de carré intégrable.
Preuve. Notons PX la probabilité image de la variable aléatoire X, c’est-à-dire la loi de probabilité

définie sur R muni de la tribu borélienne B par :
∀B ∈ B PX (B) = P(X ∈ B).

Ceci fait de (R, B, PX ) un espace probabilisé. Soit E = L2 (R, B, PX ) l’espace des variables aléa-
toires de carré intégrable sur cet espace. Ce sont les fonctions f : R → R boréliennes telles que :
Z
f 2 (x)PX ( dx) < +∞.
R
Mais par le théorème de transfert, ceci est équivalent à dire que :
Z
f 2 (X) dP = E[f 2 (X)] < +∞.
Ω
Autrement dit, l’application linéaire

E → L2 (X)
Ψ:
f 7→ f (X)
est un isomorphisme de E vers L2 (X). De plus, toujours par le théorème de transfert, on a :

Z
hf, giE = f (x)g(x)PX ( dx) = E[f (X)g(X)] = hf (X), g(X)iL2 (Ω) ,
R
donc Ψ conserve le produit scalaire. Finalement, Ψ est une isométrie. Mais par le théorème 3 on
sait que E = L2 (R, B, PX ) est un espace de Hilbert. En particulier E est fermé. Par l’isométrie
Ψ, cette propriété passe à L2 (X), qui est donc bien un sous-espace fermé de L2 (Ω).


Par suite on peut appliquer le résultat de projection orthogonale ci-dessus. Soit donc Y une autre
variable aléatoire de carré intégrable : il existe une unique variable aléatoire πL2 (X) (Y ) dans le
sous-espace L2 (X) qui soit à plus courte distance de Y . Mais, dans les cas discret et continu,
on a déjà traité ce problème dans le paragraphe sur la régression : c’est exactement l’espérance
conditionnelle de Y sachant X. C’est pourquoi il est naturel d’en partir comme définition.

Soit (X, Y ) un couple aléatoire, avec Y ∈ L2 (Ω). L’espérance conditionnelle de Y sachant X,
notée E[Y |X], est la projection orthogonale de Y sur le sous-espace L2 (X) des variables aléatoires
fonctions de X et de carré intégrable.
Ainsi l’espérance conditionnelle de Y sachant X admet une interprétation géométrique très simple
(cf. figure 1.14). Cette interprétation est fructueuse, car elle permet de retrouver sans effort cer-
taines propriétés usuelles de l’espérance conditionnelle (un bête dessin et l’affaire est entendue).
E[Y |X]
L2 (X)
Figure 1.14 – L’espérance conditionnelle comme projection orthogonale.
Propriétés 6
Soit (X, Y ) un couple aléatoire, avec Y ∈ L2 (Ω).
– Distance minimale : ∀Z ∈ L2 (X), kY − E[Y |X]k ≤ kY − Zk.
– Orthogonalité : ∀Z ∈ L2 (X), hY − E[Y |X], Zi = 0.
– Orthogonalité(bis) : ∀Z ∈ L2 (X), hY, Zi = hE[Y |X], Zi.
– Pythagore : kY k2 = kE[Y |X]k2 + kY − E[Y |X]k2 .
– Pythagore(bis) : kE[Y |X]k ≤ kY k, avec égalité si et seulement si Y est une fonction de X.
– Linéarité : Soit Y1 et Y2 de carrés intégrables, α et β deux réels, alors :
E[αY1 + βY2 |X] = αE[Y1 |X] + βE[Y2 |X].
– Linéarité(bis) : si u : R → R est bornée, alors E[u(X)Y |X] = u(X)E[Y |X].

– Positivité : Si Y ≥ 0, alors E[Y |X] ≥ 0.
– Positivité(bis) : si Y1 et Y2 sont de carrés intégrables, avec Y1 ≤ Y2 , alors E[Y1 |X] ≤ E[Y2 |X].
– Calcul d’espérance par conditionnement : E[E[Y |X]] = E[Y ].
– Espérance conditionnelle et indépendance : si X et Y sont indépendantes, alors E[Y |X] = E[Y ].
Remarques.

1.5. Espérance conditionnelle : le cas général 27
1. Par commodité des notations, toutes les propriétés ont été énoncées en termes de produits
scalaires et de normes. Cependant, il faut savoir les lire aussi bien en termes d’espérances
et d’espérances conditionnelles. De même, chaque fois qu’on écrit Z ∈ L2 (X), il faut lire
Z = u(X), avec u(X) ∈ L2 (Ω). Par exemple, la propriété d’orthogonalité(bis) s’écrit encore :
pour toute fonction u telle que la variable aléatoire u(X) soit de carré intégrable, on a :
E[u(X)Y ] = E[u(X)E[Y |X]].
2. Le théorème de projection orthogonale permet de comprendre toutes les méthodes dites
de moindres carrés en statistiques. Dans ces applications, l’espace H est engendré par les
variables observables (X1 , . . . , Xn ), ou variables explicatives. Partant de celles-ci, on cherche
à estimer (ou à expliquer) une autre variable Y , non observée. L’idée est de chercher une
fonction f : Rn → R telle que la variable aléatoire f (X1 , . . . , Xn ) approche le mieux possible
Y . Les méthodes de moindres carrés sont basées sur la distance L2 : dans ce cas, ce qui a
été vu ci-dessus se généralise sans problème et l’unique solution au problème est l’espérance
conditionnelle de Y sachant le n-uplet (X1 , . . . , Xn ).
1.5 Espérance conditionnelle : le cas général

Soit (Ω, F, P) un espace probabilisé. On note L1 (Ω, F, P), ou plus simplement L1 (Ω), l’ensemble
des variables aléatoires X : Ω → R intégrables, i.e. telles que :
E|X| < +∞,
en convenant toujours d’identifier deux variables aléatoires presque sûrement égales.
Dans l’étude des cas discret et continu, pour définir l’espérance conditionnelle de Y sachant X,
on a vu qu’il suffisait de supposer Y intégrable. C’est pourquoi si on veut donner une définition
générale, l’interprétation géométrique de L2 (Ω) n’est pas complètement satisfaisante. Néanmoins,
c’est celle qu’il faudra garder en tête pour se souvenir de toutes les propriétés usuelles. Du reste,
pour la définition qui suit, on part de la propriété de projection déjà vue.

Soit (X, Y ) un couple aléatoire, avec Y intégrable. L’espérance conditionnelle de Y sachant X
est l’unique variable aléatoire fonction de X, notée E[Y |X], telle que pour toute fonction bornée
u : R → R, on ait :
E[u(X)Y ] = E[u(X)E[Y |X]].
Ainsi il existe une fonction ϕ : R → R mesurable telle que E[Y |X] = ϕ(X). On retrouve alors
toutes les propriétés vues ci-dessus non propres à l’espace L2 (Ω).
Propriétés 7
Soit (X, Y ) un couple aléatoire, avec Y ∈ L1 (Ω).
– Cas d’égalité : si Y = g(X) est fonction de X, alors E[Y |X] = Y . En particulier E[X|X] = X.
– Linéarité : Soit Y1 et Y2 intégrables, α et β deux réels, alors :
E[αY1 + βY2 |X] = αE[Y1 |X] + βE[Y2 |X]
– Linéarité(bis) : si u : R → R est bornée, alors E[u(X)Y |X] = u(X)E[Y |X].
– Positivité : Si Y ≥ 0, alors E[Y |X] ≥ 0.
– Positivité(bis) : si Y1 et Y2 sont intégrables, avec Y1 ≤ Y2 , alors E[Y1 |X] ≤ E[Y2 |X].
– Calcul d’espérance par conditionnement : E[E[Y |X]] = E[Y ].
– Espérance conditionnelle et indépendance : si X et Y sont indépendantes, alors E[Y |X] = E[Y ].

1.6 Exercices
“Là où il y a une volonté, il y a un chemin.” Lénine.
Exercice 1.1 (Let’s make a deal)

Vous participez à un jeu où l’on vous propose trois portes au choix. L’une des portes cache une
voiture à gagner, et chacune des deux autres une chèvre. Vous choisissez une porte, mais sans
l’ouvrir ! L’animateur, qui sait où est la voiture, ouvre une autre porte, derrière laquelle se trouve
une chèvre. Il vous donne maintenant la possibilité de vous en tenir à votre choix initial, ou de
changer de porte. Qu’avez-vous intérêt à faire ?
Remarque : C’est un problème auquel étaient confrontés les invités du jeu télévisé ”Let’s make a
deal” de Monty Hall (animateur et producteur américain), sauf que les lots de consolation n’étaient
pas des chèvres.
Corrigé
Supposons, sans perte de généralité, la configuration suivante : (V,C,C), c’est-à-dire que la voiture
est derrière la porte 1, les chèvres derrière les portes 2 et 3. Le jeu se déroule alors comme suit :
1. Sans changement de porte :
(a) le spectateur choisit la porte 1, donc l’animateur ouvre indifféremment l’une des deux
autres portes, et le spectateur gagne.
(b) le spectateur choisit la porte 2, donc l’animateur ouvre la porte 3, et le spectateur perd.
(c) le spectateur choisit la porte 3, donc l’animateur ouvre la porte 2, et le spectateur perd.
2. Avec changement de porte :
(a) le spectateur choisit la porte 1, l’animateur ouvre indifféremment l’une des deux autres
portes, le spectateur ouvre l’autre et perd.
(b) le spectateur choisit la porte 2, donc l’animateur ouvre la porte 3, le spectateur ouvre
la porte 1 et gagne.
(c) le spectateur choisit la porte 3, donc l’animateur ouvre la porte 2, le spectateur ouvre
la porte 1 et gagne.
Bilan des courses : s’il change de porte, il gagne 2 fois sur 3, sinon seulement 1 fois sur 3. Il vaut
donc mieux changer de porte !
Exercice 1.2 (Le problème du dépistage)

1. Soit (Ω, F, P) un espace probabilisé. Soit (H1 , . . . , Hn ) une partition de Ω en n événements
de probabilités non nulles. Soit A ∈ F tel que P(A) > 0. Rappeler la formule de Bayes
(encore appelée formule de probabilité des causes, les Hi étant les causes possibles et A la
conséquence).
2. Application : Test de dépistage
Une maladie est présente dans la population, dans la proportion d’une personne malade sur
1000. Un responsable d’un grand laboratoire pharmaceutique vient vous vanter son nouveau
test de dépistage : si une personne est malade, le test est positif à 99%. Néanmoins, sur
une personne non malade, le test est positif à 0.2%. Ces chiffres ont l’air excellent, vous ne
pouvez qu’en convenir. Toutefois, ce qui vous intéresse, plus que les résultats présentés par
le laboratoire, c’est la probabilité qu’une personne soit réellement malade lorsque son test
est positif. Calculer cette probabilité.
Corrigé

1.6. Exercices 29
1. Si (Ω, F, P) est un espace probabilisé, (H1 , . . . , Hn ) une partition de Ω en n événements de

probabilités non nulles et A ∈ F tel que P(A) > 0, la formule de Bayes (dite de probabilité
des causes) dit que pout tout j entre 1 et n :
P(A|Hj )P(Hj )
P(Hj |A) = Pn .
i=1 P(A|Hi )P(Hi )
2. Application : Test de dépistage

Si on note A l’événement : “Le test est positif”, et H l’événement : “La personne est malade”,
on cherche donc la probabilité P(H|A) et la formule de Bayes donne :
P(A|H)P(H)
P(H|A) = .
P(A|H)P(H) + P(A|H)P(H)
D’après l’énoncé, on a P(H) = 1/1000, P(A|H) = 0.99, P(A|H) = 0.002, les autres
probabilités intervenant dans la formule de Bayes s’en déduisant facilement. Ceci donne
P(H|A) ≈ 1/3. Le test n’est donc pas si fiable que ça ! Il n’empêche qu’il peut servir, en
pratique, à faire une première sélection avant d’effectuer un second test plus fiable (mais plus
coûteux) sur les patients pour lesquels ce premier test est positif.
Exercice 1.3 (Composition de familles)

Une population est composée de familles de 0, 1, 2 ou 3 enfants. Il y a une famille sans enfant pour
3 de 1 enfant, 4 de 2 enfants et 2 de 3 enfants. On suppose que les deux sexes sont équiprobables
et qu’ils sont indépendants pour deux enfants différents.
1. Donner les probabilités de nombres d’enfants par famille p0 , p1 , p2 , p3 .
2. On choisit une famille au hasard : quelle est la probabilité qu’il n’y ait aucun garçon ?
3. Toujours pour une famille choisie au hasard, quelle est la probabilité qu’elle ait 2 enfants
sachant qu’elle n’a aucun garçon ?
Corrigé
1. On a d’après le texte : p1 = 3p0 , p2 = 4p0 et p3 = 2p0 . Puisque la somme des pi fait 1, on en
déduit que :
1 3 4 2
p = [p0 , p1 , p2 , p3 ] = , , , .
10 10 10 10
2. Notons G l’événement : “Il y a au moins un garçon dans la famille.” On cherche donc P(G).
Nous allons utiliser la formule des probabilités totales via la partition Ω = {E0 , E1 , E2 , E3 }
suivant le nombre d’enfants par famille :
3
X 3
X
P(G) = P(G|Ei )P(Ei ) = P(G|Ei )pi ,
i=0 i=0
où il reste à voir que pour tout i on a P(G|Ei ) = (1/2)i . Finalement on obtient P(G) = 3/8.
3. On cherche cette fois la probabilité P(E2 |G), il suffit d’inverser le conditionnement :
P(G|E2 )P(E2 )
P(E2 |G) = .
P(G)
D’après la question précédente, on sait que P(G) = 3/8, et d’après la première question
P(E2 ) = p2 = 4/10. On arrive donc à P(E2 |G) = 4/15.

Exercice 1.4 (L’ivresse du gardien de nuit)

Un gardien de nuit a 10 clés, dont une seule marche, pour ouvrir une porte. Il emploie deux
méthodes. Méthode A : à jeun, il retire du trousseau les clés déjà essayées ; méthode B : ivre, il
remet la clé dans le trousseau après chaque essai.
1. Méthode A : on appelle pn la probabilité qu’il faille n essais pour ouvrir la porte. Déterminer
pn .
2. Méthode B : on appelle qn la probabilité qu’il faille n essais pour ouvrir la porte. Déterminer
qn .
3. Le gardien est ivre un jour sur trois. Un jour, après avoir essayé 8 clés, le gardien n’a toujours
pas ouvert la porte. Quelle est la probabilité qu’il soit ivre ?
Corrigé
1. Méthode A : on appelle pn la probabilité qu’il faille n essais pour ouvrir la porte. Puisqu’il
retire chaque clé après un essai infructueux, il est clair que n peut prendre les valeurs de 1
à 10. On peut calculer les probabilités de proche en proche : la probabilité p1 est clairement
p1 = 1/10. Pour qu’il ouvre la porte au deuxième essai, il faut qu’il se soit trompé au premier,
ce qui arrive avec probabilité 9/10 et qu’il ait réussi au second, ce qui arrive avec probabilité
1/9, donc à nouveau p2 = 1/10. En itérant ce raisonnement, on voit sans peine que pour
tout n entre 1 et 10, pn = 1/10. Nous parlerons dans ce cas de loi uniforme sur l’ensemble
{1, . . . , 10}.
Remarque : on pouvait obtenir ce résultat par un autre raisonnement : les 10 clés du trousseau
arrivent dans un certain ordre et il n’y aucune raison que la clé qui ouvre la porte soit à une
position plutôt qu’à une autre, donc le nombre d’essais nécessaires pour ouvrir la porte est
équiréparti entre 1 et 10.
2. Méthode B : cette fois, le nombre n d’essais nécessaire peut prendre toute valeur de N∗ .
La probabilité q1 est à nouveau q1 = 1/10. Pour qu’il ouvre la porte au deuxième essai, il
faut qu’il se soit trompé au premier, ce qui arrive avec probabilité 9/10, et qu’il ait réussi au
second, ce qui arrive avec probabilité 1/10, donc q2 = 1/10×9/10. En itérant ce raisonnement,
on voit que :
n−1
1 9
∀n ∈ N ∗
qn = .
10 10
On dit dans ce cas que le nombre d’essais suit une loi géométrique de paramètre 1/10.
3. Notons {N > 8} l’événement : “Après 8 essais, la porte n’est toujours pas ouverte” et,
conformément à ce qui précède, A (resp. B) l’événement : “Le gardien est à jeun (resp.
ivre).” Notons au passage que A = B. On cherche donc P(B|{N > 8}). On utilise la formule
de Bayes :
P({N > 8}|B)P(B)
P(B|{N > 8}) = .
P({N > 8}|A)P(A) + P({N > 8}|B)P(B)
Le texte nous apprend que P(B) = 1/3, donc P(A) = 2/3. Avec des notations naturelles, on
obtient d’une part :
+∞
X +∞ n−1 8
1 X 9 9
P({N > 8}|B) = qn = = ,
n=9
10 n=9 10 10
puisqu’on a reconnu une série géométrique de raison 9/10. Plus simple encore :
2
P({N > 8}|A) = p9 + p10 = .
10
Il vient donc P(B|E8 ) ≈ 0, 518.

1.6. Exercices 31
Exercice 1.5 (Memento)

1. On dit que la variable aléatoire discrète X suit une loi géométrique de paramètre p ∈]0, 1[ si
X est à valeurs dans N∗ , avec P(X = k) = p(1 − p)k−1 . Soit n ∈ N, déterminer P(X > n).
Montrer que X vérifie la propriété suivante, dite d’absence de mémoire :
∀(m, n) ∈ N2 P(X > n + m | X > m) = P(X > n).

2. Rappeler la densité d’une loi exponentielle de paramètre λ > 0, ainsi que sa fonction de
répartition. Montrer que X vérifie :
∀t ≥ 0, ∀s ≥ 0 P(X > t + s | X > t) = P(X > s),

c’est-à-dire la propriété d’absence de mémoire.
3. Application : la durée de vie T en années d’une télévision suit une loi exponentielle de
moyenne 8 ans. Vous possédez une telle télévision depuis 2 ans, quelle est la probabilité que
sa durée de vie soit encore d’au moins 8 ans à partir de maintenant ?
Corrigé
1. Soit X ∼ G(p) loi géométrique de paramètre p ∈]0, 1[. On a :
+∞
X +∞
X +∞
X
P(X > n) = P(X = k) = p(1 − p)k−1 = p (1 − p)k−1 ,
k=n+1 k=n+1 k=n+1
où l’on reconnaît une somme géométrique, donc :

(1 − p)n
P(X > n) = p = (1 − p)n .
1 − (1 − p)
Par définition de la probabilité conditionnelle, on a alors ∀(m, n) ∈ N × N :
P({X > n + m} ∩ {X > m}) P(X > n + m)
P(X > n + m|X > m) = = ,
P(X > m) P(X > m)
puisque l’événement {X > n+m} implique l’événement {X > m}. Grâce au calcul précédent,
on a donc :
(1 − p)n+m
P(X > n + m|X > m) = = (1 − p)n = P(X > n).
(1 − p)m
2. Si la variable aléatoire X suit une loi exponentielle de paramètre λ, sa densité est :
f (x) = λe−λx 1{x≥0} .
Sa fonction de répartition F vaut :
F (x) = (1 − e−λx )1{x≥0} .
Pour tout s ≥ 0, on a donc :
P(X > s) = 1 − P(X ≤ s) = 1 − F (s) = e−λs .

D’autre part, par le même raisonnement qu’en question précédente, il vient pour tout couple
(s, t) de réels positifs :
P(X > t + s) e−λ(t+s)

P(X > t + s|X > t) = = = e−λs = P(X > s),
P(X > t) e−λt
donc la loi exponentielle n’a pas de mémoire.

3. Application : la probabilité cherchée s’écrit
P(X > 2 + 8|X > 2) = P(X > 8) = e−1 ≈ 0.37.

Exercice 1.6 (Loi de succession de Laplace)
On dispose de (N + 1) urnes, numérotées de 0 à N . L’urne k contient k boules rouges et (N − k)
boules blanches. On choisit une urne au hasard. Sans connaître son numéro, on en tire n fois de
suite une boule, avec remise après chaque tirage.
1. Quelle est la probabilité que le tirage suivant donne encore une boule rouge sachant que, au
cours des n premiers tirages, seules des boules rouges ont été tirées ? Indication : on pourra
noter En (respectivement En+1 ) le fait de tirer n (respectivement (n + 1)) boules rouges à la
suite et décomposer ces deux événements sur la partition (U0 , . . . , UN ) formée par les urnes.
2. Calculer la limite de cette probabilité lorsque N tend vers l’infini. (Rappel
R 1 sur les sommes
1 Pn
de Riemann : si f est continue sur [0, 1], alors limn→∞ n k=1 f (k/n) = 0 f (x)dx.)
Corrigé
1. La probabilité cherchée s’écrit, en suivant l’indication de l’énoncé :
P(En+1 ∩ En ) P(En+1 )
pN = P(En+1 |En ) = = ,
P(En ) P(En )
la dernière égalité venant de ce que En+1 ⊆ En . Les deux termes se traitent alors de la même
façon, en décomposant sur la partition {U0 , . . . , UN } :
N
X N
1 X
P(En ) = P(En |Uk )P(Uk ) = P(En |Uk ),
N +1
k=0 k=0
le terme N 1+1 venant de l’équiprobabilité pour le choix de l’urne dans laquelle on pioche. Il
reste à voir que si on pioche dans l’urne Uk , la probabilité de tirer 1 boule rouge est k/N
donc la probabilité de tirer n boules rouges à la suite est (k/N )n . On a donc :
1 PN n+1
N +1 k=0 (k/N )
pN = 1 PN
.
(k/N )n
N +1 k=0
2. Pour trouver la limite de (pN ) lorsque le nombre N d’urnes tend vers l’infini, il suffit d’ap-
pliquer le résultat sur les sommes de Riemann :
N N
! Z 1
1 X n N 1 X
n 1
(k/N ) = (k/N ) −−−−→ xn dx = .
N +1 N +1 N N →∞ 0 n+1
k=0 k=1
On en déduit :
n+1
lim pN = .
N →∞ n+2
Exercice 1.7 (Transmission bruitée)
Un message doit être transmis d’un point à un autre à travers N canaux successifs. Ce message
peut prendre deux valeurs, 0 ou 1. Durant le passage par un canal, le message a la probabilité
p ∈]0, 1[ d’être bruité, c’est-à-dire d’être transformé en son contraire, et (1 − p) d’être transmis
fidèlement. Les canaux se comportent indépendamment les uns des autres.
1. Notons In l’événement : “en sortie de n-ème canal, le message est le même que celui transmis
initialement.” Exprimer P(In+1 ) en fonction de P(In ) et de p.

1.6. Exercices 33
2. En notant pn = P(In ), donner une relation de récurrence entre pn+1 et pn . Que vaut p1 ?
3. On considère une suite (un )n≥1 vérifiant la relation de récurrence :
un+1 = (1 − 2p)un + p.
Une telle suite est dite arithmético-géométrique. Vérifier que la suite (vn )n≥1 , définie par
vn = un − 21 , est géométrique. En déduire vn en fonction de p et v1 .
4. En déduire pn en fonction de p pour tout n ∈ {1, . . . , N }.
5. Que vaut limN →+∞ pN ? Qu’est-ce que ce résultat a d’étonnant à première vue ?
Corrigé
1. Pour que l’événement In+1 ait lieu, de deux choses l’une : ou bien In était réalisé et le message
a été bien transmis dans le (n + 1)-ème canal, ou bien In était réalisé et le message a été
mal transmis dans le (n + 1)-ème canal. C’est en fait la formule des probabilités totales qui
s’applique ici :
P(In+1 ) = P(In+1 |In )P(In ) + P(In+1 |In )P(In ),
c’est-à-dire :
P(In+1 ) = (1 − p)P(In ) + p(1 − P(In )).
2. On a donc la relation de récurrence :
pn+1 = (1 − p)pn + p(1 − pn ) = (1 − 2p)pn + p.
La condition initiale est p1 = 1 − p, probabilité que le message n’ait pas été bruité dans le
premier canal.
3. On écrit :
1 1
vn+1 = un+1 − = (1 − 2p)un + p − ,
2 2
et en remplaçant un par vn + 21 , il vient vn+1 = (1 − 2p)vn , donc la suite (vn )n≥1 est
géométrique de raison (1 − 2p). On en déduit :
∀n ∈ {1, . . . , N } vn = (1 − 2p)n−1 v1 .
4. On a la même relation pour pn que pour un = vn + 12 et puisque p1 = (1 − p), on en déduit

que :
1 1
∀n ∈ {1, . . . , N } pn = + − p (1 − 2p)n−1 .
2 2
5. Pour déterminer limN →+∞ pN , on peut distinguer 3 cas :
(a) p = 0 : la transmission est fiable et on retrouve bien sûr pN = 1 pour tout N .
(b) p = 1 : chaque passage dans un canal change de façon certaine le message, donc pN
dépend de la parité du nombre de canaux : p2N = 1 et p2N +1 = 0.
(c) 0 < p < 1 : contrairement aux deux situations précédentes, on est dans le cas d’un brui-
tage aléatoire. On remarque que limN →+∞ (1 − 2p)N −1 = 0 et limN →+∞ pN = 21 . Ceci
signifie que dès que le nombre de canaux devient grand, on est incapable de retrouver
le message initial de façon fiable : autant tirer à pile ou face ! C’est le fameux principe
du téléphone arabe.

Exercice 1.8 (La roulette de la lose)

Deux joueurs A et B jouent une succession de parties de pile ou face. A chaque coup, A a la
probabilité p ∈]0, 1[ de gagner, auquel cas B lui donne 1e, sinon le contraire. Les joueurs A et B
disposent en début de partie de 50e chacun. La partie s’arrête lorsque l’un des deux est ruiné. On
cherche la probabilité que A finisse ruiné. Pour tout n ∈ {0, . . . , 100}, on note pn la probabilité
que A finisse ruiné s’il commence avec ne et B avec (100 − n)e.
1. Que valent p0 et p100 ?
2. Notons Rn l’événement : “A finit ruiné en commençant avec ne”, c’est-à-dire que pn = P(Rn ).
Décomposer P(Rn ) en conditionnant par le résultat de la première partie, de façon à obtenir
une relation de récurrence entre pn+1 , pn et pn−1 .
3. On admet que la solution de cette équation est de la forme :

1−p n
pn = α + β .
p
Déterminer α et β.
4. En déduire la probabilité que A finisse ruiné.
5. De passage à Dinard, vous rentrez au casino et jouez à la roulette : il y a 18 numéros rouges,
18 numéros noirs et 1 numéro vert, le zéro. Vous jouez rouge pour 1e à chaque fois. Vous
commencez avec 50e et vous arrêtez si vous avez 100e ou si vous êtes ruiné. Pourquoi valait-il
mieux aller baguenauder sur les sentiers côtiers ce jour-là ?
6. Sachant que vous commencez avec 50e et que vous ne partirez que ruiné ou avec 100e en
poche, quelle tactique vaut-il mieux adapter pour maximiser vos chances de succès ?
Corrigé
Pour tout n ∈ {0, . . . , 100}, on note pn la probabilité que A finisse ruiné s’il commence avec ne et
B avec (100 − n)e.
1. On a bien sûr p0 = 1 et p100 = 0.
2. Supposons que A commence avec ne avec 0 < n < 100 : à la première partie, ou bien il
gagne (ce qui arrive avec probabilité p) et la probabilité qu’il se ruine ensuite devient pn+1 ,
ou bien il perd (ce qui arrive avec probabilité (1 − p)) et la probabilité qu’il se ruine ensuite
devient pn−1 . La formule des probabilités totales s’écrit donc :
pn = p × pn+1 + (1 − p) × pn−1 .
3. Si pour tout n ∈ {0, . . . , 100}, on admet que :

n
1−p
pn = α + β ,
p
il nous reste simplement à déterminer α et β grâce aux conditions aux bords p0 = 1 et
p100 = 0. Notons θ = 1−p p afin d’alléger les notations. On a donc à résoudre le système
linéaire de deux équations à deux inconnues :
(
θ 100
α+β =1 α = θ100 −1
⇐⇒
α + βθ 100 = 0 −1
β = θ100 −1
Ceci donne finalement :

θ 100 − θ n
∀n ∈ {0, . . . , 100} pn = .
θ 100 − 1

1.6. Exercices 35
θ 100 −θ 50
4. La probabilité que A finisse ruiné en commençant avec 50e est donc p50 = θ 100 −1
.
5. A la roulette, la probabilité de gain à chaque partie est p = 18/37, donc θ = 19/18, et la
probabilité de finir ruiné est : p50 ≈ 94%. Il valait mieux en effet aller se promener ce jour-là...
6. Tant qu’à être prêt à perdre 50e, le mieux (ou plutôt : le moins pire) est de les miser en une
seule fois. La probabilité de finir ruiné est alors simplement p = 18/37.
Exercice 1.9 (Un dé et une pièce)

On lance un dé équilibré, puis une pièce de monnaie non biaisée un nombre de fois égal au résultat
du dé. Soit X le résultat du dé et Y le nombre de ”Pile” amenés par la pièce de monnaie.
1. Déterminer la loi jointe du couple (X, Y ).
2. Soit n ∈ {1, . . . , 6}. Quelle est la loi de Y sachant X = n ?
3. En déduire E[Y |X = n], puis E[Y |X].
4. Calculer E[Y ].
Corrigé
1. Le couple (X, Y ) est à valeurs dans l’ensemble E défini comme suit :
E = {(n, k) : 1 ≤ n ≤ 6, 0 ≤ k ≤ n}.
Pour tout couple (n, k) de E, on a alors :

n

1
P((X, Y ) = (n, k)) = P(X = n)P(Y = k|X = n) = × kn .
6 2
2. Soit n ∈ {1, . . . , 6}, alors la loi de Y sachant X = n est la loi binomiale B(n, 1/2).
3. On en déduit que E[Y |X = n] = n/2, et plus généralement E[Y |X] = X/2.
4. Il vient donc E[Y ] = E[E[Y |X]] = E[X/2] = E[X]/2. Or X suit une loi uniforme sur {1, . . . , 6}
donc E[X] = (1 + 6)/2 = 7/2. Finalement E[Y ] = 7/4.
Exercice 1.10 (Minimum et maximum)

On tire deux variables U et V de façon indépendante et uniformément dans l’ensemble {1, 2, 3, 4, 5}.
On en déduit les variables aléatoires X = min(U, V ) et Y = max(U, V ).
1. Déterminer la loi jointe du couple (U, Y ).
2. Déterminer E[U |Y = n], pour n ∈ {1, 2, 3, 4, 5}.
3. En déduire E[U |Y ].
4. Déterminer E[Y |U ].
5. Déterminer de même E[U |X] et E[X|U ].
Corrigé
1. La loi jointe du couple (U, Y ) est donnée figure 1.15.
2. Soit n ∈ {1, 2, 3, 4, 5} fixé. Alors si Y = n, puisque Y est le maximum de U et V , il est clair
que U peut prendre les valeurs de 1 à n. On a donc :
E[U |Y = n] = P(U = 1|Y = n) + 2P(U = 2|Y = n) + · · · + nP(U = n|Y = n).
Il reste à préciser les probabilités :

P(U = k, Y = n)
P(U = k|Y = n) = .
P(Y = n)
Y
1 2 3 4 5
U
1 1/25 1/25 1/25 1/25 1/25
2 0 2/25 1/25 1/25 1/25
3 0 0 3/25 1/25 1/25
4 0 0 0 4/25 1/25
5 0 0 0 0 5/25
Figure 1.15 – Loi jointe pour le couple (U, Y ).
Puisqu’on connaît la loi jointe, il reste à préciser la loi marginale de Y , c’est-à-dire sommer
sur les colonnes dans le tableau de la question précédente. Ce qui donne :
1 1 2n − 1
P(Y = n) = P(U = 1, Y = n) + · · · + P(U = n, Y = n) = (n − 1) + n = .
25 25 25
Ainsi, on obtient pour la loi conditionnelle de U sachant Y :

1/(2n − 1) si 1 ≤ k ≤ (n − 1)
P(U = k|Y = n) =
n/(2n − 1) si k = n
Au total, on obtient :
1 n
E[U |Y = n] = (1 + · · · + (n − 1)) +n .
2n − 1 2n − 1
La première somme, entre parenthèses, est arithmétique de raison 1, donc :
n(n − 1)
1 + · · · + (n − 1) = ,
2
d’où finalement :
n(n − 1) n2 n(3n − 1)
E[U |Y = n] = + = .
2(2n − 1) 2n − 1 2(2n − 1)
Remarque : quand vous arrivez ici, après quelques calculs, pensez à vérifier que la formule
fonctionne, par exemple pour n = 1 et n = 2.
3. On en déduit que :
Y (3Y − 1)
E[U |Y ] = .
2(2Y − 1)
4. Pour déterminer E[Y |U ], on commence par calculer E[Y |U = n] pour tout n ∈ {1, 2, 3, 4, 5}.
Lorsque U vaut n, il est clair que Y peut prendre les valeurs n, . . . , 5. Comme ci-dessus,
il faut donc commencer par préciser la loi marginale de U . Or U est obtenue en tirant un
nombre au hasard entre 1 et 5, donc U suit une loi uniforme sur l’ensemble {1, 2, 3, 4, 5} :
P(U = n) = 51 . On en déduit que :

1/5 si (n + 1) ≤ k ≤ 5
P(Y = k|U = n) =
n/5 si k = n

1.6. Exercices 37
On en déduit l’espérance conditionnelle de Y sachant U = n :

n 1
E[Y |U = n] = n + ((n + 1) + · · · + 5) .
5 5
On reconnaît à nouveau une somme arithmétique dans la parenthèse :
(n + 6)(5 − (n + 1) + 1) (n + 6)(5 − n)
(n + 1) + · · · + 5 = = ,
2 2
et finalement on obtient :
n2 − n + 30
E[Y |U = n] = .
10
Et l’espérance conditionnelle de Y sachant U est donc :
U 2 − U + 30
E[Y |U ] = .
10
X
1 2 3 4 5
U
1 5/25 0 0 0 0
2 1/25 4/25 0 0 0
3 1/25 1/25 3/25 0 0
4 1/25 1/25 1/25 2/25 0
5 1/25 1/25 1/25 1/25 1/25
Figure 1.16 – Loi jointe pour le couple (U, X).
5. Pour déterminer E[U |X], on reprend pas à pas le raisonnement vu ci-dessus. La loi jointe du
couple aléatoire (U, X) est représentée figure 1.16. Pour tout n entre 1 et 5, on a cette fois :
E[U |X = n] = nP(U = n|X = n) + · · · + 5P(U = 5|X = n).
Pour la loi marginale de X, on a : P(X = n) = 11−2n

25 . Ce qui donne pour la loi conditionnelle
de U sachant X = n :

1/(11 − 2n) si (n + 1) ≤ k ≤ 5
P(U = k|X = n) =
(6 − n)/(11 − 2n) si k = n
On a donc :
6−n 1 30 + 11n − 3n2
E[U |X = n] = n + ((n + 1) = · · · + 5) = .
11 − 2n 11 − 2n 22 − 4n

Donc finalement :
30 + 11X − 3X 2
E[U |X] = .
22 − 4X
Pour calculer l’espérance conditionnelle de X sachant U , on a deux possibilités : ou bien on
reprend la méthode plan-plan ci-dessus, ou bien on pense à une ruse de sioux. Il suffit en
effet de remarquer, puisque l’espérance conditionnelle est linéaire, que :
E[X + Y |U ] = E[X|U ] + E[Y |U ],
or X + Y = U + V , puisque si X est égal à U , Y est égal à V et vice-versa. Donc :
E[X + Y |U ] = E[U + V |U ] = E[U |U ] + E[V |U ],
et on utilise les propriétés classiques de l’espérance conditionnelle : E[U |U ] = U d’une part,

et E[V |U ] = E[V ] d’autre part, puisque U et V sont indépendantes. Si on fait les comptes,
on a donc obtenu :
E[X|U ] = U + E[V ] − E[Y |U ].
Or E[V ] = 3 puisque V suit une loi uniforme et on a calculé E[Y |U ] ci-dessus. Finalement :
11U − U 2
E[X|U ] = ,
10
et tout est dit.
Figure 1.17 – Tirage uniforme dans un triangle.
Exercice 1.11 (Des points dans 2 ) N

On tire un point de façon uniforme parmi ceux de la figure 1.17. Ceci donne un couple aléatoire
(X, Y ) dont la loi jointe est : pij = P(X = i, Y = j) = 15
1
, 1 ≤ j ≤ i ≤ 5.
1. Donner les lois marginales de X et de Y .
2. Soit j ∈ {1, . . . , 5} fixé : donner la loi conditionnelle de X sachant Y = j, c’est-à-dire
P(X = i|Y = j).
3. Calculer E[X|Y = j], en déduire E[X|Y ], puis E[X] en fonction de E[Y ].
4. Déterminer de même la loi conditionnelle de Y sachant X = i.
5. Calculer E[Y |X = i], en déduire E[Y |X], puis E[Y ] en fonction de E[X].

1.6. Exercices 39
6. Déduire des questions précédentes E[X] et E[Y ].

7. Généralisation : soit N ∈ N∗ fixé, reprendre les questions précédentes en remplaçant 5 par
N (on ne demande pas le détail des calculs, uniquement les résultats).
Corrigé
Le corrigé est donné en annexe (sujet de juin 2006).
Exercice 1.12 (Somme aléatoire de variables aléatoires)

Soit (Xn )n≥1 une suite de variables aléatoires admettant la même espérance m = E[X1P ]. Soit N
une variable aléatoire à valeurs dans N∗ indépendante de la suite (Xn )n≥1 . On pose Sn = nk=1 Xk .
On s’intéresse dans cet exercice à la variable aléatoire SN .
1. Si N ∼ G(1/2) et les variables Xn sont équiprobables sur {1, . . . , 6}, donner une façon de
simuler SN à l’aide d’un dé et d’une pièce.
2. Déterminer E[SN |N = n]. En déduire E[SN |N ].
3. Que vaut E[SN ] ?
4. Application : la fièvre acheteuse. Le nombre de clients se rendant dans un magasin donné
dans l’espace d’une journée est une variable aléatoire de moyenne 50. La somme dépensée
par chacun des clients est aussi une variable aléatoire de moyenne 20e. Avec des hypothèses
raisonnables, quel est le chiffre d’affaires quotidien moyen du magasin ?
Corrigé
1. Tout d’abord, il suffit de lancer une pièce équilibrée et de compter le nombre de lancers
nécessaires pour voir apparaître Pile. On appelle N ce nombre, on sait qu’il suit une loi
géométrique de paramètre 1/2. Il suffit alors de lancer N fois un dé équilibré à 6 faces et de
faire la somme des résultats obtenus pour obtenir SN .
2. Si N = n, alors :
SN = Sn = X1 + · · · + Xn
est la somme de n variables de même moyenne m, donc :
E[SN |N = n] = nm.
On en déduit que :
E[SN |N ] = mN.
3. La technique de calcul d’espérance par conditionnement permet alors d’écrire que :
E[SN ] = E[E[SN |N ]] = mE[N ].
4. Application : la fièvre acheteuse. Le nombre de clients se rendant dans un magasin donné

dans l’espace d’une journée est une variable aléatoire de moyenne 50. La somme dépensée
par chacun des clients est aussi une variable aléatoire de moyenne 20e. En supposant que ce
que dépense chaque client (variable aléatoire Xi ) est indépendant du nombre N de clients à
passer dans le magasin dans la journée, on en déduit que le chiffre d’affaires quotidien moyen
du magasin est :
E[SN ] = 50 × 20 = 1000e.

Exercice 1.13 (North by Northwest)

Soit X et Y deux variables aléatoires discrètes à valeurs dans N. On suppose que X ∼ P(λ), loi de
Poisson de paramètre λ > 0. On suppose que, pour tout entier n > 0, la loi de Y sachant X = n
est la loi binômiale B(n, p) ; et que Y = 0 si X = 0.
1. Donner la loi jointe du couple aléatoire (X, Y ).
2. Montrer que Y suit une loi de Poisson de paramètre pλ.
3. Montrer que :
((1 − p)λ)n−k
∀n ≥ k ≥ 0 P(X = n|Y = k) = e−(1−p)λ ,
(n − k)!
c’est-à-dire que, sachant Y = k, X suit une loi de Poisson translatée. En déduire E[X|Y = k]
et de façon générale que : :
E[X|Y ] = Y + λ(1 − p).
4. Application : à un embranchement routier, le nombre X de véhicules arrivant en une heure
suit une loi de Poisson P(100) (hypothèse courante dans ce genre de situation). Les véhicules
ont alors le choix entre deux directions A ou B : ils choisissent A avec la même probabilité
1/3, et ce de façon indépendante. Sachant qu’en une heure, on sait simplement que 100
voitures ont pris la direction A, quel est le nombre moyen de voitures qui sont passées par
l’embranchement ?
Corrigé
1. Le couple (X, Y ) est à valeurs dans l’ensemble E défini comme suit :
E = {(n, k) : 0 ≤ k ≤ n}.
Pour tout couple (n, k) de E, on a alors :

n
−λ λ n k
P((X, Y ) = (n, k)) = P(X = n)P(Y = k|X = n) = e × p (1 − p)n−k ,
n! k
quantité qui s’écrit encore, puisque n = k + (n − k) et λ = pλ + (1 − p)λ :
(pλ)k ((1 − p)λ)n−k

P((X, Y ) = (n, k)) = e−pλ × e−(1−p)λ .
k! (n − k)!
2. La variable Y est à valeurs dans N et pour tout entier naturel k, on a :

+∞
X +∞
X ((1 − p)λ)n−k
(pλ)k
P(Y = k) = P(X = n, Y = k) = e−pλ × e−(1−p)λ ,
k! (n − k)!
n=k n=k
et l’on réindexe la somme pour reconnaître la série de l’exponentielle :

+∞
X +∞
X
((1 − p)λ)n−k ((1 − p)λ)m
= = e(1−p)λ .
(n − k)! m!
n=k m=0
Tout compte fait, pour tout entier naturel k :
(pλ)k
P(Y = k) = e−pλ .
k!
En d’autres termes, Y suit une loi de Poisson de paramètre pλ.

1.6. Exercices 41
3. Pour n ≥ k ≥ 0, on peut alors écrire :

P(X = n, Y = k)
P(X = n|Y = k) = ,
P(Y = k)
où numérateur et dénominateur ont été calculés dans les questions précédentes, ce qui permet
d’aboutir à :
((1 − p)λ)n−k
∀n ≥ k ≥ 0 P(X = n|Y = k) = e−(1−p)λ ,
(n − k)!
c’est-à-dire que, sachant Y = k, X suit en effet une loi de Poisson translatée. Pour en déduire
E[X|Y = k] et pour reprendre la formule chère aux amateurs de westerns spaghettis, “Le
monde se divise en deux catégories : ceux qui ont le revolver chargé, et ceux qui creusent”,
i.e. sans ou avec calculs. Optons pour la première option : lorsque Y = k, X suit une loi de
Poisson de paramètre (1 − p)λ translatée de k, c’est-à-dire que X − k suit exactement une loi
de Poisson de paramètre (1 − p)λ. On en déduit que E[X − k|Y = k] = (1 − p)λ, autrement
dit E[X|Y = k] = k + (1 − p)λ et plus généralement :
E[X|Y ] = Y + λ(1 − p).
4. Nous sommes exactement dans le cadre d’application de ce qui précède, avec λ = 100, p = 1/3
et k = 100. Le nombre moyen de voitures qui sont passées par l’embranchement vaut donc :
E[X|Y = 100] = 100 + (1 − 1/3) × 100 ≈ 167.
Un raisonnement moisi serait le suivant : pour une voiture qui prend la direction A, deux
prennent la direction B, donc si on a vu passer 100 voitures en une heure partant vers
A, 200 voitures ont dû prendre la direction B, donc au total 300 ont dû se présenter à
l’embranchement. Où est la faute ? Le fait que les choix de A ou B sont indépendants implique
que l’information sur l’un n’apporte aucune information sur l’autre. Donc quel que soit
le nombre de voitures partant vers A en une heure, le nombre moyen de voitures vers B
est inchangé et vaut environ 67. Formellement, ceci peut se voir en utilisant les propriétés
classiques de l’espérance conditionnelle :
E[X|Y ] = E[Y + Z|Y ] = E[Y |Y ] + E[Z|Y ] = Y + E[Z],
où la relation E[Z|Y ] = E[Z] vient de l’indépendance de Y et Z.
Exercice 1.14 (Espérance d’une variable géométrique)

N
Soit une urne contenant N boules noires et M boules blanches (N, M ≥ 1). On pose p = N +M .
On effectue une suite de tirages avec remise et on désigne par T le nombre de tirages nécessaires
pour amener pour la première fois une boule noire.
1. Quelle est la loi de T ? Que vaut E[T ] ?
2. On calcule ici l’espérance de T par une autre méthode. On introduit une variable X qui
prend la valeur 0 ou 1 selon que la première boule tirée est blanche ou noire.
(a) Déterminer E[T |X = 1].
(b) Déterminer E[T |X = 0] en fonction de E[T ].
(c) Via un calcul d’espérance par conditionnement, en déduire E[T ].
Corrigé

1. La variable T est à valeurs dans N∗ et pour tout entier naturel non nul n, il faut (n − 1)
échecs et finalement un succès pour que T vaille n. Puisque les tirages sont indépendants,
ceci se traduit par
P(T = n) = p(1 − p)n−1
On dit que T suit une loi géométrique de paramètre p et on note T ∼ G(p). Le cadre général
est le suivant : lors d’une expérience, un événement donné a la probabilité p de survenir ; si
on répète cette expérience de façon indépendante jusqu’à ce que cet événement apparaisse, le
nombre d’expériences nécessaires suit la loi géométrique de paramètre p. On prendra garde
au fait que le paramètre p de cette loi ne correspond pas à la raison de la suite des probabilités
(P (T = n))n∈N∗ , lequel vaut (1 − p).
Le calcul de l’espérance de T se fait alors comme suit :
∞
X ∞
X
E[T ] = np(1 − p)n−1 = p n(1 − p)n−1 .
n=1 n=1
Il suffit alors de se souvenir de la somme d’une série géométrique et de dériver terme à terme
pour obtenir le résultat voulu :
X ∞ X ∞
X ∞
1 1 1
= xn ⇒ 2
= nxn−1 ⇒ 2 = n(1 − p)n−1
1−x (1 − x) p
n=0 n=1 n=1
ce qui donne E[T ] = 1/p. Interprétation élémentaire : plus l’événement d’intérêt est rare,
autrement dit plus p est faible, et en moyenne plus il faut attendre pour le voir apparaître.
2. (a) Il est clair que E[T |X = 1] = 1.
(b) Si X = 0, la première boule tirée est blanche et on revient au point de départ (hormis
qu’on a déjà fait un tirage), ce qui se traduit par E[T |X = 0] = 1 + E[T ].
(c) Tenant compte de ce que P(X = 0) = 1 − P(X = 1) = 1 − p, on peut alors écrire
E[T ] = E[E[T |X]] = E[T |X = 0]P(X = 0)+E[T |X = 1]P(X = 1) = (1+E[T ])(1−p)+p
ce qui conduit bien à E[T ] = 1/p.
Exercice 1.15 (Germinal revival)

Un mineur est prisonnier dans un puits d’où partent trois tunnels. Le premier tunnel le mènerait
à la sortie au bout de 3 heures de marche. Le second le ramènerait à son point de départ au bout
de 5 heures de marche, de même que le troisième au bout de 7 heures. On suppose que les tunnels
sont indiscernables et qu’à chaque fois qu’il est au point de départ, le mineur emprunte l’un des
trois de façon équiprobable. On note T le nombre d’heures nécessaires pour sortir du puits. Soit
X ∈ {1, 2, 3} le numéro du tunnel que le prisonnier choisit à sa première tentative. Reprendre le
raisonnement de l’exercice 1.14 (partie 2.) pour calculer le temps moyen qu’il faut au mineur pour
sortir.
Corrigé
En s’inspirant de l’exercice 1.14, on obtient : E[T |X = 1] = 3, E[T |X = 2] = E[T ] + 5 et
E[T |X = 3] = E[T ] + 7. Par ailleurs, le calcul d’espérance par conditionnement donne :
E[T ] = E[T |X = 1]P(X = 1) + E[T |X = 2]P(X = 2) + E[T |X = 3]P(X = 3).
Mais puisque le prisonnier choisit au hasard parmi les trois tunnels, on a :

1
P(X = 1) = P(X = 2) = P(X = 3) = .
3

1.6. Exercices 43
Ainsi il vient :
1
E[T ] = (3 + E[T ] + 5 + E[T ] + 7),
3
d’où l’on déduit :
E[T ] = 15.
Il faut en moyenne 15 heures au mineur pour sortir. Autant dire qu’il n’a pas le cul sorti des ronces...
Exercice 1.16 (Variable Y définie à partir de X)

On considère une variable aléatoire X à valeurs dans N∗ et telle que :
2
∀i ∈ N∗ P(X = i) = .
3i
Soit Y une variable aléatoire telle que, sachant X = i, la loi de Y est l’équiprobabilité sur {i, i+ 1}.
1. Que vaut E[X] ?
2. Pour tout i ∈ N∗ , déterminer E[Y |X = i]. En déduire E[Y |X], puis E[Y ].
3. Calculer la loi jointe du couple (X, Y ).
4. Déterminer la loi de Y .
5. Pour tout j ∈ N∗ , déterminer E[X|Y = j]. En déduire E[X|Y ].
6. Calculer Cov(X, Y ).
Corrigé
1. On a vu que X suit une loi géométrique de paramètre 2/3 donc E[X] = 3/2.
2. Pour tout i ∈ N∗ , on a vu que :
1 2i + 1
E[Y |X = i] = (i + (i + 1)) = .
2 2
On en déduit que
2X + 1
E[Y |X] = ,
2
et par suite
1
E[Y ] = E[E[Y |X]] = (2E[X] + 1) = 2.
2
3. La loi jointe du couple (X, Y ) est très simple puisqu’on connaît marginale et conditionnelle.
Pour tout i ∈ N∗ , on a :
0 si j ∈/ {i, i + 1}
pi,j = 1
3i
si j ∈ {i, i + 1}
4. La variable aléatoire Y est à valeurs dans N∗ , avec

1/3 si j = 1
pj = P(Y = j) = 4
3j
si j ≥ 2
5. On commence par déterminer la loi conditionnelle de X sachant Y = j. Or si Y = 1, il est

clair que X vaut 1, donc que E[X|Y = 1] = 1. Si Y = j > 1, alors X ne peut valoir que j ou
(j − 1) et plus précisément :
P(X = j − 1, Y = j) 3
P(X = j − 1|Y = j) = = ,
P(Y = j) 4

et de même :
1
P(X = j|Y = j) = ,
4
3(j − 1) j 4j − 3
E[X|Y = j] = + =
4 4 4
On est donc obligé de faire attention à la valeur 1 pour la variable aléatoire X :
4Y − 3
E[X|Y ] = 1{Y =1} + 1{Y >1}
4
6. On a enfin
Cov(X, Y ) = E[XY ] − E[X]E[Y ],
or on a déjà vu que E[X] = 3/2 et E[Y ] = 2 et

2X + 1 1
E[XY ] = E[E[XY |X]] = E[XE[Y |X]] = E X = (2E[X 2 ] + E[X]).
2 2
Il reste à voir que E[X 2 ] = VarX + (E[X])2 , et à se souvenir (ou à recalculer) que la variance
d’une loi géométrique de paramètre p est q/p2 (donc ici 3/4). On a donc :

1 3 9 3 15
E[XY ] = 2 + + = .
2 4 4 2 4
Finalement :
15 3
Cov(X, Y ) = −3 = .
4 4
Exercice 1.17 (Couple aléatoire)

Rappels sur les séries entières : Pour tout x ∈ [−1, 1[, on a :
+∞ n
X x
ln(1 − x) = − ,
n
n=1
Pour tout x ∈ [−1, 1[ et pour tout entier naturel k :

+∞
X (n + k)!
k!
= xn .
(1 − x)k+1 n!
n=0
On considère un couple aléatoire (X, Y ) à valeurs dans N2 \ {(0, 0)} dont la loi jointe est définie
par :
1 (i + j − 1)!
∀(i, j) ∈ N2 \ {(0, 0)} P(X = i, Y = j) = .
ln 2 i!j!3i 6j
1. CalculerP(X = 0).
2. Pour tout i ∈ N∗ , calculer P(X = i).
3. Déterminer la loi de Y conditionnellement à X = 0. Calculer E[Y |X = 0].
4. Pour tout i ∈ N∗ , déterminer la loi de Y conditionnellement à X = i. Calculer E[Y |X = i].
5. En déduire E[Y |X].

1.6. Exercices 45
6. En déduire l’égalité suivante :

1 1
E[Y ] − E[X] = .
5 5 ln 2
Corrigé
1. Lorsque X = 0, Y peut prendre les valeurs 1, 2, etc. On a donc :
+∞
X +∞
X +∞
1 (j − 1)! 1 X 1
P(X = 0) = P(X = 0, Y = j) = = ,
ln 2 j!6j ln 2 j6j
j=1 j=1 j=1
et il suffit alors d’appliquer la formule donnée en rappel pour obtenir :

ln 6 − ln 5
P(X = 0) =
ln 2
.
2. Lorsque X = i > 0, Y peut prendre les valeurs 0, 1, 2, etc. On a cette fois :
+∞
X +∞
1 (i + j − 1)! 1 1 X (j + (i − 1))!
P(X = i) = = ,
ln 2 i!j!3i 6j ln 2 i!3i j!6j
j=0 j=0
et on applique la formule du rappel :

1 1 6i 1 2i
P(X = i) = (i − 1)! = .
ln 2 i!3i 5i ln 2 i5i
3. Pour tout j > 0, on a donc :
P(X = 0, Y = j) 1
P(Y = j|X = 0) = = .
P(X = 0) (ln 6 − ln 5)j6j
La valeur moyenne de Y sachant X = 0 est donc :
+∞
X +∞
X 1
1
E[Y |X = 0] = j P(Y = j|X = 0) = ,
ln 6 − ln 5 6j
j=1 j=1
et on reconnaît une série géométrique :

1
E[Y |X = 0] = .
5(ln 6 − ln 5)
4. Soit i > 0 fixé. Pour tout j ≥ 0, on a :
P(X = i, Y = j) (i + j − 1)!5i
P(Y = j|X = i) = = .
P(X = i) (i − 1)!j!6i+j
D’où l’on déduit l’espérance conditionnelle de Y sachant X = i :
+∞
X +∞
X
5i ((j − 1) + i)! 1
E[Y |X = i] = j P(Y = j|X = i) = ,
(i − 1)!6i (j − 1)! 6j
j=0 j=1
ce qui s’écrit encore :

+∞
X
5i (n + i)! 1
E[Y |X = i] = i+1
,
(i − 1)!6 n=0
n! 6n
c’est-à-dire, après simplifications :

i
E[Y |X = i] = .
5

5. Pour l’expression de l’espérance conditionnelle de Y sachant X, il faut donc faire attention

àX=0:
1 1 1 1
E[Y |X] = 1{X=0} + X 1{X>0} = 1{X=0} + X.
5(ln 6 − ln 5) 5 5(ln 6 − ln 5) 5
6. On en déduit l’espérance de Y en fonction de celle de X :

1 1
E[Y ] = E[E[Y |X]] = E[1{X=0} ] + E[X].
5(ln 6 − ln 5) 5
La variable aléatoire 1{X=0} est binaire, elle prend les valeurs 0 et 1 avec les probabilités
respectives P(X > 0) et P(X = 0), donc son espérance est tout simplement :
ln 6 − ln 5
E[1{X=0} ] = 0 × P(X > 0) + 1 × P(X = 0) = P(X = 0) = .
ln 2
On en déduit que :
1 1
E[Y ] = + E[X],
5 ln 2 5
ce qui est bien le résultat voulu.
Remarque. Une version plus générale de cet exercice se trouve dans l’ouvrage Toutes les
probabilités et les statistiques, de Jacques Dauxois et Claudie Hassenforder, Ellipses, 2004.
Exercice 1.18 (Echauffement)

On considère la fonction f définie sur R2 par :
f (x, y) = e−(x+y) 1{x≥0,y≥0}
1. Vérifier que f est une densité sur R2 .

2. Soit (X, Y ) un couple de densité f . Déterminer les marginales f (x) et f (y).
3. Calculer la covariance du couple (X, Y ).
Corrigé
1. Il est clair que f est une fonction positive. Par ailleurs, par le théorème de Fubini-Tonelli, le
calcul de son intégrale double sur R2 se fait sans problème :
ZZ Z +∞ Z +∞
−(x+y)
f (x, y) dx dy = e dy dx = · · · = 1,
R2 0 0
et f est bien une densité sur R2 .

2. La densité f (x) de la variable aléatoire X s’obtient en intégrant par rapport à y :
Z
f (x) = f (x, y) dy = · · · = e−x 1[0,+∞[ (x).
R
On voit donc que X suit une loi exponentielle de paramètre 1, ce que l’on note : X ∼ E(1).
Vu les rôles symétriques joués par X et Y , la variable aléatoire Y a la même loi : Y ∼ E(1).
3. On remarque que :
∀(x, y) ∈ R2 f (x, y) = f (x)f (y),
donc X et Y sont indépendantes, donc leur covariance est nulle (rappelons que la réciproque
est fausse en général, sauf dans le cas des vecteurs gaussiens).

1.6. Exercices 47
Exercice 1.19 (Montée en puissance)

Soit (X, Y ) un couple aléatoire de densité jointe :
1 − xy −y
f (x, y) = e 1]0,+∞[2 (x, y)
y
1. Déterminer la densité marginale f (y) de Y .
2. En déduire la densité conditionnelle f (x|y).
3. Que vaut E[X|Y = y]. En déduire l’espérance conditionnelle de X sachant Y .
4. On considère cette fois : f (x, y) = 12
5 x(2 − x − y)1]0,1[2 (x, y). Montrer que
5 − 4Y
E[X|Y ] =
8 − 6Y
Corrigé
1. La densité marginale de Y vaut :
Z +∞
1 − xy −y
f (y) = e 1]0,+∞[ (y) dy,
0 y
ce qui donne après calculs :
f (y) = e−y 1]0,+∞[ (y),
c’est-à-dire que Y ∼ ε(1).
2. On en déduit la densité conditionnelle f (x|y). Pour tout y > 0 :
f (x, y) 1 x
f (x|y) = = e− y 1]0,+∞[ (x),
f (y) y
donc sachant Y = y, X ∼ ε(1/y).

3. On sait que si X ∼ ε(λ), alors E[X] = 1/λ. Or sachant Y = y, X ∼ ε(1/y), donc :
E[X|Y = y] = y,
et par suite : E[X|Y ] = Y .

4. On considère cette fois : f (x, y) = 12
5 x(2 − x − y)1]0,1[2 (x, y). Pour montrer que
5 − 4Y
E[X|Y ] = ,
8 − 6Y
il suffit d’appliquer la méthode usuelle. Si vous n’arrivez pas à ce résultat, c’est que vous
avez fait une faute de calcul quelque part !
Exercice 1.20 (Mai 2007)

f (x, y) = cx(y − x)e−y 1{0<x≤y} .
1. Soit V une variable aléatoire qui suit une loi exponentielle de paramètre λ. Rappeler son
moment d’ordre n, c’est-à-dire E[V n ].
2. Déterminer c pour que f soit effectivement une densité.
3. Calculer f (x|y), densité conditionnelle de X sachant Y = y.
4. En déduire que E[X|Y ] = Y /2.

5. Calculer f (y|x), densité conditionnelle de Y sachant X = x.

6. En déduire que E[Y |X] = X + 2.
7. Déduire des questions 4 et 6 les quantités E[X] et E[Y ].
Corrigé
Cf. annales en fin de polycopié.

On considère le couple aléatoire (X, Y ) de densité la fonction f définie sur R2 par :

2 si 0 ≤ x ≤ y ≤ 1
f (x, y) =
0 sinon
1. Représenter f et vérifier qu’il s’agit bien d’une fonction de densité.

2. Les variables X et Y sont-elles indépendantes ?
3. Déterminer les lois marginales puis calculer E[X] et E[Y ].
4. Calculer les lois conditionnelles f (y|x) et f (x|y).
5. Calculer E[X|Y ].
6. En utilisant le résultat précédent et la valeur de E[Y ] de la question 3, retrouver la valeur
de E[X].
Corrigé
Cf. annales en fin de polycopié.
Exercice 1.22 (Changement de couple)

On considère la fonction suivante :
f (x, y) = e−y 1{0<x<y} .
1. Vérifier que f (x, y) définit une densité de probabilité sur R2 .

2. Calculer les densités marginales de X et Y . Les variables X et Y sont-elles indépendantes ?
3. Calculer E[X], E[Y ], Cov(X, Y ).
4. Déterminer la densité conditionnelle fY |X de Y sachant X = x. En déduire E[Y |X = x],
puis l’espérance conditionnelle E[Y |X].
5. Déterminer de même E[X|Y ].
6. Déterminer la loi jointe fZ,T du couple (Z, T ) défini par :

Z =X +Y
T =Y −X
7. En déduire les densités marginales de Z et T .
Corrigé
Cet exercice est corrigé en annexe, sujet de juin 2005.
Exercice 1.23 (Jeu de fléchettes)

Soit D le disque de centre (0, 0) et de rayon 1, (X, Y ) un point tiré uniformément dans D.

1.6. Exercices 49
1. Donner la densité f (x, y) du couple (X, Y ).

2. Déterminer les lois marginales de X et Y . En déduire E[X] et E[Y ].
4. Calculer la covariance du couple (X, Y ).
5. Déterminer la fonction de répartition G(u), puis la densité g(u), de la variable aléatoire
U = X 2 + Y 2.
6. Calculer l’espérance de U . En déduire E[X 2 ], E[Y 2 ], la variance de X et celle de Y .
7. Déterminer la densité conditionnelle f (.|x) de Y sachant X = x. Calculer E[Y 2 |X = x], puis
E[X 2 + Y 2 |X = x], puis E[X 2 + Y 2 |X].
8. Un tireur tire sur la cible D : la loi du point d’impact√(X, Y ) sur la cible est uniforme. Au
point d’impact est associée la distance au centre L = X 2 + Y 2 . Supposons qu’il tire n fois
de façons indépendantes : ceci donne un n-uplet (L1 , . . . , Ln ) de variables aléatoires. Soit
0 < a ≤ 1 : calculer la probabilité que l’une au moins des fléchettes soit à distance inférieure
à a du centre de la cible.
Corrigé
1. Puisque le point (X, Y ) est tiré uniformément dans le disque D, la densité f (x, y) du couple
(X, Y ) est tout simplement l’indicatrice du disque divisé par la surface de ce disque. C’est
la généralisation d’une loi uniforme sur un segment de R (indicatrice du segment divisé par
sa longueur). Ainsi :
1 1
f (x, y) = 1D (x, y) = 1{x2 +y2 ≤1} (x, y).
π π
√ √
2. Si x est fixé entre −1 et 1, y ne peut varier qu’entre − 1 − x2 et + 1 − x2 (faire un dessin !).
On a alors :
Z +√1−x2
1 2p
f (x) = √ dy = 1 − x2 1[−1,1] (x).
− 1−x2 π π
Puisque l’abscisse X et l’ordonnée Y jouent des rôles symétriques, on a aussi :
2p
f (y) = 1 − y 2 1[−1,1] (y).
π
On en déduit : Z
2 1 p
E[X] = x 1 − x2 dx,
π −1
et il y a deux façons de voir les choses : ou bien on y va brutalement et on reconnaît à

peu de choses près la dérivée de (1 − x2 )3/2 . Ou bien on ruse on voit que c’est l’intégrale
d’une fonction impaire sur un domaine symétrique par rapport à 0, donc elle vaut 0 (faire
un dessin). Ainsi E[X] = 0, ce qui n’est pas étonnant : on lance les fléchettes aussi bien dans
les abscisses négatives que positives. Puisque Y a même loi que X, on a aussi E[Y ] = 0.
3. Les variables X et Y ne sont pas indépendantes, puisque le support de la loi du couple (X, Y )
n’est pas un pavé, mais un disque. On peut aussi le voir en vérifiant que la loi jointe f (x, y)
n’est pas égale au produit des marginales.
4. Par définition la covariance du couple (X, Y ) est :
ZZ
cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[XY ] = xyf (x, y) dx dy,
D

et par le théorème de Fubini (on intègre une fonction continue sur un domaine borné donc
no souci) : !
Z Z +√1−x2
1 +1
cov(X, Y ) = x √ y dy dx = 0,
π −1 − 1−x2
√ √
puisque pour tout x entre −1 et 1, le segment [− 1 − x2 , + 1 − x2 ] est symétrique par
rapport à 0 et la fonction y 7→ y est impaire. On en déduit que cov(X, Y ) = 0 alors que X
et Y ne sont pas indépendantes : Etonnov, niet ?
5. La variable aléatoire (X 2 + Y 2 ) est à valeurs entre 0 et 1 et pour tout u ∈ [0, 1], on a :
p √
G(u) = P(X 2 + Y 2 ≤ u) = P X2 + Y 2 ≤ u ,
√
or X 2 + Y 2 est la distance au centre d’un point M tiré au hasard dans le disque. La
√
probabilité que celle-ci soit plus petite que u correspond donc au rapport des surfaces
√
entre le disque de centre O et de rayon u et le disque D, c’est-à-dire que :

 0 si u ≤ 0
G(u) = u si 0 ≤ u ≤ 1

1 si u ≥ 1
Autrement dit U suit une loi uniforme sur [0, 1], ce qu’on note U ∼ U[0,1] . On en déduit que
sa densité est l’indicatrice du segment [0, 1] : g(u) = 1[0,1] (u).
6. L’espérance de U vaut donc 1/2. Puisque X et Y ont même loi, on a E[X 2 ] = E[Y 2 ], et
puisque U = (X 2 + Y 2 ), on a :
1 1
E[U ] = E[X 2 ] + E[Y 2 ] = 2E[X 2 ] ⇒ E[X 2 ] = E[U ] = .
2 4
Les variances de X et Y sont identiques et :
1
Var(X) = E[X 2 ] − E[X]2 = E[X 2 ] = .
4
7. La densité conditionnelle f (.|x) de Y sachant X = x est :

1
f (y|x) = √ 1 √ 2 √ 2 (y).
2 1 − x2 [− 1−x ,+ 1−x ]
On en déduit : Z √
+ 1−x2
2 1 1 − x2
E[Y |X = x] = √ √ y 2 dy = .
2 1 − x2 − 1−x2 3
Mais alors :
1 − x2 2x2 + 1
E[X 2 + Y 2 |X = x] = E[X 2 |X = x] + E[Y 2 |X = x] = x2 + = ,
3 3
et de façon générale :
2X 2 + 1
E[X 2 + Y 2 |X] = .
3
8. La probabilité que l’une au moins des fléchettes soit à distance inférieure à a du centre de la
cible est :
pa = P(min(L1 , . . . , Ln ) ≤ a) = 1 − P(min(L1 , . . . , Ln ) > a) = 1 − P(L1 > a, . . . , Ln > a),

1.6. Exercices 51
or les variables aléatoires L1 , . . . , Ln sont indépendantes et identiquement distribuées, donc :
P(L1 > a, . . . , Ln > a) = P(L1 > a) × · · · × P(Ln > a) = P(L1 > a)n .
Mais on a alors :
P(L1 > a) = 1 − P(L1 ≤ a) = 1 − P(L21 ≤ a2 ) = 1 − P(X 2 + Y 2 ≤ a2 ) = 1 − G(a2 ) = 1 − a2 .

Ainsi :
pa = 1 − (1 − a2 )n .
Exercice 1.24 (Lois exponentielles)

Soit X et Y deux variables aléatoires indépendantes suivant une loi exponentielle de même para-
mètre λ > 0.
1. Quelle est la loi jointe fX,Y du couple (X, Y ) ?
2. Déterminer la loi jointe fV,W du couple (V, W ) défini par :

V = X +Y
W = X
3. En déduire la densité de V .
4. Calculer f (w|v). Quelle loi reconnaît-on ?
Corrigé
Voir les annales, sujet de mai 2008.
Exercice 1.25 (Minimum de variables exponentielles)

1. On considère deux variables aléatoires indépendantes X1 et X2 exponentielles de paramètres
respectifs λ1 et λ2 . Soit Y = min(X1 , X2 ) le minimum de ces deux variables. Montrer que
Y suit une loi exponentielle de paramètre (λ1 + λ2 ) (on pourra utiliser les fonctions de
répartition).
2. Montrer que :
λ1
P(Y = X1 ) = P(X1 < X2 ) = .
λ1 + λ2
Indication : on pourra calculer P(X1 < X2 ) en conditionnant par rapport à X2 .
3. Deux guichets sont ouverts à une banque : le temps de service au premier (respectivement
second) guichet suit une loi exponentielle de moyenne 20 (respectivement 30) minutes. Aude
et Vincent sont convoqués à la banque pour s’expliquer sur leurs découverts respectifs : Aude
choisit le guichet 1, Vincent le 2. Quelle est la probabilité que Aude sorte la première ?
4. En moyenne, combien de temps faut-il pour que les deux soient sortis ? Indication : le max
de deux nombres, c’est la somme moins le min.
Corrigé

1. Notons FY la fonction de répartition de Y , alors :
FY (y) = P(Y ≤ y) = P(min(X1 , X2 ) ≤ y) = 1 − P (min(X1 , X2 ) > y),

FY (y) = 1 − P ({X1 > y} ∩ {X2 > y}) .
Or X1 et X2 sont indépendantes :
FY (y) = 1 − P(X1 > y)P(X2 > y) = 1 − e−λ1 y 1R+ (y)e−λ2 y 1R+ (y) = 1 − e−(λ1 +λ2 )y 1R+ (y),
c’est-à-dire que Y ∼ E(λ1 + λ2 ).

2. On a : Z +∞
P(Y = X1 ) = P(X1 < X2 ) = P(X1 < X2 |X2 = x)fX2 (x) dx,
0
c’est-à-dire : Z +∞
P(Y = X1 ) = P(X1 < x|X2 = x)λ2 e−λ2 x dx.
0
Mais puisque X1 et X2 sont indépendantes, le premier terme dans l’intégrale est simplement :
P(X1 < x|X2 = x) = P(X1 < x) = 1 − e−λ1 x ,

Z +∞ λ2
P(Y = X1 ) = λ2 e−λ2 x − λ2 e−(λ1 +λ2 )x dx = 1 − .
0 λ1 + λ2
Finalement on a bien :
λ1
P(Y = X1 ) = .
λ1 + λ2
3. Rappelons qu’une exponentielle de moyenne 20 a pour paramètre 1/20. La probabilité que
Aude sorte la première est donc tout simplement :
1/20 3
p= = .
1/20 + 1/30 5
4. Soit Xa , respectivement Xv , le temps nécessaire pour que Aude, respectivement Vincent,
sorte de la banque. On cherche donc à calculer E[max(Xa , Xv )]. Il suffit de remarquer que :
max(Xa , Xv ) = Xa + Xv − min(Xa , Xv ),
d’où par linéarité de l’espérance :

1
E[max(Xa , Xv )] = E[Xa ] + E[Xv ] − E[min(Xa , Xv )] = 20 + 30 − = 38 min.
1/20 + 1/30
Exercice 1.26 (Variable Y définie à partir de X)

Soit X une variable aléatoire de densité :
2 ln(1 + x)
1[0,1] (x)
(ln 2)2 1 + x
Soit Y une variable aléatoire telle que la loi conditionnelle de Y sachant X = x est :
1 1
1 (y)
ln(1 + x) 1 + y [0,x]

1.6. Exercices 53
1. Donner la densité jointe du couple (X, Y ).

3. Quelle est la loi de Y ? Loi conditionnelle de X sachant Y ?
4. Déterminer l’espérance conditionnelle E[X|Y ].
Corrigé
Cf. annales, sujet de juin 2006.
Exercice 1.27 (L’aiguille de Buffon)

On suppose qu’on lance une aiguille de longueur unité sur un parquet dont les lames sont elles-
mêmes de largeur unité. On voudrait calculer la probabilité p que l’aiguille soit à cheval sur deux
lames. On modélise le problème comme suit : la variable aléatoire X correspond à la distance
du milieu de l’aiguille au bord de lame le plus proche, la variable aléatoire T correspond à l’angle
entre l’aiguille et l’axe des abscisses (cf. figure 1.18, à gauche). On suppose que X est uniformément
distribuée sur [0, 1/2], T uniformément distribuée sur [−π/2, π/2], et que ces deux variables sont
indépendantes.
X T
R
Figure 1.18 – Modélisation de l’expérience de Buffon (à gauche) et solution diabolique (à droite).
1. Expliquer pourquoi la probabilité cherchée peut s’écrire :

1
p = P X ≤ | sin T | .
2
2. Soit t ∈ [−π/2, π/2]. Que vaut P(X ≤ 21 | sin t|) ?

3. Grâce à un calcul de probabilité par conditionnement, en déduire que p = π2 .
4. Méthode heuristique : on jette un très grand nombre d’aiguilles sur le parquet, de sorte qu’il
y en ait dans toutes les directions. On peut donc les mettre bout à bout de façon à former
un très grand cercle, de rayon R (cf. figure 1.18, à droite).
(a) Quel est approximativement le nombre N d’allumettes nécessaires pour former ce cercle ?
(b) Quel est approximativement le nombre Ni de lames de parquet intersectées par ces
allumettes ?
(c) En faisant le rapport entre ces deux nombres, retrouver le résultat p = π2 .

1. Puisque l’aiguille est de longueur unité, la distance verticale entre ses deux extrémités est
égale à | sin T |. Dès lors, la distance verticale entre le milieu de l’aiguille et chacune de ses
deux extrémités vaut | sin T |/2. Pour que l’aiguille ne chevauche aucune lame, il faut et il
suffit que ce nombre soit plus petit que la distance du milieu de l’aiguille au bord de lame le
plus proche, notée X. Ainsi la probabilité cherchée s’écrit :

1
p = P X ≤ | sin T | .
2
2. Soit t ∈ [−π/2, π/2]. Puisque X suit une loi uniforme sur [0, 1/2], il vient
1
P(X ≤ | sin t|) = | sin t|.
2
3. Grâce à un calcul de probabilité par conditionnement, en déduire que p = π2 .
4. Méthode heuristique : on jette un très grand nombre d’aiguilles sur le parquet, de sorte qu’il
y en ait dans toutes les directions. On peut donc les mettre bout à bout de façon à former
un très grand cercle, de rayon R (cf. figure 1.18, à droite).
(a) Quel est approximativement le nombre N d’allumettes nécessaires pour former ce cercle ?
(b) Quel est approximativement le nombre Ni de lames de parquet intersectées par ces
allumettes ?
(c) En faisant le rapport entre ces deux nombres, retrouver le résultat p = π2 .
Exercice 1.28 (Casser un bâton en trois)

On casse un bâton en trois morceaux “au hasard” et on veut connaître la probabilité de pouvoir
faire un triangle avec ces trois morceaux. On suppose pour simplifier les calculs que le bâton est
de longueur unité.
1. Si on considère trois bâtons de longueurs a, b et c, à quelles conditions sur ces trois nombres
peut-on construire un triangle avec ces trois bâtons ?
2. Première méthode : on tire uniformément entre 0 et 1 deux variables aléatoires indépendantes
U et V . Représenter graphiquement, dans le carré [0, 1] × [0, 1] les couples admissibles. En
déduire que la probabilité cherchée vaut 14 .
3. Seconde méthode : on casse d’abord le bâton en deux morceaux (tirage d’une variable aléa-
toire X uniforme sur [0, 1]), puis on choisit au hasard l’un des deux morceaux (pile ou face
non biaisé), puis on recasse ce morceau en deux (tirage d’une variable uniforme Y ). Déter-
miner la densité, notée f (y|x), de Y sachant X = x. En déduire que la probabilité cherchée
vaut ln 2 − 21 ≈ 0.19.
4. Pourquoi ne trouve-t-on pas le même résultat ?
Corrigé
1. La condition générale pour qu’on puisse construire un triangle est qu’aucune des deux lon-
gueurs ne soit supérieure à la somme des deux autres, ce qui donne un système de trois
inéquations à satisfaire.
2. Les deux points U et V définissent les trois segments [0, min(U, V )], [min(U, V ), max(U, V )] et
[max(U, V ), 1], de longueurs respectives min(U, V ), max(U, V ) − min(U, V ) et 1 − max(U, V ).
D’après la question précédente, le système suivant doit alors être satisfait :

 min(U, V ) ≤ (max(U, V ) − min(U, V )) + (1 − max(U, V ))
max(U, V ) − min(U, V ) ≤ min(U, V ) + (1 − max(U, V ))

1 − max(U, V ) ≤ min(U, V ) + (max(U, V ) − min(U, V ))

1.6. Exercices 55
lequel est équivalent à : 

 min(U, V ) ≤ 1/2
max(U, V ) − min(U, V ) ≤ 1/2

max(U, V ) ≥ 1/2
De par la symétrie des rôles joués par U et V , on peut supposer dans un premier temps
U ≤ V , c’est-à-dire se restreindre au triangle supérieur gauche du carré unité, étudier la
région admissible dans ce triangle, et la seconde région s’en déduira par symétrie par rapport
à la droite u = v. Or si U ≤ V , le système ci-dessus devient

 U ≤ 1/2
V ≤ U + 1/2

V ≥ 1/2
La région admissible est représentée figure 1.19. En cassant un bâton en trois morceaux de
V
1
U
1
Figure 1.19 – Région admissible.
cette façon, la probabilité qu’on puisse faire un triangle correspond exactement à la surface
de cette région, laquelle vaut 1/4.
3. Seconde méthode : on casse d’abord le bâton en deux morceaux (tirage d’une variable aléa-
toire X uniforme sur [0, 1]), puis on choisit au hasard l’un des deux morceaux (pile ou face
non biaisé), puis on recasse ce morceau en deux (tirage d’une variable uniforme Y ). Déter-
miner la densité, notée f (y|x), de Y sachant X = x. En déduire que la probabilité cherchée
vaut ln 2 − 21 ≈ 0.19.
4. Pourquoi ne trouve-t-on pas le même résultat ?
Exercice 1.29 (Triplet aléatoire)

Soit (X, Y, Z) un triplet aléatoire. La loi marginale de X est donnée par :
1 3 −x
f (x) = x e 1]0,+∞[ (x).
6

La loi conditionnelle de Y sachant X = x est donnée par :

y2
f (y|x) = 3 1 (y).
x3 ]0,x[
La loi conditionnelle de Z sachant X = x et Y = y est donnée par :
y−z
f (z|x, y) = 2 1 (z).
y 2 ]0,y[
1. Soit V ∼ E(λ). Donner pour tout n ∈ N : E[V n ].
2. Représenter l’ensemble des valeurs prises par le triplet (X, Y, Z).
3. Déterminer la densité jointe f (x, y, z). En déduire la densité de Z.
4. Que vaut la densité jointe du couple (X, Y ) conditionnellement à Z = z ?
5. En déduire la densité de X sachant Z = z, notée f (x|z), puis E[X|Z].
6. Soit S = X + Y et T = X − Y . Déterminer la densité jointe fS,T du couple (S, T ). Quelle
loi suit la variable aléatoire T ?
Exercice 1.30 (Couple mixte)

On rappelle que si V ∼ E(α), on a : E[V n ] = n!/αn . Soit alors (X, Y ) un couple de variables
aléatoires à valeurs dans N × [0, +∞[, tel que :
– la loi marginale de Y est exponentielle de paramètre 1 ;
– la loi conditionnelle de X sachant Y = λ est une loi de Poisson de paramètre λ.
Puisque le couple n’est ni discret, ni absolument continu, on propose de noter p(n, λ) sa loi jointe,
p(n) = P(X = n) la loi marginale de X, p(λ) la densité de Y , etc.
1. Déterminer la loi jointe du couple (X, Y ), c’est-à-dire p(n, λ).
2. Déterminer la loi marginale de X, c’est-à-dire p(n). Quel est le lien avec une loi géométrique
classique ? Que vaut E[X] ?
3. Déterminer la densité conditionnelle de Y sachant X = n, c’est-à-dire p(λ|n).
4. Déterminer l’espérance conditionnelle de Y sachant X = n, c’est-à-dire E[Y |X = n]. En
déduire E[Y |X].
5. Vérifier sur cet exemple la relation vue en cours dans les cas classiques :
E[Y ] = E[E[Y |X]].
Exercice 1.31 (Triplet exponentiel)

Soit X1 , X2 et X3 des variables i.i.d. de loi exponentielle de paramètre α. On pose :

Y1 = X2 − X1
Y2 = X3 − X1
On s’intéresse à la densité jointe du couple (Y1 , Y2 ) sachant X1 = x1 . Montrer que pour tout triplet
(x1 , y1 , y2 ) de R3 , on a :
f (y1 , y2 |x1 ) = α2 e−α(2x1 +y1 +y2 ) 1{y1 ≥−x1 ,y2 ≥−x1 } .
Exercice 1.32 (Droite de régression en statistiques)

On considère les tailles et poids de dix enfants de six ans :
Taille 121 123 108 118 111 109 114 103 110 115
Poids 25 22 19 24 19 18 20 15 20 21

1.6. Exercices 57
1. Calculer les espérances, variances et covariance empiriques pour cet échantillon.

2. Déterminer la droite de régression y = âx + b̂.
3. Quelle est l’erreur quadratique moyenne pour cet échantillon ?
Exercice 1.33 (Droite de régression en probabilités)

1 − 2x2 −2xy+y2
f (x, y) = e 2
2π
1. Montrer que X ∼ N (0, 1) et Y ∼ N (0, 2), lois normales centrées de variances respectives 1
et 2.
2. Montrer que la covariance du couple (X, Y ) vaut 1.
3. En déduire l’équation de la droite de régression de Y en X : y = ax + b.
4. Montrer que, sachant X = x, Y suit une loi normale N (x, 1). En déduire la courbe de
régression : x 7→ E[Y |X = x].
5. Sachant X = x, on veut la probabilité que Y s’éloigne de ax + b de plus de une unité, i.e.
calculer :
P(|Y − (aX + b)| > 1|X = x).
Indication : si V ∼ N (0, 1), alors P(|V | > 1) ≈ 0.32.
Exercice 1.34 (Droite de régression et courbe de régression)

1 1 y2
f (x, y) = √ e− 2 ( x2 −2y+x +2x) 1{x>0}
2
x 2π
1. Montrer que X ∼ E(1), loi exponentielle de paramètre 1.

2. Calculer f (y|x) pour montrer que, sachant X = x, Y suit une loi normale N (x2 , x2 ).
3. En déduire la courbe de régression : x 7→ E[Y |X = x].
4. Sachant X = x, donner une zone de confiance à 95% pour Y .
5. Déterminer l’équation de la droite de régression de Y en X.
6. Représenter graphiquement les résultats.
Exercice 1.35 (Droite de régression et points aberrants)

Douze personnes sont inscrites à une formation. Au début de la formation, ces stagiaires subissent
une épreuve A notée sur 20. A la fin de la formation, elles subissent une épreuve B de niveau
identique. Les résultats sont donnés dans le tableau suivant :
Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4
Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19
1. Représenter le nuage de points. Déterminer la droite de régression. Calculer le coefficient de

corrélation. Commenter.
2. Deux stagiaires semblent se distinguer des autres. Les supprimer 3 et déterminer la droite de
régression sur les dix points restants. Calculer le coefficient de corrélation. Commenter.

18
16
14
Notes Epreuve B
12
10
8
6
4 6 8 10 12 14
Notes Epreuve A
Figure 1.20 – Représentation des notes et droite de régression pour l’ensemble des 12 stagiaires.
Corrigé
1. Le nuage de points ainsi que la droite de régression sont représentés figure 1.20. On cherche
à expliquer les notes à l’épreuve B, notées y1 , . . . , y12 à partir des notes à l’épreuve A, notées
x1 , . . . , x12 . L’équation de la droite de régression est y = âx + b̂, avec :
P12
(xi − x̄)(yi − ȳ)
â = i=1P12 ≈ 0.11
2
i=1 (xi − x̄)
rapport de la covariance empirique entre les notes à l’épreuve A et celles à l’épreuve B et de

la variance empirique des notes à l’épreuve A. Pour l’ordonnée à l’origine, on a :
b̂ = ȳ − âx̄ ≈ 12.0
Le coefficient de corrélation linéaire vaut :

P12
i=1 (xi −q x̄)(yi − ȳ)
ρ̂ = qP P12 ≈ 0.10
12 2 2
i=1 (x i − x̄) i=1 (y i − ȳ)
Le coefficient proche de 0 pourrait laisser penser qu’il n’y a pas une forte corrélation linéaire
entre les notes à l’épreuve A et les notes à l’épreuve B. De fait, sur la figure 1.20, la droite
de régression ne semble pas représenter correctement le nuage de points.
2. On élimine les notes des deux derniers stagiaires, c’est-à-dire les deux dernières colonnes du
tableau. Le nuage de points ainsi que la droite de régression sont représentés figure 1.21.
L’équation de la droite de régression est encore y = âx + b̂, avec :
P10
(xi − x̄)(yi − ȳ)
â = i=1P10 ≈ 0.90
2
i=1 (xi − x̄)
3. “Je ne crois aux statistiques que lorsque je les ai moi-même falsifiées.” Winston Churchill.

1.6. Exercices 59
18
16
Notes Epreuve B
14
12
10
8
4 6 8 10 12
Notes Epreuve A
Figure 1.21 – Représentation des notes et droite de régression pour les 10 premiers stagiaires.
rapport de la covariance empirique entre les notes à l’épreuve A et celles à l’épreuve B et de

la variance empirique des notes à l’épreuve A. Pour l’ordonnée à l’origine, on a :
b̂ = ȳ − âx̄ ≈ 5.5
Le coefficient de corrélation linéaire vaut :
P10
i=1 (xi −qx̄)(yi − ȳ)
ρ̂ = qP P10 ≈ 0.90
10 2 2
i=1 (xi − x̄) i=1 (yi − ȳ)
On obtient cette fois une forte corrélation linéaire puisque ρ̂ est proche de 1. De même, sur la
figure 1.21, la droite de régression est tout à fait représentative du nuage de points. Ainsi les
notes des 2 derniers individus suffisaient à masquer la forte corrélation linéaire et à fausser
complètement la régression linéaire pour expliquer la seconde note à partir de la première :
ce sont ce qu’on appelle des individus aberrants. On trouvera la définition précise de cette
notion dans le livre de Pierre-André Cornillon et Eric Matzner-Løber [8], paragraphe 4.1.2.
Exercice 1.36 (Un peu de prédiction)

Soit θ ∈ R∗ fixé. Soit (Zn )n≥0 une suite de variables aléatoires indépendantes centrées et de même
variance σ 2 . On construit à partir de (Zn )n≥0 la suite de variables aléatoires (Xn )n≥0 comme suit

X0 = Z0
Xn+1 = Zn+1 − θZn
1. Pourquoi les Xn sont-elles de carrés intégrables ?
2. Montrer que la projection de Xn+1 sur le sous-espace de L2 engendré par les (Xi )0≤i≤n , noté
dans le cours E[Xn+1 |X0 , . . . , Xn ], est :
n+1
X
X̂n+1 = − θ j Xn+1−j
j=1
On l’appelle encore le prédicteur des moindres carrés de Xn+1 .

3. Calculer l’erreur quadratique moyenne, encore appelée erreur de prédiction, c’est-à-dire :
E[(Xn+1 − X̂n+1 )2 ].
Exercice 1.37 (Un problème déterministe)

Le but de l’exercice est de déterminer deux nombres réels a et b qui minimisent l’intégrale :
Z 1
(ex − ax − b)2 dx.
0
On utilise pour ce faire une interprétation stochastique du problème. Considérons l’espace proba-
bilisé (Ω, F, P) = ([0, 1], B[0,1] , λ[0,1] ). Dans ce contexte, une variable aléatoire est tout simplement
une fonction borélienne f : [0, 1] → R. Si elle est intégrable sur [0, 1], son espérance est :
Z 1
E[f ] = f (x) dx.
0
H = L2 ([0, 1], B[0,1] , λ[0,1] ) est donc l’espace des fonctions boréliennes de carrés intégrables sur
l’intervalle [0, 1]. Montrer que le problème de minimisation ci-dessus revient alors à déterminer une
droite de régression. En déduire a et b.
Corrigé
Si on adopte les notations vues en régression dans le cours, la fonction identité x 7→ x correspond
à la variable aléatoire X, tandis que la fonction x 7→ ex correspond à la variable aléatoire Y .
De façon générale, faire une régression linéaire de la variable aléatoire Y sur la variable aléatoire
X, c’est chercher les deux réels a et b tels que l’erreur quadratique moyenne faite en approchant
Y par aX + b soit minimale. On veut donc trouver :

arg min E (Y − (aX + b))2 ,
a,b
ce qui, transposé dans notre contexte, s’écrit encore :

Z 1
arg min (ex − ax − b)2 dx.
a,b 0
Il nous suffit donc d’appliquer les formules habituelles donnant pente et ordonnée à l’origine en
fonction des espérances, variances et covariance :
(
a = Cov(X,Y
Var(X)
)
b = E[Y ] − aE[X]
Il reste à évaluer les quantités en jeu. L’espérance de X correspond à la valeur moyenne prise par
la fonction identité sur [0, 1] :
Z 1
1
E[X] = x dx = .
0 2
De même pour l’espérance de Y :
Z 1
E[Y ] = ex dx = e − 1.
0
La variance de X est comme d’habitude :
Var(X) = E[X 2 ] − E2 [X],

1.6. Exercices 61
avec : Z 1
1
E[X 2 ] = x2 dx = ,
0 3
1
d’où finalement : Var(X) = 12 . De même, on a :
Cov(X, Y ) = E[XY ] − E[X]E[Y ].
Or les variables aléatoires X et Y sont liées par la relation Y = eX , donc :

Z 1

E[XY ] = E XeX = xex dx,
0
ce qui donne après une intégration par parties :

1
E[XY ] = 1 ⇒ Cov(X, Y ) = (3 − e).
2
On en déduit que les coefficients de la régression linéaire sont :

a = 6(3 − e) ≈ 1.69.
b = 2(2e − 5) ≈ 0.87.
Autrement dit, sur l’intervalle [0, 1], la meilleure approximation au sens de la norme L2 de la
fonction x 7→ ex par une fonction affine est donnée par la droite (cf. figure 1.22) :
y = 6(3 − e)x + 2(2e − 5) ≈ 1.69x + 0.87.
2.8
...
....
....
....
.......
...
....
.....
....
.....
.......
..
.....
.....
.....
.....
........
..
......
.....
.....
......
...
........
...
......
......
......
......
...........
.....
.......
......
.......
.......
....
.........
.....
........
........
.......
........
...............
.........
........
.........
.........
.........
....
..............
....
...........
...........
1.0
0.8
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Figure 1.22 – Approximation en norme L2 de x 7→ ex par une fonction affine sur [0, 1].
Remarque. L’approche brutale consisterait à voir la quantité à optimiser comme une fonction
des deux variables a et b : Z 1
Φ(a, b) = (ex − ax − b)2 dx,
0

ce qui donne après développement et calculs :
a2 1
Φ(a, b) = + b2 + ab − 2a + 2(1 − e)b + (e2 − 1).
3 2
On effectue une factorisation “à la Gauss” :

a 2 1 2 7 2 57
Φ(a, b) = b − e − 1 − + (a − 6(3 − e)) − e − 20e + .
2 12 2 2
Cette quantité est minimale lorsqu’on annule les 2 carrés, c’est-à-dire lorsque :

a = 6(3 − e)
b = e − 1 − a2 = 2(2e − 5)
On retrouve le résultat précédent. Happy end !

Chapitre 2
Vecteurs gaussiens et conditionnement
Introduction
Le calcul conditionnel s’exprime très simplement dans le cadre gaussien, puisque tout se ramène
à du calcul matriciel. C’est pourquoi on dit qu’on est dans un cadre linéaire. C’est ce qui devrait
ressortir de ce chapitre. Au préalable, il convient de faire quelques rappels sur les lois normales
uni- et multi-dimensionnelles.
2.1 Rappels sur les vecteurs gaussiens

2.1.1 Variables gaussiennes
Dans toute la suite, (Ω, F, P) est un espace probabilisé.
0.40 0.14
0.12
−3 −2 −1 0−4 1 2 3 4 −7 −5 −3 −1 1 3 5 7 9
Figure 2.1 – Densités des lois normales N (0, 1) (à gauche) et N (2, 9) (à droite).
Définition 13 (Variable gaussienne)

On dit que la variable aléatoire X : (Ω, F, P) → (R, B) est gaussienne de moyenne m et de variance
63
64 Chapitre 2. Vecteurs gaussiens et conditionnement
σ 2 > 0 et on note X ∼ N (m, σ 2 ), si X admet pour densité :
1 (x−m)2
f (x) = √ e− 2σ 2
2πσ 2
Des exemples de courbes en cloches sont donnés figure 2.1.
Remarques.
– Supposons qu’on tire des nombres selon une loi normale N (m, σ 2 ), par exemple avec un ordina-
teur. Alors plus l’écart-type σ est faible et plus on a des chances d’obtenir des résultats autour
de la moyenne m : 68% de tomber à distance inférieure ou égale à σ, 95% de tomber à distance
inférieure ou égale à 2σ, 99, 7% de tomber à distance inférieure ou égale à 3σ. Ceci est illustré
figure 2.2.
– La loi d’une variable gaussienne est complètement définie par la seule donnée de sa moyenne m
et de sa variance σ 2 .
– Si la variance σ 2 est nulle, dire que X ∼ N (m, 0) signifie que la variable aléatoire X est (quasi-)
déterministe : elle ne prend presque sûrement que la valeur m.
– Il y a un lien très simple entre la loi normale centrée réduite et toute autre loi normale, puisque :
si X ∼ N (0, 1), alors Y = σX + m ∼ N (m, σ 2 ). On verra que cette propriété admet une géné-
ralisation vectorielle.
0.40
−4 −3 −2 −1 1 2 3 4
68%
95%
99, 7%
Figure 2.2 – Intervalles de confiance à 68%, 95% et 99, 7% pour une N (0, 1).
On rappelle que la fonction caractéristique d’une variable aléatoire X est la fonction

R →C
ΦX :
t 7→ ΦX (t) = E[eitX ]
Pour aller vite, la fonction caractéristique joue pour les variables aléatoires à densité le même rôle
que la fonction génératrice des moments pour les variables discrètes, c’est-à-dire qu’il y a un lien
entre les moments d’une variable aléatoire et les dérivées successives de sa fonction caractéristique.

2.1. Rappels sur les vecteurs gaussiens 65
Si X admet des moments de tout ordre, alors ΦX est C ∞ sur R et :

(n)
ΦX (0) = in E[X n ].
Rappelons aussi que la loi d’une variable aléatoire est complètement caractérisée par sa fonction
caractéristique (d’où son nom, la vie est bien faite...).
Proposition 7 (Fonction caractéristique d’une variable gaussienne)

Si X ∼ N (m, σ 2 ), sa fonction caractéristique est donnée pour tout réel t par :
σ 2 t2
ΦX (t) = eimt− 2 .
Preuve. Soit X ∼ N (0, 1), alors sa fonction caractéristique est définie par :
Z
itX 1 x2
ΦX (t) = E[e ] = eitx √ e− 2 dx,
R 2π
quantité complexe qu’on peut décomposer en parties réelle et imaginaire :
Z Z
1 x2 1 x2
ΦX (t) = cos(tx) √ e− 2 dx + i sin(tx) √ e− 2 dx,
R 2π R 2π
qu’on écrit plus simplement :
1
ΦX (t) = √ (F (t) + iG(t)).
2π
Ainsi définie, la fonction (
R →R
F : R − x2
2
t 7→ R cos(tx)e dx
est une intégrale dépendant d’un paramètre. On peut donc lui appliquer la théorie de Lebesgue,
en commençant par s’assurer qu’elle est bien définie pour tout réel t puisque :
Z Z Z
2 2 2 √
cos(tx)e− x2 dx ≤ cos(tx)e− x2 dx dx ≤ e− x2
dx = 2π.

R R R
On vérifie de même qu’elle est dérivable sur R, sa dérivée s’obtenant tout simplement en dérivant
par rapport à t sous le signe d’intégration :
Z
x2
∀t ∈ R ′
F (t) = − sin(tx)xe− 2 dx.
R
On effectue une intégration par parties :

2 +∞
Z
x2
′ − x2
F (t) = sin(tx)e −t cos(tx)e− 2 dx,
−∞ R
c’est-à-dire :
∀t ∈ R F ′ (t) = −tF (t),
équation différentielle linéaire du premier ordre, qui s’intègre sans problème :
t2
F (t) = αe− 2 .

Et puisqu’on a la condition initiale :

Z √
x2
F (0) = cos(0x)e− 2 dx = 2π,
R
on en déduit que :
√ t2
∀t ∈ R F (t) = 2π e− 2 .
Par ailleurs, la fonction G est identiquement nulle, puisque :
Z
x2
G(t) = sin(tx)e− 2 dx
R
est l’intégrale d’une fonction impaire sur un domaine symétrique par rapport à 0, donc vaut 0.
Ainsi, lorsque X ∼ N (0, 1), sa fonction caractéristique est :
t2
∀t ∈ R ΦX (t) = e− 2 .
Si maintenant on considère Y = σX + m, alors Y ∼ N (m, σ 2 ) et sa fonction caractéristique est :
ΦY (t) = E[eit(σX+m) ] = eimt E[ei(tσ)X ] = eimt ΦX (σt),
et on peut se servir de ce qu’on vient de voir pour en déduire :

σ 2 t2
∀t ∈ R ΦY (t) = eimt− 2 .

P+∞ un
Exercice. A partir du développement en série entière de l’exponentielle (eu = n=0 n! ), montrer
que si X ∼ N (0, 1), alors ses moments sont donnés par :

E[X 2n+1 ] = 0
E[X 2n ] = 2(2n)!
n n!
Via le théorème de Paul Lévy, les fonctions caractéristiques sont un outil efficace pour montrer la
convergence en loi d’une suite de variables aléatoires : il suffit de prouver la convergence simple de
la suite des fonctions caractéristiques.
C’est d’ailleurs ainsi qu’on montre le résultat qui fait toute l’importance de la loi normale, à savoir
le théorème central limite. En voici la version la plus simple : si (Xn )n≥1 est une suite de variables
aléatoires indépendantes et identiquement distribuées (en abrégé i.i.d.) de carré intégrable, alors
en notant Sn = X1 + · · · + Xn , on a la convergence en loi vers la loi normale centrée réduite :
Sn − nE[X1 ] L
√ −−−−−→ N (0, 1),
n VarX1 n→+∞
c’est-à-dire que pour tout intervalle (a, b) de R, on a :

Z b
Sn − nE[X1 ] 1 x2
P a≤ √ ≤ b −−−−−→ √ e− 2 dx.
n VarX1 n→+∞ a 2π
Autrement dit, la somme d’un grand nombre de variables aléatoires i.i.d. se comporte comme une
loi normale. L’aspect remarquable de ce résultat tient bien sûr au fait que la loi commune des Xn
peut être n’importe quoi ! Celle-ci peut aussi bien être discrète qu’absolument continue, mixte ou
singulière. La seule chose requise est l’existence du moment d’ordre 2.

2.1.2 Vecteurs gaussiens

La définition d’un vecteur gaussien est a priori un peu tordue.
Définition 14 (Vecteur gaussien)

On dit que le vecteur aléatoire 1 X = [X1 , . . . , Xd ]′ est un vecteur gaussien si pour tout d-uplet
(α1 , . . . , αd ) de réels, la variable aléatoire α1 X1 + · · · + αd Xd est gaussienne.
En particulier, une variable aléatoire gaussienne est un vecteur gaussien de dimension 1. Par
ailleurs, il découle de la définition le résultat suivant.
Proposition 8 (Vecteur gaussien ⇒ Composantes gaussiennes)

Si le vecteur aléatoire X = [X1 , . . . , Xd ]′ est un vecteur gaussien, alors chaque variable aléatoire
Xi est gaussienne.
Preuve. Si X = [X1 , . . . , Xd ]′ est gaussien, alors en prenant α1 = 1 et αi = 0 pour tout i ≥ 2, on

en déduit que :
X d
X1 = αi Xi
i=1
est gaussienne. Idem pour X2 , . . . , Xd .

La réciproque n’est pas vraie, comme le montre la situation suivante.
F (t)
0.5
F (−t)
0.0
−3 −2 −t −1 0 1
t 2 3
Figure 2.3 – Fonction de répartition F d’une loi normale N (0, 1) et relation : F (−t) = 1 − F (t).
Remarque : Composantes gaussiennes ; Vecteur gaussien.

Soit X ∼ N (0, 1) et ε une variable aléatoire indépendante de X et suivant une loi de Rademacher :
elle prend les valeurs +1 et −1 de façon équiprobable. Considérons la nouvelle variable Y = εX
1. Dans tout le polycopié, le symbole ’ correspond à la transposition.

et le vecteur aléatoire V = [X, Y ]′ . La variable aléatoire Y est gaussienne, comme le montre sa

fonction de répartition :
FY (u) = P(Y ≤ u) = P(εX ≤ u) = P(−X ≤ u|ε = −1)P(ε = −1) + P(X ≤ u|ε = 1)P(ε = 1),
expression qu’on peut simplifier grâce à l’indépendance de X et ε :

1 1
FY (u) = (P(−X ≤ u) + P(X ≤ u)) = (P(X ≥ −u) + P(X ≤ u)),
2 2
et en notant FX la fonction de répartition d’une loi normale centrée réduite, c’est-à-dire :
Z t
1 x2
FX (t) = √ e− 2 dx,
−∞ 2π
on a donc :
1
FY (u) =(1 − FX (−u) + FX (u)) = FX (u),
2
la dernière égalité venant de la symétrie d’une loi normale centrée réduite par rapport à l’origine
(voir figure 2.3) :
∀u ∈ R FX (−u) = 1 − FX (u).
Ainsi Y suit une loi normale N (0, 1), tout comme X. Mais le vecteur V = [X, Y ]′ n’est pas
gaussien, puisque si on considère la variable aléatoire Z = X + Y = (1 + ε)X, on a :
1
P(Z = 0) = P(1 + ε = 0) = P(ε = −1) = ,
2
ce qui est impossible pour une variable gaussienne ! En effet, cette probabilité vaut 0 pour toute
loi gaussienne N (m, σ 2 ), sauf si m = σ 2 = 0, auquel cas elle vaut 1. A titre indicatif la fonction
de répartition de Z est donnée figure 2.4 : c’est un exemple de loi mixte.
1.0
0.5
−3 −2 −1 0 1 2 3
Figure 2.4 – Fonction de répartition de la variable aléatoire Z.
Il y a cependant une situation où les choses se passent bien.

Proposition 9 (Composantes gaussiennes indépendantes ⇒ Vecteur gaussien)

Soit (X1 , . . . , Xd ) une suite indépendante de variables aléatoires. Le vecteur X = [X1 , . . . , Xd ]′ est
gaussien si et seulement si pour tout i ∈ {1, . . . , d}, la variable aléatoire Xi est gaussienne.
Preuve. Si les variables aléatoires gaussiennes Xi ∼ N (mi, σi2 ) sont gaussiennes et indépendantes,
alors la variable aléatoire :
d d
!
X X
Y = α1 X1 + · · · + αd Xd ∼ N αi mi, α2i σi2 .
i=1 i=1
Ceci se vérifie par exemple sans problème sur la fonction caractéristique de Y . Ainsi toute combi-
naison linéaire des composantes Xi est une variable gaussienne et par suite X = [X1 , . . . , Xd ]′ est
un vecteur gaussien.
Comme on l’a vu en proposition 8, la réciproque est toujours vraie, que les composantes soient
indépendantes ou non.

Prenons un vecteur aléatoire X = [X1 , . . . , Xd ]′ , non nécessairement gaussien, mais dont toutes les
composantes Xi admettent un moment d’ordre 2, ce qu’on note de façon naturelle X ∈ L2 (Ω). On
peut alors définir la moyenne m de ce vecteur par :
 
E[X1 ]
 . 
 
m = E[X] =   . ,

 . 
E[Xd ]
et sa matrice de covariance :
Γ = E[(X − E[X])(X − E[X])′ ],
encore appelée matrice de dispersion, de taille d × d, avec pour terme générique :
Γi,j = Cov(Xi , Xj ).
On peut donner une propriété générale sur ces matrices de dispersion.
Proposition 10 (Matrice de covariance)

Si elle existe, la matrice de covariance d’un vecteur aléatoire est symétrique réelle positive. Elle est
donc diagonalisable en base orthonormée :
Γ = P ′ ∆P,
avec P ′ = P −1 et ∆ = diag{λ1 , . . . , λd }, les λi étant tous positifs ou nuls.
Achtung ! Quand on parle d’une matrice symétrique réelle S, dire qu’elle est positive ne signifie
pas que ses coefficients sont positifs ! On entend par là que :
∀u ∈ Rd , u′ Su ≥ 0.
On dit aussi que la forme quadratique associée est positive.
Preuve. L’aspect symétrique réel est clair par définition de la matrice de covariance. Il faut prouver
que pour tout vecteur réel u = [u1 , . . . , ud ]′ , on a u′ Γu ≥ 0. Or cette quantité vaut :
u′ E[(X − E[X])(X − E[X])′ ]u = E[(u′ (X − E[X]))((X − E[X])′ u)] = E[(u′ (X − E[X]))2 ] ≥ 0.


Au passage, on a établi le résultat suivant, utile dans les applications.
Proposition 11 (Variance et matrice de dispersion)

Soit X = [X1 , . . . , Xd ]′ un vecteur aléatoire de matrice de dispersion Γ. La variable aléatoire
Z = α1 X1 + · · · + αd Xd = α′ X a pour variance :
 
α1
 . 
 
Var(Z) = α Γα = [α1 , . . . , αd ]Γ 
′ 
 . .
 . 
αd
Remarque. La matrice Γ n’est pas nécessairement définie positive. Par exemple, si X1 est une
variable aléatoire de variance 1, le vecteur X = [X1 , 1 + X1 ]′ a pour matrice de dispersion :

1 1
Γ= ,
1 1
qui est clairement de rang 1. On voit que le vecteur aléatoire X, a priori à valeurs dans R2 , ne
prend en fait ses valeurs que sur la droite d’équation y = 1 + x. Ceci est vrai de façon générale : Γ
est de rang strictement inférieur à d si et seulement si le vecteur aléatoire X ne prend ses valeurs
que dans un sous-espace affine de Rd .
Rappelons que si X est un vecteur aléatoire de dimension d, on peut définir sa fonction caracté-
ristique comme suit
(
Rd → C Pd
ΦX :
u = [u1 , . . . , ud ]′ 7→ ΦX (u) = E[eihu,Xi ] = E[ei j=1 uj Xj ]
Sans énumérer toutes les propriétés de la fonction caractéristique d’un vecteur aléatoire, disons
simplement que :
– Comme en dimension 1, elle sert à démontrer la convergence en loi d’une suite de vecteurs
aléatoires (cf. infra la version vectorielle du théorème central limite).
– Les variables aléatoires X1 , . . . , Xd sont indépendantes si et seulement si :
d
Y
∀u ∈ Rd ΦX (u) = ΦXj (uj ).
j=1
De plus, tout comme en dimension 1, une loi gaussienne multidimensionnelle est complètement
caractérisée par la fonction caractéristique, laquelle ne fait intervenir que le vecteur moyenne et la
matrice de dispersion.
Proposition 12 (Fonction caractéristique d’un vecteur gaussien)

Soit X un vecteur aléatoire de dimension d, de vecteur moyenne m et de matrice de covariance Γ,
alors X est gaussien si et seulement si sa fonction caractéristique s’écrit pour tout u ∈ Rd :
′ 1 ′
ΦX (u) = eiu m− 2 u Γu
On note alors X ∼ Nd (m, Γ).

Preuve. Supposons le vecteur X = [X1 , . . . , Xd ]′ gaussien, de moyenne m et de matrice de cova-

riance Γ. Alors la variable aléatoire :
Y = u1 X1 + · · · + ud Xd = u′ X
est gaussienne, de moyenne :
µ = u1 E[X1 ] + · · · + ud E[Xd ] = u′ m,
et de variance (cf. proposition 11) :

σ 2 = u′ Γu.
On peut alors appliquer la Proposition 7 :
σ 2 t2 ′ 1 ′ 2
ΦY (t) = eiµt− 2 = eiu mt− 2 u Γut .
Et on conclut en remarquant que :

′ ′ 1 ′
ΦX (u) = E[eiu X ] = E[eiY ] = ΦY (1) = eiu m− 2 u Γu .
Réciproquement, supposons X = [X1 , . . . , Xd ]′ vecteur aléatoire de moyenne m, de matrice de

covariance Γ et de fonction caractéristique :
′ 1 ′
ΦX (u) = eiu m− 2 u Γu
La variable aléatoire :
Y = α1 X1 + · · · + αd Xd = α′ X
a pour fonction caractéristique :
′
ΦY (t) = E[eitY ] = E[ei(tα) X ] = ΦX (tα),
c’est-à-dire :
′ 1 ′ ′ 1 ′ 2
ΦY (t) = ei(tα) m− 2 (tα) Γ(tα) = ei(α m)t− 2 (α Γα)t .
La Proposition 7 assure donc que Y est gaussienne et plus précisément :

Y ∼ N α′ m, α′ Γα .
Ainsi X est bien un vecteur aléatoire gaussien.

Les lois normales sont stables par transformation affine. Le résultat suivant, sur lequel on serait
tenté de jeter un coup d’œil distrait, est d’utilité constante dans la manipulation des vecteurs
gaussiens.
Proposition 13 (Transformation affine)

Si X est un vecteur gaussien d-dimensionnel, avec X ∼ Nd (m, Γ), si A ∈ Mk,d (R) et si B ∈
Mk,1 (R), alors le vecteur Y = AX + B est gaussien avec :
Y ∼ Nk (Am + B, AΓA′ ).

Preuve. Il suffit d’utiliser la caractérisation par la fonction caractéristique ci-dessus. On a en

effet :
∀u ∈ Rk
′ ′ ′ ′
ΦY (u) = E[eiu Y ] = E[eiu (AX+B) ] = eiu B E[ei(u A)X ],
c’est-à-dire :
′ ′ 1 ′ ′
ΦY (u) = eiu B ΦX (A′ u) = eiu (Am+B)− 2 u (AΓA )u ,
ce qui exactement dire que :
Y ∼ Nk (Am + B, AΓA′ ).

Remarque. Il arrive souvent qu’un vecteur Y soit construit à partir d’un autre vecteur X par une
transformation affine. Si X est un vecteur gaussien, par exemple lorsqu’il est composé de variables
aléatoires gaussiennes indépendantes, ce résultat permet d’en déduire automatiquement le fait que
Y est aussi un vecteur gaussien. Voir les exercices de fin de chapitre : Processus autorégressif,
Moyenne mobile.
Rappel. Soit X et Y deux variables aléatoires de carrés intégrables. On dit qu’elles sont non
corrélées si :
Cov(X, Y ) = 0,
ce qui équivaut à dire que : E[XY ] = E[X]E[Y ], ou encore que la matrice de covariance du vecteur
[X, Y ]′ est diagonale. Ceci est bien sûr toujours vrai lorsqu’elles sont indépendantes, puisqu’alors
on a plus généralement pour toutes “bonnes” fonctions f et g :
E[f (X)g(Y )] = E[f (X)]E[g(Y )].
La réciproque est fausse en général, comme le montre l’exemple suivant.
y y
y = x2
x x
Figure 2.5 – Supp(X, Y ) (à gauche) 6= Supp(X) × Supp(Y ) (à droite).
Exemple : Décorrélation ; Indépendance

Soit X ∼ N (0, 1) et Y = X 2 , donc E[Y ] = E[X 2 ] = Var(X) = 1. X et Y sont bien décorrélées
puisque E[X]E[Y ] = 0 × 1 = 0 et :
E[XY ] = E[X 3 ] = 0,

une loi gaussienne ayant tous ses moments d’ordres impairs nuls. Cependant X et Y ne sont pas
indépendantes. Ceci est clair intuitivement puisque Y est une fonction déterministe de X. On peut
aussi le justifier par l’espérance conditionnelle :
E[Y |X] = E[X 2 |X] = X 2 6= E[Y ] = 1.
Une dernière façon de le voir est de remarquer que le support du vecteur aléatoire [X, Y ]′ est la pa-
rabole y = x2 du plan et non le produit cartésien R×R+ des supports des variables (voir figure 2.5).
Dans le cas de vecteurs gaussiens, cependant, la décorrélation est équivalente à l’indépendance.
Proposition 14 (Indépendance ⇔ Décorrélation)

Soit X = [X1 , . . . , Xd ]′ un vecteur aléatoire gaussien. Les variables aléatoires (X1 , . . . , Xd ) sont
indépendantes si et seulement si elles sont non corrélées, c’est-à-dire si et seulement si la matrice
de dispersion Γ est diagonale.
Preuve. Supposons X gaussien et de composantes indépendantes. Alors ces composantes sont a

fortiori non corrélées, c’est-à-dire :
∀(i, j) ∈ {1, . . . , d}2 Cov(Xi , Xj ) = 0,
et la matrice Γ est diagonale. Ceci est d’ailleurs toujours vrai, l’aspect gaussien de X n’est pas
nécessaire.
Réciproquement, supposons X gaussien et de matrice de covariance Γ diagonale :
Γ = diag(σ12 , . . . , σd2 ).
Si on note m = [m1 , . . . , md ]′ la moyenne de X, celui-ci admet pour fonction caractéristique :

′ 1 ′
ΦX (u) = eiu m− 2 u Γu ,
qu’on peut factoriser en :

d
Y
ΦX (u) = ΦXj (uj ),
j=1
où ΦXj est tout bonnement la fonction caractéristique de Xj :

σj2 u2
j
∀j ∈ {1, . . . , d} ΦXj (uj ) = eimj uj − 2 .
Ainsi la fonction caractéristique du vecteur X = [X1 , . . . , Xd ]′ est le produit des fonctions carac-
téristiques de ses composantes Xj : c’est une caractérisation de l’indépendance des Xj .

Remarque. Pour pouvoir appliquer le critère d’indépendance ci-dessus, il faut que le vecteur soit
gaussien : le fait que les composantes le soient n’est pas suffisant. Pour s’en convaincre, il suffit
de revenir à l’exemple vu précédemment : X ∼ N (0, 1) et Y = εX, avec ε variable de Rademacher
indépendante de X. On a vu que Y suit elle aussi une loi normale centrée réduite, donc les deux
variables X et Y sont gaussiennes. De plus, puisque X et ε sont indépendantes, on a :
Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[εX 2 ] = E[ε]E[X 2 ] = 0,
la dernière égalité venant du fait que ε est centrée. Ainsi X et Y sont gaussiennes et décorrélées.
Pourtant elles ne sont pas indépendantes : il appert qu’une fois connue la réalisation de X, Y ne

peut valoir que la même chose ou l’opposé. Plus rigoureusement, on peut à nouveau le justifier par
les supports : le support du couple (X, Y ) est l’union des deux droites y = x et y = −x, tandis
que le produit cartésien des supports de X et Y est le plan R2 . Le problème, déjà constaté, vient
de ce que le vecteur [X, Y ]′ n’est pas gaussien, bien que ses composantes le soient.
Etant donné un vecteur gaussien X = [X1 , . . . , Xd ]′ de moyenne m et de matrice de covariance Γ

données, on peut toujours se ramener à un vecteur aléatoire dont les composantes sont indépen-
dantes.
Proposition 15 (Changement de repère orthonormal)

Soit X = [X1 , . . . , Xd ]′ un vecteur gaussien de moyenne m et de matrice de covariance Γ. Il existe
P orthogonale telle que P ΓP ′ = ∆ = diag(λ1 , . . . , λd ), avec les λj ≥ 0. Alors les composantes
Yj du vecteur aléatoire Y = P (X − m) sont des variables aléatoires gaussiennes indépendantes
centrées de variances respectives λj .
Preuve. Puisque Γ est symétrique réelle positive, elle est diagonalisable en base orthonormée :
Γ = P ′ ∆P , avec :
∆ = diag(λ1 , . . . , λd ),
où les λj sont les valeurs propres positives de Γ et P une matrice orthogonale. Si on considère
maintenant le nouveau vecteur aléatoire
Y = [Y1 , . . . , Yd ]′ = P (X − m) = P X − P m,
c’est encore un vecteur gaussien, en tant que transformée affine d’un vecteur gaussien (Proposition
13). Plus précisément, on sait que :
Y ∼ Nd (P m − P m, P ΓP ′ ) = Nd (0, ∆).
Ainsi le vecteur gaussien Y est centré et ses composantes sont indépendantes, puisque sa matrice
de dispersion est diagonale (Proposition 14).

Remarques :
1. La représentation de la densité de Y est bien plus simple que celle de X puisqu’on s’est
ramené à un produit de densités gaussiennes indépendantes : en dimension 2, on obtient donc
une surface en cloche plus ou moins aplatie suivant la direction (cf. exercice Changement de
base). La surface en cloche standard correspond à une loi centrée et de matrice de covariance
identité (cf. figure 2.6).
2. Si λj = 0 pour un indice j, la loi du vecteur X est dégénérée. Et on a alors Yj = 0 presque
sûrement (cf. exercice Problème de dégénérescence).
Applications.
1. Simulation : supposons qu’on ait à simuler un vecteur gaussien X = [X1 , . . . , Xd ]′ de moyenne
m et de matrice de covariance Γ données. On dispose simplement d’un générateur de variables
normales centrées réduites indépendantes√(par exemple rnorm en R). On peut écrire comme
ci-dessus Γ = P ′ ∆P = A′ A, avec A = P ′ ∆P et :
√ p p
∆ = diag λ1 , . . . , λd .
Il suffit alors de simuler d variables i.i.d. Uj ∼ N (0, 1) et de considérer : X = AU + m. Le

résultat de transformation affine et le fait que la matrice de covariance de U soit l’identité
assurent que X a les propriétés requises.

0.4
0.2
0.0
−5 −5
0 0
Y X
5 5
Figure 2.6 – Densité d’un vecteur gaussien centré de matrice de dispersion identité.
2. Composantes principales : dans les applications, on a souvent à traiter des vecteurs gaussiens
X = [X1 , . . . , Xd ]′ de très grande dimension d, mais dont les coordonnées présentent de très
fortes corrélations entre elles. Dans ce cas, après transformation comme ci-dessus, le nombre
de valeurs propres λj qui ne sont pas voisines de 0 est bien plus petit que d. Supposons que les
valeurs propres soient rangées par ordre décroissant dans ∆. On se fixe alors un seuil ε > 0 :
il y a dε valeurs propres λj > ε. On considère le nouveau vecteur aléatoire Ỹ = [Ỹ1 , . . . , Ỹd ]′
défini par
Yj si j ≤ dε
Ỹj =
0 sinon
et le vecteur X̃ = P ′ Ỹ + m associé. Les vecteurs aléatoires X̃ et Ỹ sont les versions tronquées

de X et Y . L’erreur quadratique moyenne faite en remplaçant X par X̃ est :
d
X
kX − X̃k2 = E[(X − X̃)′ (X − X̃)] = E[(Y − Ỹ )′ (Y − Ỹ )] = kY − Ỹ k2 = λj .
j=dε +1
Il suffit de comparer cette erreur à la dispersion totale de X :

d
X
2 ′
kX − mk = E[(X − m) (X − m)] = λj ,
j=1
pour avoir une idée de la qualité de l’approximation, à savoir : X̃ approche bien X si tant
est que le rapport :
Pd
j=dε +1 λj
Pd
j=1 λj
est petit. On dit alors qu’on a réduit X à ses composantes principales.

La situation agréable pour un vecteur gaussien est celle où la matrice de covariance est inversible
(i.e. définie positive). Il admet alors une densité dans Rd , que l’on peut facilement expliciter.
Proposition 16 (Densité d’un vecteur gaussien)

Si X ∼ Nd (m, Γ), avec Γ inversible, alors X admet pour densité :
1 1 ′ −1
f (x) = f (x1 , . . . , xd ) = √ e− 2 (x−m) Γ (x−m) .
(2π)d/2 det Γ
Remarque. En dimension 1, la formule exprimant la densité d’une variable gaussienne en fonction

de la moyenne m et de la variance σ 2 n’est valable que si σ 2 est strictement positive, c’est-à-dire
inversible. Il n’est donc pas étonnant qu’on retrouve la même condition en dimension supérieure.
Preuve. On utilise la transformation affine du résultat précédent : Y = P (X − m), avec :
P ΓP ′ = ∆ = diag(λ1 , . . . , λd ).
Dire que Γ est inversible équivaut à dire que les valeurs propres λj sont toutes strictement positives.
Les composantes Y1 , . . . , Yj sont indépendantes, avec Yj ∼ N (0, λj ), donc Y admet pour densité :
d d y2
Y Y 1 − j
fY (y) = fj (yj ) = p e 2λj ,
j=1 j=1
2πλj
qu’on peut encore écrire :

1 1 ′ −1 y
fY (y) = √ e− 2 y ∆ .
(2π)d/2 detΓ
Pour retrouver la densité de X, il suffit alors d’appliquer la formule de changement de variable
pour le C 1 -difféomorphisme : d
R → Rd
φ:
x 7→ y = P (x − m)
Ce qui donne :
fX (x) = fY (P (x − m)) |detJφ (x)| .
Or φ est une transformation affine, donc :
∀x ∈ Rd Jφ (x) = P,
et puisque P est orthogonale :
∀x ∈ Rd |detJφ (x)| = 1.
On en déduit la densité du vecteur X :

1 1 ′ −1 (x−m)
f (x) = √ e− 2 (x−m) Γ .
(2π)d/2 detΓ

Représentation. La figure 2.7 correspond à un vecteur gaussien [X, Y ]′ de moyenne m = [1, 2]′
et de matrice de dispersion : √
1/ 2 1√
Γ= .
1 1/ 2

0.225
−5
0.113
0.000 X
−5 5
Y0
5
Figure 2.7 – Densité d’un vecteur gaussien N2 (m, Γ).
La densité correspondante est donc :
1 √
f (x, y) = √ e−((x−1) − 2(x−1)(y−2)+(y−2) )
2 2
π 2
Si Γ n’est pas inversible, on dit que la loi de X est dégénérée. Comme mentionné plus haut, ceci
signifie que le vecteur aléatoire ne prend ses valeurs que dans un sous-espace affine de Rd (cf.
exercice Problème de dégénérescence).
Exemple. Supposons que X1 ∼ N (0, 1), et considérons le vecteur gaussien X = [X1 , 1 + X1 ]′ . Sa

matrice de dispersion est de rang 1 :
1 1
Γ= ,
1 1
On voit que le vecteur aléatoire X ne prend en fait ses valeurs que sur la droite d’équation y = 1+x,
et non dans R2 tout entier. Ce vecteur n’admet donc pas de densité par rapport à la mesure de
Lebesgue de R2 .
Enfin, on peut généraliser le théorème de la limite centrale aux vecteurs aléatoires. Le principe est
rigoureusement le même qu’en dimension 1. On dit qu’une suite (Xn )n≥0 de vecteurs aléatoires de
Rd converge en loi vers un vecteur gaussien X ∼ Nd (m, Γ) si pour tout borélien B ∈ Bd , on a :
P(Xn ∈ B) −n→+∞
→ P(X ∈ B).
−−−−
Comme en dimension 1, la convergence simple sur Rd de la suite des fonctions caractéristiques (Φn )
vers la fonction caractéristique ΦX est souvent le moyen le plus simple de montrer la convergence
en loi.

Théorème 5 (Théorème central limite)

Soit (Xn )n≥1 ∈ L2 (Ω) une suite de vecteurs aléatoires de Rd , indépendants et identiquement dis-
tribués, avec pour moyenne m = E[X1 ] et matrice de dispersion Γ = E[(X1 − m)(X1 − m)′ ]. Alors
la suite de vecteurs aléatoires ( Sn√−nm
n
), où Sn = X1 + · · · + Xn , converge en loi vers un vecteur
gaussien centré de matrice de dispersion Γ. On note :
Sn − nm L
√ −
−−−−→ Nd (0, Γ).
n n→+∞
Remarques.
– Rappelons le point remarquable du théorème central limite : quelle que soit la loi des vecteurs
aléatoires Xn , on a convergence vers une loi gaussienne. C’est-à-dire que si n est assez grand, on
a en gros :
L(Sn ) ≈ N (nm, nΓ).
– Avec les hypothèses ci-dessus, on s’intéresse à la suite (Sn ) des sommes partielles. La loi forte
des grands nombres dit que :
Sn p.s.
−−−−−→ m.
n n→+∞
C’est-a-dire qu’en première approximation, la somme de n vecteurs aléatoires i.i.d. de moyenne
m se comporte comme une suite déterministe de vecteurs : Sn ≈ nm. Question qui en découle
naturellement : quel est l’ordre de grandeur de l’erreur effectuée en remplaçant Sn par nm ?
C’est à cette question que répond le théorème central limite : l’erreur faite en remplaçant la
√
somme partielle Sn par nm est de l’ordre de n. On peut donc voir la loi des grands nombres
et le théorème central limite comme le début du développement asymptotique de la somme Sn .
– L’exercice Sauts de puce donne un exemple d’application de ce théorème.
2.2 Conditionnement des vecteurs gaussiens

2.2.1 Conditionnement pour un couple gaussien
Rappel du premier chapitre : soit (X, Y ) un couple aléatoire dont on connaît la loi jointe. Supposons
qu’on observe X = x et qu’on veuille en déduire une estimation de Y . Ceci signifie qu’on définit
une fonction de R dans R qui à tout point x associe un point u(x). Si la qualité de l’approximation
est mesurée par l’erreur quadratique moyenne, i.e. par la quantité :
E[(Y − u(X))2 ],
on a vu que le mieux à faire est de prendre pour u la fonction de régression de Y sur X, c’est-à-dire
la fonction qui à x associe E[Y |X = x]. D’après le théorème de projection, la variable aléatoire
E[Y |X] est la fonction u(X) caractérisée par la double propriété 2 :

u(X) ∈ L2 (X)
Y − u(X) ⊥ L2 (X)
avec comme en chapitre 1 :
L2 (X) = {u(X) avec u : R 7→ R borélienne telle que E[u2 (X)] < +∞}.
∆
Néanmoins, l’espérance conditionnelle n’est pas nécessairement un objet très simple à calculer ou
à estimer. C’est pourquoi, faute de mieux, on se contente parfois de chercher à approcher au mieux
2. On rappelle que dans L2 (Ω) : X ⊥ Y signifie que E[XY ] = 0.

2.2. Conditionnement des vecteurs gaussiens 79
Y par une fonction affine de X : c’est ce qu’on appelle faire de la régression linéaire. Ce qu’on perd
en qualité d’approximation, on le gagne en commodité de résolution. La droite de régression est
donnée par : f (X) = aX + b, avec
(
a = Cov(X,Y
Var(X)
)
b = E[Y ] − aE[X]
c’est-à-dire :
Cov(X, Y )
f (X) = E[Y ] + (X − E[X]).
Var(X)
Nous allons voir que, dans le cas gaussien, ce procédé est complètement légitime : la fonction de
régression est exactement la droite de régression !
Théorème 6 (Espérance conditionnelle ⇔ droite de régression)

Si [X, Y ]′ est un vecteur gaussien, alors :
Cov(X, Y )
E[Y |X] = E[Y ] + (X − E[X]).
Var(X)
Autrement dit, courbe de régression et droite de régression coïncident.
Preuve. Il suffit de prouver que la fonction u définie par :

Cov(X, Y )
u(X) = E[Y ] + (X − E[X]),
Var(X)
vérifie bien la double propriété de caractérisation de l’espérance conditionnelle. Puisque X est
gaussienne, elle est dans L2 (Ω), et par suite u(X) = aX + b est dans L2 (X). Il reste à prouver que
la variable aléatoire (Y − u(X)) est orthogonale au sous-espace L2 (X), c’est-à-dire orthogonale à
toute variable aléatoire f (X) fonction de X.
On commence par montrer que (Y − u(X)) est indépendante de X. Puisque le vecteur [X, Y ]′ est
gaussien et que :

X X 1 0 X 0 X
= = + =A + B,
Y − u(X) Y − (aX + b) −a 1 Y −b Y
le vecteur [X, Y − u(X)]′ est gaussien aussi comme transformée affine d’un vecteur gaussien, donc
montrer l’indépendance de ses composantes revient à montrer leur décorrélation. Or :
Cov(X, Y − u(X)) = Cov(X, Y ) − Cov(X, u(X)) = Cov(X, Y ) − Cov(X, aX + b),
et par définition de a, on a :
Cov(X, aX + b) = Cov(X, aX) = aVar(X) = Cov(X, Y ),
de sorte qu’on a bien Cov(X, Y − u(X)) = 0, c’est-à-dire que X et (Y − u(X)) sont indépendantes.
Mais si (Y − u(X)) est une variable aléatoire indépendante de X, elle est aussi indépendante de
toute fonction f (X) de la variable X. Par suite :
hf (X), Y − u(X)i = E[f (X)(Y − u(X))] = E[f (X)]E[Y − u(X)] = 0,
car (Y − u(X)) est centrée. Ainsi la seconde propriété de caractérisation de l’espérance condition-
nelle est vérifiée et le théorème est prouvé.


Cov(X,Y )
VarX
(X − E[X])
X − E[X]
E[Y |X]
E[Y ] 1
H = Vect(1, X)
Figure 2.8 – E[Y |X] projeté orthogonal de Y sur la base orthogonale (1, X − E[X]).
Rappel. Dans un espace de Hilbert, le projeté orthogonal de Y sur un sous-espace vectoriel

H = Vect(e1 , . . . , ed ), avec les ei orthogonaux, est :
d
X d
X
ei ei hY, ei i
πH (Y ) = Y, = ei .
kei k kei k kei k2
i=1 i=1
Interprétation géométrique. Dans le cas général, la variable aléatoire :
Cov(X, Y )
E[Y ] + (X − E[X])
Var(X)
peut se voir comme la projection orthogonale de la variable aléatoire Y sur l’espace engendré par
la variable aléatoire constante 1 (que nous appellerons Michel) et la variable aléatoire X. Notons
H = Vect(1, X) ce sous-espace vectoriel de L2 (Ω). Une famille orthogonale est formée des deux
vecteurs 1 et X − E[X]. Appliquons le rappel ci-dessus (voir aussi figure 2.8). La projection de Y
sur le premier vecteur donne :
E[Y · 1]
= E[Y ],
E[12 ]
et la projection sur le second vecteur donne :
E[Y · (X − E[X])] Cov(X, Y )

2
= .
E[(X − E[X]) ] Var(X)
Au total, on retrouve bien la droite de régression.
L’interprétation géométrique ci-dessus est toujours vraie. Dans le cas gaussien, on vient de plus de
voir que la projection orthogonale de Y sur L2 (X) est exactement la projection orthogonale sur
H = Vect(1, X).
2.2.2 Hyperplan de régression

On ne fait dans ce paragraphe aucune hypothèse de gaussianité. On suppose observer n variables
aléatoires X1 , . . . , Xn et on veut connaître la fonction affine des Xi , donc de la forme :
f (X1 , . . . , Xn ) = b + a1 X1 + · · · + an Xn ,

qui approche le mieux la variable aléatoire Y au sens des moindres carrés, c’est-à-dire telle que
l’erreur quadratique moyenne :
E[(Y − (b + a1 X1 + · · · + an Xn ))2 ]
soit minimale. Autrement dit, au lieu de chercher la droite de régression, on cherche l’hyperplan
de régression (voir figure 2.9 pour n = 2). Ceci revient à déterminer la projection πH (Y ) de Y sur
le sous-espace :
H = Vect(1, X1 , . . . , Xn ),
engendré par la constante 1 et les variables aléatoires Xi .
Hypothèses :
– Notons X = [X1 , . . . , Xn ]′ le vecteur formé des variables Xi . On suppose dans toute la suite que
la matrice de dispersion ΓX = E[(X − E[X])(X − E[X])′ ] est inversible.
– Puisqu’on parle de projections et d’erreurs quadratiques, on suppose aussi que toutes les va-
riables aléatoires sont de carrés intégrables.
y = b + a1 x 1 + a2 x 2
X2
X1
Figure 2.9 – Interprétation graphique de l’hyperplan de régression.
Théorème 7 (Hyperplan de régression)

La projection orthogonale de Y sur H est :
n
X
πH (Y ) = b + ai (Xi − E[Xi ]) = E[Y ] + ΓY,X Γ−1
X (X − E[X]),
i=1
avec :
ΓY,X = E[(Y − E[Y ])(X − E[X])′ ] = [Cov(Y, X1 ), . . . , Cov(Y, Xn )],
matrice ligne de covariance de la variable aléatoire Y et du vecteur aléatoire X.
Preuve. La projection orthogonale de Y sur H est de la forme :

n
X
πH (Y ) = b + ai Xi .
i=1

Dire que Y − πH (Y ) est orthogonal à H est équivalent à dire que Y − πH (Y ) est orthogonal à
chacun des vecteurs qui engendrent H, c’est-à-dire : 1, X1 , . . . , Xn .
L’orthogonalité à 1 donne :
* n
+ n
X X
Y −b− ai Xi , 1 = E[Y ] − b − ai E[Xi ] = 0,
i=1 i=1
c’est-à-dire :
n
X
b = E[Y ] − ai E[Xi ].
i=1
L’orthogonalité aux Xj donne les n équations :

* n
+
X
Y −b− ai Xi , Xj = 0 1 ≤ j ≤ n,
i=1

* n
+
X
Y − E[Y ] − ai (Xi − E[Xi ]), Xj =0 1 ≤ j ≤ n,
i=1
ou encore :
* n
+
X
Y − E[Y ] − ai (Xi − E[Xi ]), Xj − E[Xj ] =0 1 ≤ j ≤ n.
i=1
Avec les notations de l’énoncé, ces n équations se résument sous forme matricielle à :
ΓY,X = [a1 , . . . , an ]ΓX ,
c’est-à-dire :
[a1 , . . . , an ] = ΓY,X Γ−1
X .
En revenant à πH (Y ), ceci donne :

n
X
πH (Y ) = b + ai Xi = E[Y ] − ΓY,X Γ−1 −1
X E[X] + ΓY,X ΓX X,
i=1
c’est-à-dire :
πH (Y ) = E[Y ] + ΓY,X Γ−1
X (X − E[X]).

Remarque. En prenant X = X1 , on retrouve bien la droite de régression puisque ΓY,X =

Cov(X, Y ) et ΓX = Var(X).
Corollaire 1 (Erreur quadratique moyenne)

L’erreur quadratique moyenne dans l’approximation par l’hyperplan de régression, encore appelée
variance résiduelle ou résidu, est :
E[(Y − πH (Y ))2 ] = ΓY − ΓY,X Γ−1

X ΓX,Y ,
avec ΓY = Var(Y ) et ΓX,Y = (ΓY,X )′ .

Preuve. Il suffit de l’écrire :
E[(Y − πH (Y ))2 ] = E[((Y − E[Y ]) − ΓY,X Γ−1 2

X (X − E[X])) ],
ce qui donne une combinaison de 3 termes. Le premier est simple :
E[(Y − E[Y ])2 ] = Var(Y ).
Le deuxième l’est un peu moins :
E[(Y − E[Y ])ΓY,X Γ−1 −1 −1

X (X − E[X])] = ΓY,X ΓX E[(Y − E[Y ])(X − E[X])] = ΓY,X ΓX ΓX,Y .
Et le troisième encore moins :
E[(ΓY,X Γ−1 2 −1 −1 ′
X (X − E[X])) ] = E[(ΓY,X ΓX (X − E[X]))(ΓY,X ΓX (X − E[X])) ],
ce qui aboutit à :
E[(ΓY,X Γ−1 2 −1
X (X − E[X])) ] = ΓY,X ΓX ΓX,Y .
On remet tout bout à bout :
E[(Y − πH (Y ))2 ] = Var(Y ) − 2ΓY,X Γ−1 −1 −1

X ΓX,Y + ΓY,X ΓX ΓX,Y = Var(Y ) − ΓY,X ΓX ΓX,Y .

X1
ΓX ΓX,Y
=⇒ Γ=
Xn
Y ΓY,X ΓY
Figure 2.10 – Les sous-matrices mises en jeu dans le calcul de E[Y |X].
Les matrices de covariance ΓX , ΓY,X , ΓY,X et ΓY peuvent se voir comme des sous-matrices de la
matrice de covariance globale Γ du vecteur [X, Y ]′ = [X1 , . . . , Xn , Y ]′ . C’est ce que représente la
figure 2.10.
Remarque. On adopte dès à présent la notation ΓY pour la variance de la variable aléatoire Y

en vue de la généralisation de fin de chapitre : lorsque Y ne sera plus une variable aléatoire, mais
un vecteur aléatoire, cette formule sera encore valide.
2.2.3 Espérance conditionnelle gaussienne

On suppose maintenant le vecteur [X1 , . . . , Xn , Y ] gaussien. L’espérance conditionnelle de Y sa-
chant X = [X1 , . . . , Xn ]′ est la projection orthogonale de Y sur l’espace des fonctions u(X) =
u(X1 , . . . , Xn ), avec u : Rn → R telle que E[u2 (X)] < +∞. C’est la fonction qui minimise

E[(Y − u(X))2 ]. On a vu que pour un vecteur gaussien bidimensionnel [X, Y ]′ , la droite de ré-
gression coïncide avec la courbe de régression. Plus généralement, on montre que pour un vecteur
gaussien [X1 , . . . , Xn , Y ], l’espérance conditionnelle coïncide avec la projection sur l’hyperplan de
régression.
Théorème 8 (Espérance conditionnelle ⇔ Hyperplan de régression)

Si [X1 , . . . , Xn , Y ]′ est un vecteur gaussien, alors :
E[Y |X] = E[Y |X1 , . . . , Xn ] = E[Y ] + ΓY,X Γ−1

X (X − E[X]),
Et la variance résiduelle vaut :
σ 2 = E[(Y − E[Y |X])2 ] = ΓY − ΓY,X Γ−1

X ΓX,Y .
Preuve. On pourrait la calquer sur celle vue pour la droite de régression. On adopte ici une
autre technique, basée sur la propriété de distance minimale vérifiée par l’espérance conditionnelle.
Notons comme ci-dessus πH (Y ) la projection orthogonale de Y sur H = Vect(1, X1 , . . . , Xn ), c’est-
à-dire :
πH (Y ) = E[Y ] + ΓY,X Γ−1
X (X − E[X]).
On a bien sûr πH (Y ) de la forme u(X) ci-dessus. De plus, dire que (Y − πH (Y )) est orthogonale au
sous-espace H signifie que (Y − πH (Y )) est décorrélée des variables Xi (puisque (Y − πH (Y )) est
centrée). Mais puisque tout est gaussien, c’est exactement dire que (Y − πH (Y )) est indépendante
du vecteur X. Pour toute fonction u, on a donc :
E[(Y − u(X))2 ] = E[((Y − πH (Y )) + (πH (Y ) − u(X)))2 ],
ce qui donne :
E[(Y − u(X))2 ] = E[(Y − πH (Y ))2 ] + 2E[(Y − πH (Y ))(πH (Y ) − u(X))] + E[(πH (Y ) − u(X))2 ].
Or on vient de voir que :

E[(Y − πH (Y ))(πH (Y ) − u(X))] = 0,
et le troisième terme est positif, donc pour toute fonction u, on a
E[(Y − u(X))2 ] ≥ E[(Y − πH (Y ))2 ].

Remarque. Le terme ΓY,X Γ−1 X ΓX,Y correspond à la variance de la variable aléatoire E[Y |X] : il
est donc positif et par suite E[(Y − E[Y |X])2 ] ≤ ΓY . Ce qui est logique : il y a moins d’incertitude
sur la variable Y lorsqu’on connaît X et qu’on prend cette information en compte.
On a obtenu la décomposition orthogonale (voir figure 2.11) :
Y = E[Y |X] + W = (E[Y ] + ΓY,X Γ−1

X (X − E[X])) + W,
c’est-à-dire que W = Y − E[Y |X] est une variable aléatoire gaussienne indépendante des Xi . W
est centrée puisque E[E[Y |X]] = E[Y ] et, par le théorème de Pythagore, sa variance est la variance
résiduelle :
σ 2 = ΓY − ΓY,X Γ−1 X ΓX,Y .
En bref, on a :
W ∼ N (0, σ 2 )
W ⊥X

Y W
E[Y |X]
H = Vect(1, X1 , . . . , Xn )
Figure 2.11 – Décomposition orthogonale : Y = E[Y |X] + W .
Application. Revenons à notre problème initial : on observe une réalisation X = x = (x1 , . . . , xn )

du vecteur aléatoire X et on voudrait en déduire une idée de Y . Puisque W est indépendante
des Xi , l’observation précédente n’a aucune conséquence sur la loi de W . Par contre, l’espérance
conditionnelle de Y sachant X est désormais fixée à :
E[Y |X = x] = E[Y ] + ΓY,X Γ−1

X (x − E[X]),
qui est un réel et non plus une variable aléatoire. Mais alors la décomposition orthogonale de Y
devient :
Y = E[Y |X = x] + W
et on en déduit que, sachant X = x :
Y ∼ N (E[Y |X = x], σ 2 ).
Si on se souvient qu’initialement Y ∼ N (E[Y ], ΓY ), on voit que la nouvelle loi de Y a une moyenne

dépendant de l’observation X = x (voir figure 2.12). La variance résiduelle σ 2 est plus petite que
Var(Y ), mais ne dépend que de la covariance des deux variables X et Y , pas de l’observation x
proprement dite.
Cas particulier. Disons un mot du cas pathologique où la matrice de covariance ΓX des Xi

n’est pas inversible. Concrètement, ceci signifie que l’une au moins des composantes Xi peut
s’exprimer linéairement en fonction des autres. Si on diagonalise la matrice de covariance en base
orthonormée, i.e. ΓX = P ′ ∆P , certains termes de la diagonale sont nuls. On note ∆+ la matrice
diagonale obtenue en inversant les éléments non nuls de ∆ (voir figure 2.13), alors :
Γ+ + ′
X = P∆ P
est appelée pseudo-inverse de Moore-Penrose de ΓX (cf. cours d’algèbre linéaire). On montre alors
que tous les résultats obtenus pour l’espérance conditionnelle sont conservés en remplaçant Γ−1
X
par Γ+X . Par exemple :
E[Y |X] = E[Y ] + ΓY,X Γ+
X (X − E[X]).
Généralisation. Si on suppose que le vecteur [X, Y ]′ = [X1 , . . . , Xn , Y1 , . . . , Ym ]′ est gaussien,

toutes les formules et propriétés vues précédemment pour l’espérance conditionnelle passent sans

σ2
Var(Y )
E[Y ] E[Y |X = x]
Figure 2.12 – Loi de Y et loi de Y sachant X = x.
problème. L’espérance conditionnelle de Y sachant X est un vecteur aléatoire de taille m donné

par la formule :
E[Y |X] = E[Y ] + ΓY,X Γ+
X (X − E[X]).
C’est un vecteur gaussien, en tant que transformée affine du vecteur gaussien X, dont la moyenne
vaut E[Y ] et la matrice de covariance : ΓY,X Γ+
X ΓX,Y . Le vecteur
W = Y − E[Y |X]
est un vecteur gaussien centré de matrice de covariance : ΓY − ΓY,X Γ+
X ΓX,Y . Qui plus est, W est
indépendant de X.
1
λ1 λ1
1
λ2 λ2
∆= λr =⇒ ∆+ = 1
λr
0 0
0 0
Figure 2.13 – Matrice diagonale ∆ et sa pseudo-inverse de Moore-Penrose ∆+ .
2.3 Exercices
“Tough ain’t enough.” Clint Eastwood, Million Dollar Baby.
Exercice 2.1 (Moments d’une loi normale)
Pour tout n ∈ N, on note :
Z +∞
x2
In = xn e− 2 dx.
−∞

2.3. Exercices 87
1. Déterminer I0 et I1 .
2. Montrer que, pour tout n ∈ N, on a : In+2 = (n + 1)In .
3. Donner alors I2n+1 pour tout n ∈ N. Pouvait-on prévoir ce résultat sans calculs ?
4. Déterminer I2n pour tout n ∈ N.
5. Soit X une variable aléatoire gaussienne de moyenne 1 et de variance unité. Déterminer
E[X 4 ].
Corrigé
√
1. I0 = 2π puisqu’on reconnaît la densité d’une loi normale centrée réduite. Pour I1 , on a :
Z +∞ 2

2 +∞
− x2 − x2
I1 = xe dx = −e = 0.
−∞ −∞
2. Pour tout n ∈ N, on peut écrire :

Z +∞ Z +∞
x2 x2
In+2 = xn+2 e− 2 dx = (xn+1 )(xe− 2 ) dx,
−∞ −∞
et on effectue une intégration par parties :

2 +∞
Z +∞ x2
n+1 − x2
In+2 = −x e + (n + 1)xn e− 2 dx = (n + 1)In ,
−∞ −∞
la dernière égalité venant du fait que l’exponentielle l’emporte sur la puissance :

x2 x2
lim xn+1 e− 2 = lim xn+1 e− 2 = 0.
x→+∞ x→−∞
3. Puisque I1 = 0, on en déduit que I3 = 0, puis que I5 = 0, et de proche en proche il est

clair que I2n+1 = 0 pour tout n ∈ N. Ce résultat était d’ailleurs clair sans calculs puisqu’on
intègre une fonction impaire sur un domaine symétrique par rapport à 0.
√ √
4. Pour les indices pairs, on a I2 = 1 × I0 = 2π, puis I4 = 3 × I2 = 3 × 1 × I0 = 3 2π, et de
proche en proche :
(2n)! √
I2n = (2n − 1) × (2n − 3) × · · · × 3 × 1 × I0 = 2π.
2n n!
5. Pour déterminer E[X 4 ], il y a deux méthodes équivalentes.

– Méthode analytique : on écrit l’espérance sous forme d’intégrale :
Z +∞ 4
4 x (x−1)2
E[X ] = √ e− 2 dx,
−∞ 2π
et on effectue le changement de variable u = x − 1, ce qui donne :
Z +∞
4 (u + 1)4 − u2
E[X ] = √ e 2 du.
−∞ 2π
On utilise la formule du binôme : (u + 1)4 = u4 + 4u3 + 6u2 + 4u + 1, et on peut alors tout

exprimer en fonction des In :
1
E[X 4 ] = √ (I4 + 4I3 + 6I2 + 4I1 + I0 ) = 10.
2π

– Méthode probabiliste : l’idée est la même, puisqu’on sait que si X ∼ N (1, 1), alors Y =
X −1 ∼ N (0, 1). Donc, par les calculs faits avant, on sait que E[Y ] = E[Y 3 ] = 0, E[Y 2 ] = 1
et E[Y 4 ] = 3. Or on a : E[X 4 ] = E[(Y + 1)4 ] = E[Y 4 ] + 4E[Y 3 ] + 6E[Y 2 ] + 4E[Y ] + 1 =
3 + 6 + 1 = 10.
Exercice 2.2 (Queue de la gaussienne)

On appelle fonction de Marcum, ou queue de la gaussienne, la fonction définie pour tout réel x
par : Z +∞
1 t2
Q(x) = √ e− 2 dt.
2π x
1. Soit X une variable aléatoire qui suit une loi normale centrée réduite N (0, 1). Représenter la
densité de X, puis Q(x) sur ce même dessin. Soit F la fonction de répartition de X : donner
la relation entre F (x) et Q(x).
2. Soit x > 0 fixé. Dans l’intégrale définissant Q(x), effectuer le changement de variable t = x+u
et, tenant compte de e−ux ≤ 1, montrer qu’on a :
1 x2
Q(x) ≤ e− 2 .
2
3. Pour t ≥ x > 0, montrer que :
1
1+ t2 t
1 ≤1≤ .
1+ x2
x
4. En déduire que :
Z +∞ Z +∞
1 1 t2 1 t2
√ 1+ e− 2 dt ≤ Q(x) ≤ √ te− 2 dt.
(1 + x12 ) 2π x t2 x 2π x
t2
5. Calculer la dérivée de 1t e− 2 . En déduire que, pour tout x > 0, on a :
1 − x2
2 1 − x2
2
√ e ≤ Q(x) ≤ √ e .
(1 + x12 )x 2π x 2π
6. En déduire un équivalent de Q(x) en +∞.

7. Application : en communications
√ numériques, pour une modulation binaire, les symboles
transmis valent ± Eb , où Eb est appelée énergie moyenne par bit. Quand il transite par un
canal à bruit gaussien, le signal reçu en sortie Y est égal à la somme du symbole d’entrée et
d’une variable aléatoire indépendante B ∼ N (0, N20 ), où N0 est appelé puissance moyenne
du bruit.
√
(a) Supposons que le symbole d’entrée soit + Eb . Donner
√ la loi de Y en fonction de Eb et
N0 . Même question si le symbole d’entrée est − Eb .
(b) On reçoit y ∈ R en sortie de canal, mais on ignore ce qu’était le symbole d’entrée :
quelle règle simple proposez-vous
√ pour
√ décider si en entrée le symbole émis était a
priori équiprobablement + Eb ou − Eb ?
(c) Montrer que la probabilité d’erreur Pe faite avec cette règle de décision est :
r !
2Eb
Pe = Q .
N0
Eb
La quantité N 0
est appelée rapport signal à bruit et intervient très souvent en commu-
nications numériques (on l’exprime usuellement en décibels).

2.3. Exercices 89
Corrigé
1. Pour tout réel x, on a F (x) = 1 − Q(x).
2. Soit x > 0 fixé. Le changement de variable t = x + u et le fait que e−ux ≤ 1 pour x et u
positifs donne
Z +∞ Z +∞ Z +∞
1 − (x+u)
2
− x2
2 1 −ux − u2
2
− x2
2 1 u2
Q(x) = √ e 2 du = e · √ e e du ≤ e · √ e− 2 du
2π 0 2π 0 2π 0
et on aura reconnu la densité de la gaussienne standard
Z +∞ Z +∞
1 u2 1 1 u2 1
√ e− 2 du = √ e− 2 du =
2π 0 2 2π −∞ 2
ce qui donne bien pour tout x positif

1 x2
Q(x) ≤ e− 2 .
2
3. Pour t ≥ x > 0, on a
1 1 1 + t12
1+ ≤ 1 + ⇒ ≤1
t2 x2 1 + x12
L’inégalité de droite est encore plus évidente.
4. On en déduit alors
Z +∞ Z +∞ Z +∞
1 1 2
− t2 1 2
− t2 1 2
− t2
√ 1 + e dt ≤ √ 1 × e dt ≤ √ te dt
(1 + x12 ) 2π x t2 2π x x 2π x
5. Pour tout réel non nul t ′

1 − t2 1 t2
e 2 = − 1 + 2 e− 2
t t
Ainsi Z +∞
1 t2 1 t2 +∞ 1 x2
1+ e− 2 dt = − e− 2 = e− 2
x t2 t x x
et l’inégalité de gauche est acquise. Celle de droite est encore plus simple puisque
Z +∞ 2

2 +∞ x2
− t2 − t2
te dt = −e = e− 2
x x
Au total, on a bien montré que pour tout x > 0

1 x2 1 x2
1
√ e− 2 ≤ Q(x) ≤ √ e− 2 .
(1 + x2 )x 2π x 2π
6. Cet encadrement permet de voir que
Q(x)
x 2 −−−−→ 1
√1 e− 2 x→+∞
x 2π
d’où un équivalent très simple de Q(x) lorsque x tend vers +∞ :

1 x2
Q(x) ∼ √ e− 2
x 2π

7. Application
√ √ √
(a) Si le symbole d’entrée est + Eb (respectivement − Eb ), alors Y ∼ N (+ Eb , N20 )
√
(respectivement Y ∼ N (− Eb , N20 )). De façon générale, Y = X + B où B est le
bruit additif, supposé gaussien centré de variance N0 /2 et indépendant de X, variable
aléatoire binaire correspondant au symbole d’entrée.
√
(b) Intuitivement, on se√ dit que le symbole d’entrée était plus vraisemblablement + Eb
(respectivement − Eb ) si la sortie y est positive (respectivement négative). Cette
règle est en
√ effet la bonne si√les symboles d’entrée sont équiprobables, c’est-à-dire si
P(X = + Eb ) = P(X = + Eb ) = 1/2. Il suffit de comparer les probabilités condi-
tionnelles pour s’en convaincre. Il convient juste d’adapter la formule de Bayes et celle
des probabilités totales au cas d’un cocktail entre loi discrète et loi à densité, ce qui
donne ici : √ √
p f (y|X = + Eb )P(X = + Eb )
P(X = + Eb |y) =
f (y)
d’où
√ √
p f (y|X = + Eb )P(X = + Eb )
P(X = + Eb |y) = √ √ √ √
f (y|X = + Eb )P(X = + Eb ) + f (y|X = − Eb )P(X = − Eb )
Il reste à tenir compte du fait que les symboles d’entrée sont équiprobables et des
densités respectives de la réponse Y connaissant X pour obtenir
√
(y− E b )2
p −
e N0 1
P(X = + Eb |y) = (y−
√
E b )2 (y+
√
E b )2
= √
Eb
(2.1)
− − −4 y
e N0 +e N0 1+e N0
On en déduit automatiquement :
√
Eb
p p −4 y
e N0
P(X = − Eb |y) = 1 − P(X = + Eb |y) = √
Eb
−4 y
1+e N0
et par suite √ √
P(X = + Eb |y) 4
Eb
y
√ =e N0
P(X = − Eb |y)
de sorte que ce rapport est supérieur à 1 si et seulement si y est positif, et la règle de
décision au maximum de vraisemblance correspond bien à la règle intuititive donnée
ci-dessus.
Remarque : si les symboles d’entrée ne sont pas équiprobables, il faut
√ en tenir compte
dans la règle de décision. Supposons par exemple que P(X = + Eb ) = 3/4, alors
l’équation (2.1) devient
p 3
P(X = + Eb |y) = √
Eb
−4 y
3+e N0
et √ √
P(X = + Eb |y) 4
Eb
y
√ =3e N0
P(X = − Eb |y)
√
Ainsi on décide que le symbole d’entrée était X = + Eb si
√
4
Eb
y − ln 3 N0
3e N0
>1 ⇔ y>τ = ×√
4 Eb

2.3. Exercices 91
Ces résultats admettent une interprétation graphique très simple : les

√ points d’abscisses
√
0 et τ sont les points
√ d’intersection
√ des fonctions y →
7 f (y|X = + E b )P√(X = + Eb )
√ = − Eb )P(X = − Eb ) respectivement lorsque
et y 7→ f (y|X √ P(X = + Eb ) = 1/2 et
P(X = + Eb ) = 3/4 (voir figure 2.14 dans le cas où N0 = Eb = 1, d’où en particulier
τ = − ln 3/4 ≈ −0.27).
√ √ √
Figure
√ 2.14 – Fonctions y
√ →
7 f (y|X = + Eb )P (X = + Eb
√ ) et y →
7 f (y|X = − Eb )P(X =
− Eb ) lorsque P(X = + Eb ) = 1/2 (à gauche) et P(X = + Eb ) = 3/4 (à droite).
(c) Dans le cas où les symboles d’entrée sont équiprobables,

√ la probabilité d’erreur Pe est
égale
√ à la somme de la probabilité de décider + Eb alors que le symbole d’entrée était
− Eb et vice-versa :
p p p p
Pe = P(Y > 0|X = − Eb )P(X = − Eb ) + P(Y < 0|X = + Eb )P(X = + Eb )
et par symétrie des rôles, en notant toujours B le bruit additif :
√ ! r !
p B Eb 2Eb
Pe = P(B > Eb ) = P p >p =Q .
N0 /2 N0 /2 N0
Exercice 2.3 (Entropie d’une variable aléatoire)

Si X est une variable aléatoire réelle admettant une densité f , on appelle entropie de X la quantité
(si elle est définie) : Z +∞
h(X) = E[− ln f (X)] = − f (x) ln f (x) dx.
−∞
Grosso modo, l’entropie d’une variable aléatoire mesure le degré d’incertitude qu’on a sur l’issue
d’un tirage de cette variable aléatoire.
1. Supposons que X ∼ N (0, 1), loi normale centrée réduite. Montrer qu’elle a pour entropie :
1
h(X) = (1 + ln(2π)).
2
2. Supposons que X ∼ N (m, σ 2 ). Montrer qu’elle a pour entropie : h(X) = 12 (1 + ln(2πσ 2 )).
Ainsi, au moins pour les lois normales, l’entropie est d’autant plus grande que la variance est
grande. On va montrer dans la suite que, parmi les variables aléatoires de variance donnée,
celles qui ont la plus grande entropie sont celles qui suivent une loi normale.
3. Soit donc X1 ∼ N (0, σ 2 ), dont la densité est notée ϕ, et X2 une variable aléatoire centrée
de densité f et de variance σ 2 , c’est-à-dire que :
Z +∞
x2 f (x) dx = σ 2 .
−∞

On suppose pour simplifier que f est strictement positive sur R.

(a) Vérifier que (sous réserve d’existence des intégrales) :
Z +∞ Z +∞
ϕ(x)
h(X2 ) = f (x) ln dx − f (x) ln ϕ(x) dx.
−∞ f (x) −∞
(b) Montrer que pour tout x > 0, log x ≤ x − 1. En déduire que :

Z +∞
ϕ(x)
f (x) ln dx ≤ 0.
−∞ f (x)
(c) Montrer que : Z +∞
1
− f (x) ln ϕ(x) dx = (1 + ln(2πσ 2 )).
−∞ 2
(d) En déduire que h(X2 ) ≤ h(X1 ).
Corrigé
1. Si X ∼ N (0, 1), alors son entropie s’écrit
 
Z +∞ − x2 2
− x2 Z +∞ − x2 Z +∞ − x2
2
e 2 e ln(2π) e 2 1 e
h(X) = − √ ln  √  dx = √ dx + 2
x √ dx
−∞ 2π 2π 2 −∞ 2π 2 −∞ 2π
or
Z +∞ x2 Z − x2
2
e− 2 +∞
2e
√ dx = 1 et x √ dx = E[X 2 ] = Var(X) = 1
−∞ 2π −∞ 2π
d’où en effet
1
h(X) = (1 + ln(2π)).
2
2. Le même calcul que ci-dessus montre que si X ∼ N (m, σ 2 ), alors elle a pour entropie :
h(X) = 21 (1 + log(2πσ 2 )).
3. Soit donc X1 ∼ N (0, σ 2 ), dont la densité est notée ϕ, et X2 une variable aléatoire centrée
de densité f et de variance σ 2 , c’est-à-dire que :
Z +∞
x2 f (x) dx = σ 2 .
−∞
On suppose pour simplifier que f est strictement positive sur R.

(a) Sous réserve d’existence des intégrales, par définition de l’entropie
Z +∞ Z +∞
ϕ(x)
h(X2 ) = − f (x) ln f (x) dx = f (x) ln − ln ϕ(x) dx
−∞ −∞ f (x)
ce qui donne bien
Z +∞ Z +∞
ϕ(x)
h(X2 ) = f (x) ln dx − f (x) ln ϕ(x) dx.
−∞ f (x) −∞
(b) Pour montrer que pour tout x > 0, ln x ≤ x − 1, il suffit par exemple d’étudier la
fonction g : x 7→ x − 1 − ln x sur ]0, +∞[. Sa dérivée est g ′ (x) = 1 − 1/x, qui est négative
sur ]0, 1] et positive sur [1, +∞[. Son minimum est donc g(1) = 0, autrement dit g est
bien positive sur son domaine de définition. On en déduit que :
Z +∞ Z +∞ Z +∞ Z +∞
ϕ(x) ϕ(x)
f (x) log dx ≤ f (x) − 1 dx = ϕ(x) dx − f (x) dx
−∞ f (x) −∞ f (x) −∞ −∞
or f et ϕ étant toutes deux des densités, elles intègrent à 1 et le majorant vaut bien 0.

2.3. Exercices 93
(c) On a alors  
Z +∞ Z +∞
2
− x2
e
− f (x) ln ϕ(x) dx = − f (x) ln  √  dx
−∞ −∞ 2π
qui se calcule sans difficultés

Z +∞ Z Z
ln(2π) +∞ 1 +∞ 2
− f (x) ln ϕ(x) dx = f (x) dx + x f (x) dx
−∞ 2 −∞ 2 −∞
en ayant en tête que

Z +∞ Z +∞
f (x) dx = 1 et x2 f (x) dx = E[X22 ] = Var(X2 ) = σ 2
−∞ −∞
Au total on a bien
Z +∞
1
− f (x) log ϕ(x) dx = (1 + ln(2πσ 2 )).
−∞ 2
(d) Des trois questions précédentes et du calcul de l’entropie pour une variable gaussienne
X1 ∼ N (0, σ 2 ), on déduit que
1
h(X2 ) ≤ (1 + ln(2πσ 2 )) = h(X1 ),
2
c’est-à-dire que, à variance donnée, c’est la loi normale qui réalise le maximum de l’en-
tropie.
Exercice 2.4 (Changement de base)

Soit [X, Y ]′ un vecteur gaussien de moyenne m = [1, 2]′ et de matrice de covariance :

3 1
Γ=
1 3
1. Vérifier que Γ est bien une matrice de covariance.

2. Diagonaliser Γ en base orthonormée, c’est-à-dire écrire une décomposition : Γ = P ′ ∆P , avec
P matrice orthogonale et ∆ diagonale.
3. Représenter la fonction
(
R2 → R
f: 2
1√ − 12 ( u4 + v2 )
2
(u, v) 7→ f (u, v) = 4π 2
e
4. En déduire la représentation de la densité du vecteur aléatoire [X, Y ]′ .
Exercice 2.5 (Problème de dégénérescence)

Soit [X, Y ]′ un vecteur gaussien de moyenne m = [0, 1]′ et de matrice de covariance :

1 −2
Γ=
−2 4
1. Vérifier que Γ est bien une matrice de covariance.

2. Diagonaliser Γ.

3. Montrer que le vecteur [X, Y ]′ ne prend ses valeurs que sur une droite de R2 , c’est-à-dire
qu’il existe deux réels α et β tels que : Y = αX + β (on pourra chercher α et β tels que
Var(Y − (αX + β)) = 0). Comment le vecteur se distribue-t-il sur cette droite ?
4. Généralisation : soit X = [X1 , . . . , Xd ]′ un vecteur aléatoire, non nécessairement gaussien,
de moyenne m et de matrice de covariance Γ. Supposons Γ non inversible. Montrer que le
vecteur aléatoire X ne prend ses valeurs que dans un sous-espace affine de Rd . Quelle est,
en fonction du spectre de Γ, la dimension de ce sous-espace affine ?
5. Exemple : montrer que le vecteur aléatoire X de moyenne m = [7, 0, 1]′ et de matrice de
dispersion :  
7 2 5
Γ =  2 4 −2 
5 −2 7
appartient à un plan de R3 que l’on précisera.
Exercice 2.6 (Vecteur gaussien tridimensionnel)

Soit V = [X, Y, Z]′ un vecteur gaussien de moyenne m = [1, 0, 3]′ et de matrice de covariance :
 
4 −2 −2
Γ =  −2 4 −2 
−2 −2 6
1. Quelle est la fonction caractéristique de V ?

2. Quelles sont les lois marginales ?
3. Déterminer les lois des couples (X, Y ), (X, Z) et (Y, Z).
4. Est-ce que deux composantes de V sont indépendantes ?
5. V admet-il une densité ? Si oui, la calculer.
6. Mêmes questions avec V de moyenne m comme ci-dessus et matrice de covariance :
 
4 2 0
Γ= 2 1 0 
0 0 2
Exercice 2.7 (Exercice de maniement)

Soit U1 , U2 et U3 variables aléatoires indépendantes gaussiennes centrées de variances non nulles
égales à v1 , v2 et v3 . On considère le vecteur aléatoire [X, Y ]′ défini par :

X = U1 + U2
Y = U2 + U3
1. Quelles sont les lois de X et Y ?

2. Montrer qu’on peut trouver une combinaison linéaire non nulle de U1 , U2 et U3 qui soit
indépendante de X et de Y .
3. Donner le coefficient de corrélation linéaire ρ du couple (X, Y ), ainsi que la matrice de
dispersion Γ.
4. On note σX 2 et σ 2 les variances respectives de X et Y . Montrer que [X, Y ]′ admet une densité
Y
et la préciser en fonction de ρ, σX et σY .
5. Mêmes questions si on pose Y = U2 − U3 .

2.3. Exercices 95
Exercice 2.8 (Probabilité d’un quadrant)

On considère un vecteur gaussien centré [X, Y ]′ de matrice de dispersion :

1 ρ
Γ=
ρ 1
On suppose dans un premier temps que −1 < ρ < 1.

√
1. Diagonaliser la matrice de dispersion sous la forme Γ = P ∆P ′ . Préciser ∆−1 .
2. On veut calculer P(X ≥ 0, Y ≥ 0). Exprimer cette probabilité via une intégrale double.
3. Effectuer le changement de variables
√
u −1 ′ x
= ∆ P ,
v y
puis un changement en coordonnées polaires pour montrer que :

r
1 1+ρ
P(X ≥ 0, Y ≥ 0) = arctan .
π 1−ρ
4. En déduire l’expression équivalente :

1 1
P(X ≥ 0, Y ≥ 0) = + arcsin ρ.
4 2π
5. Vérifier que cette formule est encore valable pour ρ = ±1.
Corrigé
1. On obtient Γ = P ∆P ′ , avec :

1 1 1 1+ρ 0
P =√ ∆= .
2 1 −1 0 1−ρ
Une racine carrée de l’inverse de ∆ est donc :

" 1 #
√ √ 0
−1 1+ρ
∆ = √1
.
0 1−ρ
2. La probabilité P(X ≥ 0, Y ≥ 0) est la probabilité que le point aléatoire (X, Y ) tombe dans
le quadrant R+ × R+ , c’est-à-dire :
ZZ ZZ
1
P(X ≥ 0, Y ≥ 0) =
1 −1 ′
f (x, y) dx dy = p e− 2 [x,y]Γ [x,y] dx dy.
R+ ×R+ R+ ×R+ 2π 1 − ρ 2
On peut encore l’écrire :

ZZ 2 +y 2 −2ρxy
1 −x
P(X ≥ 0, Y ≥ 0) = p e 2(1−ρ2 ) dx dy,
R+ ×R+ 2π 1 − ρ2
mais c’est la forme matricielle de la densité qui va nous servir dans la suite.
3. Le changement de variables ϕ : (x, y) 7→ (u, v) défini par :
√ p
u −1 ′ x u = (x + y)/p2(1 + ρ)
= ∆ P ⇔
v y v = (x − y)/ 2(1 − ρ)

a pour réciproque : √ √ √
x = (u 1 + ρ + v 1 − ρ)/√2
√ √
y = (u 1 + ρ − v 1 − ρ)/ 2
donc : ZZ

P(X ≥ 0, Y ≥ 0) = f (ϕ−1 (u, v)) Jϕ−1 (u, v) du dv.
D
√
Or [x, y]′ =P ∆[u, v]′ et par ailleurs Γ −1 = P ∆−1 P ′ , donc :
1 1 −1 [x,y]′ 1 1
√ √
∆P ′ Γ−1 P ∆[u,v]′
f (x, y) = p e− 2 [x,y]Γ = p e− 2 [u,v] ,
2π 1 − ρ2 2π 1 − ρ2
et le produit matriciel se simplifie, pour donner :
1 u2 +v 2
f (x, y) = f (ϕ−1 (u, v)) = p e− 2 .
2π 1 − ρ2
Par ailleurs, l’application
√ ϕ−1 étant linéaire, son jacobien est tout simplement la matrice
Jϕ−1 (u, v) = P ∆, donc :
√ p
Jϕ−1 (u, v) = |det ∆| = 1 − ρ2 .
Enfin, pour les nouvelles coordonnées u et v, le domaine d’intérêt s’écrit :

r r
1+ρ 1+ρ
D = (u, v) ∈ R : u ≥ 0, −u
2
≤v≤u .
1−ρ 1−ρ
Finalement, on a obtenu :
ZZ
1 − u2 +v2
P(X ≥ 0, Y ≥ 0) = e 2 du dv.
D 2π
Le changement en coordonnées polaires est alors complètement naturel :
ZZ
1 − r2
P(X ≥ 0, Y ≥ 0) = e 2 r dr dθ,
D ′ 2π
avec pour domaine d’intégration (voir aussi figure 2.15) :

r r
′ 1+ρ 1+ρ
D = (r, θ) : r ≥ 0, − arctan ≤ θ ≤ arctan .
1−ρ 1−ρ
Ceci donne finalement :
r r
1 1+ρ 2 +∞ 1 1+ρ
P(X ≥ 0, Y ≥ 0) = arctan −e− r2
= arctan .
π 1−ρ 0 π 1−ρ
4. Pour vérifier qu’on a de façon équivalente P(X ≥ 0, Y ≥ 0) = 14 + 2π 1

arcsin ρ, il suffit de
montrer que : r
1 1+ρ 1 1
∀ρ ∈] − 1, 1[ arctan = + arcsin ρ.
π 1−ρ 4 2π
Ceci peut se faire en montrant tout d’abord que les deux fonctions ont même dérivée :
r ′ ′
1 1+ρ 1 1 1
arctan = p = + arcsin ρ ,
π 1−ρ 2π 1 − ρ2 4 2π
et en vérifiant ensuite que leurs valeurs en un point de l’intervalle ] − 1, 1[ coïncident, par
exemple en 0 : r
1 1+0 1 1 1
arctan = = + arcsin 0.
π 1−0 4 4 2π

2.3. Exercices 97
5. Si ρ = 1, alors Γ n’est pas inversible et on a plus précisément :

1
Var(X − Y ) = [1, −1]Γ = 0,
−1
c’est-à-dire que Y = X presque sûrement. Dans ce cas, puisqu’on sait de plus que X suit
une loi normale centrée réduite, la probabilité cherchée est très simple :
1
P(X ≥ 0, Y ≥ 0) = P(X ≥ 0) = ,
2
1 1
qui est bien égal à 4 + 2π arcsin 1. Si ρ = −1, alors on montre cette fois que Y = −X presque
sûrement, donc :
P(X ≥ 0, Y ≥ 0) = P(X ≥ 0, X ≤ 0) = P(X = 0) = 0,

1 1
qui est bien égal à 4 + 2π arcsin(−1). Donc la formule est encore vraie en ±1.
q
1+ρ
v = u 1−ρ
q
1+ρ
θ = arctan 1−ρ
u
q
1+ρ
v = −u 1−ρ
Figure 2.15 – Changement de variables en polaires.
Exercice 2.9 (Variations sur la sphère unité)

Soit [X, Y, Z]′ un vecteur gaussien centré de matrice de dispersion :
 q 
2
1 0 3
 
Γ= 0 1 √1 
 q 3 
2 √1
3 3
1
R3 , déterminer la loi de la variable aléatoire αX + βY + γZ.

1. Pour tout triplet (α, β, γ) de
2. Déterminer le noyau de Γ. Existe-t-il (α, β, γ) de R3 \{(0, 0, 0)} tel que Var(αX +βY +γZ) =
0?

3. La loi du vecteur aléatoire [X, Y, Z]′ admet-elle une densité ?

4. Entre quelles valeurs varie Var(αX + βY + γZ) = 0 lorsque (α, β, γ) décrit la sphère unité,
i.e. α2 + β 2 + γ 2 = 1 ? Indication : on pourra diagonaliser Γ.
q
5. On note U = 3 X − 23 Y et V = √13 X + √16 Y + √12 Z. Quelle est la loi du vecteur aléatoire
√1
[U, V ]′ ?
Exercice 2.10 (Processus autorégressif )

Rappel : on peut montrer qu’une suite de variables aléatoires gaussiennes Xn ∼ N (mn , σn2 )
converge en loi si et seulement si les suites (mn ) et (σn2 ) sont toutes deux convergentes. Si m
et σ 2 sont les limites respectives, alors la loi limite est la loi normale N (m, σ 2 ).
Soit (εn )n≥1 une suite de variables aléatoires i.i.d. de loi N (0, σ 2 ), avec σ 2 > 0 et θ un paramètre
réel. On considère la suite (Xn )n≥1 définie par :

X1 = ε1
Xn+1 = θXn + εn+1
1. Quelle est la loi de Xn ? Pour quelles valeurs de θ a-t-on convergence en loi ? Préciser alors
la loi limite.
2. Calculer la covariance de Xn et Xn+k .
3. Quelle est la loi du vecteur aléatoire [X1 , . . . , Xn ]′ ?
4. Exprimer la densité du vecteur [ε1 , . . . , εn ]′ . Grâce à la formule de changement de variable,
en déduire celle du vecteur [X1 , . . . , Xn ]′ .
5. Déterminer l’estimateur du maximum de vraisemblance de (θ, σ 2 ) basé sur l’observation de
l’échantillon (X1 , . . . , Xn ).
Corrigé
1. On a pour tout n ≥ 1 :
n
X
Xn = εn + θεn−1 + · · · + θ n−1 ε1 = θ n−k εk .
k=1
La variable Xn est la somme de (n − 1) variables gaussiennes indépendantes, donc elle suit

une loi normale N (mn , σn2 ), avec bien sûr mn = 0 et :
n
(
X nσ 2 si |θ| = 1
σn2 = θ 2(n−k) σ 2 = 1−θ 2n 2
1−θ 2
σ si |θ| =
6 1
k=1
D’après le rappel de l’énoncé, il y a donc convergence en loi de la suite (Xn ) si et seulement

si |θ| < 1, auquel cas on a :
L σ2
Xn −−−−−→ N 0, .
n→+∞ 1 − θ2
2. On a pour tout k ≥ 0 :
Xn+k = εn+k + θεn+k−1 + · · · + θ k−1 εn+1 + θ k Xn = Wk + θ k Xn ,
avec Wk indépendante de Xn . On en déduit la covariance entre Xn et Xn+k :

(
nθ k σ 2 si |θ| = 1
Cov(Xn , Xn+k ) = Cov(Xn , Wk + θ k Xn ) = θ k Var(Xn ) = 1−θ 2n k 2
1−θ 2
θ σ si |θ| =
6 1

2.3. Exercices 99
3. On peut écrire :    
X1 ε1
 .   . 
   
 .  = A . ,
   
 .   . 
Xn εn
avec A matrice triangulaire inférieure formée de 1 sur la diagonale, de θ sur la première
sous-diagonale, de θ 2 sur la deuxième sous-diagonale, ..., le coefficient An,1 valant θ n−1 .
Puisque [ε1 , . . . , εn ]′ est un vecteur gaussien, [X1 , . . . , Xn ]′ l’est aussi. La matrice de disper-
sion de [ε1 , . . . , εn ]′ étant égale à σ 2 In , on a :
 
X1
 . 
 
 .  ∼ N (0, σ 2 AA′ ).
 
 . 
Xn
4. Puisque ses composantes sont indépendantes, le vecteur [ε1 , . . . , εn ]′ a pour densité :
1 − 12 (ǫ21 +···+ǫ2n )
g(ǫ1 , . . . , ǫn ) = n e 2σ
2
(2πσ ) 2
et on peut appliquer la formule de changement de variable à la bijection :



 ǫ 1 = x1

ǫ2 = x2 − θx1
 ... = ...


ǫn = xn − θxn−1
La densité du vecteur [X1 , . . . , Xn ]′ est donc :

f (x1 , . . . , xn ) = g(x1 , x2 − θx1 , . . . , xn − θxn−1 ) det(A−1 ) .
Mais puisque detA = 1, il en va de même pour A−1 et :

1 − 12 (x21 +(x2 −θx1 )2 +···+(xn −θxn−1 )2 )
f (x1 , . . . , xn ) = n e 2σ .
2
(2πσ ) 2
5. On suppose donc observer un échantillon (x1 , . . . , xn ) du processus (X1 , . . . , Xn ) et on veut

en déduire une estimation au maximum de vraisemblance du couple (θ, σ 2 ). On admet que
cette solution existe et est unique. Il suffit alors pour la trouver d’écrire la log-vraisemblance
du couple (θ, σ 2 ) :
n 1
L(θ, σ 2 ) = ln f (x1 , . . . , xn ) = − ln(2πσ 2 ) − 2 (x21 + (x2 − θx1 )2 + · · · + (xn − θxn−1 )2 ),
2 2σ
dont on cherche le point critique. On obtient pour dérivées partielles :
 n−1

 ∂L 1 X
 = xk (xk+1 − θxk )
∂θ σ2
k=1


 ∂L n 1
= − 2 + 4 (x21 + (x2 − θx1 )2 + · · · + (xn − θxn−1 )2 )
∂σ 2 2σ 2σ

L’annulation de la première dérivée partielle donne l’estimateur de θ au maximum de vraisem-

blance : Pn−1
k=1 xk xk+1
θ̂ = P n−1 2 .
k=1 xk
D’où l’on déduit celui de σ 2 , via l’annulation de la seconde dérivée partielle :
X n−1
c2 = 1
σ (xk+1 − θ̂xk )2 ,
n
k=0
avec la convention x0 = 0.
Exercice 2.11 (Moyenne mobile)

Soit (εn )n≥1 une suite de variables aléatoires i.i.d. de loi N (0, σ 2 ), et θ un paramètre réel. On
considère la suite (Xn )n≥1 définie par

X1 = ε1
Xn+1 = θεn + εn+1
1. Soit X = [X1 , . . . , Xn ]′ . Pourquoi X est-il un vecteur gaussien ?

2. Déterminer la moyenne et la matrice de dispersion de X.
3. Justifier le fait que X admet une densité et la préciser.
Exercice 2.12 (Sauts de puce)

Dans le plan, une puce part de l’origine O = A0 et saute à chaque instant. De l’instant 1 à l’instant
n, ses points de chute successifs sont notés A1 , . . . , An . Chaque saut a la même amplitude unité :
Aj Aj+1 = 1 pour tout indice j. La direction de chaque saut suit une loi uniforme sur [0, 2π].
1. Soit V = [cos U, sin U ]′ un vecteur aléatoire, avec U qui suit une loi uniforme sur [0, 2π].
Déterminer espérance et matrice de covariance de V .
−−→
2. Ecrire Sn = OAn comme une somme de vecteurs aléatoires indépendants et identiquement
√
distribués. Que dire de la convergence en loi de la suite (Sn / n) ?
3. Soit maintenant [X, Y ]′ un vecteur gaussien centré de matrice de covariance identité. Consi-
dérons le vecteur aléatoire [R, Θ]′ correspondant en coordonnées polaires. Déterminer sa
densité jointe grâce à la formule de changement de variables. En déduire que R et Θ sont
indépendantes.
4. En calculant par exemple sa fonction de répartition, montrer que la variable aléatoire R2 ,
carré de la distance à l’origine, suit une loi exponentielle : R2 ∼ E( 21 ).
5. Pour notre puce, en déduire qu’au bout de n sauts le carré de sa distance à l’origine suit “à
peu près” une loi exponentielle de moyenne n.
Corrigé
Des exemples de trajectoires de la puce sont donnés figure 2.16.
1. Pour le vecteur moyenne, on a :
Z 2π
1 1
E[cos U ] = cos u du = [sin u]2π
0 = 0.
2π 0 2π
Et on trouve de la même façon E[sin U ] = 0. Ainsi V est centré :

E[cos U ] 0
E[V ] = = ,
E[sin U ] 0

2.3. Exercices 101
2.1 2 10
1.7 0 0
1.3 −2 −10
0.9 −4 −20
0.5 −6 −30
0.1 −8 −40
−0.3 −10 −50
−0.7 −12 −60

−1.8−1.4−1.0−0.6−0.2 0.2 0.6 1.0 1.4 −12 −10 −8 −6 −4 −2 0 2 4 −1 3 7 11 15 19 23 27 31
Figure 2.16 – Exemples de trajectoires de la puce pour 10, 100 et 1000 sauts.
ce qui est évident puisque la puce ne privilégie aucune direction dans ses sauts. Pour la
matrice de dispersion, on a :
Z 2π 2π
2 1 2 1 1 1
Var(cos U ) = E[cos U ] = cos u du = u + sin(2u) = .
2π 0 4π 2 0 2
De même :
1
Var(sin U ) = E[sin2 U ] = E[1 − cos2 U ] = 1 − E[cos2 U ] = 1 − Var(cos U ) = .
2
Pour la covariance entre abscisse et ordonnée :
Z 2π
1 1
Cov(cos U, sin U ) = E[cos U sin U ] = cos u sin u du = − [cos 2u]2π
0 = 0,
2π 0 4
c’est-à-dire qu’abscisse et ordonnée de V sont décorrélées (mais clairement pas indépendantes,

puisque la valeur de l’abscisse ne laisse plus le choix qu’entre deux valeurs possibles pour
l’ordonnée). Ainsi le vecteur aléatoire centré V a pour matrice de covariance :

1/2 0
Γ= .
0 1/2
2. La relation de Chasles donne la décomposition :

−−→ −−→ −−−→ −−−−−→
Sn = OAn = OA1 + A1 A2 + · · · + An−1 An = V1 + · · · + Vn ,
avec les Vk i.i.d. de même loi que le vecteur V de la question précédente. Le théorème central
limite nous apprend donc que :

Sn − nE[V ] Sn L 0 1/2 0
√ = √ −−−−−→ N (0, Γ) = N , .
n n n→+∞ 0 0 1/2

3. Le changement de variables en polaires s’écrit :

x = r cos θ
y = r sin θ
Puisque le vecteur [X, Y ]′ a pour densité :

1 − x2 +y2
f (x, y) = e 2 ,
2π
on en déduit que [R, Θ]′ a pour densité :
r − r2
g(r, θ) = e 2 1[0,+∞[ (r)1[0,2π] (θ).
2π
La densité de R est alors :
Z 2π r2
g(r) = g(r, θ) dθ = re− 2 1[0,+∞[ (r).
0
Quant à celle de Θ, on obtient :

Z +∞
2 +∞
1 1
g(θ) = g(r, θ) dr = 1[0,2π] (θ) e− r2
= 1 (θ),
0 2π 0 2π [0,2π]
c’est-à-dire que Θ suit une loi uniforme sur [0, 2π]. Ainsi on a pour tout couple (r, θ) ∈
[0, +∞[×[0, 2π] :
g(r, θ) = g(r) × g(θ),
donc les variables aléatoires R et Θ sont indépendantes.
4. Soit F la fonction de répartition de R2 . Bien sûr F (t) = 0 si t < 0, et pour tout t ≥ 0 on a :
Z √ √ t
√ t 2
F (t) = P(R2 ≤ t) = P(R ≤ − r2 t
t) = g(r) dr = e = 1 − e− 2 ,
0 0
où l’on reconnaît la fonction de répartition d’une loi exponentielle : R2 ∼ E( 12 ).

5. Notons Xn et Yn les coordonnées aléatoires du point terminal An . Le carré de la distance à
−−→
l’origine de la puce au bout de n sauts est donc OA2n = Xn2 + Yn2 , avec OAn = Sn qui suit à
peu près une loi normale N (0, nΓ). C’est encore dire que, à peu de choses près :
r r
2 2 Xn 0 1 0
Sn = ∼N , .
n n Yn 0 0 1
Mais alors d’après la question précédente on a, toujours à peu de choses près :

2 2 1
(Xn + Yn2 ) ∼ E( ),
n 2
c’est-à-dire que le carré de la distance à l’origine suit à peu près une loi exponentielle de
paramètre n1 .
Exercice 2.13 (Vecteur gaussien bidimensionnel)

On considère un vecteur gaussien [X, Y ]′ de moyenne m = [1, −1]′ et de matrice de covariance :

1 1
Γ=
1 4

2.3. Exercices 103
1. Ecrire la densité du vecteur [X, Y ]′ .

2. Quelle est la loi de X ? de Y ? de X + Y ?
3. Déterminer l’espérance conditionnelle E[X|Y ]. Quelle est sa loi ?
Corrigé
Cf. sujet de juin 2005 en annexe.
Exercice 2.14 (Conditionnement d’une variable par un couple)

Soit [X, Y, Z]′ un vecteur gaussien centré de matrice de covariance :
 
4 1 2
Γ =  1 9 −3 
2 −3 4
1. Calculer E[X|Y, Z], l’espérance conditionnelle de X sachant le couple (Y, Z).

2. Vérifier sur cet exemple que X − E[X|Y, Z] est indépendant de (Y, Z).
3. Calculer E[(X − E[X|Y, Z])2 |Y, Z].
4. Quelle est la loi de X sachant (Y, Z) ?
Corrigé
1. La formule de conditionnement pour un vecteur gaussien centré donne :
−1
−1 Y 9 −3 Y
E[X|Y, Z] = ΓX,(Y,Z) Γ(Y,Z) = [1, 2] ,
Z −3 4 Z
c’est-à-dire :
1
E[X|Y, Z] = (10Y + 21Z).
27
1
2. On a donc X −E[X|Y, Z] = X − 27 (10Y +21Z). Le vecteur [X −E[X|Y, Z], Y, Z]′ est gaussien
car obtenu par transformation linéaire d’un vecteur gaussien. Pour montrer que sa première
composante est indépendante des deux dernières, il suffit donc de vérifier que les covariances
sont nulles :

1
Cov(X − E[X|Y, Z], Y ) = E[(X − E[X|Y, Z])Y ] = E X − (10Y + 21Z) Y ,
27
c’est-à-dire en développant :
10 7 10 7
Cov(X − E[X|Y, Z], Y ) = E[XY ] − E[Y 2 ] − E[Y Z] = 1 − × 9 − × (−3) = 0.
27 9 27 9
On vérifie de la même façon que Cov(X − E[X|Y, Z], Z) = 0.
3. Première méthode (brutale, pour ceux qui ne connaissent pas leur cours) : puisque la variable
aléatoire (X −E[X|Y, Z]) est indépendante du couple (Y, Z), il en va de même pour la variable
aléatoire (X − E[X|Y, Z])2 . De ce fait, on a :
" 2 #
1
E[(X − E[X|Y, Z])2 |Y, Z] = E[(X − E[X|Y, Z])2 ] = E X − (10Y + 21Z) ,
27
et il suffit alors de développer le carré :

100 49 20 420 42
E[(X −E[X|Y, Z])2 |Y, Z] = E[X 2 ]+ 2
E[Y 2 ]+ E[Z 2 ]− E[XY ]+ 2 E[Y Z]− E[XZ],
27 81 27 27 27

ce qui donne au total :

56
E[(X − E[X|Y, Z])2 |Y, Z] = .
27
Seconde méthode (érudite, pour ceux qui connaissent leur cours) : la quantité cherchée est
exactement la variance résiduelle, ou résidu quadratique, ou résidu, donné par la formule :
−1
2 −1 9 −3 1 56
σ = ΓX − ΓX,(Y,Z) Γ(Y,Z) Γ(Y,Z),X = 4 − [1, 2] = .
−3 4 2 27
Etonnov, niet ?
4. On sait qu’on a la décomposition en somme de variables indépendantes :
1
X = E[X|Y, Z] + (X − E[X|Y, Z]) = E[X|Y, Z] + T = (10Y + 21Z) + T,
27
avec T indépendante du couple (Y, Z) et de loi N (0, σ 2 ). Donc sachant Y = y et Z = z, on
1
a simplement X = 27 (10y + 21z) + T , c’est-à-dire que :

1 56
X∼N (10y + 21z), .
27 27

Soit V = [X, Y ]′ un vecteur gaussien centré de matrice de covariance :
2

σX rσX σY
Γ= .
rσX σY σY2
1. Rappeler à quelle condition V admet une densité f (x, y) et dans ce cas donner sa formule
en fonction de σX , σY et r. On suppose cette condition vérifiée dans toute la suite.
2. Donner l’expression de l’espérance conditionnelle E[Y |X] en fonction de σX , σY et r.
3. On considère un vecteur V = [X, Y ]′ ayant pour densité :
1 − x2 − 5y2 + xy
∀(x, y) ∈ R2 f (x, y) = e 8 8 4
4π
(a) Déterminer sa matrice de covariance Γ.
(b) Sachant x = 1, quelle est la loi de Y ?
(c) Sachant x = 1, en déduire un intervalle dans lequel se situe Y avec 95% de chances.
Corrigé
Cf. corrigé du sujet de mai 2007 en annexe.
Exercice 2.16 (Covariances identiques)

Soit [X, Y, Z]′ un vecteur gaussien centré tel que les variances soient égales à 1 et les covariances
égales à 1/2.
1. Calculer E[Z|X, Y ].
2. Calculer E[Z|X + Y ]. Faire un dessin pour expliquer le lien entre ce résultat et le résultat
précédent.
3. Sachant X = x, quelle est la loi de Y ?
4. En déduire E[Y 2 |X = x], puis E[Y 2 |X].
5. Grâce à la méthode de conditionnement, calculer alors E[X 2 Y 2 ].

2.3. Exercices 105
6. Déterminer de même E[X 2 Y 4 ].

7. Généralisation : on suppose que les covariances valent a ∈] − 1/2, 1[. Vérifier qu’on définit
bien ainsi une matrice de covariance. Que deviennent les résultats précédents ?
Corrigé
1. Pour calculer E[Z|X, Y ], on applique la formule de conditionnement :
−1
X 1 1 1 1/2 X 1
E[Z|X, Y ] = ΓZ,(X,Y ) Γ−1
(X,Y ) = , = (X + Y ).
Y 2 2 1/2 1 Y 3
2. Puisque le couple (T, Z) = (X + Y, Z) est gaussien, on peut calculer E[Z|X + Y ] grâce à la

formule de régression classique :
Cov(Z, T )
E[Z|X + Y ] = E[Z|T ] = T.
Var(T )
Or :
Cov(Z, T ) = Cov(Z, X + Y ) = E[Z(X + Y )] = E[ZX] + E[ZY ] = 1,
et :
Var(T ) = Var(X + Y ) = Var(X) + 2Cov(X, Y ) + Var(Y ) = 3.
Finalement :
1
E[Z|X + Y ] = (X + Y ) = E[Z|X, Y ].
3
On pouvait s’en douter sans calculs : la valeur moyenne prise par la variable aléatoire Z
lorsqu’on connaît à la fois X et Y ne dépend que de la somme (X + Y ). De ce fait, la valeur
moyenne prise par la variable aléatoire Z lorsqu’on connaît simplement la somme (X + Y ) va
être égale à celle trouvée précédemment. Ceci vient du fait que Z a la même covariance avec
X qu’avec Y . Faire un dessin pour expliquer le lien entre ce résultat et le résultat précédent.
3. On a la décomposition orthogonale :
Y = E[Y |X] + (Y − E[Y |X]) = E[Y |X] + W,
avec :
Cov(X, Y ) X
E[Y |X] = X= ,
Var(X) 2
et la variable résiduelle W qui est indépendante de X qui suit une loi N (0, σ 2 ), avec le
résidu :
Cov(X, Y )2 3
σ 2 = Var(Y ) − = .
Var(X) 4
Ainsi, lorsque X = x, on a :
x 3
Y ∼N , .
2 4
4. Sachant X = x, on a vu que Y suit une loi normale. Or, de façon générale, lorsque V ∼
N (m, σ 2 ), on a : E[V 2 ] = m2 + s2 , donc ici :
x2 + 3
E[Y 2 |X = x] = ,
4
X 2 +3
et plus généralement : E[Y 2 |X] = 4 .

5. Par les propriétés classiques de l’espérance conditionnelle, on a alors :
1
E[X 2 Y 2 ] = E[E[X 2 Y 2 |X]] = E[X 2 E[Y 2 |X]] = E[X 4 + 3X 2 ].
4
Or X suit une loi normale centrée réduite, loi dont on connaît tous les moments, en particulier
E[X 4 ] = 3. Ainsi E[X 2 Y 2 ] = 23 .
6. On applique la même technique, mais en inversant les rôles joués par X et Y : ceci évite d’avoir
2
à calculer E[Y 4 |X]. Puisque X et Y sont interchangeables, il est clair que E[X 2 |Y ] = Y 4+3 .
Ainsi : 2
2 4 2 4 4 Y +3 1
E[X Y ] = E[E[X Y |Y ]] = E Y = E[Y 6 + 3Y 4 ].
4 4
Or le moment d’ordre 6 d’une loi normale centrée réduite vaut 15, donc E[X 2 Y 4 ] = 6.
7. Généralisation : on suppose que les covariances valent a ∈]−1/2, 1[. Vérifier qu’on définit bien
ainsi une matrice de covariance. Que deviennent les résultats précédents ? Ils se généralisent...
Exercice 2.17 (Vecteur gaussien tridimensionnel)

On considère un vecteur gaussien [X, Y, Z]′ centré et de matrice de covariance :
 
2 1 1
Γ= 1 2 1 
1 1 2
1. Donner l’espérance conditionnelle E[X|Y, Z].

2. Quelle est la loi de Z sachant X = 1 et Y = 2 ?
3. Déterminer l’espérance conditionnelle du vecteur [X, Y ]′ sachant Z, notée E[X, Y |Z].
4. Quelle est la loi du vecteur [X, Y ]′ sachant Z = 1 ?
5. On pose alors :

 U = −X + Y + Z
V =X −Y +Z

W =X +Y −Z
Pourquoi le vecteur aléatoire [U, V, W ]′ est-il gaussien ?

6. Quelles sont les lois de U , de V , de W ?
7. Déterminer la moyenne et la matrice de covariance de [U, V, W ]′ . Qu’en déduire sur la corré-
lation de U , V et W ?
Corrigé
Le corrigé de cet exercice est donné en annexe, sujet de juin 2005.
Exercice 2.18 (Variance conditionnelle)

Soit [X1 , X2 ]′ un vecteur gaussien centré de matrice de covariance :

3 −1
Γ=
−1 2
1. Déterminer l’espérance conditionnelle E[X1 |X2 ].

2.3. Exercices 107
2. Si [X, Y ]′ est un vecteur aléatoire (non nécessairement gaussien), avec Y de carré intégrable,
on définit la variance conditionnelle de Y sachant X, notée Var[Y |X], comme la variable
aléatoire :
Var[Y |X] = E[(Y − E[Y |X])2 |X].
Montrer que dans notre situation, on a :
Var[X1 |X2 ] = E[X12 ] − E[(E[X1 |X2 ])2 ].
3. En déduire la variance conditionnelle Var[X1 |X2 ].

4. Vérifier que : Var[X1 |X2 = 0] 6= E[(X1 − E[X1 |X2 = 0])2 ].
Exercice 2.19 (Un été 2006)

On considère un vecteur gaussien V = [X, Y, Z]T de moyenne m = [1, −1, 1]′ et de matrice de
covariance :  
1 1 1
Γ= 1 2 2 
1 2 3
1. Quelle est la loi du vecteur [X, Y ]′ ? Donner sa densité.
2. Déterminer l’équation de la droite de régression de Y en X. Préciser le résidu quadratique.
3. Donner une variable aléatoire U = αX + βY + γ qui soit indépendante de X.
4. Quelle est la fonction caractéristique du vecteur V ?
5. Donner l’expression de E[Z|X, Y ], espérance conditionnelle de Z sachant (X, Y ) ?
6. En déduire une variable aléatoire T = aX + bY + cZ + d qui soit indépendante de X et Y .
Préciser la variance de T .
7. On observe Y = 1 et Z = 2. Quelle est la loi de la variable aléatoire X sachant ces données ?
Corrigé
Cf. sujet de juin 2006 en annexe.
Exercice 2.20 (Statistique bayésienne)

Soit (X, M ) un couple aléatoire dont la loi jointe est telle que : M suit une loi normale N (0, τ 2 ).
Sachant M = m, X suit une loi normale N (m, σ 2 ).
1. Calculer E[X|M ].
2. Montrer que la densité conditionnelle de M sachant X = x peut s’écrire :
(x−m)2 m2
e− 2σ2 e− 2θ2
f (m|x) = cx √ √ ,
2πσ 2 2πθ 2
où cx est une constante ne dépendant que de x.
σ2 σ2 θ2
3. En déduire que, sachant X = x, M ∼ N ( σ02 x, σ02 ), avec σ02 = σ2 +θ 2
.
4. Comparer σ02 à σ 2 . Calculer E[M |X].
5. Par la même méthode que ci-dessus, montrer que X ∼ N (0, σ 2 + θ 2 ).
6. Via le calcul de la densité jointe, montrer que (X, M ) est un vecteur aléatoire gaussien, dont
on précisera moyenne et matrice de dispersion.
Corrigé succinct

1. D’après l’énoncé, on a : E[X|M = m] = m, donc de façon générale E[X|M ] = M .

2. On cherche à déterminer la densité conditionnelle f (m|x). La formule de Bayes donne :
f (m, x) f (x|m)f (m)

f (m|x) = = .
f (x) f (x)
Or x est fixé, donc on peut considérer f (x) comme une constante cx . La connaissance des
densités du numérateur permet d’écrire :
(x−m)2 m2
e− 2σ2 e− 2θ2
f (m|x) = cx √ √ .
2πσ 2 2πθ 2
σ2
3. Après calculs, on trouve que ceci est la densité d’une variable aléatoire gaussienne N ( σ02 x, σ02 ),
avec :
σ2θ2
σ02 = 2 ≤ σ2.
σ + θ2
4. On a :
σ2
σ02 = θ2
≤ σ2 .
1+ σ2
σ02
Pour tout x, on a donc : E[M |X = x] = σ2
x. On en déduit que :
σ02
E[M |X] = X.
σ2
5. On cherche la densité f de X. Le même type de calcul que précédemment montre que X suit
une loi gaussienne N (0, σ 2 + θ 2 ).
6. On cherche la densité fX,M du couple (X, M ). On trouve que c’est une densité gaussienne
de moyenne (0, 0) et de matrice de covariance Γ, avec :
2
σ + θ2 θ2
Γ= .
θ2 θ2
Exercice 2.21 (Espérance conditionnelle et indépendance)

On considère trois variables aléatoires U , V et W indépendantes et suivant la même loi normale
centrée réduite N (0, 1).
1. On définit le vecteur aléatoire [X1 , X2 , X3 ]′ comme suit :

 X1 = U
X2 = U + V

X3 = U + V + W
(a) Quelle est la loi du vecteur [X1 , X2 , X3 ]′ ?

(b) Déterminer E[X3 |X1 , X2 ]. Comparer à E[X3 |X2 ].
(c) Expliquer le résultat de la question précédente par un dessin.
(d) Soit [X, Y, Z] un vecteur aléatoire. Commenter l’affirmation :
E[Z|X, Y ] = E[Z|Y ] ⇒ Z est indépendante de X.

2.3. Exercices 109
2. On définit cette fois le vecteur aléatoire [X1 , X2 , X3 ]′ comme suit :


 X1 = U
X =U +V
 2
X3 = V

Z est indépendante de X ⇒ E[Z|X, Y ] = E[Z|Y ].
Corrigé
Cet exercice est corrigé en annexe, sujet de mai 2007.
Exercice 2.22 (Régression linéaire vs. Espérance conditionnelle)

 
1 0.4 0.8
Γ =  0.4 1 0.6 
0.8 0.6 1
1. Quelle est la loi du vecteur [Y, Z]′ sachant X = x ?

2. Déterminer la variable aléatoire E[Z|X, Y ] et la loi de Z sachant (X, Y ) = (x, y).
3. Etablir qu’il existe une variable aléatoire U combinaison linéaire de X et Z qui n’est pas
corrélée avec Z.
4. Que dire de E[U Z 2 ] ? En déduire que E[XZ 2 ] = 0.
5. Prouver de même que E[Y Z 2 ] = 0.
6. Soit T = 3X + 5Y + 2Z. Quelle est la régression linéaire T̂ de T sur (X, Y ) ? Quel est l’écart
quadratique entre T̂ et T , c’est-à-dire E[(T − T̂ )2 ] ?
7. Quelle est l’espérance conditionnelle T̃ = E[T |X, Y ] ? Ecart quadratique entre T̃ et T ?
8. Soit S = 3X+5Y +2Z 2 . Quelle est la régression linéaire Ŝ de S sur (X, Y ) ? Ecart quadratique
entre Ŝ et S ?
9. Quelle est l’espérance conditionnelle S̃ = E[S|X, Y ] ? Ecart quadratique entre S̃ et S ?
10. Comparer les écarts quadratiques des deux questions précédentes.
Exercice 2.23 (Un hiver 2001)

Soit [X1 , X2 , X3 ]′ un vecteur gaussien centré de matrice de covariance :
 
1 0 −1
Γ= 0 3 0 
−1 0 5
1. Quelle est la loi du vecteur aléatoire [X1 , X3 ]′ sachant X2 = 1 ?

2. Trouver les variables aléatoires E[X2 |X1 , X3 ] et E[X1 |X2 , X3 ].
3. Quelle est la loi de X1 conditionnée par X2 = 7 et X3 = 11 ?

4. Déterminer E[X12 |X2 , X3 ] et vérifier que E[X12 |X2 , X3 ] = E[X12 |X3 ].

5. Soit Y = 3X1 + 2X2 + X3 . Que vaut E[Y |X2 , X3 ] ? Quel est l’écart quadratique entre Y et
E[Y |X2 , X3 ], c’est-à-dire E[(Y − E[Y |X2 , X3 ])2 ] ?
6. Mêmes questions avec Z = 3X12 + 2X2 + X3 .
Exercice 2.24 (Un hiver 2002)

 
4 −1 −2
Γ =  −1 3 3 
−2 3 4
1. Déterminer f (Y, Z) = E[X|Y, Z].
2. Calculer E[(X − f (Y, Z))2 |Y, Z] et E[X 2 |Y, Z].
3. Quelle est la loi conditionnelle de X sachant (Y, Z) = (y, z).
4. Déterminer E[3X + Y Z|Y, Z], E[Y X 2 − exp(Z)|Y, Z], E[X/(1 + Y 2 )|Y, Z], ainsi que E[(X +
Y )3 |Y, Z].
5. Déterminer E[Y |Z] et E[Z|Y ]. En déduire E[XY Z].
6. Déterminer E[Z 2 |Y ]. En déduire E[XY Z 2 ].
Exercice 2.25 (Un printemps 2008)

Soit X = [X1 , X2 , X3 ]′ un vecteur gaussien centré et de matrice de covariance :
 
4 1 −1
Γ= 1 2 0 .
−1 0 1
1. Quelles sont les lois marginales de X ?
2. Certaines composantes de X sont-elles indépendantes deux à deux ? Si oui, lesquelles ?
Certaines composantes de X sont-elles orthogonales deux à deux ? Si oui, lesquelles ?
3. Quelle est la loi de (X1 , X2 ) ?
4. Sans calcul, déterminer E[X2 |X3 ] et E[(X2 − E[X2 |X3 ])2 ].
5. Calculer E[X1 |X3 ] et E[(X1 − E[X1 |X3 ])2 ].
6. Calculer E[X1 |X2 , X3 ] et E[(X1 − E[X1 |X2 , X3 ])2 ].
7. Quelle est la loi de X1 sachant (X2 = x2 , X3 = x3 ) ?
8. On pose S = E[X12 |X2 , X3 ] et Ŝ le résultat de la régression linéaire de X12 sur (X2 , X3 ).
Justifier que E[(X12 − S)2 ] ≤ E[(X12 − Ŝ)2 ].
Corrigé
Cete exercice est corrigé en annexe, sujet de mai 2008.
Exercice 2.26 (Observations bruitées)

On considère une variable aléatoire X ∼ N (0, σ 2 ), de variance σ 2 connue. On dispose pour X de
n observations Y1 , . . . , Yn bruitées, c’est-à-dire que :
∀i ∈ {1, . . . , n} Yi = X + εi .
Les variables aléatoires εi sont indépendantes, identiquement distribuées suivant une loi N (0, τ 2 ),
et indépendantes de X. On suppose de plus la variance τ 2 du bruit d’observation connue. On veut
déduire de Y1 , . . . , Yn une estimation de X.

2.3. Exercices 111
1. Expliquer pourquoi le vecteur [X, Y ]′ = [X, Y1 , . . . , Yn ]′ est gaussien.

2. Calculer Cov(X, Yi ), Var(Yi ) et Cov(Yi , Yj ).
3. Déterminer la matrice de covariance ΓY de [Y1 , . . . , Yn ]′ . Déterminer son inverse (on pourra :
soit inverser un système linéaire ; soit la chercher sous la même forme que ΓY , c’est-à-dire
termes diagonaux égaux, termes hors-diagonal égaux).
4. On note X̂n = E[X|Y ] l’estimateur des moindres carrés de X sachant Y . Déduire des ques-
tions précédentes que :
σ2
X̂n = (Y1 + · · · + Yn ).
nσ 2 + τ 2
5. Déterminer la variance résiduelle
σn2 = E[(X − X̂n )2 ].
La comparer à la variance initiale σ 2 de la variable aléatoire X.

6. En déduire que :
L2
X̂n −−−−−→ X.
n→+∞
7. Supposons X = x fixé. On dispose donc des observations Y1 , . . . , Yn , avec Yi = x + εi . Quelle

est la loi de X̂n sachant X = x ?
8. Justifier le fait que :
p.s.
X̂n −
−−−−
→ x.
n→+∞
“Vous savez, les gens normaux n’ont rien d’exceptionnel...”

Jackie Berroyer, dans un film de Laurence Ferreira-Barbosa (1993).

Chapitre 3
Chaînes de Markov
Introduction
Un modèle dynamique pour lequel le futur dépend de l’état présent et du hasard est appelé une
chaîne de Markov : c’est un modèle simple pour représenter un phénomène aléatoire évoluant au
cours du temps. Il est néanmoins efficace dans de nombreuses applications : sciences de la vie
(génétique, modèles d’épidémie), finance (les cours de la bourse), théorie du signal (problèmes de
filtrage, de prédiction), traitement d’image, traitement de la parole, informatique (files d’attente
dans les réseaux), etc. On se contente ici d’étudier les chaînes de Markov en temps discret et
à espace d’états fini. Le cours est en grande partie tiré du chapitre 1 du livre de Rick Durrett,
Essentials of Stochastic Processes [3].
3.1 Définition d’une chaîne de Markov

Soit (Xn )n≥0 une suite de variables aléatoires à valeurs dans un ensemble E supposé fini, typique-
ment E = {1, 2, . . . , M }. E est appelé l’espace d’états.
Définition 15 (Chaîne de Markov)

(Xn )n≥0 est une chaîne de Markov si pour tout n ≥ 1 et toute suite (i0 , i1 , . . . , in−1 , i, j) de E, on
a l’égalité suivante :
P(Xn+1 = j|X0 = i0 , . . . , Xn−1 = in−1 , Xn = i) = P(Xn+1 = j|Xn = i).

Remarque. Ceci suppose bien sûr que le membre de gauche a un sens, c’est-à-dire que :
P(X0 = i0 , . . . , Xn−1 = in−1 , Xn = i) > 0.

Autrement dit, sachant le présent, le futur est indépendant du passé. Ou encore : étant donné
l’état présent, toute information sur le passé est inutile pour prévoir l’état futur. A priori, rien
ne dit que la probabilité précédente est indépendante de l’instant n. C’est pourtant une situation
fréquente et c’est l’hypothèse, dite d’homogénéité, que nous faisons désormais.
Définition 16 (Homogénéité)
Une chaîne de Markov est dite homogène dans le temps si la probabilité précédente ne dépend pas
de n. On appelle alors probabilité de transition de l’état i vers l’état j la quantité :
pij = P(Xn+1 = j|Xn = i) = P(X1 = j|X0 = i).
On appelle matrice de transition de la chaîne la matrice P = [pij ]1≤i,j≤M de taille M × M .
113
114 Chapitre 3. Chaînes de Markov
La connaissance de la loi initiale, c’est-à-dire des P(X0 = i) pour tout i ∈ {1, . . . , M }, et des proba-
bilités de transition permet d’écrire très simplement la loi jointe du vecteur aléatoire (X0 , . . . , Xn ),
puisque :
P(X0 = i0 , X1 = i1 , . . . , Xn = in ) = P(X0 = i0 )P(X1 = i1 |X0 = i0 )...P(Xn = in |Xn−1 = in−1 )

= P(X0 = i0 )pi0 i1 . . . pin−1 in
On peut énoncer quelques résultats très simples sur les matrices de transition.
Propriétés 8 (Matrice de transition)

Toute matrice de transition vérifie les propriétés suivantes.
– Encadrement des coefficients :
∀(i, j) ∈ {1, . . . , M }2 , 0 ≤ pij ≤ 1.
– Somme par ligne : pour tout i ∈ {1, . . . , M }, on a :

M
X
pij = 1.
j=1
– Spectre : P admet la valeur propre 1, le vecteur e = [1, . . . , 1]′ étant un vecteur propre associé.
Preuve. Soit P = [pij ]1≤i,j≤M une matrice de transition.

– Pour tout couple (i, j), la quantité pi,j est une probabilité, donc elle est bien comprise entre 0
et 1.
– Pour tout indice i ∈ {1, . . . , M } :
M
X 1
M
X P(Xn+1 ∈ {1, . . . , M }, Xn = i)
pij = P(Xn+1 = j, Xn = i) = ,
j=1
P(Xn = i) j=1 P(Xn = i)
c’est-à-dire :
M
X P(Xn = i)
pij = = 1.
j=1
P(Xn = i)
– En notant e = [1, . . . , 1]′ , on a donc :
 PM   
j=1 p1j 1
   
 .   . 
    = e,
Pe =  . = . 
   
 .  .
PM
j=1 pM j
1
donc e est un vecteur propre pour la valeur propre 1.

On appelle encore matrice stochastique, ou matrice markovienne, toute matrice vérifiant les deux
premières propriétés (elle vérifie alors aussi la dernière).
Remarque. Le sous-espace propre associé à la valeur propre 1 n’est pas nécessairement de di-
mension égale à 1. Pour preuve l’exemple trivial de la matrice identité : noter que cet exemple

3.2. Equations de Chapman-Kolmogorov 115
correspondrait à une chaîne qui ne change jamais d’état, il ne présente donc pas un grand intérêt....
Exemple moins trivial, prendre pour matrice de transition :
 
0 1 0 0
 1 0 0 0 
P =  0 0 0 1 .

0 0 1 0
C’est bien une matrice de transition donc e est vecteur propre pour la valeur propre 1. Mais on
voit que le vecteur v = [1, 1, 0, 0]′ est un autre vecteur propre associé à 1. Noter que cette chaîne
a elle aussi un comportement déterministe : si on connaît l’état à un instant, on le connaît à tous
les instants suivants.
A toute chaîne de Markov peut être associé un graphe de transition de la façon suivante : les
sommets du graphe sont les états 1, . . . , M de la chaîne et il existe un arc, étiqueté pij , de i vers
j si pij > 0. Cette construction est commode lorsque la matrice P est très creuse. Autrement dit
lorsque d’un état on ne peut transiter que vers un petit nombre d’états.
1
2
1 2
2 0 1 3
1
3
Figure 3.1 – Graphe de transition de la ligne téléphonique.
Exemple : la ligne téléphonique

On considère une ligne de téléphone. L’état Xn de cette ligne à l’étape n est 0 si elle est libre et 1
si elle occupée. Entre deux instants successifs, il y a une probabilité 1/2 pour qu’un appel arrive.
Si la ligne est occupée et qu’un appel arrive, cet appel est perdu. La probabilité pour que la ligne
se libère entre l’instant n et l’instant (n + 1) est 1/3. Le graphe de transition de cette chaîne de
Markov est donné figure 3.1. La matrice de transition est la suivante :

1/2 1/2
P = .
1/3 2/3
3.2 Equations de Chapman-Kolmogorov

Les probabilités de transition en n étapes sont en fait complètement déterminées par les probabi-
lités de transition en un coup, c’est-à-dire par la matrice de transition. Ceci est explicité par les
équations de Chapman-Kolmogorov, que nous allons voir maintenant.
Notation. La probabilité d’aller de l’état i à l’état j en n coups est notée :
pij = P(Xn = j|X0 = i),

(n)
et la matrice de transition en n coups est notée :

h i
(n)
P (n) = pij .
1≤i,j≤M

On adopte aussi la convention P (0) = IM , matrice identité de taille M .
Proposition 17 (Equations de Chapman-Kolmogorov)

Pour tout n ≥ 0, la matrice de transition en n coups est la puissance nème de la matrice de
transition de la chaîne, c’est-à-dire :
P (n) = P n .
Preuve. Par récurrence sur n. P (0) = IM = P 0 . Pour n ≥ 0, on suppose que P (n) = P n et on

veut montrer que P (n+1) = P n+1 , c’est-à-dire que :
(n+1)
∀ 1 ≤ i, j ≤ M pij = (P n+1 )(i, j).
Or on écrit :
P
= P(Xn+1 = j|X0 = i) = Mk=1 P(Xn+1 = j, Xn = k|X0 = i)
(n+1)
pij
PM
= k=1 P(Xn+1 = j|Xn = k, X0 = i) · P(Xn = k|X0 = i),
mais par la propriété de Markov, on a :
P(Xn+1 = j|Xn = k, X0 = i) = P(Xn+1 = j|Xn = k),

donc : PM
pij
(n+1)
= k=1 P(Xn+1 = j|Xn = k) · P(Xn = k|X0 = i)
PM (n)
= k=1 pik · pkj ,
ce qui exactement dire que d’un point de vue matriciel :
P (n+1) = P (n) · P.
Or par hypothèse, on sait que P (n) = P n , donc la récurrence passe.

Remarque. On en déduit que pour tout couple d’entiers naturels (m, n) :
P (m+n) = P m+n = P m · P n = P (m) · P (n) .
C’est plutôt cette équation qu’on appelle relation de Chapman-Kolmogorov. Ce qu’on traduit
comme suit : aller de i à j en (m + n) pas, c’est aller de i à un certain k en m pas et de k à j en
n pas.
Notation. Tout comme les transitions de la chaîne, la position initiale X0 peut être aléatoire. On
convient de noter la loi de X0 comme un vecteur ligne de taille M :
µ = [µ1 , . . . , µM ] = [P(X0 = 1), . . . , P(X0 = M )] .
De même, on notera en vecteur ligne la loi de Xn :
P(Xn ) = [P(Xn = 1), . . . , P(Xn = M )] .

Corollaire 2 (Loi marginale de la chaîne)
Soit (Xn ) une chaîne de Markov de loi initiale µ et de matrice de transition P , alors pour tout
entier naturel n, la loi de Xn est :
P(Xn ) = µP n .

3.2. Equations de Chapman-Kolmogorov 117
Preuve. Pour tout j ∈ {1, . . . , M }, on a :

M
X M
X
P(Xn = j) = P(Xn = j, X0 = i) = P(X0 = i) · P(Xn = j|X0 = i),
i=1 i=1
donc avec les notations adoptées :

M
X M
X
P(Xn = j) = (n)
µi Pij = µi Pijn ,
i=1 i=1
c’est-à-dire : P(Xn ) = µP n .

Rappel. Pour une suite de variables aléatoires (Xn )n≥0 à valeurs dans un ensemble fini E =
{1, . . . , M }, la loi de Xn est simplement le vecteur ligne P(Xn ) = [P(Xn = 1), . . . , P(Xn = M )].
La convergence en loi correspond donc simplement à la convergence de ce vecteur de taille M ,
c’est-à-dire à la convergence de chacune de ses M composantes. Puisque P(Xn ) = µP n , une condi-
tion suffisante pour la convergence en loi de (Xn ) est donc la convergence de la suite (P n )n≥0 des
puissances de la matrice P .
Exemple : La ligne téléphonique

On note encore µ = [µ0 , µ1 ] la loi initiale, probabilités que la ligne soit initialement libre ou
occupée. La matrice de transition est :

1/2 1/2
P = .
1/3 2/3
Pour étudier les puissances successives de P , l’idée naturelle est de la diagonaliser. On obtient pour
valeurs propres 1 (on le savait déjà) et 1/6, vecteurs propres associés [1, 1]′ et [−1/2, 1/3]′ . On en
déduit la matrice de passage :
1 −1/2
Q= ,
1 1/3
ainsi que son inverse :
−1 2/5 3/5
Q = .
−6/5 6/5
En notant ∆ la matrice diagonale de coefficients 1 et 1/6, on a donc :

n 1 0
∆ −−−→ ∆∞ = ,
n→∞ 0 0
d’où on déduit :
n 2/5 3/5
P −−−→ P∞ = .
n→∞ 2/5 3/5
Ainsi, quelle que soit la loi initiale µ, on a convergence en loi :

2 3
P(Xn ) = µP −n→∞
n
−−→ µ∞ = , .
5 5
Interprétation : au bout d’un certain temps (histoire d’oublier la condition initiale), on regarde
l’état de la ligne. Il y a deux chances sur cinq pour qu’elle soit libre et trois chances sur cinq pour
qu’elle soit occupée.
Remarques.

1−α 0 1 1−β
Figure 3.2 – Graphe de transition pour une chaîne à deux états.
1. Une autre méthode pour étudier les puissances de P sur cet exemple très simple est de noter
que P = I − A, avec A2 = 65 A, et d’appliquer la formule du binôme.
2. On peut généraliser le résultat précédent (voir figure 3.2). Si on considère la matrice de
transition :
1−α α
P = ,
β 1−β
avec 0 < α + β < 2, on a :
" #
β α
P n −−−→ P∞ = α+β
β
α+β
α .
n→∞
α+β α+β
En particulier, hquelle quei soit loi initiale µ, on a convergence en loi de (Xn ) vers le vecteur
β α
de probabilité α+β , α+β .
3. Si on se place dans le cas particulier α = β = 1, on n’a pas convergence de la suite des
puissances de la matrice de transition P , puisque pour tout n ≥ 0 :

P 2n = I2
P 2n+1 = P
Et, à part dans le cas particulier où µ = [1/2, 1/2], on n’a pas convergence en loi de (Xn ).
Ceci vient du phénomène de périodicité de la chaîne, nous y reviendrons plus tard.
Il est important de voir dès maintenant que, même lorsque la suite (P n ) converge, la convergence
de la loi de Xn vers une loi indépendante de la condition initiale n’est pas vraie pour toutes les
chaînes de Markov.
0 1 2 3 4
Figure 3.3 – Graphe de transition de la ruine du joueur.
Exemple : la ruine du joueur

A joue contre B une suite de pile ou face non biaisés et indépendants. La somme de leurs fortunes
est de 4e. A chaque partie, le joueur qui gagne reçoit 1e. Le jeu s’arrête lorsque l’un des deux
joueurs est ruiné. L’état Xn de la chaîne est la fortune de A à l’étape n, donc Xn ∈ {0, 1, 2, 3, 4}.
Son graphe de transition est représenté figure 3.3 et la matrice de transition est :
 
1 0 0 0 0
 1/2 0 1/2 0 0 
 

P =  0 1/2 0 1/2 0  .
 0 0 1/2 0 1/2 
0 0 0 0 1

3.3. Classification des états 119
On vérifie que :  
1 0 0 0 0
 3/4 0 0 0 1/4 
 
n
P −−−→ P∞ =
 1/2 0 0 0 1/2 
.
n→∞
 1/4 0 0 0 3/4 
0 0 0 0 1
Et on voit que si la loi initiale est µ = [µ0 , . . . , µ4 ], alors la loi asymptotique est :

3 1 1 1 1 3
µ∞ = µ0 + µ1 + µ2 + µ3 , 0, 0, 0, µ1 + µ2 + µ3 + µ4 .
4 2 4 4 2 4
Au final, l’un des deux joueurs sera ruiné, et ce avec une probabilité qui dépend de la répartition
initiale des 4e. Par exemple si A part avec 1e, alors il a trois chances sur quatre de finir ruiné,
tandis que s’il part avec 2e, il n’a qu’une chance sur deux de finir ruiné. Le graphe de transition
pour P∞ est donné figure 3.4. Le problème ici vient de l’existence de plusieurs classes de récurrence,
sujet sur lequel nous reviendrons par la suite.
1/4
1/2
0 1 2 3/4 4
3
Figure 3.4 – Transitions en temps infini pour la ruine du joueur.
Définition 17 (Etat absorbant)

On appelle état absorbant tout état tel que : une fois dans cet état, la chaîne y reste. Autrement
dit, l’état i est absorbant si pii = 1.
Exemple. Dans le modèle de la ruine du joueur, les états 0 et 4 sont absorbants.
3.3 Classification des états

Beaucoup de chaînes ont la propriété suivante : d’une part, la loi de Xn tend vers une limite ;
d’autre part, celle-ci est indépendante de la loi initiale µ. C’est par exemple le cas pour la ligne
téléphonique, mais pas pour la ruine du joueur. On dit qu’elles sont ergodiques. Pour pouvoir les
caractériser, il faut commencer par différencier les états que la chaîne peut visiter une infinité de
fois (dits récurrents) de ceux qui ne peuvent l’être qu’un nombre fini de fois (dits transitoires).
Définition 18 (Etats communicants)

On dit que i communique avec j et on note i → j s’il existe une suite d’indices i0 = i, i1 , . . . , in = j
telle que :
∀k ∈ {0, . . . , n − 1} pik ,ik+1 > 0.
Autrement dit, sur le graphe de transition, on peut aller de i à j en un certain nombre d’étapes.
Remarques.
– i → j ssi il existe n > 0 tel que : (P n )ij = P(Xn = j|X0 = i) > 0.
– La communication entre états est une relation transitive : si i → j et j → k, alors i → k.
– Si i ne communique pas avec j, on note i 9 j.

Supposons que la chaîne soit initialement dans l’état i et notons :
Ti = min{n ≥ 1 : Xn = i},
l’instant de premier retour dans cet état. Ti est une variable aléatoire à valeurs dans N∗ ∪ {+∞},
car il se peut qu’on ne revienne jamais, auquel cas Ti = +∞. On introduit donc :
ri = P(Ti < +∞|X0 = i).
Définition 19 (Etats transitoires, états récurrents)

Avec les notations précédentes, on dit que l’état i est :
– transitoire si ri < 1 ;
– récurrent si ri = 1.
Problème de cette définition : en général, on ne sait pas calculer ri . Heureusement, il y a une fa-
çon commode de reconnaître un état transitoire sur le graphe de transition d’une chaîne de Markov.
Proposition 18 (Transience et communication)

Soit i ∈ {1, . . . , M }. S’il existe j tel que i → j, mais j 9 i, alors i est transitoire.
Preuve. Supposons i pour lequel il existe un état j tel que i → j, mais j 9 i. Notons m =
min{n ∈ N, (P n )ij > 0}. Ainsi il existe des états k1 , . . . , km−1 tels que
Pik1 . . . Pkm−1 j > 0,
ces états étant tous distincts de i, sans quoi m ne serait pas minimal. Dès lors, puisque la probabilité
de revenir en i une fois l’état j atteint est nulle, on a :
ri ≤ 1 − Pik1 . . . Pkm−1 j < 1.

1 2 4 6
5 3 7
Figure 3.5 – Une chaîne à 7 états.
Exemple. On considère la chaîne à 7 états de la figure 3.5. 2 → 1, mais 1 9 2, donc 2 est tran-
sitoire. 3 → 4, mais 4 9 3, donc 3 est transitoire. Il reste deux ensembles : {1, 5} et {4, 6, 7}, à
l’intérieur desquels il y a communication.
Définition 20 (Ensemble clos, ensemble irréductible)

– Un sous-ensemble A de E est clos, ou fermé, s’il est impossible d’en sortir :
∀i ∈ A, ∀j ∈ Ā pij=0

3.3. Classification des états 121
– Un sous-ensemble B de E est irréductible si tous ses états communiquent :
∀(i, j) ∈ B × B i→j
Exemple. Dans l’exemple de chaîne à 7 états ci-dessus, l’ensemble {1, 5} est fermé, l’ensemble
{4, 6, 7} aussi. Mais alors {1, 4, 5, 6, 7} aussi, ainsi que {1, 2, 3, 4, 5, 6, 7}. Ces deux derniers exemples
ne semblent pas bien pertinents, d’où la notion d’irréductibilité pour préciser les choses : les en-
sembles {1}, {2}, {3}, {5}, {6}, {1, 5} et {4, 6, 7} sont irréductibles. Cette fois, ce sont les cinq
premiers ensembles qui ne semblent pas pertinents. La proposition suivante précise cette intuition.
Proposition 19 (Fermé + Irréductible ⇒ Récurrents)

Si un ensemble est fermé et irréductible, tous ses états sont récurrents.
Exemple. Les seuls ensembles à la fois fermés et irréductibles sont {1, 5} et {4, 6, 7}. De ce fait,
les états 1, 4, 5, 6 et 7 sont récurrents.
Preuve (heuristique). Elle se fait en deux étapes :

– La première consiste à remarquer que des états communicants sont de même nature : si i est
récurrent et si i → j, alors j est récurrent. Intuitivement : partons de j, alors on est sûr de
passer par i au bout d’un temps fini, sinon on aurait une contradiction avec le fait que i est
récurrent et communique avec j. Or, chaque fois que la chaîne passe par i, elle a une probabilité
non nulle d’aller vers j. Mais puisqu’elle passe une infinité de fois par i (état récurrent), il est
certain qu’elle finira bien par passer par j. En clair, partant de j, on est sûr d’y revenir en un
temps fini.
– Dans un second temps, il reste à voir que dans un ensemble fermé, il y a au moins un état
récurrent. En effet, la chaîne va passer un temps infini dans cet ensemble, qui est de taille finie.
Donc si elle passait un temps fini en chaque sommet, on aboutirait à une contradiction.

On peut alors classer tous les états d’une chaîne de Markov.
Théorème 9 (Partition de l’ensemble des états)

Soit E l’espace d’états, alors on peut partitionner E comme suit :
E = T ∪ R1 ∪ · · · ∪ R k ,
où T est l’ensemble des états transients et les Ri sont des classes de récurrence, c’est-à-dire des
ensembles fermés et irréductibles d’états récurrents.
Preuve. Soit l’ensemble :

T = {i ∈ E : ∃j ∈ E, i → j, j 9 i}.
Alors tout état i de E est transient d’après ce qui a été vu plus haut. Montrons maintenant que
tout état i de E \ T est récurrent : soit i ∈ E \ T et
Ci = {j ∈ E : i → j}
Ci est clos puisque, pour tout j ∈ Ci , si j → k, alors par transitivité i → k donc k ∈ Ci ; ainsi,
partant de Ci , on ne peut sortir. Par ailleurs, i n’étant pas transitoire, pour tout j ∈ Ci , on a
aussi j → i. Ainsi, si j et k appartiennent à Ci , j → i et i → k, donc j → k : tous les états de
Ci communiquent et Ci est un ensemble clos et irréductible. Ci est donc une classe de récurrence.
Notons R1 = Ci . Si E = T ∪ R1 , la messe est dite. Sinon, on prend i′ ∈ E \ (T ∪ R1 ) et on itère le
raisonnement. Puisque E est fini, on aboutira bien à un nombre fini de classes de récurrence.

Exemple. Toujours dans le même exemple, on a ainsi la partition (cf. figure 3.6) :
E = T ∪ R1 ∪ R2 = {2, 3} ∪ {1, 5} ∪ {4, 6, 7}.
R1 T R2
1 2 4 6
5 3 7
Figure 3.6 – Partition de E pour la chaîne à 7 états.
Le cas confortable, et très fréquent, est celui où l’espace d’états n’est formé que d’une classe de
récurrence.
Définition 21 (Chaîne irréductible)

Si E = R1 n’est formé que d’une classe de récurrence, on dit que la chaîne est irréductible.
Sur le graphe de transition, ceci signifie qu’on peut aller de n’importe quel sommet à n’importe
quel autre en un certain nombre d’étapes. En théorie des graphes, c’est ce qu’on appelle un graphe
orienté fortement connexe.
Exemple. Si α et β sont strictement positifs, la chaîne à deux états est irréductible.
Un cadre un peu plus général pour lequel les théorèmes asymptotiques du paragraphe suivant
s’appliqueront est celui où on a éventuellement, en plus, des états transitoires.
Définition 22 (Chaîne indécomposable)

Si E = T ∪ R1 est formé d’états transitoires et d’une seule classe de récurrence, on dit que la
chaîne est indécomposable.
Exemples.
– Si α > 0, mais β = 0, la chaîne à deux états est indécomposable.
– La chaîne de la ruine du joueur n’est ni irréductible, ni indécomposable, puisqu’elle a deux classes
de récurrence :
E = T ∪ R1 ∪ R2 = {1, 2, 3} ∪ {0} ∪ {4}.

3.4. Comportement asymptotique 123
3.4 Comportement asymptotique

Le but de ce paragraphe est de faire le distinguo entre les différentes situations possibles pour la
convergence en loi d’une chaîne de Markov. On applique la notion d’irréductibilité du paragraphe
précédent. Il faut de plus préciser le phénomène de périodicité que l’on peut rencontrer dans cer-
tains modèles.
1 2/3 1/3
0 1 2 3
1/3 2/3 1
Figure 3.7 – Graphe de transition pour le modèle d’Ehrenfest.
Exemples.
1. La ligne téléphonique : si 0 < α, β < 1, on a convergence de la suite des puissances de
matrices de transition (P n ) vers une matrice P∞ dont toutes les lignes sont les mêmes. Ceci
assure la convergence en loi de la chaîne (Xn ). De plus, la loi de (Xn ) converge vers une loi de
probabilité indépendante de la loi initiale de la chaîne. C’est la situation la plus confortable.
2. La ruine du joueur : on a encore convergence de la suite (P n ) vers une matrice P∞ . Ceci
implique qu’on a ici encore convergence en loi de la chaîne (Xn ). Néanmoins, puisque toutes
les lignes de P∞ ne sont pas égales, la loi limite de (Xn ) dépend de la loi initiale de la chaîne.
3. Modèle d’Ehrenfest : on considère deux urnes A et B, contenant N boules à elles deux,
numérotées de 1 à N . A chaque instant, on choisit un numéro i ∈ {1, . . . , N } de façon
équiprobable et on change d’urne à la boule numéro i. L’état Xn de la chaîne est le nombre
de boules à l’instant n dans l’urne A. Par exemple, avec N = 3 boules (voir figure 3.7),
on vérifie qu’on n’a pas convergence de la suite (P n ), mais qu’on a convergence des deux
sous-suites (P 2n ) et (P 2n+1 ). Plus précisément, si on note Q∞ et R∞ les limites respectives
de ces sous-suites, on a (voir aussi la figure 3.8) :
 
1/4 0 3/4 0
 0 3/4 0 1/4 
P 2n −−−−− → Q∞ =   1/4 0 3/4 0 

n→+∞
0 3/4 0 1/4
et :  
0 3/4 0 1/4
 1/4 0 3/4 0 
P 2n+1 −−−−−→ R∞ =
 0 3/4 0 1/4 

n→+∞
1/4 0 3/4 0
Ceci n’est pas étonnant : le nombre de boules dans une urne change de parité à chaque
opération, donc on ne peut avoir convergence de (P n ). De même, la loi de Xn dépend de la
parité de n, donc il n’y aura pas convergence en loi dans le cas général (i.e. sauf pour des
lois initiales particulières).
Définition 23 (Période d’un état)

La période di de l’état i est le plus grand entier naturel divisant tout nombre n tel que P n (i, i) > 0.
C’est-à-dire en notant Zi = {n ≥ 1 : P n (i, i) > 0}, on a :
di = pgcd(Zi ).

Transitions paires Transitions impaires
0 1 2 3 0 1 2 3
Figure 3.8 – Graphes de transition de P 2n et de P 2n+1 pour le modèle d’Ehrenfest.
Si di = 1, on dit que i est apériodique. Si tous les états sont apériodiques, on dit que la chaîne est
apériodique.
Exemples.
1. La ligne téléphonique : si 0 < α, β < 1, les deux états sont apériodiques.
2. La ruine du joueur : les états 0 et N sont apériodiques, tous les autres sont de période 2.
3. Modèle d’Ehrenfest : tous les états sont de période 2.
Remarque. La périodicité est un phénomène théoriquement possible, mais très rare en pratique.
Propriétés 9 (Autour de la périodicité)

– Si pii > 0, alors i est apériodique.
– Si i est apériodique, alors il existe n0 ∈ N tel que :
∀n ≥ n0 n ∈ Zi .
– Si i et j communiquent, alors i et j ont même période.

– Si la chaîne est irréductible, tous les états ont même période.
Preuve.
– Il est clair que si on peut boucler sur l’état i, alors :
Zi = {n ≥ 1 : P n (i, i) > 0} = N∗ ,
donc di = pgcd(Zi ) = 1.
– Puisque i est apériodique, il existe des entiers n1 , . . . , nk dans Zi dont le plus grand commun
diviseur est 1. Mais alors le théorème de Bezout assure qu’il existe des entiers relatifs α1 , . . . , αk
tels que :
α1 n1 + · · · + αk nk = 1.
En notant α+ = sup(α, 0) et α− = sup(−α, 0), on a donc :
k
X k
X
α+
i ni = 1 + α−
i ni .
i=1 i=1
Les deux sommes ci-dessus sont dans Zi comme sommes d’éléments de Zi et puisque Zi est
stable pour l’addition. Si on note :
Xk
N= α−
i ni ,
i=1

on en déduit que les deux entiers positifs consécutifs N et (N + 1) sont dans Zi . Montrons alors
que tout entier n tel que n ≥ N 2 − 1 est dans Zi . On effectue la division euclidienne de n par
N :
n = qN + r avec r < N.
Puisque n ≥ N 2 − 1, on a q ≥ r et on peut écrire q = r + r ′ , d’où :
n = r ′ N + r(N + 1) ⇒ n ∈ Zi ,
puisque N et (N + 1) sont dans Zi .

– Supposons que i et j communiquent, que i a pour période d et j pour période d′ < d. Puisque i
et j communiquent, il existe deux entiers k et m tels que :
(P k )ij > 0 et (P m )ji > 0.
Puisque la probabilité de revenir en i en (k + m) étapes vérifie l’inégalité :
(P k+m )ii ≥ (P k )ij (P m )ji > 0,
on en déduit que (k + m) ∈ Zi . Mais puisque i a pour période d, il s’ensuit que d divise (k + m).
Par ailleurs, pour tout entier l de Zj , c’est-à-dire tel que (P l )jj > 0, on a :
(P k+l+m )ii ≥ (P k )ij (P l )jj (P m )ji > 0,
de sorte que d divise (k + l + m). Mais puisqu’on vient de dire que d divise (k + m), on en déduit
que d divise aussi l. Or ceci est vrai pour tout entier l de Zj , donc par définition du plus grand
commun diviseur, on en déduit que d divise d′ . Ceci contredit le fait que d′ < d.
– Ce point découle directement du précédent.

Remarque. S’il existe n0 > 0 tel que P(Xn0 = i|X0 = i) > 0 et P(Xn0 +1 = i|X0 = i) > 0, l’état
i est apériodique.
1/2
1 2 3
1/2
4 5 6
Figure 3.9 – Triangle et carré.
Exemple : triangle et carré.

On considère l’exemple de la figure 3.9. Pour l’état 2, on a Z2 = {3, 4, 6, 7, . . .} donc d2 = 1.
La chaîne étant irréductible, on en déduit que tous les états sont apériodiques : cette chaîne est
apériodique.
Si on revient aux exemples du début de paragraphe, on voit que la situation où tout se passe bien
est celle de la ligne téléphonique, à la fois irréductible et apériodique. C’est ce que nous allons
préciser maintenant.

Définition 24 (Loi stationnaire)

Un vecteur de probabilité ligne π est une loi stationnaire, ou invariante, ou d’équilibre, d’une chaîne
de Markov de matrice de transition P si : πP = π.
Le vecteur de probabilité π est stationnaire si c’est un vecteur propre “à gauche” de la matrice de

transition P pour la valeur propre 1.
Exemple. Pour la chaîne d’Ehrenfest à 3 boules, on cherche donc π = [π0 , . . . , π3 ] tel que :

πP = π
P3
i=0 πi = 1
Après calculs, on obtient :

1 3 3 1
π= , , , ,
8 8 8 8

c’est-à-dire que la loi stationnaire correspond à une loi binomiale B 3, 12 . De façon générale, pour

le modèle d’Ehrenfest à M boules, on montre qu’il y a une unique loi stationnaire π ∼ B M, 21 .
Lemme 2
Si X0 ∼ π, alors pour tout n ≥ 0 : Xn ∼ π.
Preuve. On sait que si P(X0 ) = µ, alors P(Xn ) = µP n . Si X0 ∼ π, on a donc :

P(Xn ) = πP n = (πP )P n−1 = πP n−1 = · · · = π.

En physique, la loi stationnaire correspond à l’état d’équilibre pour le système.
Propriétés 10 (Existence d’une loi stationnaire)

Pour toute matrice de transition P , il existe (au moins) une loi stationnaire π.
Preuve. Soit p0 un vecteur de probabilité ligne de taille M . On considère la suite (pn ) définie par :
n
1 X
pn = p0 P i .
n+1
i=0
L’ensemble P des lois de probabilités sur un ensemble à M éléments s’écrit :
P = {p ∈ RM
+ : p1 + · · · + pM = 1}.
C’est un compact de RM (fermé et borné), donc de toute suite d’éléments de P on peut extraire
une sous-suite convergente dans P. Notons donc (pnk )k≥0 une telle sous-suite et π sa probabilité
limite. On veut montrer que π est une loi stationnaire pour P . Il suffit de remarquer que :
p0 P nk +1 − p0
pnk P = pnk + ,
nk + 1
et de passer à la limite lorsque k tend vers l’infini pour obtenir :
πP = π.


Remarque. On a vu au début du chapitre que 1 est valeur propre de P , donc c’est aussi une
valeur propre de P ′ . Ainsi il existe un vecteur colonne v non nul tel que P ′ v = v, ce qui équivaut
à dire que v ′ P = v ′ . Ce qui est moins évident, c’est de montrer qu’il existe un vecteur propre qui
soit un vecteur de probabilité.
Proposition 20 (Loi stationnaire et états transitoires)

Si π est une loi stationnaire d’une chaîne de Markov, alors pour tout état i transitoire, on a πi = 0.
Preuve. On montre la contraposée, à savoir : πj > 0 implique j récurrent. Soit donc j un état tel
que πj > 0. Soit Nj le nombre de visites à l’état j, c’est-à-dire :
+∞
X
Nj = 1{Xn =j} ,
n=1
de sorte que :
+∞
X +∞
X
E[Nj |X0 = i] = P(Xn = j|X0 = i) = (P n )ij .
n=1 n=1
On en déduit que : !
M
X M
X +∞
X
πi E[Nj |X0 = i] = πi (P n )ij ,
i=1 i=1 n=1
et tout étant positif, on peut intervertir les ordres de sommation :
M M
+∞ X
!
X X
πi E[Nj |X0 = i] = πi (P n )ij ,
i=1 n=1 i=1
mais puisque πP n = π, cette dernière expression se simplifie :

M
X +∞
X
πi E[Nj |X0 = i] = πj = +∞.
i=1 n=1
Soit maintenant Tjk la date de k-ème visite à l’état j :
Tjk = min{n > Tjk−1 : Xn = j},
avec bien sûr pour initialisation Tj0 = 0. Alors de la propriété de Markov on déduit que pour
effectuer k visites à l’état j partant à l’instant 0 de l’état i, il faut commencer par aller de l’état i
à l’état j, ce qui arrive avec probabilité rij , puis boucler (k − 1) fois sur l’état j, ce qui arrive avec
probabilité rjk−1 . Autrement dit :
P(Tjk < +∞|X0 = i) = rij rjk−1.

Rappelons que si une variable aléatoire X est à valeurs dans N, son espérance peut s’écrire sous
la forme :
X+∞
E[X] = P(X ≥ k),
k=1
résultat que l’on applique à la variable aléatoire Nj :
+∞
X
E[Nj |X0 = i] = P(Nj ≥ k|X0 = i).
k=1

Or P(Nj ≥ k|X0 = i) = P(Tjk < +∞|X0 = i), donc :

+∞
X rij
E[Nj |X0 = i] = rij rjk−1 = ,
1 − rj
k=1
avec la convention 1/(1 − rj ) = +∞ si rj = 1. On en déduit :

M
X M
X X M
rij 1 1
πi E[Nj |X0 = i] = πi ≤ πi = .
1 − rj 1 − rj 1 − rj
i=1 i=1 i=1
Si on rapproche les deux résultats obtenus, on a donc :

1
≥ +∞,
1 − rj
c’est-à-dire que rj = 1, et l’état j est récurrent.

La loi stationnaire π n’est pas nécessairement unique, comme le montre l’exemple d’une chaîne de
Markov à deux états de matrice de transition P = I. Pour avoir unicité de la loi stationnaire, il
ne faut avoir qu’une classe de récurrence.
Proposition 21 (Irréductibilité ⇒ Unicité de la loi stationnaire)

Si la chaîne est irréductible, alors la loi stationnaire π est unique. De plus πi > 0 pour tout état i
de E.
Preuve. Soit π une loi stationnaire d’une chaîne de Markov irréductible. On commence par prouver
que toutes les coordonnées de π sont strictement positives. Puisque π est un vecteur de probabilité,
il est clair qu’il existe un état i tel que πi > 0. Soit alors j un autre état : étant donné que la chaîne
est irréductible, il existe k tel que (P k )ij > 0. On utilise alors la stationnarité de π, qui implique
en particulier πP k = π :
XM
πj = πl (P k )lj ≥ πi (P k )ij > 0.
l=1
Passons à l’unicité de π. On sait qu’il existe une loi stationnaire par la proposition 10. Pour montrer
qu’elle est unique, il suffit de prouver que le sous-espace propre associé à la valeur propre 1 est de
dimension 1 pour P ′ . Mais puisqu’une matrice et sa transposée ont mêmes valeurs propres avec
mêmes ordres de multiplicité, et qu’on sait que le vecteur constant e = [1, . . . , 1]′ vérifie P e = e, il
nous suffit de montrer que tout vecteur f = [f1 , . . . , fM ]′ vérifiant P f = f est constant, c’est-à-dire
brièvement :
P f = f ⇒ f1 = · · · = fM .
Si u et v sont deux vecteurs (colonnes), on convient de noter uv le vecteur défini par :
∀i ∈ {1, . . . , M } (uv)i = ui vi ,
et u2 le vecteur colonne uu. Introduisons l’opérateur Γ :

M
R → RM
Γ:
f 7→ Γ(f ) = f 2 − 2f (P f ) + P (f 2 )
On vérifie que :
M
X
∀i ∈ {1, . . . , M } Γ(f )i = Pij (fi − fj )2 ≥ 0 (+)
j=1

Par ailleurs, puisque π est stationnaire, on a πP (f 2 ) = π(f 2 ), donc :
πΓ(f ) = 2(π(f 2 ) − πf (P f )) = 2π(f (f − P f )).
Donc si f est un vecteur propre de P pour la valeur propre 1, on déduit de l’équation ci-dessus
que :
πΓ(f ) = 2π(f (f − P f )) = 0,
mais on a aussi simplement :
M
X
πΓ(f ) = πi Γ(f )i ,
i=1
avec Γ(f )i ≥ 0 pour tout i d’après ci-dessus, et πi > 0 puisque la chaîne est irréductible. On déduit
des deux dernières équations que :
∀i ∈ {1, . . . , M } Γ(f )i = 0
Et, à nouveau grâce à (+), on conclut que si Pij > 0, alors fi = fj . Et puisque la chaîne est
irréductible, on en déduit de proche en proche que :
∀(i, j) ∈ {1, . . . , M }2 fi = fj ,
ce qui finit la démonstration.

Exemple. Pour le modèle de ruine du joueur, si on cherche à résoudre le système d’équations

πP = π, on obtient une infinité de vecteurs de probabilités solutions, tous ceux de la forme :
π = [p, 0, 0, 0, 1 − p],
avec p loisible entre 0 et 1. Ceci est bien sûr dû au fait que la chaîne n’est pas irréductible : il y a
deux classes de récurrence correspondant aux deux états absorbants. Remarquons néanmoins que
tout vecteur de probabilité solution est nul sur les états récurrents 1, 2 et 3, comme annoncé en
proposition 20.
Remarque. En fait, ce résultat est encore vrai si on suppose seulement que la chaîne est indécom-
posable. Dans ce cas, on a vu que l’unique loi stationnaire π vaut 0 sur tous les états transients.
Ceci permet de gagner du temps dans la résolution du système linéaire πP = π.
Même si la loi stationnaire π est unique, on n’est pas assuré de la convergence de la loi de Xn
vers π : les phénomènes de périodicité peuvent poser problème, comme on l’a vu dans le modèle
d’Ehrenfest.
Théorème 10 (Convergence en loi)

Si la chaîne est irréductible et apériodique, de loi stationnaire π, alors :
(n)
∀(i, j) ∈ {1, . . . , M } pij −−−→ πj
n→∞
En particulier, pour toute loi initiale µ, la loi de Xn converge vers π :
P(Xn ) = µP n −n→∞
−−→ π

Remarque. Une autre façon d’exprimer le résultat ci-dessus est de dire que la suite de matrices
(P n ) converge vers une matrice Π dont toutes les lignes sont égales à π :
   
π π1 . . . πM
 .   . 
   
n 
P −−−−−→ Π =  .  =   . .
n→+∞ 
 .   . 
π π1 . . . πM
Preuve. Soit S = E × E et la probabilité de transition p̄ sur S comme suit :
p̄((i1 , i2 ), (j1 , j2 )) = pi1 j1 pi2 j2 .
En d’autres termes, on introduit une chaîne de Markov à deux coordonnées, chacune se déplaçant
indépendamment suivant la dynamique donnée par P . On commence par vérifier que cette nouvelle
chaîne est irréductible. Puisque P l’est, il existe deux entiers k et l tels que :
(P k )i1 j1 > 0 et (P l )i2 j2 > 0.
Puisque j1 et j2 sont apériodiques, alors par le deuxième point des propriétés 9, on sait que pour
m assez grand on a :
(P l+m )j1 j1 > 0 et (P k+m )j2 j2 > 0,
On écrit alors :
p̄(k+l+m) ((i1 , i2 ), (j1 , j2 )) = (P k+l+m )i1 j1 (P k+l+m )i2 j2 .
de sorte que :
p̄(k+l+m) ((i1 , i2 ), (j1 , j2 )) = (P k )i1 j1 (P l+m )j1 j1 (P l )i2 j2 (P k+m )j2 j2 > 0,
et la chaîne p̄ est donc irréductible.

On vérifie alors facilement que l’unique loi stationnaire de p̄ est π × π. Soit (Xn , Yn ) la chaîne sur
S, soit T le premier instant auquel les deux coordonnées sont égales :
T = min{n ≥ 0 : Xn = Yn },
et soit Vii l’instant de première visite de l’état (i, i) :
Vii = min{n ≥ 0 : Xn = Yn = i}.
Puisque P est irréductible, on a Vii < +∞ presque sûrement et puisque T ≤ Vii , on en déduit que
T est fini presque sûrement.
On veut maintenant prouver que sur l’événement {T ≤ n}, Xn et Yn ont même loi. Pour cela on
écrit :
Xn X M
P(Xn = j, T ≤ n) = P(T = m, Xm = i, Xn = j)
m=1 i=1
que l’on simplifie grâce à la propriété de Markov :
n X
X M
P(Xn = j, T ≤ n) = P(Xn = j|Xm = i)P(T = m, Xm = i).
m=1 i=1
Par définition de T et puisque Xn et Yn ont même dynamique :

n X
X M
P(Xn = j, T ≤ n) = P(Yn = j|Ym = i)P(T = m, Ym = i),
m=1 i=1

et en remontant les équations avec Y au lieu de X, on arrive donc à :
P(Xn = j, T ≤ n) = P(Yn = j, T ≤ n).

On a alors :
P(Xn = j) = P(Xn = j, T ≤ n) + P(Xn = j, T > n) = P(Yn = j, T ≤ n) + P(Xn = j, T > n),

ce qui se majore facilement :
P(Xn = j) ≤ P(Yn = j) + P(Xn = j, T > n).

De façon symétrique on a :
P(Yn = j) ≤ P(Xn = j) + P(Yn = j, T > n).

Mais puisque le maximum de deux nombres positifs est inférieur à leur somme, on a alors :
|P(Xn = j) − P(Yn = j)| ≤ P(Xn = j, T > n) + P(Yn = j, T > n),
et en sommant sur j :
M
X
|P(Xn = j) − P(Yn = j)| ≤ 2P(T > n).
j=1
Si on considère comme conditions initiales X0 = x et Y0 ∼ π, il vient :

M
X
|P(Xn = j|X0 = x) − πj | ≤ 2P(T > n).
j=1
Mais puisque T est presque sûrement finie, on a :
P(T > n) −n→+∞

−−−−→ 0,
d’où on déduit :
M
X
|P(Xn = j|X0 = x) − πj | −−−−−→ 0,
n→+∞
j=1
donc a fortiori :
(n)
∀(i, j) ∈ {1, . . . , M } pij −−−→ πj ,
n→∞
et la convergence en loi est prouvée.

Rappel. Soit (Xn ) une suite de variables aléatoires i.i.d. à valeurs dans l’espace d’états fini
{1, . . . , M } et de loi commune π, alors pour toute fonction f : {1, . . . , M } → R, on a :
n M
1X p.s. X
f (Xk ) −−−→ f i πi
n n→∞
k=1 i=1
C’est ce qu’on appelle la loi forte des grands nombres. On montre (mais nous l’admettrons...) que
ceci est encore vrai pour des variables qui ne sont plus indépendantes, mais à dépendance marko-
vienne, si tant est que la loi π soit définie de façon unique !

Théorème 11 (Loi forte des grands nombres)

Soit (Xn ) irréductible de loi stationnaire π, soit f : E → R une fonction, alors :
n M
1X p.s. X
f (Xk ) −−−→ f i πi
n n→∞
k=1 i=1
Remarque. Ainsi, la loi des grands nombres est vérifiée sous des hypothèses moins fortes que la
convergence en loi. Ceci n’est pas étonnant car il y a un phénomène de moyennisation sur l’en-
semble d’une trajectoire, qui fait que l’éventuelle périodicité de la chaîne n’est pas gênante.
La loi des grands nombres nous renseigne en particulier sur le temps relatif passé par une trajec-
toire de la chaîne dans chacun des états et donne une interprétation simple de la loi d’équilibre π.
Corollaire 3 (Temps moyen dans chaque état)

Soit (Xn ) irréductible de loi stationnaire π, alors le temps relatif passé par une trajectoire de la
chaîne dans l’état i converge presque sûrement vers πi :
n
1X p.s.
1{Xk =i} −n→∞
−−→ πi
n
k=1
Preuve. Il suffit d’appliquer la loi forte des grands nombres à la fonction

E →R
f:
x 7→ 1{x=i}
Sa moyenne sous π vaut bien sûr πi et la somme :

n
1X
1{Xk =i}
n
k=1
compte le nombre de passages de la chaîne par l’état i sur le nombre total d’étapes : quantité que
l’on peut interpréter comme le temps relatif passé dans l’état i entre les dates 1 et n.

Exemples.
1. Dans le modèle de la ligne téléphonique, sur un intervalle de temps assez long, celle-ci est
donc occupée les trois cinquièmes du temps.
2. Dans le modèle d’Ehrenfest à 3 boules, il y a 1 ou 2 boules dans l’urne A les trois quarts du
temps.
3. Pour le modèle
d’Ehrenfest à M boules, on a vu que la loi stationnaire π est une loi binomiale
B M, 12 . Donc, si M est grand, π se comporte à peu de choses près comme un loi normale :

M M
π≈N , .
2 4
La moyenne du nombre de boules dans l’urne A est M/2, c’était intuitivement évident puis-
qu’il n’y aucune dissymétrie entre les deux urnes.
√ De plus, la proportion
√ du temps passée
avec un nombre de boules compris entre M/2 − M et M/2 + M est de l’ordre de 95%.

3.5. Exercices 133
Application. Si on considère M = 10000 dans le modèle d’Ehrenfest et qu’on observe le compor-

tement de la chaîne sur une longue période de temps, il y aura en gros entre 4900 et 5100 boules
dans les deux urnes pendant 95% du temps. Considérer de grandes valeurs pour M n’est pas farfelu
puisqu’Ehrenfest a développé son modèle pour la physique statistique, les boules correspondant à
des molécules, donc en très grand nombre.
Remarque : Chaîne indécomposable.

Les résultats asymptotiques (convergence en loi et loi des grands nombres) sont encore vérifiés si
on suppose seulement la chaîne indécomposable. Pour la convergence en loi, aucune hypothèse de
périodicité n’est requise sur les états transients, car de toute façon la chaîne va les quitter au bout
d’un certain temps. Résultat que l’on retrouve dans la loi des grands nombres : puisque πi = 0
pour tout état transitoire, le temps relatif passé par la chaîne dans l’état i tend vers zéro avec n.
“En résumé, j’aimerais avoir un message un peu positif à vous transmettre...

Je n’en ai pas. Est-ce que deux messages négatifs, ça vous irait ?” Woody Allen.
3.5 Exercices
Exercice 3.1 (Lancers de pièce)
On lance une pièce équilibrée : les résultats des lancers sont des variables aléatoires indépendantes
Y0 , Y1 , . . . à valeurs 0 ou 1. Pour tout n ≥ 1, on note Xn = Yn + Yn−1 .
1. Calculer P(X3 = 0|X1 = 0, X2 = 1) et P(X3 = 0|X2 = 1).
2. Est-ce que (Xn ) est une chaîne de Markov ?
Corrigé
1. Si X1 = 0 et X2 = 1, ceci signifie que Y0 = Y1 = 0 et Y2 = 1, auquel cas X3 ∈ {1, 2}, donc
P(X3 = 0|X1 = 0, X2 = 1) = 0. Par contre
P(Y3 = 0, Y2 = 0, Y1 = 1) (1/2)3 1
P(X3 = 0|X2 = 1) = = = .
P(X2 = 1) 1/2 4
2. L’exemple ci-dessus montre que (Xn ) n’est pas une chaîne de Markov.
Les situations des exercices suivants sont modélisées par des chaînes de Markov. Donner dans
chaque cas la matrice et le graphe de transition associés.
Exercice 3.2 (Le rat et le labyrinthe)

Un rat se déplace dans un labyrinthe qui comporte neuf compartiments (voir figure 3.10). A chaque
étape, il change de compartiment. Lorsqu’il est dans un compartiment à k portes, il choisit l’une
de ces k portes de façon équiprobable. Xn est le numéro du compartiment dans lequel se trouve le
rat à l’étape n.
Exercice 3.3 (La roulette de la lose)

On joue à la roulette : il y a 18 numéros rouges, 18 numéros noirs et 1 vert, le numéro zéro. On
joue rouge pour 1e à chaque fois. On commence avec 50e et on s’arrête si on a 100e ou si on est
ruiné. Xn est notre fortune après n coups.

1 2 3
4 5 6
7 8 9
Figure 3.10 – Labyrinthe
Exercice 3.4 (Gare au gorille)

Un zoo a reçu six gorilles, trois mâles et trois femelles répartis au hasard en deux cages de trois
singes. Le directeur presbyte, incapable de discerner les sexes, décide de favoriser leur reproduction
en permutant chaque semaine deux pensionnaires pris au hasard, un dans chaque cage. Xn est le
nombre de guenons présentes la semaine n dans la première cage.
Exercice 3.5 (Modèle de diffusion d’Ehrenfest)

On considère deux urnes A et B, contenant N boules à elles deux, numérotées de 1 à N . A chaque
instant, on choisit un numéro i ∈ {1, . . . , N } de façon équiprobable et on change d’urne à la boule
numéro i. L’état Xn de la chaîne est le nombre de boules à l’instant n dans l’urne A.
Exercice 3.6 (Singin’ in the rain)

Un employé se rend chaque matin à pied de son appartement à son bureau et fait le contraire le
soir. Il dispose en tout de 3 parapluies, certains chez lui, les autres au bureau. A Rennes, ville peu
ensoleillée, il pleut 2 fois sur 3 lorsqu’il fait le trajet, et ce indépendamment du passé. Xn est le
nombre de parapluies à son domicile lorsqu’il le quitte le matin.
Exercice 3.7 (La Suisse (son chocolat, ses banques, son temps mesuré))
Un magasin suisse vend des horloges : pour des raisons de place, il ne peut pas en stocker plus de
3. Le gérant a constaté que, en une journée, les probabilités de demande de 0, 1, 2 ou au moins 3
horloges sont respectivement :
p = [p0 , p1 , p2 , p≥3 ] = [0.3, 0.4, 0.2, 0.1].
Chaque soir, il peut en commander à nouveau, qui seront disponibles en magasin le lendemain
matin. On dit que l’Helvète applique une méthode (i, j)0≤i<j≤3 s’il passe commande lorsqu’à la
fermeture il lui reste un nombre inférieur ou égal à i en stock afin d’en avoir j en magasin le matin
suivant. Xn est le nombre d’horloges dans le magasin le soir à la fermeture.
1. Méthode (2, 3) : donner la matrice de transition.
2. Mêmes questions avec les méthodes (1, 3) et (0, 3).
Corrigé
1. La méthode (2, 3) signifie que chaque matin, à l’ouverture, le magasin a refait son stock,
donc il y a 3 horloges au début de la journée. Le soir, il peut en rester 0, 1, 2 ou 3 suivant
les demandes de la journée et conformément aux probabilités de l’énoncé. Autrement dit
Xn ∈ {0, 1, 2, 3} et toutes les les lignes de la matrice de transition P sont identiques dans ce
cas, à savoir :  
0.1 0.2 0.4 0.3
 0.1 0.2 0.4 0.3 
P =  0.1 0.2 0.4 0.3 

0.1 0.2 0.4 0.3

3.5. Exercices 135
2. Traitons maintenant le cas des deux autres méthodes.

(a) Méthode (1, 3) : dans cette éventualité, le gérant repasse commande le soir dès lors qu’il
lui reste strictement moins de 2 horloges en stock le soir. Nous avons donc toujours
Xn ∈ {0, 1, 2, 3}, mais cette fois les lignes de la matrice de transition P ne sont pas
toutes identiques :  
0.1 0.2 0.4 0.3
 0.1 0.2 0.4 0.3 
P =  0.3 0.4 0.3 0 

0.1 0.2 0.4 0.3
(b) Méthode (0, 3) : cette fois, le gérant ne repasse commande le soir que s’il ne lui reste
plus rien en magasin. La matrice de transition P s’écrit donc :
 
0.1 0.2 0.4 0.3
 0.7 0.3 0 0 
P =  0.3 0.4 0.3 0 

0.1 0.2 0.4 0.3
Exercice 3.8 (Un jeudi soir rue Saint-Michel)

Un étudiant rennais, passablement enivré après moult boissons frelatées, part d’un point d’origine
et à chaque instant avance d’une unité avec probabilité p et recule avec probabilité (1 − p). L’état
Xn de la chaîne est l’abscisse de l’ivrogne à l’étape n. Remarque : ce modèle est appelé marche
aléatoire sur Z. Par rapport aux situations précédentes, l’espace d’états est infini. L’étude théo-
rique des chaînes de Markov à espace d’états infini est plus délicate, nous ne la verrons pas en cours.
Exercice 3.9 (Collections et problèmes de caries)

1. Soit T une variable aléatoire géométrique de paramètre p ∈]0, 1[, c’est-à-dire que T est à
valeurs dans N∗ et pour tout k ∈ N∗ : P(T = k) = p(1 − p)k−1 . Déterminer l’espérance de
T.
2. Un enfant collectionne des images. Son album comporte N images. Chaque jour, il achète une
tablette de chocolat, dans laquelle il y a une image. Soit Xn le nombre d’images distinctes
dont dispose l’enfant au soir du jour n, avec la convention X0 = 0. Donner matrice et graphe
de transition de (Xn ).
3. Pour i ∈ {1, . . . , N }, soit Ti la variable aléatoire définie par :
Ti = min{n ≥ 1 | Xn = i}
Que signifie concrètement Ti ? Et (Ti+1 − Ti ) ? Donner la loi de (Ti+1 − Ti ), c’est-à-dire :
∀k ∈ N∗ P(Ti+1 − Ti = k).
4. En déduire E[Ti+1 − Ti ], puis E[TN ] et enfin un équivalent de E[TN ] (rappel : 1 + 1/2 + · · · +

1/N ∼ ln N ). Interpréter. Déterminer approximativement le nombre de tablettes de chocolat
qu’il devra manger s’il veut compléter son album de 100 images 1 .
5. Application : on lance un dé à six faces jusqu’à ce qu’on ait vu les six numéros sortir. Combien
de fois en moyenne va-t-il falloir lancer le dé ?
Corrigé
1. On trouvera plus d’informations sur ce thème dans le livre de Gilles Pagès et Claude Bouzitat [6].

1. On a :
+∞
X +∞
X +∞
X
E[T ] = k P(T = k) = kp(1 − p)k−1 = p k(1 − p)k−1 .
k=1 k=1 k=1
P
On reconnaît une série entière de type
P kxk−1 , dérivée terme à terme de la série entière
k 1 1
x . Or la dérivée de 1−x est (1−x)2 , donc :
1 1
E[T ] = p · 2
= .
(1 − (1 − p)) p
2. Pour tout n ≥ 1, Xn est donc compris entre 1 et N et on a bien sûr X1 = 1. Dans la matrice
de transition, de taille N , seules la diagonale et la surdiagonale ne sont pas nulles, avec
i
P (i, i) = N
N −i
P (i, i + 1) = N
Tous les états sont transitoires, sauf l’état {N }, qui est absorbant. La seule loi stationnaire
1 2 N
Figure 3.11 – Graphe de transition pour la collection d’images.
est donc déterministe : c’est π = [0, . . . , 0, 1], ce qu’on vérifie sans problème par la résolution
du système πP = π.
3. Ti correspond au nombre de jours nécessaires pour avoir i images distinctes. (Ti+1 − Ti ) est
le nombre de jours nécessaire pour obtenir une (i + 1)-ème nouvelle image. Si au jour n on a
i images, la probabilité de ne pas en avoir de nouvelle le jour suivant est Ni , celle d’en avoir
une nouvelle étant NN−i . La probabilité P(Ti+1 − Ti = k) est la probabilité de ne pas avoir de
nouvelle image pendant (k − 1) jours et d’en avoir une nouvelle le k-ème jour. On a donc :
k−1
N −i i
P(Ti+1 − Ti = k) = .
N N
N −i
Autrement dit (Ti+1 − Ti ) suit une loi géométrique de paramètre N .
N
4. La première question donne alors : E[Ti+1 − Ti ] = N −i . Par linéarité de l’espérance :
E[TN ] = E[TN − TN −1 ] + · · · + E[T2 − T1 ] + E[T1 ],
or il est clair que T1 = 1, donc E[T1 ] = 1. Ainsi :
N
X −1 X1 N
N
E[TN ] = =N ∼ N ln N.
N −i k
i=0 k=1
En moyenne, il faut donc environ N ln N jours à l’enfant pour compléter son album. S’il y a
100 images dans l’album, il faut environ 100 ln(100) ≈ 460 jours pour le compléter 2 .
1 1

2. Le résultat exact est : 100 1 + 2
+ ··· + 100
≈ 519. L’approximation par l’équivalent donne donc une erreur
relative d’environ 10%.

3.5. Exercices 137
5. Application : on lance un dé à six faces jusqu’à ce qu’on ait vu les six numéros sortir. Le
problème est rigoureusement le même. Le nombre moyen de lancers nécessaires est donc :

1 1 1 1 1
E[T ] = E[T6 ] = 6 1 + + + + + ≈ 14, 7.
2 3 4 5 6
Exercice 3.10 (Flash-back)

On revient sur certains exercices déjà vus : le labyrinthe, la roulette, les gorilles priapiques, le
modèle d’Ehrenfest, les parapluies, les horloges, la collection.
1. La chaîne est-elle irréductible ? indécomposable ?
2. Déterminer la (ou les) loi(s) stationnaire(s).
3. Pour les chaînes irréductibles, préciser la périodicité.
Exercice 3.11 (Classification d’états)

On considère la matrice de transition suivante :
 
.4 .3 .3 0 0
 0 .5 0 .5 0 
 
P =  .5 0 .5 0 0


 0 .5 0 .5 0 
0 .3 0 .3 .4
1. Quels sont les états récurrents, quels sont les états transitoires ?
Corrigé
1. On a 1 → 2, mais 2 9 1, donc 1 est transient. De même 3 → 2, mais 2 9 3. De même 5 → 2,
mais 2 9 5. Par contre, on a 2 → 4 et 4 → 2. Ainsi, il y trois états transitoires, T = {1, 3, 5},
et une unique classe de récurrence, R1 = {2, 4}.
2. Il n’y a qu’une classe de récurrence donc la chaîne est irréductible et il y a unicité de la loi
stationnaire π = [π1 , π2 , π3 , π4 , π5 ]. On a alors sans calcul : π1 = π3 = π5 = 0. Il reste à
résoudre le système πP = π avec les deux équations restantes : ceci donne π2 = π4 = 1/2.
Exercice 3.12 (Trafic routier)

Sur une route, en moyenne, trois camions sur quatre sont suivis par une voiture, tandis que seule
une voiture sur cinq est suivie par un camion. Déterminer les proportions de voitures et de camions
sur cette route.
Corrigé
Si on se place à un endroit donné de la route, on note (Xn ) la chaîne de Markov à deux valeurs :
Xn = 1 si le n-ème véhicule qu’on voit passer est une voiture, Xn = 2 si c’est un camion. Les
hypothèses donnent alors la matrice de transition suivante :

4/5 1/5
P =
3/4 1/4
Cette chaîne est clairement irréductible. On détermine sa loi stationnaire en résolvant le système
πP = π, ce qui donne :
15 4
π= , .
19 19
Ceci correspond aux proportions respectives de voitures et de camions sur cette route.

Exercice 3.13 (Mujeres al borde de un ataque de nervios)

Un jour donné, Aude est soit énervée , soit grognon, soit de bonne humeur. Si elle est énervée
aujourd’hui, elle sera énervée ou grognon ou de bonne humeur demain avec probabilités 0.7, 0.2
et 0.1 respectivement. Si elle est grognon aujourd’hui, elle sera énervée ou grognon ou de bonne
humeur demain avec probabilités 0.4, 0.3 et 0.3 respectivement. Si elle est de bonne humeur au-
jourd’hui, elle sera énervée ou grognon ou de bonne humeur demain avec probabilités 0.2, 0.4 et 0.4
respectivement. En moyenne, combien de jours par an Aude est-elle énervée ? Connaissant Aude,
ce modèle vous semble-t-il réaliste ?
Exercice 3.14 (Boules et urnes)

On considère 4 boules numérotées de 1 à 4, réparties en deux urnes A et B. A chaque instant, on
tire un nombre k au hasard entre 1 et 4, on enlève la boule numéro k de l’urne dans laquelle elle
se trouve et on la remet au hasard dans l’une des deux urnes. On note Xn le nombre de boules
dans l’urne A à l’instant n.
1. Donner la matrice et le graphe de transition de (Xn ).
2. La chaîne est-elle irréductible ? apériodique ?
3. Loi(s) stationnaire(s) ?
4. On commence avec l’urne A vide. Au bout d’un temps supposé assez grand, on observe le
nombre de boules dans l’urne A. Quelle est (à peu de choses près) la probabilité que ce
nombre soit pair ?
5. On commence avec l’urne A pleine. On observe une réalisation (X0 , X1 , . . . , Xn , . . . ) de la
chaîne. Quelle est la proportion du temps où il y a strictement moins de boules dans A que
dans B ?
6. Généraliser l’étude précédente avec M boules numérotées de 1 à M .
Corrigé
Cet exercice est corrigé en annexe, sujet de juin 2005.
Exercice 3.15 (Changements de signes)

On considère la chaîne de Markov (Xn ) à valeurs dans {−N, . . . , N } \ {0}, définie pour tout n ≥ 1
par : Xn = −signe(Xn−1 )Zn , où les Zn sont indépendantes et identiquement distribuées de loi
uniforme sur l’ensemble {1, . . . , N } et avec la convention : signe(x) = 1 si x > 0, et signe(x) = −1
si x < 0.
1. Donner la matrice de transition P de cette chaîne. Déterminer P n selon la parité de n.
3. Déterminer la loi stationnaire π de la chaîne. Comparer à limn→∞ P n .
Corrigé
1. P est une matrice de taille 2N . Soit J la matrice carrée de taille N ne comportant que des 1,
[0] la matrice carrée de taille N ne comportant que des 0. Alors P se décrit très simplement
par blocs :
1 [0] J
P = .
N J [0]
Puisque J 2 = N · J, on a pour tout n ≥ 1 : J n = N n−1 J. Le calcul des puissances de P se
fait très simplement par blocs et on obtient pour tout n ≥ 1 : P 2n = P et

2n+1 1 J [0]
P = .
N [0] J

3.5. Exercices 139
2. Tous les états communiquent donc la chaîne est irréductible. Tous les états sont clairement
de période 2.
3. La chaîne étant irréductible, elle admet une unique loi stationnaire π, solution de πP = π.
La résolution du système donne la loi uniforme sur les 2N états :

1 1
π= ,..., .
2N 2N
On n’a pas limn→∞ P n = Π, où Π serait la matrice aux lignes identiques, toutes égales à π.
Ceci vient du fait que la chaîne n’est pas apériodique.
Exercice 3.16 (Bistochasticité et Monopoly)

1. On dit qu’une matrice de transition (ou matrice stochastique) P est bistochastique si la
somme de chaque colonne est aussi égale à 1. Soit (Xn ) une chaîne de Markov ayant une telle
matrice comme matrice de transition : vérifier que la loi uniforme est une loi stationnaire de
cette chaîne.
2. Un jeu du genre Monopoly a dix cases (voir figure 3.12 à droite). On part de la case 0 et on
lance un dé équilibré à six faces pour avancer le pion. Xn est la position du pion après le
n-ème lancer.
(a) Déterminer la matrice de transition de la chaîne de Markov (Xn ).
(b) La chaîne est-elle irréductible ? apériodique ?
(c) Déterminer la (ou les) loi(s) stationnaire(s).
2 3 4 5
1 6
D
B
0 9 8 7
Figure 3.12 – Tétraèdre et Monopoly
Exercice 3.17 (Le scarabée)

Un scarabée se déplace sur les arêtes d’un tétraèdre régulier (voir figure 3.12 à gauche). Quel que
soit le sommet où il se trouve à un instant donné, il choisit au hasard et de façon équiprobable le
sommet vers lequel il va se diriger. Il lui faut une unité de temps pour l’atteindre. On suppose de
plus que le scarabée se déplace en continu, c’est-à-dire qu’il ne s’arrête jamais en un sommet. Xn
est la position du scarabée à l’instant n.
1. Déterminer la matrice de transition de la chaîne de Markov (Xn ). Loi(s) stationnaire(s) ?
2. A-t-on convergence en loi de (Xn ) ?
3. Le scarabée paye 1e chaque fois qu’il passe au sommet A, 2e chaque fois qu’il passe au
sommet B, 3e chaque fois qu’il passe au sommet C, 4e chaque fois qu’il passe au sommet
D. Soit CN le coût de sa trajectoire jusqu’à l’instant N . Que dire de la convergence de CNN ?

4. Supposons maintenant qu’en chaque sommet, le scarabée reste sur place avec probabilité
7/10 et parte vers chacun des autres sommets avec probabilité 1/10. Que deviennent les
résultats précédents ?
Corrigé
1. La matrice de transition P de la chaîne de Markov (Xn ) a des coefficients 1/3 partout sauf
sur sa diagonale. Cette chaîne est une marche aléatoire sur un graphe connexe, et l’unique loi
stationnaire est la loi uniforme π = [0.25, 0.25, 0.25, 0.25]. Ceci n’est pas étonnant puisqu’on
peut tout aussi bien remarquer que la matrice P est bistochastique.
2. Partant du sommet A, on peut y revenir en 2 coups, 3 coups, 4 coups, etc. Donc A est
apériodique. Puisque tous les sommets communiquent, ils sont tous apériodiques et la chaîne
est apériodique. On a donc convergence de la loi de (Xn ) vers π.
3. Par contre, on a le théorème ergodique, i.e. la convergence presque sûre de la suite de variables
aléatoires ( CNN ) vers le coût moyen, à savoir 1+2+3+4
4 = 2.5 e.
4. La chaîne est bistochastique donc la loi stationnaire est toujours la loi uniforme π. On n’a
plus de périodicité, donc il y a convergence en loi : la loi de Xn tend vers π. A fortiori, on a
la loi des grands nombres.
Exercice 3.18 (Le coup du parapluie)

Un employé lambda, appelons le Franz Kafka, se rend chaque matin de son appartement à son
bureau et fait le contraire le soir. Il dispose en tout de 3 parapluies, certains chez lui, les autres au
bureau. A Prague, ville peu ensoleillée au delà du raisonnable, il pleut 2 fois sur 3 lorsqu’il fait le
trajet, et ce indépendamment du passé. Soit Xn le nombre de parapluies à son domicile lorsqu’il
le quitte le matin.
1. Déterminer la matrice de transition de la chaîne de Markov associée.
2. Quelle est la proportion du temps où Kafka est mouillé ?
3. Généraliser avec n parapluies.
Corrigé
1. La chaîne de Markov associée a pour matrice de transition :
 
1/3 2/3 0 0
 2/9 5/9 2/9 0 
P =  0 2/9

5/9 2/9 
0 0 2/9 7/9
2. Après calculs, l’unique loi stationnaire est :

1 3 3 3
π=[ , , , ].
10 10 10 10
Sur un trajet du matin, Kafka est mouillé s’il n’a aucun parapluie chez lui et qu’il pleut :
1
ceci arrive avec probabilité : 10 × 23 = 15
1
. Sur un trajet du soir, il est mouillé s’il n’a aucun
parapluie au bureau (i.e. ils étaient tous au domicile le matin et il faisait beau le matin) et
3
qu’il pleut : ceci arrive avec probabilité : 10 × 13 × 32 = 15
1
. Que ce soit le matin ou le soir,
Kafka est mouillé une fois sur quinze.
3. La généralisation avec n parapluies ne pose pas problème : les lignes de la matrice de tran-
sition sont les mêmes que ci-dessus. La loi stationnaire est cette fois
1 3 3
π=[ , ,..., ].
3n + 1 3n + 1 3n + 1

3.5. Exercices 141
2
Et que ce soit à l’aller ou au retour, Kafka est mouillé avec probabilité 9n+3 .
Exercice 3.19 (Modèle épidémiologique)

On considère l’évolution d’un virus dans une population de taille N . Au jour n, il y a Xn individus
infectés et Sn = (N − Xn ) individus sains. Le jour suivant, les Xn individus précédemment infectés
sont sains, mais chacun des Sn individus précédemment sains a eu une probabilité p de rencontrer
chacun des In infectés de la veille et donc de contracter l’infection, toutes ces rencontres étant
indépendantes l’une de l’autre. Il est clair que si personne n’est infecté, il en sera de même le
lendemain. Le paramètre p est appelé taux de contact infectieux.
1. On suppose que la population ne compte que 3 individus et que le taux de contact infectieux
est p = 1/3.
(a) Donner matrice et graphe de transition de la chaîne de Markov (Xn ).
(b) La chaîne est-elle irréductible ? indécomposable ?
(c) Déterminer la (ou les) loi(s) stationnaire(s). Interpréter.
2. On suppose toujours avoir une population de 3 individus, mais le taux de contact infectieux
est le paramètre p ∈]0, 1[. En notant q = (1 − p), donner le graphe de transition. Loi(s)
stationnaire(s) ?
3. On suppose maintenant une population de N individus, avec taux de contact infectieux
p ∈]0, 1[. Justifier le fait que (Xn ) admet pour probabilités de transition :

N −i
pij = (1 − q i )q i(N −i−j) 1{i+j≤N } .
j
Corrigé
Le corrigé est donné en annexe, sujet de juin 2006.
Exercice 3.20 (Pile ou Face)

On joue une suite infinie de Pile ou Face non biaisés : ceci fournit une suite de variables aléatoires
(Xn )n≥0 indépendantes et identiquement distribuées avec P(Xn = P ) = P(Xn = F ) = 1/2.
A partir de cette suite on considère la chaîne de Markov (Yn )n≥1 définie par : Y1 = (X0 , X1 ),
Y2 = (X1 , X2 ), et de façon générale Yn = (Xn−1 , Xn ) pour tout n ≥ 1. Cette chaîne est donc à
valeurs dans l’espace d’états :
E = {E1 , E2 , E3 , E4 } = {(P, F ), (F, F ), (F, P ), (P, P )}.
1. Donner la matrice et le graphe de transition de (Yn ).

2. La chaîne est-elle irréductible, apériodique ?
4. Retrouver le résultat de la question précédente en calculant directement la loi de Yn :
P(Yn ) = [P(Yn = E1 ), P(Yn = E2 ), P(Yn = E3 ), P(Yn = E4 )] .
Corrigé
Le corrigé est donné en annexe, sujet de mai 2007.

Soit l’espace d’états E = {1, 2, 3, 4} d’une chaîne de Markov homogène.

1. Compléter la matrice suivante pour qu’elle soit une matrice de transition :

 
. 12 0 0
 . 2 0 0 
P = 3
 0 . 1 1 

2 2
1
4 . 0 21
2. Représenter le graphe associé.

3. La chaîne est-elle irréductible ? Indécomposable ?
5. On considère qu’au temps 0, on est dans l’état 3. Pour un grand nombre d’unité de temps
n, quelles sont les probabilités qu’on soit dans chacun des quatre états ?
Corrigé
Le corrigé est donné en annexe, sujet de mai 2008.
Exercice 3.22 (Et les Athéniens s’atteignirent)

On reprend le problème de transmission bruitée vu au premier chapitre (exercice 1.7) : un message
doit être transmis d’un point successivement à travers N canaux. Ce message peut prendre deux
valeurs, 0 ou 1. Durant le passage par un canal, le message a la probabilité p ∈]0, 1[ d’être bruité, i.e.
d’être transformé en son contraire, et (1 − p) d’être transmis fidèlement. Les canaux se comportent
indépendamment les uns des autres. Pour tout n ∈ {1, . . . , N }, notons pn la probabilité qu’en
sortie de ne canal, le message soit le même que celui transmis initialement.
1. Modéliser le problème par une chaîne de Markov à deux états, de matrice de transition P .
2. Montrer que (P n ) converge vers une matrice P∞ que l’on précisera.
3. En déduire limn→+∞ pn .
Exercice 3.23 (Simulation d’une chaîne de Markov)

On veut simuler les déplacements d’un scarabée sur les sommets d’un tétraèdre ABCD et étudier
la chaîne de Markov associée (voir exercice 3.17). On rappelle que Xn correspond à la position du
scarabée à l’étape n. On suppose que le scarabée part du sommet A. Quel que soit le sommet où
il se trouve à un instant donné, il choisit au hasard de façon équiprobable de se diriger vers l’un
des trois autres sommets.
1. Simuler une trajectoire X0 , . . . , X1000 du scarabée à l’aide de la fonction sample. Vérifier sur
cet exemple la loi des grands nombres, c’est-à-dire que le scarabée passe à peu près un quart
du temps en chaque sommet.
2. On veut observer la convergence en loi, c’est-à-dire vérifier que :

1 1 1 1
P(Xn ) = [P(Xn = A), P(Xn = B), P(Xn = C), P(Xn = D)] −n→+∞
−−−−→ π = , , , .
4 4 4 4
Etudier la position du scarabée pour n = 50.
3. On considère maintenant que les déplacements du scarabée sont régis par la matrice de
transition :  
0 2/3 0 1/3
 1/3 0 2/3 0 
P =  0 1/3 0 2/3  .

2/3 0 1/3 0

3.5. Exercices 143
(a) Vérifier la loi des grands nombres.

(b) Que dire de la convergence en loi ?
4. Tirer au hasard une matrice de transition P à l’aide de la fonction runif. Vérifier que la
loi des grands nombres et la convergence en loi permettent de trouver un même vecteur
probabilité ligne π. Retrouver précisément cette loi d’équilibre grâce à la fonction eigen et
en utilisant sa propriété caractéristique : π est un vecteur propre à gauche de P associé à la
valeur propre 1.
0.25
0.20
0.15
0.10
0.05
0.00
A B C D
Figure 3.13 – Fréquences empiriques pour une seule trajectoire de longueur 1000.
Corrigé
Les simulations sont effectuées à l’aide du logiciel R.
1. Le résultat est représenté figure 3.13.
P=matrix(1/3,4,4)-diag(1/3,4) # P est la matrice de transition.
mu0=c(1,0,0,0) # le scarabée part du sommet A.
n0=1001 # le scarabée marche de l’instant 0 à l’instant n0-1.
x=numeric(n0)
x[1]=sample(1:4,1,prob=mu0)
for (i in 1:(n0-1)){x[i+1]=sample(1:4,1,prob=P[x[i],])}
plot(table(x)/n0,type=’h’,xlab=’position du scarabee’,ylab=’frequences empi-
riques’)
2. Le résultat est représenté figure 3.14.
P=matrix(1/3,4,4)-diag(1/3,4) # P est la matrice de transition.
mu0=c(1,0,0,0) # le scarabée part du sommet A.
n0=51 # le scarabée marche de l’instant 0 à l’instant n0-1.
ns=1000 # on simule ns trajectoires du scarabée.
S=matrix(0,nrow=ns,ncol=n0)
for (j in (1:ns)){
S[j,1]=sample(1:4,1,prob=mu0)

0.25
0.20
0.15
0.10
0.05
0.00
A B C D
Figure 3.14 – Fréquences empiriques à la date 50 pour 1000 trajectoires.
for (i in 1:(n0-1)){S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])}}
plot(table(S[,n0])/ns,type=’h’,xlab=’position du scarabee’,ylab=’frequences
empiriques’)
3. (a) Le résultat est représenté figure 3.15. La chaîne étant irréductible et la matrice de
transition bistochastique, la seule loi d’équilibre est à nouveau la loi π uniforme sur les
quatre états.
P=matrix(c(0,2/3,0,1/3,1/3,0,2/3,0,0,1/3,0,2/3,2/3,0,1/3,0),4,4,byrow=TRUE)
mu0=c(1,0,0,0)
n0=1001
x=numeric(n0)
x[1]=sample(1:4,1,prob=mu0)
for (i in 1:(n0-1)){x[i+1]=sample(1:4,1,prob=P[x[i],])}
plot(table(x)/n0,type=’h’,xlab=’position du scarabee’,ylab=’frequences
empiriques’)
(b) Le résultat est représenté figure 3.16. La chaîne étant périodique, de période 2, le sca-
rabée ne peut être qu’au sommet A ou C après un nombre pair de déplacements. On
voit donc que la loi des grands nombres s’applique, mais pas la convergence en loi.
P=matrix(c(0,2/3,0,1/3,1/3,0,2/3,0,0,1/3,0,2/3,2/3,0,1/3,0),4,4,byrow=TRUE)
mu0=c(1,0,0,0)
n0=51
ns=1000
for (j in (1:ns)){
empiriques’)

3.5. Exercices 145
0.25
0.20
0.15
0.10
0.05
0.00
A B C D
Figure 3.15 – Fréquences empiriques pour une seule trajectoire de longueur 1000.
0.5
0.4
0.3
0.2
0.1
0.0
A C
Figure 3.16 – Fréquences empiriques à la date 50 pour 1000 trajectoires.

0.35
0.35
0.35
0.30
0.30
0.30
0.25
0.25
0.25
0.20
0.20
0.20
0.15
0.15
0.15
0.10
0.10
0.10
0.05
0.05
0.05
0.00
0.00
0.00
A B C D A B C D A B C D
Figure 3.17 – Loi stationnaire obtenue de 3 façons : convergence en loi (à gauche), loi des grands
nombres (au centre), vecteur propre principal (à droite).
4. Le résultat est représenté figure 3.17. Si on tire une matrice au hasard, on est sûr d’obtenir
une chaîne irréductible et apériodique. La convergence en loi comme la loi des grands nombres
permettent donc de retrouver la loi stationnaire théorique.
P=matrix(runif(16),4,4)
P=P/(rowSums(P)%*%t(rep(1,4)))
vp=as.numeric(eigen(t(P))$vectors[,1])
vp=vp/(sum(vp))
mu0=c(1,0,0,0)
n0=1001
ns=1000
for (j in (1:ns)){
m=matrix(1:3,nrow=1,ncol=3)
layout(m)
empiriques’)
plot(table(S[1,])/n0,type=’h’,xlab=’position du scarabee’,ylab=’frequences
empiriques’)
plot(vp,type=’h’,xlab=’position du scarabee’,ylab=’probabilité théorique’)

Annexe A
Annales
Université de Rennes 2 Mercredi 8 Juin 2005

Licence MASS 3 Durée : 2 heures
Arnaud Guyader Calculatrice autorisée
Examen de Probabilités
I. Couple aléatoire (6 points)

f (x, y) = e−y 1{0<x<y} .
1. Vérifier que f (x, y) définit une densité de probabilité sur R2 .

2. Calculer les densités marginales f (x) et f (y) de X et Y . Les variables X et Y sont-elles
indépendantes ?
3. Calculer E[X], E[Y ], Cov(X, Y ).
4. Déterminer la densité conditionnelle f (y|x) de Y sachant X = x. En déduire E[Y |X = x],
puis l’espérance conditionnelle E[Y |X].
5. Déterminer de même E[X|Y ].
6. On considère le couple aléatoire (Z, T ) défini par

Z =X +Y
T =Y −X
Déterminer la loi jointe fZ,T (z, t) du couple (Z, T ).

7. En déduire les densités marginales de Z et T .
147
148 Annexe A. Annales
II. Vecteur gaussien bidimensionnel (4 points)


1 1
Γ=
1 4
1. Ecrire la densité du vecteur [X, Y ]′ .

2. Quelle est la loi de X ? de Y ? de X + Y ?
3. Déterminer l’espérance conditionnelle E[X|Y ]. Quelle est sa loi ?
III. Vecteur gaussien tridimensionnel (6 points)

 
2 1 1
Γ= 1 2 1 
1 1 2
1. Donner l’espérance conditionnelle E[X|Y, Z].

2. Quelle est la loi de Z sachant X = 1 et Y = 2 ?
3. Déterminer l’espérance conditionnelle du vecteur [X, Y ]′ sachant Z, notée E[X, Y |Z].
4. Quelle est la loi du vecteur [X, Y ]′ sachant Z = 1 ?
5. On pose alors : 
 U = −X + Y + Z
V =X −Y +Z

W =X +Y −Z
Pourquoi le vecteur aléatoire [U, V, W ]′ est-il gaussien ?
6. Quelles sont les lois de U , de V , de W ?
7. Déterminer la moyenne et la matrice de covariance de [U, V, W ]′ . Qu’en déduire sur la corré-
lation de U , V et W ?
IV. Chaîne de Markov (4 points)

1. Justifier par une phrase le fait que (Xn ) est une chaîne de Markov.
2. Donner la matrice et le graphe de transition de (Xn ).
5. On commence avec l’urne A vide. Au bout d’un temps supposé assez grand, on observe le
nombre de boules dans l’urne A. Quelle est (à peu de choses près) la probabilité que ce
nombre soit pair ?
6. On commence avec l’urne A pleine. On observe une réalisation (X0 , X1 , . . . , Xn , . . . ) de la
chaîne. Quelle est la proportion du temps où il y a strictement moins de boules dans l’urne
A que dans l’urne B ?
7. Bonus : Généraliser l’étude précédente avec M boules numérotées de 1 à M .

149
Mercredi 8 Juin 2005

Université de Rennes 2 Durée : 2 heures
Licence MASS 3 Calculatrice autorisée
Arnaud Guyader
Corrigé
I. Couple aléatoire
f (x, y) = e−y 1{0<x<y} .
1. f (x, y) est mesurable positive et on vérifie sans problème que son intégrale sur R2 vaut 1.
Donc f (x, y) définit bien une densité de probabilité sur R2 .
2. Pour les densités marginales, on obtient f (x) = e−x 1]0,+∞[ (x), c’est-à-dire que X suit une
loi exponentielle E(1). De même, on trouve :
f (y) = ye−y 1]0,+∞[(y).
Les variables X et Y ne sont pas indépendantes puisque :
f (x, y) 6= f (x)f (y).
On pouvait l’affirmer dès le début puisque le support de la loi jointe n’est pas un produit
d’intervalles.
3. Rappelons que si V ∼ E(1), alors :
E[V n ] = n!
On a donc : E[X] = 1. De même : E[Y ] = E[V 2 ] = 2! = 2. Pour la covariance :
Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[XY ] − 2.
Or : ZZ Z +∞
1 1
E[XY ] = xyf (x, y) dx dy = y 3 e−y dy = E[V 3 ] = 3,
R 2 2 0 2
d’où l’on déduit : Cov(X, Y ) = 1.
4. La densité conditionnelle f (y|x) de Y sachant X = x vaut par définition pour tout x > 0 :
f (x, y)
f (y|x) = = ex−y 1{x<y} .
f (x)
C’est donc une loi exponentielle translatée. Son espérance vaut :
Z +∞
E[Y |X = x] = yex−y dy = x + 1.
x
De façon générale, on a donc :
E[Y |X] = X + 1.

5. De même, on a successivement :
1
f (x|y) = 1 .
y {0<x<y}
C’est donc une loi uniforme sur [0, y]. Sa moyenne vaut :
y
E[X|Y = y] = ,
2
et de façon générale :
Y
E[X|Y ] = .
2
6. On définit naturellement le C 1 − difféomorphisme entre ouverts de R2

U →V
ϕ:
(x, y) 7→ (z, t) = (x + y, y − x)
avec U = {(x, y) ∈ R2 : 0 < x < y} et V = {(z, t) ∈ R2 : 0 < t < z}. Le théorème de

changement de variable donne alors pour la densité du couple aléatoire (Z, T ) :
fZ,T (z, t) = fX,Y (ϕ−1 (z, t)) · |Jϕ−1 (z, t)|.
Quelques calculs donnent :
1 1
fZ,T (z, t) = e− 2 (z+t) 1{0<t<z} .
2
7. Les densités marginales sont :
fZ (z) = e− 2 1{z>0} − e−z 1{z>0} .

z
et :
fT (t) = e−t 1{t>0} ,
c’est-à-dire que T ∼ E(1).
II. Vecteur gaussien bidimensionnel


1 1
Γ=
1 4
1. La densité du vecteur [X, Y ]′ est :
1 1 2 2
f (x, y) = √ e− 6 (4(x−1) −2(x−1)(y+1)+(y+1)
2π 3
2. X ∼ N (1, 1), Y ∼ N (−1, 4). Enfin X + Y ∼ N (0, 7), car E[X + Y ] = E[X] + E[Y ] et :
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ).

151
3. Pour déterminer l’espérance conditionnelle E[X|Y ], on utilise la formule générale du condi-

tionnement gaussien :
Cov(X, Y )
E[X|Y ] = E[X] + (Y − E[Y ]),
Var(Y )
ce qui donne ici : E[X|Y ] = 1 + 14 (Y + 1). Puisque Y ∼ N (−1, 4), on a :
1
E[X|Y ] ∼ N (1, ).
4
III. Vecteur gaussien tridimensionnel

 
2 1 1

Γ= 1 2 1 
1 1 2
1. L’espérance conditionnelle de X sachant (Y, Z) est :
1
E[X|Y, Z] = ΓX,(Y,Z)Γ−1 ′
Y,Z [Y, Z] = (Y + Z).
3
2. On a la décomposition orthogonale :
1
Z = E[Z|X, Y ] + (Z − E[Z|X, Y ]) = E[Z|X, Y ] + W = (X + Y ) + W,
3
avec W indépendante du couple (X, Y ). Quant à sa loi : W ∼ N (0, σ 2 ), avec σ 2 variance
résiduelle donnée par :
4
σ 2 = ΓZ − ΓZ,(X,Y ) Γ−1
X,Y Γ(X,Y ),Z =
3
Il suit que, sachant X = 1 et Y = 2, Z ∼ N (1, 34 )
3. L’espérance conditionnelle E[X, Y |Z] est donnée par la formule de projection :
E[X, Y |Z] = Γ(X,Y ),Z Γ−1 ′
Z Z = [Z/2, Z/2] .
Autrement dit, c’est tout simplement le vecteur [E[X|Z], E[Y |Z]]′ .

4. On a comme ci-dessus la décomposition orthogonale :
[X, Y ]′ = E[X, Y |Z] + ([X, Y ]′ − E[X, Y |Z]) = [Z/2, Z/2]′ + W,
avec W vecteur gaussien indépendant de Z, et plus précisément W ∼ N ([0, 0]′ , ΓW ), avec :

3/2 1/2
ΓW = ΓX,Y − Γ(X,Y ),Z Γ−1
Z Γ Z,(X,Y ) =
1/2 3/2
5. On pose alors 
 U = −X + Y + Z
V = X −Y +Z

W = X +Y −Z
Le vecteur aléatoire [U, V, W ]′ est gaussien, puisque c’est l’image du vecteur gaussien [X, Y, Z]′
par une application linéaire. Si on note :
 
−1 1 1
A =  1 −1 1  ,
1 1 −1
on a [U, V, W ]′ = A[X, Y, Z]′

6. Les variables U , V et W sont donc gaussiennes. Par symétrie, elles suivent la même loi
N (0, 4). La variance s’obtient par exemple via la formule :
Var(U ) = Var(X) + Var(Y ) + Var(Z) − 2Cov(X, Y ) − 2Cov(X, Z) + 2Cov(Y, Z).
7. Le vecteur gaussien [U, V, W ]′ est centré et sa matrice de covariance est :
 
4 0 0
Γ2 = AΓA′ =  0 4 0 .
0 0 4
Cette matrice est diagonale, ce qui est dans le cas gaussien une condition nécessaire et suffi-
sante d’indépendance des variables U , V et W .
IV. Chaîne de Markov

1. L’opération effectuée à chaque étape est aléatoire, mais ne dépend que de la composition
présente des urnes, indépendamment de ce qui s’est passé au préalable. Ceci fait de (Xn ) une
chaîne de Markov.
2. La variable aléatoire Xn est à valeurs dans {0, 1, 2, 3, 4}. Sa matrice de transition est :
 
1/2 1/2 0 0 0
 1/8 1/2 3/8 0 0 
 

P =  0 1/4 1/2 1/4 0  .
 0 0 3/8 1/2 1/8 
0 0 0 1/2 1/2
Le graphe de transition est donné figure A.1.
0 1 2 3 4
Figure A.1 – Graphe de transition de la chaîne de Markov (Xn ).
3. On peut passer de tout état à tout autre donc la chaîne est irréductible. Par ailleurs on peut
boucler sur chaque état, donc elle est apériodique.
4. L’irréductibilité de la chaîne entraîne l’existence d’une unique loi stationnaire π, c’est-à-dire
un vecteur ligne :
π = [π0 , π1 , π2 , π3 , π4 ],
avec les πi compris entre 0 et 1 et sommant à 1. On la détermine en résolvant le système
d’équations πP = π. Après quelques calculs, on obtient :

1 4 6 4 1
π= , , , , .
16 16 16 16 16
On peut noter que de façon générale :
i 4−i
4 1 1
∀i ∈ {0, 1, 2, 3, 4} πi = ,
i 2 2
c’est-à-dire que le nombre de boules dans l’urne A suit une loi binômiale B(4, 21 ).

153
5. Le théorème de convergence en loi pour les chaînes de Markov irréductibles et apériodiques

assure que la loi de Xn tend vers la loi π, indépendamment de la répartition initiale entre
les deux urnes. La probabilité que le nombre de boules dans l’urne A soit pair à l’instant n
est donc :
1
P(Xn ∈ {0, 2, 4}) −−−→ π0 + π2 + π4 = .
n→∞ 2
6. La loi forte des grands nombres pour les chaînes de Markov irréductibles assure que la
proportion du temps où il y a moins de boules dans l’urne A que dans l’urne B tend vers la
probabilité que ceci arrive pour la loi π. C’est-à-dire qu’ on a la convergence presque sûre :
n
1 X p.s. 5
1{0,1} (Xk ) −n→∞
−−→ π0 + π1 = .
n+1 16
k=0
7. La généralisation avec M boules est directe : la chaîne est encore irréductible et apériodique,
d’unique loi stationnaire π ∼ B(M, 12 ).

Université de Rennes 2 Jeudi 8 Juin 2006

Arnaud Guyader Aucun document autorisé
I. Variable Y définie à partir de X (3 points)

2 ln(1 + x)
1[0,1] (x)
(ln 2)2 1 + x
1 1
1 (y)
ln(1 + x) 1 + y [0,x]
1. Donner la densité jointe du couple (X, Y ).

2. Quelle est la densité de Y ? Densité conditionnelle de X sachant Y ?
4. Déterminer l’espérance conditionnelle E[X|Y ].
Figure A.2 – Tirage uniforme dans un triangle.
II. Couple aléatoire discret (6 points)

On tire un point de façon uniforme parmi ceux de la figure A.3. Ceci donne un couple aléatoire
(X, Y ) dont la loi jointe est : pij = P(X = i, Y = j) = 15
1
, 1 ≤ j ≤ i ≤ 5.
1. Donner les lois marginales de X et de Y .

155
2. Soit j ∈ {1, . . . , 5} fixé : déterminer la loi conditionnelle de X sachant Y = j, c’est-à-dire

P(X = i|Y = j).
3. Calculer E[X|Y = j], en déduire E[X|Y ], puis E[X] en fonction de E[Y ].
4. Déterminer de même la loi conditionnelle de Y sachant X = i.
5. Calculer E[Y |X = i], en déduire E[Y |X], puis E[Y ] en fonction de E[X].
6. Déduire des questions précédentes E[X] et E[Y ].
7. Généralisation : soit N ∈ N∗ fixé, reprendre les questions précédentes en remplaçant 5 par
N (on ne demande pas le détail des calculs, uniquement les résultats).
III. Vecteur gaussien (6 points)

1 1 1
Γ= 1 2 2 
1 2 3
1. Quelle est la loi du vecteur [X, Y ]′ ? Donner sa densité.
2. Déterminer l’équation de la droite de régression de Y en X. Préciser le résidu quadratique.
3. Donner une variable aléatoire U = αX + βY + γ qui soit indépendante de X.
4. Quelle est la fonction caractéristique du vecteur V ?
5. Donner l’expression de E[Z|X, Y ], espérance conditionnelle de Z sachant (X, Y ) ?
6. En déduire une variable aléatoire T = aX + bY + cZ + d qui soit indépendante de X et Y .
Préciser la variance de T .
7. On observe Y = 1 et Z = 2. Quelle est la loi de la variable aléatoire X sachant ces données ?
IV. Modèle épidémiologique (5 points)

On considère l’évolution d’un virus dans une population de taille N . Au jour n, il y a Xn individus
infectés et Sn = (N − Xn ) individus sains. Le jour suivant, les Xn individus précédemment infectés
sont sains, mais chacun des Sn individus précédemment sains a eu une probabilité p de rencontrer
chacun des In infectés de la veille et donc de contracter l’infection, toutes ces rencontres étant
indépendantes l’une de l’autre. Il est clair que si personne n’est infecté, il en sera de même le
lendemain. Le paramètre p est appelé taux de contact infectieux.
est p = 1/3.
(a) Donner matrice et graphe de transition de la chaîne de Markov (Xn ).
(b) La chaîne est-elle irréductible ? indécomposable ?
(c) Déterminer la (ou les) loi(s) stationnaire(s). Interpréter.
est le paramètre p ∈]0, 1[. En notant q = (1 − p), donner la matrice de transition. Loi(s)
stationnaire(s) ?
p ∈]0, 1[. Justifier le fait que (Xn ) admet pour probabilités de transition :

N −i
pij = (1 − q i )j q i(N −i−j) 1{i+j≤N } .
j

Jeudi 8 Juin 2006

Université de Rennes 2
Durée : 2 heures
Licence MASS 3
Aucun document autorisé
Arnaud Guyader
Corrigé
I. Variable Y définie à partir de X

2 ln(1 + x)
1[0,1] (x)
(ln 2)2 1 + x
1 1
1 (y)
ln(1 + x) 1 + y [0,x]
1. Puisqu’on connaît f (x) et f (y|x), on en déduit la densité jointe du couple (X, Y ) :
2 1
f (x, y) = f (y|x)f (x) = 1 .
(ln 2) (1 + x)(1 + y) {0≤y≤x≤1}
2
2. La densité de Y s’obtient en marginalisant la loi jointe par rapport à x. Pour tout y dans
[0, 1] :
Z 1
2 1 2
f (y) = 2 (1 + x)(1 + y)
dx = 2 (1 + y)
[ln(1 + x)]1y ,
y (ln 2) (ln 2)
ce qui donne :
2
f (y) = (ln 2 − ln(1 + y))1[0,1] (y).
(ln 2)2 (1
+ y)
On en déduit la densité conditionnelle de X sachant Y :
f (x, y) 1
f (x|y) = = 1 .
f (y) (1 + x)(ln 2 − ln(1 + y)) {0≤y≤x≤1}
En toute rigueur, cette formule n’est valable que pour y ∈ [0, 1[, mais pour y = 1 on a
forcément x = 1, Autrement dit, la loi de X sachant Y = 1 n’admet pas de densité, c’est un
Dirac au point 1.
3. Le support de la loi jointe f (x, y) est le domaine :
D = {(x, y) : 0 ≤ y ≤ x ≤ 1},
qui n’est pas un pavé, donc X et Y ne peuvent être indépendantes. Une autre façon de
le vérifier est de remarquer que le produit des marginales n’est pas égal à la loi jointe :
f (x, y) 6= f (x)f (y). Une autre méthode est de voir que la densité conditionnelle de X sachant
Y n’est pas égale à la densité marginale de X : f (x|y) 6= f (x). Dans la même idée, on vérifie
aussi que : f (y|x) 6= f (y).

157
4. Soit y ∈ [0, 1] fixé. On a par définition :

Z 1 Z 1
1 x
E[X|Y = y] = xf (x|y) dx = dx,
y ln 2 − ln(1 + y) y 1+x
et il suffit d’écrire :
x 1
=1− ,
1+x 1+x
pour en déduire :
1 1−y
E[X|Y = y] = [x − ln(1 + x)]1y = − 1.
ln 2 − ln(1 + y) ln 2 − ln(1 + y)
Noter que cette formule est encore valable pour y = 1, puisque le développement limité de
ln(1 + y) au voisinage de y = 1 donne :
1
ln(1 + y) = ln 2 + (1 − y) + o(1 − y),
2
1−y
− 1 −−−→ 1,
ln 2 − ln(1 + y) y→1
ce qui est bien la moyenne de la variable X lorsque Y = 1.

De façon générale, on a donc :
1−Y
E[X|Y ] = − 1.
ln 2 − ln(1 + Y )
Figure A.3 – Tirage uniforme dans un triangle
II. Couple aléatoire discret

On tire un point de façon uniforme parmi ceux de la figure A.3. Ceci donne un couple aléatoire
(X, Y ) dont la loi jointe est : pij = P(X = i, Y = j) = 15 1
, 1 ≤ j ≤ i ≤ 5.
1. La variable aléatoire X est à valeurs dans {1, . . . , 5} et pour tout i dans cet ensemble, on a :
i
X i
pi. = P(X = i) = pij = .
15
j=1
De même, Y est à valeurs dans {1, . . . , 5} et pour tout j dans cet ensemble, on a :
5
X 6−j
p.j = P(Y = j) = pij = .
15
i=j

2. Soit j ∈ {1, . . . , 5} fixé, la loi conditionnelle de X sachant Y = j est :
pij 1
pi|j = = 1 ≤ j ≤ i ≤ 5.
p.j 6−j
3. On en déduit :
5
X 5
1 X
E[X|Y = j] = ipi|j = i,
6−j
i=j i=j
et on reconnaît la somme des termes d’une suite arithmétique, d’où :
j+5
E[X|Y = j] = .
2
On en déduit l’espérance conditionnelle de X sachant Y :
1 5
E[X|Y ] = Y + .
2 2
Puisqu’on sait que E[E[X|Y ]] = E[X], on en déduit une première relation entre les espérances
de X et Y :
1 5
E[X] = E[Y ] + .
2 2
4. Soit i ∈ {1, . . . , 5} fixé, la loi conditionnelle de Y sachant X = i est :
pij 1
pj|i = = 1 ≤ j ≤ i ≤ 5.
pi. i
5. On en déduit :
i
X i
1X
E[Y |X = i] = jpj|i = j,
i
j=1 j=1
et on reconnaît à nouveau une somme arithmétique :
i+1
E[Y |X = i] = ,
2
d’où l’espérance conditionnelle :
1 1
E[Y |X] = X + ,
2 2
et une seconde relation entre les espérances de X et Y :
1 1
E[Y ] = E[X] + .
2 2
6. Les questions précédentes donnent un système linéaire de deux équations à deux inconnues :

E[X] = 12 E[Y ] + 52
E[Y ] = 12 E[X] + 12
11
que l’on résout sans problème pour arriver à E[X] = 3 et E[Y ] = 37 .

159
7. Généralisation : pour N ∈ N∗ fixé, les calculs précédents se généralisent sans difficulté. On

commence par remarquer qu’il y a maintenant N (N2+1) points dans le triangle. On obtient
donc comme loi jointe :
2
pij = P(X = i, Y = j) = 1 ≤ j ≤ i ≤ N.
N (N + 1)
La loi marginale de X est :
2i
pi. = ,
N (N + 1)
tandis que celle de Y s’écrit :
2(N + 1 − j)
p.j = .
N (N + 1)
La loi conditionnelle de X sachant Y = j est donc :
1
pi|j = 1 ≤ j ≤ i ≤ N.
N +1−j
On en déduit :
j+N 1 N
E[X|Y = j] = ⇒ E[X|Y ] = Y + ,
2 2 2
d’où une première relation entre les espérances :
1 N
E[X] = E[Y ] + .
2 2
De même, on trouve :
1
pj|i = 1 ≤ j ≤ i ≤ N.
i
On en déduit :
i+1 1 1
E[Y |X = i] = ⇒ E[Y |X] = X + ,
2 2 2
d’où une seconde relation entre les espérances :
1 1
E[Y ] = E[X] + .
2 2
2N +1 N +2
Les deux relations obtenues permettent d’en déduire E[X] = 3 et E[Y ] = 3 .
III. Vecteur gaussien

1 1 1
Γ= 1 2 2 
1 2 3
1. Le vecteur [X, Y ]′ est gaussien comme image du vecteur gaussien V par une application
linéaire :  
X
X 1 0 0 
= Y .
Y 0 1 0
Z
Plus précisément, il est de moyenne µ = [1, −1]′ et de matrice de covariance :

1 1
Σ=
1 2

Puisque Σ est inversible, il admet une densité donnée par la formule :

1 1 ′ −1 ′
f (x, y) = √ exp − ([x, y] − µ )Σ ([x, y] − µ) .
2π det Σ 2
Après calculs de det Σ et Σ−1 , on obtient :

1 2 1 2 5
f (x, y) = exp −x + 3x + xy − y − 2y − .
2π 2 2
2. La droite de régression de Y en X correspond à l’espérance conditionnelle de Y sachant X :
Cov(Y, X)
E[Y |X] = E[Y ] + (X − E[X]) = X − 2,
Var(X)
c’est-à-dire la droite d’équation y = x − 2. Le résidu quadratique est alors :
Cov2 (Y, X)
σ 2 = Var(Y ) − = 1.
Var(X)
3. Puisque E[Y |X] est la projection orthogonale de Y sur H = Vect(1, X), on en déduit que la
variable aléatoire U = Y − E[Y |X] = Y − X + 2 est orthogonale à H, donc en particulier à
la variable aléatoire X − E[X] de H. Ceci signifie que :
0 = hU, X − E[X]i = E[U (X − E[X])] = Cov(U, X).
Donc les variables aléatoires U et X sont décorrélées et puisque le vecteur [X, U ]′ est gaussien
comme image du vecteur gaussien V par une application affine, ceci est équivalent à dire que
X et U sont indépendantes.
4. Soit u = [u1 , u2 , u3 ]′ ∈ R3 , alors la fonction caractéristique du vecteur V est :
′ 1 ′
ΦV (u) = eiu m− 2 u Γu .
En développant, on a donc :

1 2 2 2
ΦV (u) = exp i(u1 − u2 + u3 ) − (u1 + 2u1 u2 + 2u1 u3 + 2u2 + 4u2 u3 + 3u3 ) .
2
5. L’espérance conditionnelle de Z sachant (X, Y ) est :
E[Z|X, Y ] = E[Z] + ΓZ,(X,Y ) Γ−1 ′

(X,Y ) ([X, Y ] − µ).
Or Γ(X,Y ) = Σ, donc son inverse a déjà été calculée. On obtient alors :
E[Z|X, Y ] = Y + 2.
6. Par le même raisonnement que ci-dessus, on en déduit que la variable aléatoire T = Z −

E[Z|X, Y ] = Z − Y − 2 est indépendante de X et de Y . La variance de T est le résidu
quadratique, c’est-à-dire :
s2 = Var(Z) − ΓZ,(X,Y ) Γ−1

(X,Y ) Γ(X,Y ),Z = 1.

161
7. On sait qu’on a la décomposition :
X = E[X|Y, Z] + W,
avec W ∼ N (0, v) indépendante du couple (Y, Z). Or le même calcul que ci-dessus donne :
1 3
E[X|Y, Z] = Y + ,
2 2
et la variance v de W est le résidu quadratique : v = 21 . Sachant que Y = 1 et Z = 2, la
variable aléatoire X suit donc une loi N (2, 1/2).
IV. Modèle épidémiologique

est p = 1/3.
4
9 1
9
1 0 4 1 5 2 3
9 9
4
9
Figure A.4 – Graphe de transition pour le modèle épidémiologique
(a) – Si Xn = 0, personne n’est infecté le jour n, donc le jour suivant non plus. Ainsi p00 = 1
et p0j = 0 pour tout j ∈ {1, 2, 3}. En d’autres termes, l’état {0} est absorbant.
– Sachant Xn = 1 : puisque la personne infectée le jour n est guérie le lendemain, on
a nécessairement Xn+1 ∈ {0, 1, 2}. Plus précisément, la probabilité que Xn+1 = 0
est la probabilité que la personne infectée n’ait rencontré aucune des deux autres
personnes, ce qui arrive avec probabilité p10 = 2/3 × 2/3 = 4/9 ; la probabilité que
Xn+1 = 2 est la probabilité que la personne infectée ait rencontré chacune des deux
autres personnes, ce qui arrive avec probabilité p12 = 1/3 × 1/3 = 1/9 ; par suite, la
probabilité que Xn+1 = 1 est égale à :
4
p11 = 1 − (p10 + p12 ) = .
9
– Sachant Xn = 2, puisque les personnes infectées le jour n sont guéries le lendemain,
on a nécessairement Xn+1 ∈ {0, 1}. Plus précisément, la probabilité que Xn+1 = 0 est
la probabilité que la personne saine ne rencontre aucune des deux personnes infectées,
ce qui arrive avec probabilité p20 = 2/3 × 2/3 = 4/9 ; la probabilité que Xn+1 = 1 est
donc p21 = 1 − p20 = 5/9.
– Sachant Xn = 3, on a forcément Xn+1 = 0.
On en déduit la matrice de transition :
 
1 0 0 0
 4 4 1 0 
P = 9 9 9
 4 5 0 0 .

9 9
1 0 0 0
Le graphe de transition est donné figure A.4.

(b) La chaîne est indécomposable : il y a un état récurrent {0} et trois états transitoires
{1, 2, 3}.
(c) Puisque la chaîne est indécomposable, il y a unicité de la loi stationnaire π. De plus,
celle-ci est nulle pour les états transitoires, donc :
π = [1, 0, 0, 0].
On pouvait aussi obtenir ce résultat en résolvant le système linéaire πP = π. Ceci

signifie que, quelque soit le nombre de personnes initialement infectées, on est presque
sûr qu’au bout d’un certain temps, toute la population sera saine.
est le paramètre p ∈]0, 1[. En notant q = (1 − p), on obtient la matrice de transition :
 
1 0 0 0
 q2 2pq p2 0 
P =  q2 1 − q2 0 0  .

1 0 0 0
Le raisonnement fait ci-dessus tient toujours donc l’unique loi stationnaire est encore π =
[1, 0, 0, 0].
p ∈]0, 1[. Sachant que Xn = i, on a forcément Xn+1 ∈ {0, . . . , N − i}, ce qui explique
l’indicatrice dans la formule.
On remarque aussi que la probabilité qu’une personne saine un jour le soit encore le lendemain
est égale à la probabilité qu’elle ne rencontre aucune des i personnes infectées, ce qui arrive
avec probabilité q i , puisque les rencontres sont indépendantes.
Soit alors j ∈ {0, . . . , N − i} : la probabilité de transition pij est la probabilité que parmi les
(N − i) personnes saines, j soient infectées. Puisque les rencontres sont indépendantes et que
l’infection arrive avec probabilité 1 − q i , c’est exactement la probabilité qu’une loi binômiale
B(N − i, 1 − q i ) prenne la valeur j. Ceci donne bien :

N −i
pij = (1 − q i )j q i(N −i−j) 1{i+j≤N } .
j

163
Université de Rennes 2 Mercredi 16 Mai 2007

Arnaud Guyader Aucun document autorisé
I. Couple aléatoire (5 points)

f (x, y) = cx(y − x)e−y 1{0<x≤y} .
1. Soit V une variable aléatoire qui suit une loi exponentielle de paramètre λ. Rappeler son
moment d’ordre n, c’est-à-dire E[V n ].
2. Déterminer c pour que f soit effectivement une densité.
3. Calculer f (x|y), densité conditionnelle de X sachant Y = y.
4. En déduire que E[X|Y ] = Y /2.
5. Calculer f (y|x), densité conditionnelle de Y sachant X = x.
6. En déduire que E[Y |X] = X + 2.
7. Déduire des questions 4 et 6 les quantités E[X] et E[Y ].
II. Couple gaussien (5 points)

2

σX rσX σY
Γ= .
rσX σY σY2
1. Rappeler à quelle condition V admet une densité f (x, y) et dans ce cas donner sa formule
en fonction de σX , σY et r. On suppose cette condition vérifiée dans toute la suite.
2. Donner l’expression de l’espérance conditionnelle E[Y |X] en fonction de σX , σY et r.
3. On considère un vecteur V = [X, Y ]′ ayant pour densité :
1 − x2 − 5y2 + xy
∀(x, y) ∈ R2 f (x, y) = e 8 8 4
4π
(a) Déterminer sa matrice de covariance Γ.
(b) Sachant x = 1, quelle est la loi de Y ?
(c) Sachant x = 1, en déduire un intervalle dans lequel se situe Y avec 95% de chances.
III. Espérance conditionnelle et indépendance (6 points)




 X1 = U
X =U +V
 2
X3 = U + V + W

E[Z|X, Y ] = E[Z|Y ] ⇒ Z est indépendante de X.


 X1 = U
X =U +V
 2
X3 = V

Z est indépendante de X ⇒ E[Z|X, Y ] = E[Z|Y ].
IV. Pile ou Face (4 points)

On joue une suite infinie de Pile ou Face non biaisés : ceci fournit une suite de variables aléatoires
(Xn )n≥0 indépendantes et identiquement distribuées avec P(Xn = P ) = P(Xn = F ) = 1/2.
A partir de cette suite on considère la chaîne de Markov (Yn )n≥1 définie par : Y1 = (X0 , X1 ),
Y2 = (X1 , X2 ), et de façon générale Yn = (Xn−1 , Xn ) pour tout n ≥ 1. Cette chaîne est donc à
valeurs dans l’espace d’états :
E = {E1 , E2 , E3 , E4 } = {(P, F ), (F, F ), (F, P ), (P, P )}.
1. Donner la matrice et le graphe de transition de (Yn ).

2. La chaîne est-elle irréductible, apériodique ?
4. Retrouver le résultat de la question précédente en calculant directement la loi de Yn :
P(Yn ) = [P(Yn = E1 ), P(Yn = E2 ), P(Yn = E3 ), P(Yn = E4 )] .

165
Mercredi 16 Mai 2007

Durée : 2 heures
Licence MASS 3
Arnaud Guyader
Corrigé
f (x, y) = cx(y − x)e−y 1{0<x≤y} .
1. Si V ∼ E(λ), alors E[V n ] = n!/λn .

2. La constante c doit être positive pour que f soit positive. Plus précisément, il faut que
l’intégrale double de f sur R2 soit égale à 1. Or le théorème de Fubini-Tonelli permet d’écrire :
ZZ Z +∞ Z y
−y
f (x, y) dx dy = cx(y − x)e dx dy,
R2 0 0
ce qui donne :
ZZ Z +∞ y Z +∞
x2 x3 −y c
f (x, y) dx dy = c y − e dy = y 3 e−y dy,
R2 0 2 3 0 6 0
et on retrouve le moment d’ordre 3 d’une loi exponentielle de paramètre 1 :

ZZ
c
f (x, y) dx dy = E[V 3 ] = c.
R2 6
Il faut donc que c soit égale à 1 pour que f soit une densité de probabilité.
3. Pour déterminer f (x|y), on commence par calculer la loi marginale de Y :
Z Z y
y3
f (y) = f (x, y) dx = e 1{y>0}
−y
x(y − x) dx = e−y 1{y>0} ,
R 0 6
c’est-à-dire que Y ∼ Γ(4, 1). On a alors :
f (x, y) 6x(y − x)
f (x|y) = = 1{0<x≤y} .
f (y) y3
4. Ceci permet de calculer l’espérance de X sachant Y = y > 0 :

Z Z y
6 y
E[X|Y = y] = xf (x|y) dx = 3 x2 (y − x) dx = ,
R y 0 2
d’où on déduit de façon plus générale que E[X|Y ] = Y /2.

5. La densité de X est :
Z Z +∞ Z +∞
f (x) = f (x, y) dy = x1{x>0} (y − x)e −y
dy = x1{x>0} ue−u−x du,
R x 0
grâce au changement de variable u = y − x, d’où :

Z +∞
f (x) = xe 1{x>0}
−x
ue−u du = xe−x 1{x>0} E[V ] = xe−x 1{x>0} ,
0
c’est-à-dire que X ∼ Γ(2, 1). On a donc :

f (x, y)
f (y|x) = = (y − x)e−(y−x) 1{0<x≤y} .
f (x)
Autrement dit, sachant X = x, Y suit une loi Γ(2, 1) translatée sur l’intervalle [x, +∞[.
6. Pour tout x > 0, on a donc E[Y |X = x] = x + E[Γ(2, 1)] = x + 2, résultat que l’on peut
retrouver par le calcul :
Z +∞ Z +∞
E[Y |X = x] = y(y − x)e−(y−x) dy = (u + x)ue−u du,
x 0
qu’on sépare en deux intégrales :

Z +∞ Z +∞
2 −u
E[Y |X = x] = u e du + x ue−u du,
0 0
et on reconnaît les moments d’une loi exponentielle de paramètre 1 :
E[Y |X = x] = E[V 2 ] + xE[V ] = 2 + x.
On en déduit que E[Y |X] = X + 2.

7. Des questions 4 et 6, en prenant les espérances, on tire le système d’équations linéaires :

E[X] = E[Y ]/2 E[X] = 2
⇔
E[Y ] = E[X] + 2 E[Y ] = 4
Vérification : rappelons que si T ∼ Γ(n, λ), alors E[T ] = nλ. Or on a vu plus haut que
X ∼ Γ(2, 1) et Y ∼ Γ(4, 1), donc on retrouve bien E[X] = 2 et E[Y ] = 4.
II. Couple gaussien

2

σX rσX σY
Γ= .
rσX σY σY2
1. Le vecteur gaussien V admet une densité sur R2 si et seulement si sa matrice de dispersion

est inversible, c’est-à-dire ssi :
detΓ = (1 − r 2 )σX
2 2
σY 6= 0.
Dans ce cas, on a :
2 x2 −2rσ σ xy+σ 2 y 2
σY X Y
1 −
2σ 2 σ 2 (1−r 2 )
X
f (x, y) = √ e X Y
2πσX σY 1 − r2

167
2. L’espérance conditionnelle de Y sachant X est :
Cov(X, Y ) rσX σY rσY

E[Y |X] = X= 2 X= X.
Var(X) σX σX
3. On considère un vecteur gaussien centré V = [X, Y ]′ ayant pour densité :

1 − x2 + 5y2 − xy
f (x, y) = e 4 4 2
4π
(a) Par identification des coefficients avec ceux de la question 1, on obtient :

5 1
Γ= .
1 1
√
Autrement dit le coefficient de corrélation linéaire r vaut 1/ 5.
(b) On a la décomposition : Y = E[Y |X] + W , avec W normale centrée indépendante de
X et de variance :
4
σ 2 = σY2 (1 − r 2 ) = .
5

Par ailleurs on a E[Y |X] = 5 . Donc sachant x = 1, Y suit une loi normale N 51 , 45 .
X
(c) On sait que, avec probabilité 0.95, une variable aléatoire suivant une loi normale tombe
à une distance inférieure à deux fois l’écart-type par rapport à sa moyenne. On en déduit
que, sachant x = 1, on a avec 95% de chances :

1 4 1 4
Y ∈ −√ , +√ .
5 5 5 5
III. Espérance conditionnelle et indépendance


 X1 = U
X =U +V
 2
X3 = U + V + W
(a) Le vecteur [X1 , X2 , X3 ]′ est gaussien en tant que transformée linéaire d’un vecteur gaus-
sien :
          
X1 1 0 0 U X1 0 1 1 1
 X2  =  1 1 0   V  ⇒  X2  ∼ N  0  ,  1 2 2  .
X3 1 1 1 W X3 0 1 2 3
(b) On en déduit l’espérance conditionnelle de X3 sachant X1 et X2 :

X1
E[X3 |X1 , X2 ] = ΓX3 ,(X1 ,X2 ) Γ−1
X1 ,X2 = X2 .
X2
On trouve aussi :
Cov(X2 , X3 )
E[X3 |X2 ] = X2 = X2 ,
Var(X2 )

c’est-à-dire que : E[X3 |X1 , X2 ] = E[X3 |X2 ]. Noter qu’on peut retrouver ces résultats en
considérant directement U , V et W :
E[X3 |X1 , X2 ] = E[U +V +W |U, U +V ] = U +V +E[W |U, U +V ] = U +V +E[W ] = U +V,
puisque W est indépendante de U et V . De même :
E[X3 |X2 ] = E[U + V + W |U + V ] = U + V + E[W |U + V ] = U + V.
W X3
V
X2 = E[X3 |X2 ] = E[X3 |X1 , X2 ]
U X1
Figure A.5 – Interprétation géométrique de l’égalité E[X3 |X1 , X2 ] = E[X3 |X2 ].
(c) Puisque les variables sont centrées et de carrés intégrables, l’espérance conditionnelle de
X3 sachant (X1 , X2 ) correspond à la projection orthogonale de X3 sur le plan vectoriel
engendré par X1 et X2 . La figure A.5 explique alors pourquoi dans notre cas particulier
on a l’égalité : E[X3 |X1 , X2 ] = E[X3 |X2 ].
(d) Cette affirmation est fausse puisque si on prend [X, Y, Z] = [X1 , X2 , X3 ], X1 et X3 ne
sont pas indépendantes (cf. Cov(X1 , X3 ) = 1) mais E[X3 |X1 , X2 ] = E[X3 |X2 ].

 X1 = U
X =U +V
 2
X3 = V
(a) Le vecteur [X1 , X2 , X3 ]′ est gaussien lui aussi :

     
X1 0 1 1 0
 X2  ∼ N  0  ,  1 2 1  .
X3 0 0 1 1
(b) On a cette fois :

X2
E[X3 |X1 , X2 ] = X2 − X1 = X3 6= E[X3 |X2 ] = .
2
(c) On voit que X3 = (U + V ) − U = X2 − X1 , donc X3 appartient au plan vectoriel
engendré par X1 et X2 . Par conséquent sa projection orthogonale sur ce plan est lui-
même : ceci explique géométriquement l’égalité E[X3 |X1 , X2 ] = X3 . Pour la relation
E[X3 |X2 ] = X22 , voir figure A.6.
(d) Cette affirmation est fausse aussi puisque si on prend [X, Y, Z] = [X1 , X2 , X3 ], X1 = U
et X3 = V sont indépendantes mais E[X3 |X1 , X2 ] 6= E[X3 |X2 ].

169
X2 = U + V
X3 = V
X2
E[X3 |X2 ] = 2
X1 = U
X2
Figure A.6 – Interprétation géométrique de l’inégalité E[X3 |X1 , X2 ] = X3 6= E[X3 |X2 ] = 2 .
IV. Pile ou Face

La chaîne de Markov (Yn )n≥1 est à valeurs dans l’espace d’états :
E = {E1 , E2 , E3 , E4 } = {(P, F ), (F, F ), (F, P ), (P, P )}.
1. La matrice de transition de la chaîne est :

 
0 1/2 1/2 0
 0 1/2 1/2 0 
P =  1/2 0
,

0 1/2
1/2 0 0 1/2
et le graphe de transition est représenté figure A.7.
FF
PF FP
PP
Figure A.7 – Graphe de transition pour le jeu de Pile ou Face.
2. La chaîne est irréductible puisque tous les états communiquent entre eux. Elle est aussi
apériodique, puisque E2 = (F, F ) l’est (on peut boucler sur cet état) et que la chaîne est
irréductible.

3. On trouve pour unique loi stationnaire la loi uniforme sur les quatre états :

1 1 1 1
π= , , , ,
4 4 4 4
ou bien en résolvant le système d’équations πP = π, ou bien en remarquant que la matrice

P est bistochastique.
4. Puisque Yn = (Xn−1 , Xn ), avec Xn−1 et Xn indépendantes, on a par exemple :
1
P(Yn = E1 ) = P((Xn−1 , Xn ) = (P, F )) = P(Xn−1 = P )P(Xn = F ) = ,
4
et même chose pour E2 , E3 et E4 . Ainsi, pour tout n ≥ 1, on a : P(Yn ) = π. En particulier
P(Y1 ) = P(Y2 ) = π. Mais par définition de la matrice de transition P , on sait qu’on a aussi
P (Y2 ) = P(Y1 )P , c’est-à-dire que πP = π, et π est donc une loi d’équilibre de la chaîne (Yn ).
Puisque cette chaîne est irréductible, c’est même l’unique loi d’équilibre. De plus, le calcul
de la loi de Yn montre que cette chaîne est tout le temps à l’équilibre.

171
Université de Rennes 2 Mercredi 7 Mai 2008

Nicolas Jégou Aucun document autorisé
On considère le couple aléatoire (X, Y ) de densité la fonction f définie sur R2 par :

2 si 0 ≤ x ≤ y ≤ 1
f (x, y) =
0 sinon
1. Représenter f et vérifier qu’il s’agit bien d’une fonction de densité.

3. Déterminer les lois marginales puis calculer E[X] et E[Y ].
4. Calculer les lois conditionnelles f (y|x) et f (x|y).
5. Calculer E[X|Y ].
6. En utilisant le résultat précédent et la valeur de E[Y ] de la question 3, retrouver la valeur
de E[X].
II. Lois exponentielles

Soit X et Y deux variables aléatoires indépendantes suivant une loi exponentielle de même para-
mètre λ > 0.
1. Quelle est la loi jointe fX,Y du couple (X, Y ) ?
2. Déterminer la loi jointe fV,W du couple (V, W ) défini par :

V = X +Y
W = X
3. En déduire la densité de V .
4. Calculer f (w|v). Quelle loi reconnaît-on ?

Soit X = [X1 , X2 , X3 ]′ un vecteur gaussien centré et de matrice de covariance :
 
4 1 −1
Γ= 1 2 0 .
−1 0 1
1. Quelles sont les lois marginales de X ?

2. Certaines composantes de X sont-elles indépendantes deux à deux ? Si oui, lesquelles ?

Certaines composantes de X sont-elles orthogonales deux à deux ? Si oui, lesquelles ?
3. Quelle est la loi de (X1 , X2 ) ?
4. Sans calcul, déterminer E[X2 |X3 ] et E[(X2 − E[X2 |X3 ])2 ].
5. Calculer E[X1 |X3 ] et E[(X1 − E[X1 |X3 ])2 ].
6. Calculer E[X1 |X2 , X3 ] et E[(X1 − E[X1 |X2 , X3 ])2 ].
7. Quelle est la loi de X1 sachant (X2 = x2 , X3 = x3 ) ?
8. On pose S = E[X12 |X2 , X3 ] et Ŝ le résultat de la régression linéaire de X12 sur (X2 , X3 ).
Justifier que E[(X12 − S)2 ] ≤ E[(X12 − Ŝ)2 ].

Soit l’espace d’états E = {1, 2, 3, 4} d’une chaîne de Markov homogène.
1. Compléter la matrice suivante pour qu’elle soit une matrice de transition :
 
. 12 0 0
 . 2 0 0 
P = 3
 0 . 1 1 

2 2
1
4 . 0 21
2. Représenter le graphe associé.

3. La chaîne est-elle irréductible ? Indécomposable ?
5. On considère qu’au temps 0, on est dans l’état 3. Pour un grand nombre d’unité de temps
n, quelles sont les probabilités qu’on soit dans chacun des quatre états ?

173
Mercredi 7 Mai 2008

Durée : 2 heures
Licence MASS 3
Nicolas Jégou
Corrigé
1. La densité est représentée en gras sur la figure suivante :
Y
1
Figure A.8 – Représentation de la densité.

R
f est bien une densité car f ≥ 0 et R2 f (x, y)dxdy, qui correspond au volume représenté,
vaut 1.
2. Les variables X et Y ne sont pas indépendantes. En effet, le support de (X, Y ) est triangulaire
alors que le produit cartésien des supports de X et Y est [0, 1]2 .
3. Soit 0 ≤ x ≤ 1, on a :
Z Z 1
f (x) = f (x, y)dy = 2dy = 2(1 − x).
R x
On calcule ainsi : Z 1
1
E[X] = 2x(1 − x)dx = .
0 3
Soit maintenant 0 ≤ y ≤ 1, on a :
Z Z y
f (y) = f (x, y)dx = 2dx = 2y.
R 0

Ainsi : Z 1
2
E[Y ] = 2y 2 dy = .
0 3
4. Soit x ∈ [0, 1] fixé. Pour x ≤ y ≤ 1, on a :
f (x, y) 2 1
f (y|x) = = = .
f (x) 2(1 − x) 1−x
Finalement :
1
f (y|x) = 1 (y),
1 − x {x≤y≤1}
c’est-à-dire que, sachant X = x, Y suit une loi uniforme sur [x, 1].
Soit maintenant y ∈ [0, 1] fixé. Pour tout 0 ≤ x ≤ y, on a :
f (x, y) 2 1
f (x|y) = = = .
f (y) 2y y
Autrement dit, sachant Y = y, X suit une loi uniforme sur [0, y].
5. Pour y fixé dans [0, 1], calculons d’abord E[X|Y = y] :
Z Z
1 1 y y
E[X|Y = y] = x 1{0≤x≤y} (x)dx = xdx = .
R y y 0 2
Ainsi E[X|Y ] = Y2 . Remarquons qu’on avait directement ce résultat en utilisant la question

précédente (moyenne d’une loi uniforme).
E[Y ]
6. On sait que E[E[X|Y ]] = E[X]. Or la question précédente donne E[X] = 2 et on retrouve :
1
E[X] = .
3
II. Lois exponentielles

1. X et Y sont indépendantes, la densité du couple (X, Y ) est donc le produit des densités de
X et de Y :
fX,Y (x, y) = λe−λx 1[0,+∞[(x)λe−λy 1[0,+∞[(y) = λ2 e−λ(x+y) 1[0,+∞[2 (x, y).
2. Le changement de variable proposé est linéaire et bijectif avec comme bijection réciproque :

X = W
Y = V −W

Le support de (X, Y ) est D = R2+ ce qui s’écrit pour (V, W ) : ∆ = (v, w) ∈ R2 : 0 ≤ w ≤ v .
On introduit le C 1 -difféomorphisme :

 ∆ −→ D
φ: x = w
 (v, w) 7−→
y = v−w
Alors :
fV,W (v, w) = fX,Y (φ(v, w))|detJφ (v, w)|.
On en déduit :
fV,W (v, w) = λ2 e−λv 1{0≤w≤v} (v, w).

175
3. Soit v > 0 fixé, on a :

Z Z v
f (v) = f (v, w)dw = λ2 e−λv dw = λ2 ve−λv .
R 0
4. On en déduit :
f (v, w) λ2 e−λv 1{0≤w≤v} (v, w) 1
f (w|v) = = = 1{0≤w≤v} (w).
f (v) λ2 ve−λv 1{0≤v} v
Ainsi, sachant v > 0 fixé, W suit une loi uniforme sur [0, v].

1. X est gaussien donc toutes ses composantes sont gaussiennes. Elles sont par ailleurs toutes
centrées et les variances se lisent sur la diagonale de Γ. On a donc :
X1 ∼ N (0, 4) X2 ∼ N (0, 2) X3 ∼ N (0, 1).
2. X étant gaussien, l’indépendance de deux variables équivaut à leur décorrelation. Nous avons
donc X2 et X3 indépendantes. Les composantes étant centrées, la non-corrélation équivaut
à l’orthogonalité. Les deux variables précédentes sont donc aussi orthogonales.
3. On peut poser [X1 , X2 ]′ = AX avec

1 0 0
A= .
0 1 0
Ainsi [X1 , X2 ]′ est gaussien comme transformation affine d’un vecteur gaussien. Il est bien
sûr centré et les éléments de sa matrice de covariance sont donnés dans Γ :

′ 4 1
[X1 , X2 ] ∼ N [0, 0] , .
1 2
4. Calculer E[X2 |X3 ] revient à projeter orthogonalement X2 sur H = Vect(1, X3 ) or X2 est

orthogonale à 1 car c’est une variable centrée et on a vu que X2 est aussi orthogonale à X3 .
On a donc E[X2 |X3 ] = 0 et la variance résiduelle E[(X2 − E[X2 |X3 ])2 ] est égale à la variance
de X2 , soit E[(X2 − E[X2 |X3 ])2 ] = 2.
5. On obtient :
Cov(X1 , X3 )
E[X1 |X3 ] = E[X1 ] + (X3 − E(X3 )) = −X3
Var(X3 )
et
Cov2 (X1 , X3 )
E[(X1 − E[X1 |X3 ])2 ] = Var(X1 ) − = 3.
Var(X3 )
6. On obtient :

X2 − E[X2 ]
E[X1 |X2 , X3 ] = E[X1 ] + ΓX1 ,(X2 ,X3 ) Γ−1
X2 ,X3 X3 − E[X3 ]
−1
2 0 X2
= [1, −1]
0 1 X3

1/2 0 X2
= [1, −1]
0 1 X3
1
= X2 − X3 .
2

De plus :
′
E[(X1 − E[X1 |X2 , X3 ])2 ] = ΓX1 − ΓX1 ,(X2 ,X3 ) Γ−1
X2 ,X3 ΓX1 ,(X2 ,X3 )

1/2 0 1
= 4 − [1, −1]
0 1 −1
= 2.5.
7. On a la décomposition orthogonale X1 = E[X1 |X2 , X3 ] + W . La variable W est centrée et

de variance :
Var(W ) = E[(X1 − E[X1 |X2 , X3 ])2 ] = 2.5.
Par ailleurs, comme W est indépendante de (X2 , X3 ), sachant (X2 , X3 ) = (x2 , x3 ), on a :

1
X1 ∼ N (E[X1 |x2 , x3 ], Var(W )) = N x2 − x3 , 2.5 .
2
8. S est le projeté orthogonal de X12 sur L2 (X2 , X3 ), espace des variables aléatoires fonctions de
X2 et X3 et de carré intégrable. Ŝ est le projeté orthogonal de X12 sur H = Vect(X2 , X3 ), qui
est un sous-espace vectoriel de L2 (X2 , X3 ). Dans le cas gaussien, ces deux projetés coïncident
mais X12 n’étant pas gaussienne, ce n’est pas le cas ici. On a donc :
E[(X12 − S)2 ] ≤ E[(X12 − Ŝ)2 ].

1. On complète la matrice de sorte que la somme des lignes soit égale à 1 :
 1 1 
2 2 0 0
 1 2 0 0 
P = 3 3
 0 0 1 1 

2 2
1 1 1
4 4 0 2
2. L’ensemble {1, 2} est clos et irréductible alors que l’ensemble {3, 4} est transitoire. La chaîne
est donc indécomposable avec :
R ∪ T = {1, 2} ∪ {3, 4} .
3. La chaîne admet une loi stationnaire unique µ, solution de µP = µ. Après calcul, on obtient :

2 3
µ= , , 0, 0 .
5 5
4. Quelle que soit la loi initiale, on a convergence de la loi de (Xn ) vers µ. Ainsi, les probabilités
qu’on soit pour n grand dans les états 3 et 4 sont nulles alors que celles qu’on soit dans les
états 1 et 2 sont respectivement 2/5 et 3/5.
“Si j’étais pas tellement contraint, obligé pour gagner ma vie, je vous le dis tout de suite,
je supprimerais tout. Je laisserais pas passer plus une ligne.”
Louis-Ferdinand Céline, Voyage au bout de la nuit, préface à la 2ème édition, 1949.

Bibliographie
[1] Nicolas Bouleau. Probabilités de l’ingénieur. Hermann, 2002.

[2] Yves Ducel. Introduction à la théorie mathématique des probabilités. Ellipses, 1998.
[3] Rick Durrett. Essentials of Stochastic Processes. Springer Texts in Statistics. Springer-Verlag,
New York, 1999.
[4] Dominique Foata et Aimé Fuchs. Calcul des probabilités. Dunod, 1998.
[5] Dominique Foata et Aimé Fuchs. Processus stochastiques. Dunod, 2002.
[6] Gilles Pagès et Claude Bouzitat. En passant par hasard... Les probabilités de tous les jours.
Vuibert, 2000.
[7] Eva Cantoni, Philippe Huber et Elvezio Ronchetti. Maîtriser l’aléatoire (Exercices résolus de
probabilités et statistique). Springer, 2006.
[8] Pierre-André Cornillon et Eric Matzner-Lober. Régression avec R. Springer, Paris, 2010.
[9] Didier Dacunha-Castelle et Marie Duflo. Probabilités et statistiques 2. Problèmes à temps
mobile. Masson, 1993.
[10] Didier Dacunha-Castelle et Marie Duflo. Probabilités et statistiques 1. Problèmes à temps fixe.
Masson, 1994.
[11] Philippe Barbe et Michel Ledoux. Probabilités. Belin, 1998.
[12] Guy Auliac, Christiane Cocozza-Thivent, Sophie Mercier et Michel Roussignol. Exercices de
probabilités. Cassini, 1999.
[13] Michel Benaïm et Nicole El Karoui. Promenade aléatoire. Editions de l’Ecole Polytechnique,
2004.
[14] Valérie Girardin et Nikolaos Limnios. Probabilités. Vuibert, 2001.
[15] Jean Jacod et Philip Protter. L’essentiel en théorie des probabilités. Cassini, 2003.
[16] Dominique Bakry, Laure Coutin et Thierry Delmotte. Chaînes de Markov finies. Format
électronique, 2004.
[17] Marie Cottrell, Valentine Genon-Catalot, Christian Duhamel et Thierry Meyre. Exercices de
probabilités. Cassini, 1999.
[18] Jean-Pascal Ansel et Yves Ducel. Exercices corrigés en théorie des probabilités. Ellipses, 1996.
[19] Geoffrey R. Grimmett and David R. Stirzaker. One Thousand Exercises in Probability. Oxford
University Press, New York, 2001.
[20] Geoffrey R. Grimmett and David R. Stirzaker. Probability and Random Processes. Oxford
University Press, New York, 2001.
[21] Michel Métivier. Probabilités : dix leçons d’introduction. Ellipses, 1987.
[22] Jacques Neveu. Probabilités. Editions de l’Ecole Polytechnique, 1996.
[23] James R. Norris. Markov Chains. Cambridge University Press, 1997.
177
[24] Jean-Yves Ouvrard. Probabilités 1. Cassini, 1998.
[25] Sheldon M. Ross. Initiation aux probabilités. Presses polytechniques et universitaires ro-
mandes, 1987.
[26] Bernard Ycart. Chaînes de Markov. Cahiers de Mathématiques Appliquées, CMA 11, 2004.
[27] Bernard Ycart. Vecteurs et suites aléatoires. Cahiers de Mathématiques Appliquées, 2004.

Esperance Conditionnelle

Transféré par

Droits d'auteur :

Formats disponibles

Esperance Conditionnelle

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Esperance Conditionnelle

Transféré par

Droits d'auteur :

Formats disponibles

Université Rennes 2

2 Vecteurs gaussiens et conditionnement 63

3 Chaînes de Markov 113

1.1 Cas discret

Exemple. On tire deux chiffres au hasard, indépendamment et de façon équiprobable entre 1 et

Définition 1 (Lois marginales)

Figure 1.1 – Loi jointe pour le max et la somme.

Figure 1.2 – Loi jointe et lois marginales pour le max et la somme.

Proposition 1 (Lois marginales et indépendance)

∀(i, j) ∈ I × J P(X = xi , Y = yj ) = P(X = xi )P(Y = yj ),

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Figure 1.3 – Mêmes lois marginales mais loi jointe différente.

c’est-à-dire avec nos notations : pij = pi. p.j .

Exemple : Lois de Poisson.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Figure 1.4 – Lois de Poisson de paramètres 2 et 20.

Or Y et Z sont indépendantes, donc :

et on reconnaît la formule du binôme :

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Or on sait que X prend la valeur X = xi avec la probabilité pi. .

Définition 3 (Espérance conditionnelle)

Exemple. On reprend l’exemple précédent. L’espérance de Y sachant X = n est l’espérance d’une

Théorème 1 (Calcul d’espérance par conditionnement)

E[E[Y |X]] = E[Y ].

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Propriétés 1 (Espérance conditionnelle et indépendance)

Preuve. Si X et Y sont indépendantes, alors pour tout couple (i, j) ∈ I × J :

pij = pi. p.j .

deux variables, ou la moyenne de leur produit.

Rappel : Théorème de transfert

Le cas simple est celui où, d’une, h se décompose en produit :

et, de deux, X et Y sont indépendantes. Dans ce cas, on a immédiatement :

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

c’est-à-dire qu’il suffit de calculer deux espérances discrètes classiques.

Ceci est une autre façon de dire que :

E[h(X, Y )] = E[E[h(X, Y )|X]]

1.2 Cas absolument continu

∀B ∈ B2 , PX,Y (B) = P((X, Y ) ∈ B),

Définition 4 (Loi jointe absolument continue)

Exemple. On considère un couple (X, Y ) de densité :

f (x, y) = 2e−(x+y) 1{0≤x≤y}

1. sous-entendu : par rapport à la mesure de Lebesgue sur R.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Figure 1.5 – Représentation de la densité jointe f (x, y) = 2e−(x+y) 1{0≤x≤y} .

Prenons par exemple la première expression :

ce qui donne finalement :

Proposition 2 (Lois marginales)

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Exemple. Pour l’exemple précédent, on obtient (voir figure 1.6) :

Figure 1.6 – Représentation des densités marginales f (x) et f (y).

f (x) = λe−λx 1[0,+∞[(x),

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Exemple. Pour l’exemple précédent, X et Y ne sont pas indépendantes puisque :

f (0, 0) = 2 6= fX (0)fY (0) = 0.

Supp(X) = Adh{x ∈ R : f (x) 6= 0}.

C’est généralement un intervalle fermé IX . On définit de même le support IY de la loi de Y . Mais

Exemple. Pour l’exemple précédent, le support de X est égal au support de Y , à savoir R+ =

donc X et Y ne sont pas indépendantes (voir figure 1.7).

Définition 5 (Lois conditionnelles)