Esperance Conditionnelle
Esperance Conditionnelle
Esperance Conditionnelle
Licence MASS 3
Espérance conditionnelle
&
Chaînes de Markov
Arnaud Guyader
Table des matières
1 Espérance conditionnelle 1
1.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Cas absolument continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2 La régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Interprétation géométrique de l’espérance conditionnelle . . . . . . . . . . . . . . . 20
1.5 Espérance conditionnelle : le cas général . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
A Annales 147
i
Chapitre 1
Espérance conditionnelle
Introduction
L’espérance conditionnelle est un outil d’usage constant en probabilités et statistiques. Néanmoins,
sa définition dans le cas général n’est pas simple. C’est pourquoi ce chapitre présente l’idée par
étapes et de façon intuitive : cas discret, cas absolument continu, interprétation géométrique dans
L2 et enfin extension à L1 .
1
2 Chapitre 1. Espérance conditionnelle
Y
2 3 4 5 6
X
1
1 9 0 0 0 0
2 1
2 0 9 9 0 0
2 2 1
3 0 0 9 9 9
Exemple. Pour l’exemple précédent, on calcule aisément les lois marginales de X et Y : il suffit
de sommer sur chaque ligne pour la loi de X et sur chaque colonne pour la loi de Y (voir figure
1.1).
5
9
4
9
3
9
2
9
1
9
2 3 4 5 6 Y
Achtung ! La connaissance des lois marginales ne suffit pas à déterminer la loi du couple (X, Y ).
Autrement dit, on peut trouver deux couples (X1 , Y1 ) et (X2 , Y2 ) n’ayant pas même loi jointe, mais
tels que les lois de X1 et X2 soient égales, ainsi que les lois de Y1 et Y2 (cf. figure 1.3).
La situation agréable est celle où les variables marginales X et Y sont indépendantes. Celle-ci se
vérifie facilement une fois connues la loi jointe et les lois marginales.
Y1 Y2
1 2 3 1 2 3
X1 X2
1 1 1 1
1 0 4 0 1 16 8 16
1 1 1 1 1
2 4 0 4 2 8 4 8
1 1 1 1
3 0 4 0 3 16 8 16
Exemples :
1. Sur l’exemple précédent du max et de la somme, il est clair que X et Y ne sont pas indé-
pendantes puisque par exemple :
1 1 1 1
p12 = 6= p1. × p.2 = × =
9 9 9 81
2. Jeu de cartes : on tire une carte au hasard dans un jeu de 32 cartes. Le résultat de ce tirage
est représenté par le couple aléatoire (X, Y ), où X est la couleur et Y la valeur. Autrement
dit, X appartient à l’ensemble {Pique, Cœur, Carreau, Trèfle} et Y à l’ensemble {7, 8, 9, 10,
Valet, Dame, Roi, As}. Il est clair que :
1 1 1
∀(i, j) ∈ I × J P(X = xi , Y = yj ) = = × = P(X = xi )P(Y = yj ),
32 4 8
donc X et Y sont indépendantes.
Remarque. Soit i ∈ I fixé. Notons qu’on peut avoir pij = 0, c’est-à-dire que l’événement
{X = xi , Y = yj } ne se réalise jamais. Par contre, on exclut le cas où pi. = 0 : ceci signifie-
rait que X ne prend jamais la valeur xi , auquel cas cette valeur n’aurait rien à faire dans X .
Puisque chacune des probabilités pi. est non nulle, on peut définir la probabilité conditionnelle de
Y = yj sachant X = xi par la formule :
P(X = xi , Y = yj ) pij
pj|i = P(Y = yj |X = xi ) = =
P(X = xi ) pi.
Définition 2 (Probabilités conditionnelles)
Soit xi ∈ X . La loi conditionnelle de Y sachant X = xi est la loi discrète prenant les valeurs yj
avec les probabilités pj|i = P(Y = yj |X = xi ).
0.28 0.09
0.08
0.24
P(2) P(20)
0.07
0.20
0.06
0.16
0.05
0.04
0.12
0.03
0.08
0.02
0.04
0.01
0.00 0.00
0 1 2 3 4 5 6 7 8 9 10 0 4 8 12 16 20 24 28 32 36 40
1. Loi de X ?
La variable aléatoire X est à valeurs dans N en tant que somme de variables aléatoires à
valeurs dans N. On commence par déterminer sa loi. Soit donc n ∈ N fixé, alors :
n
! n
[ X
P(X = n) = P(Y + Z = n) = P {Y = k, Z = n − k} = P(Y = k, Z = n − k).
k=0 k=0
α
Ainsi, sachant X = n, Y suit une loi binômiale B n, α+β .
Revenons au cas général et supposons que Y soit intégrable. Si X est figée à xi , il est naturel de
considérer la valeur moyenne de la variable aléatoire Y lorsque X = xi : c’est ce qu’on appelle
l’espérance conditionnelle de Y sachant X = xi . Elle s’écrit :
X
E[Y |X = xi ] = pj|i yj
j∈J
Nota Bene. Il faut noter qu’en général l’espérance conditionnelle E[Y |X] est une variable aléa-
toire et non un nombre. On peut l’interpréter comme la valeur moyenne prise par Y lorsque l’on
connaît X. Elle pourra donc s’écrire comme une fonction de X.
Exemple. Sur l’exemple précédent, les paramètres α et β étant des constantes, on peut écrire :
α
E[E[Y |X]] = E[X],
α+β
or l’espérance d’une loi de Poisson de paramètre (α + β) est tout simplement (α + β), donc :
α
E[E[Y |X]] (α + β) = α = E[Y ].
α+β
Preuve. C’est l’âne qui trotte :
X X X
E[E[Y |X]] = pi. E[Y |X = xi ] = pi. pj|iyj ,
i∈I i∈I j∈J
pij
or pj|i = pi. , donc :
!
X X X X
E[E[Y |X]] = pij yj = pij yj ,
i∈I j∈J j∈J i∈I
P
or, par définition, p.j = i∈I pij , donc :
X
E[E[Y |X]] = p.j yj = E[Y ].
j∈J
Remarque. Ce résultat permet souvent de calculer l’espérance de Y en deux étapes : on exprime
d’abord E[Y |X] comme une fonction ϕ(X) de la variable aléatoire X. Puis, si cette fonction ϕ et
la loi de X sont “assez simples”, on calcule E[ϕ(X)]. Voir par exemple les exercices ”Un dé et une
pièce” et ”Somme aléatoire de variables aléatoires” en fin de chapitre.
On vient de dire que, dans le cas général, l’espérance conditionnelle E[Y |X] est une variable aléa-
toire et pas un nombre. Il existe cependant un cas particulier : lorsque X et Y sont indépendantes.
On en déduit que :
∀(i, j) ∈ I × J pj|i = p.j ,
donc pour tout xi ∈ X :
X X
E[Y |X = xi ] = pj|iyj = p.j yj = E[Y ],
j∈J j∈J
or par définition E[Y |X] est la variable aléatoire qui prend les valeurs E[Y |X = xi ] avec les
probabilités pi. . On en déduit que E[Y |X] est la variable aléatoire constante égale à E[Y ].
Dans de nombreuses situations, on désire calculer la valeur moyenne prise par une fonction du
couple (X, Y ), c’est-à-dire : Z
E[h(X, Y )] = h(X, Y ) dP,
Ω
où h est une fonction de R dans R. Par exemple si on veut calculer la moyenne de la somme de
2
h(x, y) = f (x)g(y),
Dans le cas général, h ne se décompose pas aussi simplement et les variables X et Y ne sont pas
indépendantes. Néanmoins, sous les hypothèses usuelles d’intégrabilité, on peut toujours écrire :
X X X
E[h(X, Y )] = h(xi , yj )pj|i pi. = E[h(xi , Y )|X = xi ]P(X = xi )
i∈I j∈J i∈I
où E[h(X, Y )|X] est la variable aléatoire qui prend les valeurs E[h(xi , Y )|X = xi ] avec les proba-
bilités pi. . On a ainsi ramené le calcul d’une somme double à deux calculs de sommes simples.
Par définition, la loi jointe PX,Y du couple est la mesure de probabilité sur (R2 , B2 ) définie par :
que l’on peut voir comme la probabilité que le point aléatoire M de coordonnées (X, Y ) tombe
dans l’ensemble borélien B.
Pour qu’une fonction f soit une densité de probabilité, il faut et il suffit qu’elle soit positive et
intègre à 1 :
fRR(x, y) ≥ 0
R2 f (x, y) dx dy = 1
Remarque. En pratique, dans tout ce paragraphe, on peut faire le parallèle avec ce qui a été vu
dans le cas discret : il suffit de remplacer xi par x, yj par y, pij par f (x, y) et les sommes par des
intégrales.
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0
y
0
1
x 2
0 3
1
2 4
3
4
5
On vérifie que ceci définit bien une densité de probabilité sur R2 . En effet, f est positive et par le
théorème de Fubini-Tonelli, on a pour le calcul de l’intégrale double :
Z Z +∞ Z y Z +∞ Z +∞
−(x+y) −(x+y)
f (x, y) dx dy = 2e dx dy = 2e dy dx.
R2 0 0 0 x
Comme dans le cas discret, on peut définir les lois des variables aléatoires marginales X et Y .
2.0 0.5
1.8
1.6 0.4
1.4
1.2 0.3
1.0
0.8 0.2
fX (x) fY (y)
0.6
0.4 0.1
0.2
0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 x 0 1 2 3 4 5 6 y
Chausse-trappe 2 . Pour l’exemple précédent, puisque X suit une loi exponentielle E(2), on a
E[X] = 21 . On rappelle au passage que si X ∼ E(λ), c’est-à-dire si X a pour densité :
alors E[X] = λ1 . Les Anglo-Saxons adoptent la convention inverse : pour eux, la variable aléatoire
T suit une loi exponentielle de paramètre θ si T a pour densité :
1 −t
f (t) = e θ 1[0,+∞[(t),
θ
auquel cas on a bien sûr tout simplement E[T ] = θ. Lorsqu’on veut simuler des lois exponentielles
à l’aide d’un logiciel, il faut donc faire attention à la convention utilisée par celui-ci.
Dans le cas général, par définition, les variables aléatoires X et Y sont indépendantes si pour tout
couple de boréliens B et B ′ de R, on a :
P(X ∈ B, Y ∈ B ′ ) = P(X ∈ B)P(Y ∈ B ′ ),
ou encore si pour toutes fonctions bornées (ou positives) g et h de R dans R :
E[g(X)h(Y )] = E[g(X)]E[h(Y )].
Si la loi jointe est absolument continue, l’indépendance se vérifie de façon simple.
2. Les cuistres écrivent plutôt “chausse-trape”, les deux orthographes étant acceptées.
Proposition 3 (Indépendance)
Avec les notations précédentes, les variables aléatoires X et Y sont indépendantes si et seulement
si pour tout couple (x, y) ∈ R2 :
f (x, y) = f (x)f (y).
Remarque. Le raisonnement sur les supports permet parfois de conclure rapidement à la non-
indépendance. Le support de la loi de X est l’adhérence de l’endroit où X a des chances de tomber :
y y
Supp(X, Y )
Supp(X)×Supp(Y )
x x
Figure 1.7 – Support du couple (X, Y ) (à gauche) et produit cartésien des supports de X et de
Y (à droite).
Supp(X, Y ) = {(x, y) ∈ R2 : 0 ≤ x ≤ y} =
6 R+ × R+ ,
On veut maintenant définir l’analogue des probabilités conditionnelles vues dans le cas discret.
f (y|x)
y
x
Ainsi définie, pour tout x ≥ 0, la fonction f (.|x) est une densité de probabilité, c’est-à-dire qu’elle
est positive et somme à 1. Les relations déjà vues dans le cas discret entre marginales et condition-
nelles sont encore valables : il suffit de remplacer les sommes discrètes par des intégrales. Ainsi on
a par exemple : Z
f (y) = f (y|x)f (x) dx.
R
De plus, si les variables aléatoires X et Y sont indépendantes, on a bien sûr fX|Y = fX et
fY |X = fY .
E[Y |X = x] = (x + 1)1{x≥0} ,
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
donc E[Y |X] = X + 1. Or on a vu que X ∼ E(2), donc la variable aléatoire E[Y |X] suit une loi
exponentielle de paramètre 2 translatée sur l’intervalle [1, +∞[ (voir figure 1.9).
Preuve. La preuve est la même que dans le cas discret. La variable aléatoire E[Y |X] prend les
valeurs E[Y |X = x] avec densité f (x), donc son espérance vaut :
Z Z Z
E[E[Y |X]] = E[Y |X = x]f (x) dx = yf (y|x) dy f (x) dx,
R R R
donc d’après le théorème de Fubini :
Z Z
E[E[Y |X]] = y f (y|x)f (x) dx dy,
R R
R
et puisque f (y) = R f (y|x)f (x) dx, on retrouve bien :
Z
E[E[Y |X]] = yf (y) dy = E[Y ].
R
Exemple. Pour l’exemple précédent, on a obtenu E[Y |X] = X + 1, avec X ∼ E(2), d’où :
3
E[Y ] = E[X + 1] = E[X] + 1 = ,
2
résultat que l’on retrouve bien en considérant la loi marginale de Y :
Z Z
1 3
E[Y ] = yf (y) dy = y(2e−y − 2e−2y ) dy = 2 − = .
R R+ 2 2
Dans le cas général, on retrouve alors pour les couples absolument continus les propriétés vues pour
les couples discrets. On commence par définir l’espérance conditionnelle d’un couple sachant l’une
des variables. Soit h : R2 → R une fonction, l’espérance mathématique de la variable aléatoire
h(X, Y ) est définie si : Z
|h(x, y)|f (x, y) dx dy < +∞,
R2
auquel cas elle vaut : Z
E[h(X, Y )] = h(x, y)f (x, y) dx dy,
R2
que l’on peut encore écrire :
Z Z
E[h(X, Y )] = h(x, y)f (y|x) dy f (x) dx.
R R
La définition suivante est alors naturelle.
On peut alors énumérer différentes propriétés de l’espérance conditionnelle. Dans ce qui suit, on ne
considère que des “bonnes fonctions”, c’est-à-dire telles qu’on n’ait pas de problème d’intégrabilité.
– Linéarité(bis) :
E[g(X)h(Y )|X] = g(X)E[h(Y )|X].
Preuve. Toutes les démonstrations se font sans difficulté en revenant à la définition de l’espérance
conditionnelle. Pour la première relation, il suffit par exemple de dire que :
– La variable aléatoire E[h(X, Y )|X] prend les valeurs E[h(x, Y )|X = x] avec densité de probabilité
f (x). Donc son espérance vaut :
Z
E[E[h(X, Y )|X]] = E[h(x, Y )|X = x]f (x) dx.
R
Par ailleurs, on a pour tout réel x :
Z
E[h(x, Y )|X = x] = h(x, y)f (y|x) dy,
R
d’où il vient, puisque f (x, y) = f (y|x)f (x) :
Z Z Z
E[E[h(X, Y )|X]] = h(x, y)f (y|x) dy f (x) dx = h(x, y)f (x, y) dx dy,
R R R2
et on reconnaît E[h(X, Y )].
– Und so weiter...
Remarque. Tout comme l’espérance classique, l’espérance conditionnelle est linéaire. La dernière
propriété est assez spectaculaire : du point de vue de l’espérance conditionnelle, toute fonction de
la variable aléatoire X se comporte comme une constante, on peut donc la sortir du crochet.
1.3 Applications
Toute cette section est valable aussi bien dans le cas discret que dans le cas absolument continu.
Ce n’est que par souci de simplification qu’on se place parfois dans l’une des deux situations.
Remarque. Il faut noter que, tout comme l’espérance conditionnelle E[Y |X], la probabilité condi-
tionnelle P(A|X) est une variable aléatoire.
D’après les résultats de la section précédente, on peut alors appliquer la technique de calcul d’es-
pérance par conditionnement.
1.3.2 La régression
Approximation d’une variable aléatoire par une constante
Soit Y une variable aléatoire de carré intégrable. On veut approcher Y par une constante. Si on
s’intéresse à l’erreur quadratique, la solution est donnée par l’espérance.
min E[(Y − a)2 ] = E[(Y − E[Y ])2 ] = E[Y 2 ] − (E[Y ])2 = VarY.
a∈R
Remarque. Si on considère l’erreur en norme L1 , c’est-à-dire si on cherche le réel a tel que E|Y −a|
soit minimale, on obtient non pas la moyenne de Y , mais sa médiane.
Rappel. Si Y admet un moment d’ordre 2, i.e. si E[Y 2 ] < +∞, alors Y admet un moment
d’ordre 1, i.e. E|Y | < +∞. De manière générale, si Y admet un moment d’ordre p ∈ N∗ , i.e. si
E[|Y |p ] < +∞, alors Y admet un moment d’ordre k pour tout k ∈ {1, . . . , p}. Plus précisément,
on a l’inégalité suivante entre moments :
1 1
1 ≤ p ≤ q ⇒ E [|Y p |] p ≤ E [|Y q |] q .
Une idée simple est d’approcher Y par une fonction affine de X, c’est-à-dire chercher la variable
aléatoire Y = aX + b la plus proche possible, en moyenne, de Y . Pour l’erreur quadratique, on
cherche donc à minimiser :
E[(Y − (aX + b))2 ] = E[X 2 ]a2 + 2E[X]ab + b2 − 2E[XY ]a − 2E[Y ]b + E[Y 2 ] = φ(a, b).
Cette fonction φ des deux variables a et b est en fait issue d’une forme quadratique définie positive
et atteint son minimum au point :
(
a = Cov(X,Y
σ2 (X)
)
Cov(X,Y )
b = E[Y ] − σ2 (X)
E[X]
Noter que ceci suppose σ(X) 6= 0 : si σ(X) = 0, la variable aléatoire X est presque sûrement
constante, donc chercher à approcher Y par une fonction affine de X revient à approcher Y par
une constante c. On a vu précédemment que le mieux est de prendre c = E[Y ].
yi Mi
∆a,b
x
xi
Remarque. En statistiques, c’est-à-dire dans la vraie vie, on ne connaît pas la loi du couple (X, Y ).
On dispose simplement d’un nuage de points (xi , yi )1≤i≤n . Or, si on cherche la droite d’équation
y = ax + b qui minimise la somme des carrés :
n
X
(yi − (axi + b))2 ,
i=1
Exemples.
1. On considère à nouveau le couple (X, Y ) de densité :
Sur cet exemple, on voit que la courbe de régression coïncide avec la droite de régression :
ceci n’est pas vrai en général, comme le montre l’exemple suivant.
2. Soit (X, Y ) un couple aléatoire de densité jointe :
12
f (x, y) = y(2 − y − x)1]0,1[2 (x, y).
5
Quelques calculs permettent de montrer que pour tout x ∈]0, 1[ :
5 − 4x
E[Y |X = x] = .
8 − 6x
La courbe de régression est donc un morceau d’hyperbole (voir figure 1.11).
La fonction de régression vérifie une propriété de minimalité souvent utilisée en statistiques. On
considère une fonction u : R → R et la quantité :
E[(Y − u(X))2 ].
Cette quantité varie lorsque la fonction u varie. Quand est-elle minimale ? Ce genre de problème,
dit de calcul des variations, est en général difficile : on cherche une fonction minimisant un certain
critère (et non un point de l’espace de dimension finie Rn comme en optimisation classique). Mais
ici tout est simple, au moins d’un point de vue théorique...
y
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
x
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
5−4x
Figure 1.11 – Courbe de régression y = 8−6x .
La preuve est calquée sur celle déjà vue pour l’approximation de Y par une constante.
Preuve. Notons m(X) = E[Y |X], alors pour toute fonction u : R → R, on peut écrire :
E[(Y − u(X))2 ] = E[((Y − m(X)) + (m(X) − u(X)))2 ]
On utilise la linéarité de l’espérance :
E[(Y − u(X))2 ] = E[(Y − m(X))2 ] + 2E[(Y − m(X))(m(X) − u(X))] + E[(u(X) − m(X))2 ].
Or le calcul d’espérance par conditionnement assure que :
E[(Y − m(X))(m(X) − u(X))] = E[E[(Y − m(X))(m(X) − u(X))|X]],
et puisque m(X) − u(X) est une fonction de X, on sait que :
E[(Y − m(X))(m(X) − u(X))] = E[E[(Y − m(X))|X](m(X) − u(X))],
or par linéarité de l’espérance conditionnelle et puisque E[m(X)|X] = m(X) = E[Y |X], on en
déduit que :
E[(Y − m(X))|X] = E[Y |X] − E[m(X)|X] = E[Y |X] − m(X) = 0.
On a donc obtenu :
E[(Y − u(X))2 ] = E[(Y − m(X))2 ] + E[(u(X) − m(X))2 ].
Cette quantité est minimale lorsque u(X) = E[Y |X].
On donne un nom au minimum obtenu.
Preuve. On a déjà vu dans le paragraphe sur la régression que si X et Y sont de carré intégrable,
la variable aléatoire XY est elle aussi intégrable. Alors si α et β sont deux scalaires, la variable
aléatoire (αX + βY ) est dans L2 (Ω) puisque :
(αX + βY )2 = α2 X 2 + 2αβXY + β 2 Y 2 ,
qui est une somme de variables aléatoires intégrables. Ceci fait de L2 (Ω) un sous-espace vectoriel
de l’espace des variables aléatoires sur (Ω, F, P).
A part dans le cas où l’espace Ω est fini, l’espace L2 (Ω) est de dimension infinie. Nous allons main-
tenant voir en quoi L2 (Ω) “ressemble” à l’espace usuel Rn muni de la norme euclidienne. Rappelons
qu’un produit scalaire est une forme bilinéaire symétrique définie positive, dont on peut déduire
une norme.
Remarque. On écrit la norme kXk plutôt que kXk2 afin de ne pas alourdir les notations.
Preuve. L’intégrabilité de XY a été vue ci-dessus donc l’application est bien définie sur l’espace
produit L2 (Ω) × L2 (Ω). La bilinéarité et la symétrie sont évidentes. Soit maintenant X ∈ L2 (Ω), il
est clair que hX, Xi = E[X 2 ] ≥ 0. Supposons que E[X 2 ] = 0, alors par l’inégalité de Tchebychev,
pour tout n ∈ N∗ :
1
P X≥ ≤ n2 E[X 2 ] = 0,
n
d’où l’on déduit par sous-sigma-additivité d’une mesure de probabilité :
[
+∞ ! X +∞
1 1
P(X > 0) = P X≥ ≤ P X≥ = 0,
n n
n=1 n=1
c’est-à-dire que X est presque sûrement égale à 0. Puisqu’on a convenu au début de ce paragraphe
d’identifier deux variables presque sûrement égales, on a donc X = 0. Ainsi h., .i est bien une forme
bilinéaire symétrique définie positive, c’est-à-dire un produit scalaire.
Dans ce cadre, dire que les variables aléatoires X et Y sont orthogonales pour le produit scalaire
h., .i signifie que E[XY ] = 0. Dans le cas de variables centrées, l’orthogonalité correspond donc à
la non-corrélation. On récupère automatiquement les propriétés d’une norme issue d’un produit
scalaire, vues en cours d’algèbre linéaire.
d(X, Y ) = kY − Xk
si limn→∞ kX − Xn k = 0, c’est-à-dire si
lim E[(X − Xn )2 ] = 0.
n→∞
Comme en analyse, l’intérêt du critère de Cauchy dans un espace complet est de permettre de
montrer la convergence d’une suite sans connaître sa limite.
Preuve. Soit (Xn )n≥0 une suite de Cauchy dans L2 (Ω). Il existe donc une suite d’indices (nk )k≥0
telle que :
1
∀n ≥ nk , ∀p ≥ 0 kXn+p − Xn k ≤ k .
2
En particulier, la suite de variables aléatoires (Yk )k≥0 définie par Y0 = Xn0 et :
∀k ≥ 1 Yk = Xnk − Xnk−1
On va montrer que (Yk )k≥0 converge presque sûrement vers une variable aléatoire X. Considérons
la variable aléatoire Z définie pour tout ω ∈ Ω par :
K
X +∞
X
Z(ω) = lim ZK (ω) = lim |Yk (ω)| = |Yk (ω)| ≤ +∞,
K→+∞ K→+∞
k=0 k=0
Autrement dit, la suite croissante de variables aléatoires positives (ZK )K≥0 converge presque sûre-
ment vers Z. Il en va de même de la suite (ZK 2 ) 2
K≥0 vers Z et on peut donc appliquer le théorème
de Beppo Lévi :
E[Z 2 ] = lim E[ZK 2
].
K→+∞
On en déduit que E[Z 2 ] < +∞. Mais alors par Tchebychev, pour tout n ∈ N∗ :
E[Z 2 ]
P (Z ≥ n) ≤ ,
n2
d’où l’on déduit par continuité monotone décroissante d’une mesure de probabilité :
+∞
!
\
P(Z = +∞) = P {Z ≥ n} = lim P (Z ≥ n) ,
n→+∞
n=1
ce qui donne :
E[Z 2 ]
P(Z = +∞) ≤ lim = 0,
n→+∞ n2
c’est-à-dire que Z est presque sûrement finie. Puisqu’on convient de confondre deux variables
aléatoires presque sûrement égales, quitte à remplacer Z(ω) par 0 aux éventuels points ω où on
aurait Z(ω) = +∞, on peut donc considérer que pour tout ω ∈ Ω, on a :
+∞
X
|Yk (ω)| < +∞.
k=0
P
En particulier, la série de variables aléatoires k≥0 Yk est absolument convergente sur Ω, donc
simplement convergente, et il existe une variable aléatoire X finie sur Ω telle que pour tout ω ∈ Ω :
+∞
X
X(ω) = Yk (ω).
k=0
La variable aléatoire X est de carré intégrable puisque par définition, pour tout ω ∈ Ω :
|X(ω)| ≤ Z(ω),
On revient enfin à la suite (Xn )n≥0 . Pour tout n ≥ nK , on a par inégalité triangulaire :
Remarque. Qu’a-t-on utilisé comme outils ? Beppo Lévi et la continuité monotone décroissante,
or ceux-ci sont valables dans tout espace mesuré (Ω, F, m). Ainsi, le résultat qu’on vient d’établir
est en fait très général : on le retrouve par exemple dans l’espace classique d’intégration (R, B, λ)
lorsqu’on considère les fonctions f de carré intégrable sur R. On le retrouve aussi dans l’espace
des suites (N P, P(N), µ) muni de Pla mesure de comptage, autrement dit dans l’étude des séries
numériques n≥0 un telles que +∞ u
n=0 n
2 < +∞. Dans ce dernier espace, le produit scalaire est :
+∞
X
hu, vi = u n vn .
n=0
Un espace vectoriel ayant un produit scalaire et complet pour la norme induite par celui-ci est ap-
pelé espace de Hilbert. Ces espaces jouissent de nombreuses propriétés. Celle qui suit est cruciale.
Y − πH (Y )
πH (Y )
L’application Y 7→ πH (Y ) est linéaire sur L2 (Ω). De plus, πH (Y ) = Y ssi Y ∈ H, et kπH (Y )k2 <
kY k si Y ∈/ H (voir figure 1.12).
Preuve. Notons :
d = inf d(X, Y ).
X∈H
Rappelons l’identité du parallélogramme, valable dès qu’on considère un produit scalaire (cf. figure
1.13) :
kU + V k2 + kU − V k2 = 2(kU k2 + kV k2 ).
En considérant deux variables aléatoires X1 et X2 de H, on l’applique à U = (X1 − Y ) et V =
(X2 − Y ) :
2
X1 + X2
4
− Y
+ kX1 − X2 k2 = 2(kX1 − Y k2 + kX2 − Y k2 ).
2
Mais, puisque H est un sous-espace de L2 (Ω), la variable aléatoire milieu (X1 + X2 )/2 appartient
à H et vérifie :
X1 + X2
−Y
2
≥ d,
d’où l’on déduit que pour tout couple (X1 , X2 ) de H :
Cette inégalité prouve que l’inf ne peut être atteint par deux éléments distincts X1 et X2 de H,
sinon on aurait kX1 − X2 k2 < 0. Par définition d’une borne inf, il existe une suite (Xn ) de H telle
que :
lim d(Xn , Y ) = d.
n→+∞
Si on applique l’inégalité 1.1, on obtient pour tout couple d’entiers naturels (n, p) :
U +V
U −V
V
Pour n assez grand, cette quantité peut être rendue arbitrairement petite, indépendamment de p,
ce qui prouve que (Xn ) est une suite de Cauchy de H, sous-espace de L2 (Ω). Par le théorème de
Riesz, elle est donc convergente vers une variable aléatoire de L2 (Ω). Mais puisque H est fermé
par hypothèse, celle-ci appartient nécessairement à H : on la note πH (Y ) et on l’appelle le projeté
orthogonal de Y sur H.
Montrons que (Y − πH (Y )) est orthogonale à toute variable aléatoire X de H. Soit donc X ∈ H,
alors pour tout réel α, on a aussi αX ∈ H et par définition de la borne inf, on a donc :
kπH (Y ) + αX − Y k2 ≥ kπH (Y ) − Y k2 ,
∀α ∈ R kXk2 α2 + 2hπH (Y ) − Y, V iα ≥ 0.
L2 (X) = {u(X) avec u : R → R borélienne telle que E[u2 (X)] < +∞},
∆
ensemble des variables aléatoires qui s’expriment comme fonctions de X et de carré intégrable. Il
est clair que L2 (X) est un sous-espace de L2 (Ω). On peut de plus montrer que c’est un sous-espace
fermé de L2 (Ω).
Par suite on peut appliquer le résultat de projection orthogonale ci-dessus. Soit donc Y une autre
variable aléatoire de carré intégrable : il existe une unique variable aléatoire πL2 (X) (Y ) dans le
sous-espace L2 (X) qui soit à plus courte distance de Y . Mais, dans les cas discret et continu,
on a déjà traité ce problème dans le paragraphe sur la régression : c’est exactement l’espérance
conditionnelle de Y sachant X. C’est pourquoi il est naturel d’en partir comme définition.
Ainsi l’espérance conditionnelle de Y sachant X admet une interprétation géométrique très simple
(cf. figure 1.14). Cette interprétation est fructueuse, car elle permet de retrouver sans effort cer-
taines propriétés usuelles de l’espérance conditionnelle (un bête dessin et l’affaire est entendue).
E[Y |X]
L2 (X)
Propriétés 6
Soit (X, Y ) un couple aléatoire, avec Y ∈ L2 (Ω).
– Distance minimale : ∀Z ∈ L2 (X), kY − E[Y |X]k ≤ kY − Zk.
– Orthogonalité : ∀Z ∈ L2 (X), hY − E[Y |X], Zi = 0.
– Orthogonalité(bis) : ∀Z ∈ L2 (X), hY, Zi = hE[Y |X], Zi.
– Pythagore : kY k2 = kE[Y |X]k2 + kY − E[Y |X]k2 .
– Pythagore(bis) : kE[Y |X]k ≤ kY k, avec égalité si et seulement si Y est une fonction de X.
– Linéarité : Soit Y1 et Y2 de carrés intégrables, α et β deux réels, alors :
Remarques.
1. Par commodité des notations, toutes les propriétés ont été énoncées en termes de produits
scalaires et de normes. Cependant, il faut savoir les lire aussi bien en termes d’espérances
et d’espérances conditionnelles. De même, chaque fois qu’on écrit Z ∈ L2 (X), il faut lire
Z = u(X), avec u(X) ∈ L2 (Ω). Par exemple, la propriété d’orthogonalité(bis) s’écrit encore :
pour toute fonction u telle que la variable aléatoire u(X) soit de carré intégrable, on a :
E[u(X)Y ] = E[u(X)E[Y |X]].
2. Le théorème de projection orthogonale permet de comprendre toutes les méthodes dites
de moindres carrés en statistiques. Dans ces applications, l’espace H est engendré par les
variables observables (X1 , . . . , Xn ), ou variables explicatives. Partant de celles-ci, on cherche
à estimer (ou à expliquer) une autre variable Y , non observée. L’idée est de chercher une
fonction f : Rn → R telle que la variable aléatoire f (X1 , . . . , Xn ) approche le mieux possible
Y . Les méthodes de moindres carrés sont basées sur la distance L2 : dans ce cas, ce qui a
été vu ci-dessus se généralise sans problème et l’unique solution au problème est l’espérance
conditionnelle de Y sachant le n-uplet (X1 , . . . , Xn ).
Dans l’étude des cas discret et continu, pour définir l’espérance conditionnelle de Y sachant X,
on a vu qu’il suffisait de supposer Y intégrable. C’est pourquoi si on veut donner une définition
générale, l’interprétation géométrique de L2 (Ω) n’est pas complètement satisfaisante. Néanmoins,
c’est celle qu’il faudra garder en tête pour se souvenir de toutes les propriétés usuelles. Du reste,
pour la définition qui suit, on part de la propriété de projection déjà vue.
Propriétés 7
Soit (X, Y ) un couple aléatoire, avec Y ∈ L1 (Ω).
– Cas d’égalité : si Y = g(X) est fonction de X, alors E[Y |X] = Y . En particulier E[X|X] = X.
– Linéarité : Soit Y1 et Y2 intégrables, α et β deux réels, alors :
E[αY1 + βY2 |X] = αE[Y1 |X] + βE[Y2 |X]
– Linéarité(bis) : si u : R → R est bornée, alors E[u(X)Y |X] = u(X)E[Y |X].
– Positivité : Si Y ≥ 0, alors E[Y |X] ≥ 0.
– Positivité(bis) : si Y1 et Y2 sont intégrables, avec Y1 ≤ Y2 , alors E[Y1 |X] ≤ E[Y2 |X].
– Calcul d’espérance par conditionnement : E[E[Y |X]] = E[Y ].
– Espérance conditionnelle et indépendance : si X et Y sont indépendantes, alors E[Y |X] = E[Y ].
1.6 Exercices
“Là où il y a une volonté, il y a un chemin.” Lénine.
Corrigé
Supposons, sans perte de généralité, la configuration suivante : (V,C,C), c’est-à-dire que la voiture
est derrière la porte 1, les chèvres derrière les portes 2 et 3. Le jeu se déroule alors comme suit :
1. Sans changement de porte :
(a) le spectateur choisit la porte 1, donc l’animateur ouvre indifféremment l’une des deux
autres portes, et le spectateur gagne.
(b) le spectateur choisit la porte 2, donc l’animateur ouvre la porte 3, et le spectateur perd.
(c) le spectateur choisit la porte 3, donc l’animateur ouvre la porte 2, et le spectateur perd.
2. Avec changement de porte :
(a) le spectateur choisit la porte 1, l’animateur ouvre indifféremment l’une des deux autres
portes, le spectateur ouvre l’autre et perd.
(b) le spectateur choisit la porte 2, donc l’animateur ouvre la porte 3, le spectateur ouvre
la porte 1 et gagne.
(c) le spectateur choisit la porte 3, donc l’animateur ouvre la porte 2, le spectateur ouvre
la porte 1 et gagne.
Bilan des courses : s’il change de porte, il gagne 2 fois sur 3, sinon seulement 1 fois sur 3. Il vaut
donc mieux changer de porte !
Corrigé
P(A|Hj )P(Hj )
P(Hj |A) = Pn .
i=1 P(A|Hi )P(Hi )
P(A|H)P(H)
P(H|A) = .
P(A|H)P(H) + P(A|H)P(H)
D’après l’énoncé, on a P(H) = 1/1000, P(A|H) = 0.99, P(A|H) = 0.002, les autres
probabilités intervenant dans la formule de Bayes s’en déduisant facilement. Ceci donne
P(H|A) ≈ 1/3. Le test n’est donc pas si fiable que ça ! Il n’empêche qu’il peut servir, en
pratique, à faire une première sélection avant d’effectuer un second test plus fiable (mais plus
coûteux) sur les patients pour lesquels ce premier test est positif.
Corrigé
1. On a d’après le texte : p1 = 3p0 , p2 = 4p0 et p3 = 2p0 . Puisque la somme des pi fait 1, on en
déduit que :
1 3 4 2
p = [p0 , p1 , p2 , p3 ] = , , , .
10 10 10 10
2. Notons G l’événement : “Il y a au moins un garçon dans la famille.” On cherche donc P(G).
Nous allons utiliser la formule des probabilités totales via la partition Ω = {E0 , E1 , E2 , E3 }
suivant le nombre d’enfants par famille :
3
X 3
X
P(G) = P(G|Ei )P(Ei ) = P(G|Ei )pi ,
i=0 i=0
où il reste à voir que pour tout i on a P(G|Ei ) = (1/2)i . Finalement on obtient P(G) = 3/8.
3. On cherche cette fois la probabilité P(E2 |G), il suffit d’inverser le conditionnement :
P(G|E2 )P(E2 )
P(E2 |G) = .
P(G)
D’après la question précédente, on sait que P(G) = 3/8, et d’après la première question
P(E2 ) = p2 = 4/10. On arrive donc à P(E2 |G) = 4/15.
Corrigé
1. Méthode A : on appelle pn la probabilité qu’il faille n essais pour ouvrir la porte. Puisqu’il
retire chaque clé après un essai infructueux, il est clair que n peut prendre les valeurs de 1
à 10. On peut calculer les probabilités de proche en proche : la probabilité p1 est clairement
p1 = 1/10. Pour qu’il ouvre la porte au deuxième essai, il faut qu’il se soit trompé au premier,
ce qui arrive avec probabilité 9/10 et qu’il ait réussi au second, ce qui arrive avec probabilité
1/9, donc à nouveau p2 = 1/10. En itérant ce raisonnement, on voit sans peine que pour
tout n entre 1 et 10, pn = 1/10. Nous parlerons dans ce cas de loi uniforme sur l’ensemble
{1, . . . , 10}.
Remarque : on pouvait obtenir ce résultat par un autre raisonnement : les 10 clés du trousseau
arrivent dans un certain ordre et il n’y aucune raison que la clé qui ouvre la porte soit à une
position plutôt qu’à une autre, donc le nombre d’essais nécessaires pour ouvrir la porte est
équiréparti entre 1 et 10.
2. Méthode B : cette fois, le nombre n d’essais nécessaire peut prendre toute valeur de N∗ .
La probabilité q1 est à nouveau q1 = 1/10. Pour qu’il ouvre la porte au deuxième essai, il
faut qu’il se soit trompé au premier, ce qui arrive avec probabilité 9/10, et qu’il ait réussi au
second, ce qui arrive avec probabilité 1/10, donc q2 = 1/10×9/10. En itérant ce raisonnement,
on voit que :
n−1
1 9
∀n ∈ N ∗
qn = .
10 10
On dit dans ce cas que le nombre d’essais suit une loi géométrique de paramètre 1/10.
3. Notons {N > 8} l’événement : “Après 8 essais, la porte n’est toujours pas ouverte” et,
conformément à ce qui précède, A (resp. B) l’événement : “Le gardien est à jeun (resp.
ivre).” Notons au passage que A = B. On cherche donc P(B|{N > 8}). On utilise la formule
de Bayes :
P({N > 8}|B)P(B)
P(B|{N > 8}) = .
P({N > 8}|A)P(A) + P({N > 8}|B)P(B)
Le texte nous apprend que P(B) = 1/3, donc P(A) = 2/3. Avec des notations naturelles, on
obtient d’une part :
+∞
X +∞ n−1 8
1 X 9 9
P({N > 8}|B) = qn = = ,
n=9
10 n=9 10 10
puisqu’on a reconnu une série géométrique de raison 9/10. Plus simple encore :
2
P({N > 8}|A) = p9 + p10 = .
10
Il vient donc P(B|E8 ) ≈ 0, 518.
Corrigé
1. Soit X ∼ G(p) loi géométrique de paramètre p ∈]0, 1[. On a :
+∞
X +∞
X +∞
X
P(X > n) = P(X = k) = p(1 − p)k−1 = p (1 − p)k−1 ,
k=n+1 k=n+1 k=n+1
Corrigé
1. La probabilité cherchée s’écrit, en suivant l’indication de l’énoncé :
P(En+1 ∩ En ) P(En+1 )
pN = P(En+1 |En ) = = ,
P(En ) P(En )
la dernière égalité venant de ce que En+1 ⊆ En . Les deux termes se traitent alors de la même
façon, en décomposant sur la partition {U0 , . . . , UN } :
N
X N
1 X
P(En ) = P(En |Uk )P(Uk ) = P(En |Uk ),
N +1
k=0 k=0
le terme N 1+1 venant de l’équiprobabilité pour le choix de l’urne dans laquelle on pioche. Il
reste à voir que si on pioche dans l’urne Uk , la probabilité de tirer 1 boule rouge est k/N
donc la probabilité de tirer n boules rouges à la suite est (k/N )n . On a donc :
1 PN n+1
N +1 k=0 (k/N )
pN = 1 PN
.
(k/N )n
N +1 k=0
2. Pour trouver la limite de (pN ) lorsque le nombre N d’urnes tend vers l’infini, il suffit d’ap-
pliquer le résultat sur les sommes de Riemann :
N N
! Z 1
1 X n N 1 X
n 1
(k/N ) = (k/N ) −−−−→ xn dx = .
N +1 N +1 N N →∞ 0 n+1
k=0 k=1
On en déduit :
n+1
lim pN = .
N →∞ n+2
Exercice 1.7 (Transmission bruitée)
Un message doit être transmis d’un point à un autre à travers N canaux successifs. Ce message
peut prendre deux valeurs, 0 ou 1. Durant le passage par un canal, le message a la probabilité
p ∈]0, 1[ d’être bruité, c’est-à-dire d’être transformé en son contraire, et (1 − p) d’être transmis
fidèlement. Les canaux se comportent indépendamment les uns des autres.
1. Notons In l’événement : “en sortie de n-ème canal, le message est le même que celui transmis
initialement.” Exprimer P(In+1 ) en fonction de P(In ) et de p.
2. En notant pn = P(In ), donner une relation de récurrence entre pn+1 et pn . Que vaut p1 ?
3. On considère une suite (un )n≥1 vérifiant la relation de récurrence :
un+1 = (1 − 2p)un + p.
Une telle suite est dite arithmético-géométrique. Vérifier que la suite (vn )n≥1 , définie par
vn = un − 21 , est géométrique. En déduire vn en fonction de p et v1 .
4. En déduire pn en fonction de p pour tout n ∈ {1, . . . , N }.
5. Que vaut limN →+∞ pN ? Qu’est-ce que ce résultat a d’étonnant à première vue ?
Corrigé
1. Pour que l’événement In+1 ait lieu, de deux choses l’une : ou bien In était réalisé et le message
a été bien transmis dans le (n + 1)-ème canal, ou bien In était réalisé et le message a été
mal transmis dans le (n + 1)-ème canal. C’est en fait la formule des probabilités totales qui
s’applique ici :
P(In+1 ) = P(In+1 |In )P(In ) + P(In+1 |In )P(In ),
c’est-à-dire :
P(In+1 ) = (1 − p)P(In ) + p(1 − P(In )).
2. On a donc la relation de récurrence :
La condition initiale est p1 = 1 − p, probabilité que le message n’ait pas été bruité dans le
premier canal.
3. On écrit :
1 1
vn+1 = un+1 − = (1 − 2p)un + p − ,
2 2
et en remplaçant un par vn + 21 , il vient vn+1 = (1 − 2p)vn , donc la suite (vn )n≥1 est
géométrique de raison (1 − 2p). On en déduit :
∀n ∈ {1, . . . , N } vn = (1 − 2p)n−1 v1 .
Corrigé
Pour tout n ∈ {0, . . . , 100}, on note pn la probabilité que A finisse ruiné s’il commence avec ne et
B avec (100 − n)e.
1. On a bien sûr p0 = 1 et p100 = 0.
2. Supposons que A commence avec ne avec 0 < n < 100 : à la première partie, ou bien il
gagne (ce qui arrive avec probabilité p) et la probabilité qu’il se ruine ensuite devient pn+1 ,
ou bien il perd (ce qui arrive avec probabilité (1 − p)) et la probabilité qu’il se ruine ensuite
devient pn−1 . La formule des probabilités totales s’écrit donc :
pn = p × pn+1 + (1 − p) × pn−1 .
θ 100 −θ 50
4. La probabilité que A finisse ruiné en commençant avec 50e est donc p50 = θ 100 −1
.
5. A la roulette, la probabilité de gain à chaque partie est p = 18/37, donc θ = 19/18, et la
probabilité de finir ruiné est : p50 ≈ 94%. Il valait mieux en effet aller se promener ce jour-là...
6. Tant qu’à être prêt à perdre 50e, le mieux (ou plutôt : le moins pire) est de les miser en une
seule fois. La probabilité de finir ruiné est alors simplement p = 18/37.
Corrigé
1. Le couple (X, Y ) est à valeurs dans l’ensemble E défini comme suit :
E = {(n, k) : 1 ≤ n ≤ 6, 0 ≤ k ≤ n}.
Corrigé
1. La loi jointe du couple (U, Y ) est donnée figure 1.15.
2. Soit n ∈ {1, 2, 3, 4, 5} fixé. Alors si Y = n, puisque Y est le maximum de U et V , il est clair
que U peut prendre les valeurs de 1 à n. On a donc :
Y
1 2 3 4 5
U
4 0 0 0 4/25 1/25
5 0 0 0 0 5/25
Puisqu’on connaît la loi jointe, il reste à préciser la loi marginale de Y , c’est-à-dire sommer
sur les colonnes dans le tableau de la question précédente. Ce qui donne :
1 1 2n − 1
P(Y = n) = P(U = 1, Y = n) + · · · + P(U = n, Y = n) = (n − 1) + n = .
25 25 25
Ainsi, on obtient pour la loi conditionnelle de U sachant Y :
1/(2n − 1) si 1 ≤ k ≤ (n − 1)
P(U = k|Y = n) =
n/(2n − 1) si k = n
Au total, on obtient :
1 n
E[U |Y = n] = (1 + · · · + (n − 1)) +n .
2n − 1 2n − 1
La première somme, entre parenthèses, est arithmétique de raison 1, donc :
n(n − 1)
1 + · · · + (n − 1) = ,
2
d’où finalement :
n(n − 1) n2 n(3n − 1)
E[U |Y = n] = + = .
2(2n − 1) 2n − 1 2(2n − 1)
Remarque : quand vous arrivez ici, après quelques calculs, pensez à vérifier que la formule
fonctionne, par exemple pour n = 1 et n = 2.
3. On en déduit que :
Y (3Y − 1)
E[U |Y ] = .
2(2Y − 1)
4. Pour déterminer E[Y |U ], on commence par calculer E[Y |U = n] pour tout n ∈ {1, 2, 3, 4, 5}.
Lorsque U vaut n, il est clair que Y peut prendre les valeurs n, . . . , 5. Comme ci-dessus,
il faut donc commencer par préciser la loi marginale de U . Or U est obtenue en tirant un
nombre au hasard entre 1 et 5, donc U suit une loi uniforme sur l’ensemble {1, 2, 3, 4, 5} :
P(U = n) = 51 . On en déduit que :
1/5 si (n + 1) ≤ k ≤ 5
P(Y = k|U = n) =
n/5 si k = n
(n + 6)(5 − (n + 1) + 1) (n + 6)(5 − n)
(n + 1) + · · · + 5 = = ,
2 2
et finalement on obtient :
n2 − n + 30
E[Y |U = n] = .
10
Et l’espérance conditionnelle de Y sachant U est donc :
U 2 − U + 30
E[Y |U ] = .
10
X
1 2 3 4 5
U
1 5/25 0 0 0 0
2 1/25 4/25 0 0 0
5. Pour déterminer E[U |X], on reprend pas à pas le raisonnement vu ci-dessus. La loi jointe du
couple aléatoire (U, X) est représentée figure 1.16. Pour tout n entre 1 et 5, on a cette fois :
On a donc :
6−n 1 30 + 11n − 3n2
E[U |X = n] = n + ((n + 1) = · · · + 5) = .
11 − 2n 11 − 2n 22 − 4n
Donc finalement :
30 + 11X − 3X 2
E[U |X] = .
22 − 4X
Pour calculer l’espérance conditionnelle de X sachant U , on a deux possibilités : ou bien on
reprend la méthode plan-plan ci-dessus, ou bien on pense à une ruse de sioux. Il suffit en
effet de remarquer, puisque l’espérance conditionnelle est linéaire, que :
11U − U 2
E[X|U ] = ,
10
et tout est dit.
Corrigé
Le corrigé est donné en annexe (sujet de juin 2006).
Corrigé
1. Tout d’abord, il suffit de lancer une pièce équilibrée et de compter le nombre de lancers
nécessaires pour voir apparaître Pile. On appelle N ce nombre, on sait qu’il suit une loi
géométrique de paramètre 1/2. Il suffit alors de lancer N fois un dé équilibré à 6 faces et de
faire la somme des résultats obtenus pour obtenir SN .
2. Si N = n, alors :
SN = Sn = X1 + · · · + Xn
est la somme de n variables de même moyenne m, donc :
E[SN |N = n] = nm.
On en déduit que :
E[SN |N ] = mN.
((1 − p)λ)n−k
∀n ≥ k ≥ 0 P(X = n|Y = k) = e−(1−p)λ ,
(n − k)!
c’est-à-dire que, sachant Y = k, X suit une loi de Poisson translatée. En déduire E[X|Y = k]
et de façon générale que : :
E[X|Y ] = Y + λ(1 − p).
4. Application : à un embranchement routier, le nombre X de véhicules arrivant en une heure
suit une loi de Poisson P(100) (hypothèse courante dans ce genre de situation). Les véhicules
ont alors le choix entre deux directions A ou B : ils choisissent A avec la même probabilité
1/3, et ce de façon indépendante. Sachant qu’en une heure, on sait simplement que 100
voitures ont pris la direction A, quel est le nombre moyen de voitures qui sont passées par
l’embranchement ?
Corrigé
1. Le couple (X, Y ) est à valeurs dans l’ensemble E défini comme suit :
E = {(n, k) : 0 ≤ k ≤ n}.
(pλ)k
P(Y = k) = e−pλ .
k!
En d’autres termes, Y suit une loi de Poisson de paramètre pλ.
4. Nous sommes exactement dans le cadre d’application de ce qui précède, avec λ = 100, p = 1/3
et k = 100. Le nombre moyen de voitures qui sont passées par l’embranchement vaut donc :
Un raisonnement moisi serait le suivant : pour une voiture qui prend la direction A, deux
prennent la direction B, donc si on a vu passer 100 voitures en une heure partant vers
A, 200 voitures ont dû prendre la direction B, donc au total 300 ont dû se présenter à
l’embranchement. Où est la faute ? Le fait que les choix de A ou B sont indépendants implique
que l’information sur l’un n’apporte aucune information sur l’autre. Donc quel que soit
le nombre de voitures partant vers A en une heure, le nombre moyen de voitures vers B
est inchangé et vaut environ 67. Formellement, ceci peut se voir en utilisant les propriétés
classiques de l’espérance conditionnelle :
Corrigé
1. La variable T est à valeurs dans N∗ et pour tout entier naturel non nul n, il faut (n − 1)
échecs et finalement un succès pour que T vaille n. Puisque les tirages sont indépendants,
ceci se traduit par
P(T = n) = p(1 − p)n−1
On dit que T suit une loi géométrique de paramètre p et on note T ∼ G(p). Le cadre général
est le suivant : lors d’une expérience, un événement donné a la probabilité p de survenir ; si
on répète cette expérience de façon indépendante jusqu’à ce que cet événement apparaisse, le
nombre d’expériences nécessaires suit la loi géométrique de paramètre p. On prendra garde
au fait que le paramètre p de cette loi ne correspond pas à la raison de la suite des probabilités
(P (T = n))n∈N∗ , lequel vaut (1 − p).
Le calcul de l’espérance de T se fait alors comme suit :
∞
X ∞
X
E[T ] = np(1 − p)n−1 = p n(1 − p)n−1 .
n=1 n=1
Il suffit alors de se souvenir de la somme d’une série géométrique et de dériver terme à terme
pour obtenir le résultat voulu :
X ∞ X ∞
X ∞
1 1 1
= xn ⇒ 2
= nxn−1 ⇒ 2 = n(1 − p)n−1
1−x (1 − x) p
n=0 n=1 n=1
ce qui donne E[T ] = 1/p. Interprétation élémentaire : plus l’événement d’intérêt est rare,
autrement dit plus p est faible, et en moyenne plus il faut attendre pour le voir apparaître.
2. (a) Il est clair que E[T |X = 1] = 1.
(b) Si X = 0, la première boule tirée est blanche et on revient au point de départ (hormis
qu’on a déjà fait un tirage), ce qui se traduit par E[T |X = 0] = 1 + E[T ].
(c) Tenant compte de ce que P(X = 0) = 1 − P(X = 1) = 1 − p, on peut alors écrire
E[T ] = E[E[T |X]] = E[T |X = 0]P(X = 0)+E[T |X = 1]P(X = 1) = (1+E[T ])(1−p)+p
Corrigé
En s’inspirant de l’exercice 1.14, on obtient : E[T |X = 1] = 3, E[T |X = 2] = E[T ] + 5 et
E[T |X = 3] = E[T ] + 7. Par ailleurs, le calcul d’espérance par conditionnement donne :
Ainsi il vient :
1
E[T ] = (3 + E[T ] + 5 + E[T ] + 7),
3
d’où l’on déduit :
E[T ] = 15.
Il faut en moyenne 15 heures au mineur pour sortir. Autant dire qu’il n’a pas le cul sorti des ronces...
2
∀i ∈ N∗ P(X = i) = .
3i
Soit Y une variable aléatoire telle que, sachant X = i, la loi de Y est l’équiprobabilité sur {i, i+ 1}.
1. Que vaut E[X] ?
2. Pour tout i ∈ N∗ , déterminer E[Y |X = i]. En déduire E[Y |X], puis E[Y ].
3. Calculer la loi jointe du couple (X, Y ).
4. Déterminer la loi de Y .
5. Pour tout j ∈ N∗ , déterminer E[X|Y = j]. En déduire E[X|Y ].
6. Calculer Cov(X, Y ).
Corrigé
1. On a vu que X suit une loi géométrique de paramètre 2/3 donc E[X] = 3/2.
2. Pour tout i ∈ N∗ , on a vu que :
1 2i + 1
E[Y |X = i] = (i + (i + 1)) = .
2 2
On en déduit que
2X + 1
E[Y |X] = ,
2
et par suite
1
E[Y ] = E[E[Y |X]] = (2E[X] + 1) = 2.
2
3. La loi jointe du couple (X, Y ) est très simple puisqu’on connaît marginale et conditionnelle.
Pour tout i ∈ N∗ , on a :
0 si j ∈/ {i, i + 1}
pi,j = 1
3i
si j ∈ {i, i + 1}
4. La variable aléatoire Y est à valeurs dans N∗ , avec
1/3 si j = 1
pj = P(Y = j) = 4
3j
si j ≥ 2
P(X = j − 1, Y = j) 3
P(X = j − 1|Y = j) = = ,
P(Y = j) 4
et de même :
1
P(X = j|Y = j) = ,
4
d’où l’on déduit :
3(j − 1) j 4j − 3
E[X|Y = j] = + =
4 4 4
On est donc obligé de faire attention à la valeur 1 pour la variable aléatoire X :
4Y − 3
E[X|Y ] = 1{Y =1} + 1{Y >1}
4
6. On a enfin
Cov(X, Y ) = E[XY ] − E[X]E[Y ],
or on a déjà vu que E[X] = 3/2 et E[Y ] = 2 et
2X + 1 1
E[XY ] = E[E[XY |X]] = E[XE[Y |X]] = E X = (2E[X 2 ] + E[X]).
2 2
Il reste à voir que E[X 2 ] = VarX + (E[X])2 , et à se souvenir (ou à recalculer) que la variance
d’une loi géométrique de paramètre p est q/p2 (donc ici 3/4). On a donc :
1 3 9 3 15
E[XY ] = 2 + + = .
2 4 4 2 4
Finalement :
15 3
Cov(X, Y ) = −3 = .
4 4
+∞ n
X x
ln(1 − x) = − ,
n
n=1
On considère un couple aléatoire (X, Y ) à valeurs dans N2 \ {(0, 0)} dont la loi jointe est définie
par :
1 (i + j − 1)!
∀(i, j) ∈ N2 \ {(0, 0)} P(X = i, Y = j) = .
ln 2 i!j!3i 6j
1. CalculerP(X = 0).
2. Pour tout i ∈ N∗ , calculer P(X = i).
3. Déterminer la loi de Y conditionnellement à X = 0. Calculer E[Y |X = 0].
4. Pour tout i ∈ N∗ , déterminer la loi de Y conditionnellement à X = i. Calculer E[Y |X = i].
5. En déduire E[Y |X].
Corrigé
1. Il est clair que f est une fonction positive. Par ailleurs, par le théorème de Fubini-Tonelli, le
calcul de son intégrale double sur R2 se fait sans problème :
ZZ Z +∞ Z +∞
−(x+y)
f (x, y) dx dy = e dy dx = · · · = 1,
R2 0 0
1 − xy −y
f (x, y) = e 1]0,+∞[2 (x, y)
y
1. Déterminer la densité marginale f (y) de Y .
2. En déduire la densité conditionnelle f (x|y).
3. Que vaut E[X|Y = y]. En déduire l’espérance conditionnelle de X sachant Y .
4. On considère cette fois : f (x, y) = 12
5 x(2 − x − y)1]0,1[2 (x, y). Montrer que
5 − 4Y
E[X|Y ] =
8 − 6Y
Corrigé
1. La densité marginale de Y vaut :
Z +∞
1 − xy −y
f (y) = e 1]0,+∞[ (y) dy,
0 y
ce qui donne après calculs :
f (y) = e−y 1]0,+∞[ (y),
c’est-à-dire que Y ∼ ε(1).
2. On en déduit la densité conditionnelle f (x|y). Pour tout y > 0 :
f (x, y) 1 x
f (x|y) = = e− y 1]0,+∞[ (x),
f (y) y
E[X|Y = y] = y,
5 − 4Y
E[X|Y ] = ,
8 − 6Y
il suffit d’appliquer la méthode usuelle. Si vous n’arrivez pas à ce résultat, c’est que vous
avez fait une faute de calcul quelque part !
1. Soit V une variable aléatoire qui suit une loi exponentielle de paramètre λ. Rappeler son
moment d’ordre n, c’est-à-dire E[V n ].
2. Déterminer c pour que f soit effectivement une densité.
3. Calculer f (x|y), densité conditionnelle de X sachant Y = y.
4. En déduire que E[X|Y ] = Y /2.
Corrigé
Cf. annales en fin de polycopié.
Corrigé
Cf. annales en fin de polycopié.
Corrigé
Cet exercice est corrigé en annexe, sujet de juin 2005.
Corrigé
1. Puisque le point (X, Y ) est tiré uniformément dans le disque D, la densité f (x, y) du couple
(X, Y ) est tout simplement l’indicatrice du disque divisé par la surface de ce disque. C’est
la généralisation d’une loi uniforme sur un segment de R (indicatrice du segment divisé par
sa longueur). Ainsi :
1 1
f (x, y) = 1D (x, y) = 1{x2 +y2 ≤1} (x, y).
π π
√ √
2. Si x est fixé entre −1 et 1, y ne peut varier qu’entre − 1 − x2 et + 1 − x2 (faire un dessin !).
On a alors :
Z +√1−x2
1 2p
f (x) = √ dy = 1 − x2 1[−1,1] (x).
− 1−x2 π π
Puisque l’abscisse X et l’ordonnée Y jouent des rôles symétriques, on a aussi :
2p
f (y) = 1 − y 2 1[−1,1] (y).
π
On en déduit : Z
2 1 p
E[X] = x 1 − x2 dx,
π −1
et par le théorème de Fubini (on intègre une fonction continue sur un domaine borné donc
no souci) : !
Z Z +√1−x2
1 +1
cov(X, Y ) = x √ y dy dx = 0,
π −1 − 1−x2
√ √
puisque pour tout x entre −1 et 1, le segment [− 1 − x2 , + 1 − x2 ] est symétrique par
rapport à 0 et la fonction y 7→ y est impaire. On en déduit que cov(X, Y ) = 0 alors que X
et Y ne sont pas indépendantes : Etonnov, niet ?
5. La variable aléatoire (X 2 + Y 2 ) est à valeurs entre 0 et 1 et pour tout u ∈ [0, 1], on a :
p √
G(u) = P(X 2 + Y 2 ≤ u) = P X2 + Y 2 ≤ u ,
√
or X 2 + Y 2 est la distance au centre d’un point M tiré au hasard dans le disque. La
√
probabilité que celle-ci soit plus petite que u correspond donc au rapport des surfaces
√
entre le disque de centre O et de rayon u et le disque D, c’est-à-dire que :
0 si u ≤ 0
G(u) = u si 0 ≤ u ≤ 1
1 si u ≥ 1
Autrement dit U suit une loi uniforme sur [0, 1], ce qu’on note U ∼ U[0,1] . On en déduit que
sa densité est l’indicatrice du segment [0, 1] : g(u) = 1[0,1] (u).
6. L’espérance de U vaut donc 1/2. Puisque X et Y ont même loi, on a E[X 2 ] = E[Y 2 ], et
puisque U = (X 2 + Y 2 ), on a :
1 1
E[U ] = E[X 2 ] + E[Y 2 ] = 2E[X 2 ] ⇒ E[X 2 ] = E[U ] = .
2 4
Les variances de X et Y sont identiques et :
1
Var(X) = E[X 2 ] − E[X]2 = E[X 2 ] = .
4
P(L1 > a, . . . , Ln > a) = P(L1 > a) × · · · × P(Ln > a) = P(L1 > a)n .
Mais on a alors :
3. En déduire la densité de V .
4. Calculer f (w|v). Quelle loi reconnaît-on ?
Corrigé
Voir les annales, sujet de mai 2008.
Corrigé
FY (y) = 1 − P(X1 > y)P(X2 > y) = 1 − e−λ1 y 1R+ (y)e−λ2 y 1R+ (y) = 1 − e−(λ1 +λ2 )y 1R+ (y),
max(Xa , Xv ) = Xa + Xv − min(Xa , Xv ),
2 ln(1 + x)
1[0,1] (x)
(ln 2)2 1 + x
Soit Y une variable aléatoire telle que la loi conditionnelle de Y sachant X = x est :
1 1
1 (y)
ln(1 + x) 1 + y [0,x]
Corrigé
Cf. annales, sujet de juin 2006.
X T
R
1. Puisque l’aiguille est de longueur unité, la distance verticale entre ses deux extrémités est
égale à | sin T |. Dès lors, la distance verticale entre le milieu de l’aiguille et chacune de ses
deux extrémités vaut | sin T |/2. Pour que l’aiguille ne chevauche aucune lame, il faut et il
suffit que ce nombre soit plus petit que la distance du milieu de l’aiguille au bord de lame le
plus proche, notée X. Ainsi la probabilité cherchée s’écrit :
1
p = P X ≤ | sin T | .
2
2. Soit t ∈ [−π/2, π/2]. Puisque X suit une loi uniforme sur [0, 1/2], il vient
1
P(X ≤ | sin t|) = | sin t|.
2
3. Grâce à un calcul de probabilité par conditionnement, en déduire que p = π2 .
4. Méthode heuristique : on jette un très grand nombre d’aiguilles sur le parquet, de sorte qu’il
y en ait dans toutes les directions. On peut donc les mettre bout à bout de façon à former
un très grand cercle, de rayon R (cf. figure 1.18, à droite).
(a) Quel est approximativement le nombre N d’allumettes nécessaires pour former ce cercle ?
(b) Quel est approximativement le nombre Ni de lames de parquet intersectées par ces
allumettes ?
(c) En faisant le rapport entre ces deux nombres, retrouver le résultat p = π2 .
Corrigé
1. La condition générale pour qu’on puisse construire un triangle est qu’aucune des deux lon-
gueurs ne soit supérieure à la somme des deux autres, ce qui donne un système de trois
inéquations à satisfaire.
2. Les deux points U et V définissent les trois segments [0, min(U, V )], [min(U, V ), max(U, V )] et
[max(U, V ), 1], de longueurs respectives min(U, V ), max(U, V ) − min(U, V ) et 1 − max(U, V ).
D’après la question précédente, le système suivant doit alors être satisfait :
min(U, V ) ≤ (max(U, V ) − min(U, V )) + (1 − max(U, V ))
max(U, V ) − min(U, V ) ≤ min(U, V ) + (1 − max(U, V ))
1 − max(U, V ) ≤ min(U, V ) + (max(U, V ) − min(U, V ))
La région admissible est représentée figure 1.19. En cassant un bâton en trois morceaux de
V
1
U
1
cette façon, la probabilité qu’on puisse faire un triangle correspond exactement à la surface
de cette région, laquelle vaut 1/4.
3. Seconde méthode : on casse d’abord le bâton en deux morceaux (tirage d’une variable aléa-
toire X uniforme sur [0, 1]), puis on choisit au hasard l’un des deux morceaux (pile ou face
non biaisé), puis on recasse ce morceau en deux (tirage d’une variable uniforme Y ). Déter-
miner la densité, notée f (y|x), de Y sachant X = x. En déduire que la probabilité cherchée
vaut ln 2 − 21 ≈ 0.19.
4. Pourquoi ne trouve-t-on pas le même résultat ?
1 3 −x
f (x) = x e 1]0,+∞[ (x).
6
On s’intéresse à la densité jointe du couple (Y1 , Y2 ) sachant X1 = x1 . Montrer que pour tout triplet
(x1 , y1 , y2 ) de R3 , on a :
Taille 121 123 108 118 111 109 114 103 110 115
Poids 25 22 19 24 19 18 20 15 20 21
1 − 2x2 −2xy+y2
f (x, y) = e 2
2π
1. Montrer que X ∼ N (0, 1) et Y ∼ N (0, 2), lois normales centrées de variances respectives 1
et 2.
2. Montrer que la covariance du couple (X, Y ) vaut 1.
3. En déduire l’équation de la droite de régression de Y en X : y = ax + b.
4. Montrer que, sachant X = x, Y suit une loi normale N (x, 1). En déduire la courbe de
régression : x 7→ E[Y |X = x].
5. Sachant X = x, on veut la probabilité que Y s’éloigne de ax + b de plus de une unité, i.e.
calculer :
P(|Y − (aX + b)| > 1|X = x).
Indication : si V ∼ N (0, 1), alors P(|V | > 1) ≈ 0.32.
1 1 y2
f (x, y) = √ e− 2 ( x2 −2y+x +2x) 1{x>0}
2
x 2π
Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4
Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19
18
16
14
Notes Epreuve B
12
10
8
6
4 6 8 10 12 14
Notes Epreuve A
Figure 1.20 – Représentation des notes et droite de régression pour l’ensemble des 12 stagiaires.
Corrigé
1. Le nuage de points ainsi que la droite de régression sont représentés figure 1.20. On cherche
à expliquer les notes à l’épreuve B, notées y1 , . . . , y12 à partir des notes à l’épreuve A, notées
x1 , . . . , x12 . L’équation de la droite de régression est y = âx + b̂, avec :
P12
(xi − x̄)(yi − ȳ)
â = i=1P12 ≈ 0.11
2
i=1 (xi − x̄)
b̂ = ȳ − âx̄ ≈ 12.0
Le coefficient proche de 0 pourrait laisser penser qu’il n’y a pas une forte corrélation linéaire
entre les notes à l’épreuve A et les notes à l’épreuve B. De fait, sur la figure 1.20, la droite
de régression ne semble pas représenter correctement le nuage de points.
2. On élimine les notes des deux derniers stagiaires, c’est-à-dire les deux dernières colonnes du
tableau. Le nuage de points ainsi que la droite de régression sont représentés figure 1.21.
L’équation de la droite de régression est encore y = âx + b̂, avec :
P10
(xi − x̄)(yi − ȳ)
â = i=1P10 ≈ 0.90
2
i=1 (xi − x̄)
3. “Je ne crois aux statistiques que lorsque je les ai moi-même falsifiées.” Winston Churchill.
18
16
Notes Epreuve B
14
12
10
8
4 6 8 10 12
Notes Epreuve A
Figure 1.21 – Représentation des notes et droite de régression pour les 10 premiers stagiaires.
On obtient cette fois une forte corrélation linéaire puisque ρ̂ est proche de 1. De même, sur la
figure 1.21, la droite de régression est tout à fait représentative du nuage de points. Ainsi les
notes des 2 derniers individus suffisaient à masquer la forte corrélation linéaire et à fausser
complètement la régression linéaire pour expliquer la seconde note à partir de la première :
ce sont ce qu’on appelle des individus aberrants. On trouvera la définition précise de cette
notion dans le livre de Pierre-André Cornillon et Eric Matzner-Løber [8], paragraphe 4.1.2.
E[(Xn+1 − X̂n+1 )2 ].
On utilise pour ce faire une interprétation stochastique du problème. Considérons l’espace proba-
bilisé (Ω, F, P) = ([0, 1], B[0,1] , λ[0,1] ). Dans ce contexte, une variable aléatoire est tout simplement
une fonction borélienne f : [0, 1] → R. Si elle est intégrable sur [0, 1], son espérance est :
Z 1
E[f ] = f (x) dx.
0
H = L2 ([0, 1], B[0,1] , λ[0,1] ) est donc l’espace des fonctions boréliennes de carrés intégrables sur
l’intervalle [0, 1]. Montrer que le problème de minimisation ci-dessus revient alors à déterminer une
droite de régression. En déduire a et b.
Corrigé
Si on adopte les notations vues en régression dans le cours, la fonction identité x 7→ x correspond
à la variable aléatoire X, tandis que la fonction x 7→ ex correspond à la variable aléatoire Y .
De façon générale, faire une régression linéaire de la variable aléatoire Y sur la variable aléatoire
X, c’est chercher les deux réels a et b tels que l’erreur quadratique moyenne faite en approchant
Y par aX + b soit minimale. On veut donc trouver :
arg min E (Y − (aX + b))2 ,
a,b
Il nous suffit donc d’appliquer les formules habituelles donnant pente et ordonnée à l’origine en
fonction des espérances, variances et covariance :
(
a = Cov(X,Y
Var(X)
)
b = E[Y ] − aE[X]
Il reste à évaluer les quantités en jeu. L’espérance de X correspond à la valeur moyenne prise par
la fonction identité sur [0, 1] :
Z 1
1
E[X] = x dx = .
0 2
De même pour l’espérance de Y :
Z 1
E[Y ] = ex dx = e − 1.
0
avec : Z 1
1
E[X 2 ] = x2 dx = ,
0 3
1
d’où finalement : Var(X) = 12 . De même, on a :
Autrement dit, sur l’intervalle [0, 1], la meilleure approximation au sens de la norme L2 de la
fonction x 7→ ex par une fonction affine est donnée par la droite (cf. figure 1.22) :
2.8
...
....
....
....
.......
...
....
.....
....
.....
.......
..
.....
.....
.....
.....
........
..
......
.....
.....
......
...
........
...
......
......
......
......
...........
.....
.......
......
.......
.......
....
.........
.....
........
........
.......
........
...............
.........
........
.........
.........
.........
....
..............
....
...........
...........
1.0
0.8
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Figure 1.22 – Approximation en norme L2 de x 7→ ex par une fonction affine sur [0, 1].
Remarque. L’approche brutale consisterait à voir la quantité à optimiser comme une fonction
des deux variables a et b : Z 1
Φ(a, b) = (ex − ax − b)2 dx,
0
a2 1
Φ(a, b) = + b2 + ab − 2a + 2(1 − e)b + (e2 − 1).
3 2
On effectue une factorisation “à la Gauss” :
a 2 1 2 7 2 57
Φ(a, b) = b − e − 1 − + (a − 6(3 − e)) − e − 20e + .
2 12 2 2
Cette quantité est minimale lorsqu’on annule les 2 carrés, c’est-à-dire lorsque :
a = 6(3 − e)
b = e − 1 − a2 = 2(2e − 5)
Introduction
Le calcul conditionnel s’exprime très simplement dans le cadre gaussien, puisque tout se ramène
à du calcul matriciel. C’est pourquoi on dit qu’on est dans un cadre linéaire. C’est ce qui devrait
ressortir de ce chapitre. Au préalable, il convient de faire quelques rappels sur les lois normales
uni- et multi-dimensionnelles.
0.40 0.14
0.12
−3 −2 −1 0−4 1 2 3 4 −7 −5 −3 −1 1 3 5 7 9
Figure 2.1 – Densités des lois normales N (0, 1) (à gauche) et N (2, 9) (à droite).
63
64 Chapitre 2. Vecteurs gaussiens et conditionnement
1 (x−m)2
f (x) = √ e− 2σ 2
2πσ 2
Remarques.
– Supposons qu’on tire des nombres selon une loi normale N (m, σ 2 ), par exemple avec un ordina-
teur. Alors plus l’écart-type σ est faible et plus on a des chances d’obtenir des résultats autour
de la moyenne m : 68% de tomber à distance inférieure ou égale à σ, 95% de tomber à distance
inférieure ou égale à 2σ, 99, 7% de tomber à distance inférieure ou égale à 3σ. Ceci est illustré
figure 2.2.
– La loi d’une variable gaussienne est complètement définie par la seule donnée de sa moyenne m
et de sa variance σ 2 .
– Si la variance σ 2 est nulle, dire que X ∼ N (m, 0) signifie que la variable aléatoire X est (quasi-)
déterministe : elle ne prend presque sûrement que la valeur m.
– Il y a un lien très simple entre la loi normale centrée réduite et toute autre loi normale, puisque :
si X ∼ N (0, 1), alors Y = σX + m ∼ N (m, σ 2 ). On verra que cette propriété admet une géné-
ralisation vectorielle.
0.40
−4 −3 −2 −1 1 2 3 4
68%
95%
99, 7%
Figure 2.2 – Intervalles de confiance à 68%, 95% et 99, 7% pour une N (0, 1).
Pour aller vite, la fonction caractéristique joue pour les variables aléatoires à densité le même rôle
que la fonction génératrice des moments pour les variables discrètes, c’est-à-dire qu’il y a un lien
entre les moments d’une variable aléatoire et les dérivées successives de sa fonction caractéristique.
Rappelons aussi que la loi d’une variable aléatoire est complètement caractérisée par sa fonction
caractéristique (d’où son nom, la vie est bien faite...).
σ 2 t2
ΦX (t) = eimt− 2 .
Preuve. Soit X ∼ N (0, 1), alors sa fonction caractéristique est définie par :
Z
itX 1 x2
ΦX (t) = E[e ] = eitx √ e− 2 dx,
R 2π
quantité complexe qu’on peut décomposer en parties réelle et imaginaire :
Z Z
1 x2 1 x2
ΦX (t) = cos(tx) √ e− 2 dx + i sin(tx) √ e− 2 dx,
R 2π R 2π
qu’on écrit plus simplement :
1
ΦX (t) = √ (F (t) + iG(t)).
2π
Ainsi définie, la fonction (
R →R
F : R − x2
2
t 7→ R cos(tx)e dx
est une intégrale dépendant d’un paramètre. On peut donc lui appliquer la théorie de Lebesgue,
en commençant par s’assurer qu’elle est bien définie pour tout réel t puisque :
Z Z Z
2 2 2 √
cos(tx)e− x2 dx ≤ cos(tx)e− x2 dx dx ≤ e− x2
dx = 2π.
R R R
On vérifie de même qu’elle est dérivable sur R, sa dérivée s’obtenant tout simplement en dérivant
par rapport à t sous le signe d’intégration :
Z
x2
∀t ∈ R ′
F (t) = − sin(tx)xe− 2 dx.
R
On effectue une intégration par parties :
2 +∞
Z
x2
′ − x2
F (t) = sin(tx)e −t cos(tx)e− 2 dx,
−∞ R
c’est-à-dire :
∀t ∈ R F ′ (t) = −tF (t),
équation différentielle linéaire du premier ordre, qui s’intègre sans problème :
t2
F (t) = αe− 2 .
Via le théorème de Paul Lévy, les fonctions caractéristiques sont un outil efficace pour montrer la
convergence en loi d’une suite de variables aléatoires : il suffit de prouver la convergence simple de
la suite des fonctions caractéristiques.
C’est d’ailleurs ainsi qu’on montre le résultat qui fait toute l’importance de la loi normale, à savoir
le théorème central limite. En voici la version la plus simple : si (Xn )n≥1 est une suite de variables
aléatoires indépendantes et identiquement distribuées (en abrégé i.i.d.) de carré intégrable, alors
en notant Sn = X1 + · · · + Xn , on a la convergence en loi vers la loi normale centrée réduite :
Sn − nE[X1 ] L
√ −−−−−→ N (0, 1),
n VarX1 n→+∞
En particulier, une variable aléatoire gaussienne est un vecteur gaussien de dimension 1. Par
ailleurs, il découle de la définition le résultat suivant.
F (t)
0.5
F (−t)
0.0
−3 −2 −t −1 0 1
t 2 3
Figure 2.3 – Fonction de répartition F d’une loi normale N (0, 1) et relation : F (−t) = 1 − F (t).
FY (u) = P(Y ≤ u) = P(εX ≤ u) = P(−X ≤ u|ε = −1)P(ε = −1) + P(X ≤ u|ε = 1)P(ε = 1),
1
P(Z = 0) = P(1 + ε = 0) = P(ε = −1) = ,
2
ce qui est impossible pour une variable gaussienne ! En effet, cette probabilité vaut 0 pour toute
loi gaussienne N (m, σ 2 ), sauf si m = σ 2 = 0, auquel cas elle vaut 1. A titre indicatif la fonction
de répartition de Z est donnée figure 2.4 : c’est un exemple de loi mixte.
1.0
0.5
−3 −2 −1 0 1 2 3
Preuve. Si les variables aléatoires gaussiennes Xi ∼ N (mi, σi2 ) sont gaussiennes et indépendantes,
alors la variable aléatoire :
d d
!
X X
Y = α1 X1 + · · · + αd Xd ∼ N αi mi, α2i σi2 .
i=1 i=1
Ceci se vérifie par exemple sans problème sur la fonction caractéristique de Y . Ainsi toute combi-
naison linéaire des composantes Xi est une variable gaussienne et par suite X = [X1 , . . . , Xd ]′ est
un vecteur gaussien.
Comme on l’a vu en proposition 8, la réciproque est toujours vraie, que les composantes soient
indépendantes ou non.
Prenons un vecteur aléatoire X = [X1 , . . . , Xd ]′ , non nécessairement gaussien, mais dont toutes les
composantes Xi admettent un moment d’ordre 2, ce qu’on note de façon naturelle X ∈ L2 (Ω). On
peut alors définir la moyenne m de ce vecteur par :
E[X1 ]
.
m = E[X] = . ,
.
E[Xd ]
et sa matrice de covariance :
Γi,j = Cov(Xi , Xj ).
Γ = P ′ ∆P,
Achtung ! Quand on parle d’une matrice symétrique réelle S, dire qu’elle est positive ne signifie
pas que ses coefficients sont positifs ! On entend par là que :
∀u ∈ Rd , u′ Su ≥ 0.
Preuve. L’aspect symétrique réel est clair par définition de la matrice de covariance. Il faut prouver
que pour tout vecteur réel u = [u1 , . . . , ud ]′ , on a u′ Γu ≥ 0. Or cette quantité vaut :
Au passage, on a établi le résultat suivant, utile dans les applications.
Remarque. La matrice Γ n’est pas nécessairement définie positive. Par exemple, si X1 est une
variable aléatoire de variance 1, le vecteur X = [X1 , 1 + X1 ]′ a pour matrice de dispersion :
1 1
Γ= ,
1 1
qui est clairement de rang 1. On voit que le vecteur aléatoire X, a priori à valeurs dans R2 , ne
prend en fait ses valeurs que sur la droite d’équation y = 1 + x. Ceci est vrai de façon générale : Γ
est de rang strictement inférieur à d si et seulement si le vecteur aléatoire X ne prend ses valeurs
que dans un sous-espace affine de Rd .
Rappelons que si X est un vecteur aléatoire de dimension d, on peut définir sa fonction caracté-
ristique comme suit
(
Rd → C Pd
ΦX :
u = [u1 , . . . , ud ]′ 7→ ΦX (u) = E[eihu,Xi ] = E[ei j=1 uj Xj ]
Sans énumérer toutes les propriétés de la fonction caractéristique d’un vecteur aléatoire, disons
simplement que :
– Comme en dimension 1, elle sert à démontrer la convergence en loi d’une suite de vecteurs
aléatoires (cf. infra la version vectorielle du théorème central limite).
– Les variables aléatoires X1 , . . . , Xd sont indépendantes si et seulement si :
d
Y
∀u ∈ Rd ΦX (u) = ΦXj (uj ).
j=1
De plus, tout comme en dimension 1, une loi gaussienne multidimensionnelle est complètement
caractérisée par la fonction caractéristique, laquelle ne fait intervenir que le vecteur moyenne et la
matrice de dispersion.
Y = u1 X1 + · · · + ud Xd = u′ X
µ = u1 E[X1 ] + · · · + ud E[Xd ] = u′ m,
La variable aléatoire :
Y = α1 X1 + · · · + αd Xd = α′ X
a pour fonction caractéristique :
′
ΦY (t) = E[eitY ] = E[ei(tα) X ] = ΦX (tα),
c’est-à-dire :
′ 1 ′ ′ 1 ′ 2
ΦY (t) = ei(tα) m− 2 (tα) Γ(tα) = ei(α m)t− 2 (α Γα)t .
La Proposition 7 assure donc que Y est gaussienne et plus précisément :
Y ∼ N α′ m, α′ Γα .
Les lois normales sont stables par transformation affine. Le résultat suivant, sur lequel on serait
tenté de jeter un coup d’œil distrait, est d’utilité constante dans la manipulation des vecteurs
gaussiens.
Y ∼ Nk (Am + B, AΓA′ ).
Remarque. Il arrive souvent qu’un vecteur Y soit construit à partir d’un autre vecteur X par une
transformation affine. Si X est un vecteur gaussien, par exemple lorsqu’il est composé de variables
aléatoires gaussiennes indépendantes, ce résultat permet d’en déduire automatiquement le fait que
Y est aussi un vecteur gaussien. Voir les exercices de fin de chapitre : Processus autorégressif,
Moyenne mobile.
Rappel. Soit X et Y deux variables aléatoires de carrés intégrables. On dit qu’elles sont non
corrélées si :
Cov(X, Y ) = 0,
ce qui équivaut à dire que : E[XY ] = E[X]E[Y ], ou encore que la matrice de covariance du vecteur
[X, Y ]′ est diagonale. Ceci est bien sûr toujours vrai lorsqu’elles sont indépendantes, puisqu’alors
on a plus généralement pour toutes “bonnes” fonctions f et g :
y y
y = x2
x x
E[XY ] = E[X 3 ] = 0,
une loi gaussienne ayant tous ses moments d’ordres impairs nuls. Cependant X et Y ne sont pas
indépendantes. Ceci est clair intuitivement puisque Y est une fonction déterministe de X. On peut
aussi le justifier par l’espérance conditionnelle :
Une dernière façon de le voir est de remarquer que le support du vecteur aléatoire [X, Y ]′ est la pa-
rabole y = x2 du plan et non le produit cartésien R×R+ des supports des variables (voir figure 2.5).
et la matrice Γ est diagonale. Ceci est d’ailleurs toujours vrai, l’aspect gaussien de X n’est pas
nécessaire.
Réciproquement, supposons X gaussien et de matrice de covariance Γ diagonale :
Γ = diag(σ12 , . . . , σd2 ).
Ainsi la fonction caractéristique du vecteur X = [X1 , . . . , Xd ]′ est le produit des fonctions carac-
téristiques de ses composantes Xj : c’est une caractérisation de l’indépendance des Xj .
Remarque. Pour pouvoir appliquer le critère d’indépendance ci-dessus, il faut que le vecteur soit
gaussien : le fait que les composantes le soient n’est pas suffisant. Pour s’en convaincre, il suffit
de revenir à l’exemple vu précédemment : X ∼ N (0, 1) et Y = εX, avec ε variable de Rademacher
indépendante de X. On a vu que Y suit elle aussi une loi normale centrée réduite, donc les deux
variables X et Y sont gaussiennes. De plus, puisque X et ε sont indépendantes, on a :
la dernière égalité venant du fait que ε est centrée. Ainsi X et Y sont gaussiennes et décorrélées.
Pourtant elles ne sont pas indépendantes : il appert qu’une fois connue la réalisation de X, Y ne
peut valoir que la même chose ou l’opposé. Plus rigoureusement, on peut à nouveau le justifier par
les supports : le support du couple (X, Y ) est l’union des deux droites y = x et y = −x, tandis
que le produit cartésien des supports de X et Y est le plan R2 . Le problème, déjà constaté, vient
de ce que le vecteur [X, Y ]′ n’est pas gaussien, bien que ses composantes le soient.
Preuve. Puisque Γ est symétrique réelle positive, elle est diagonalisable en base orthonormée :
Γ = P ′ ∆P , avec :
∆ = diag(λ1 , . . . , λd ),
où les λj sont les valeurs propres positives de Γ et P une matrice orthogonale. Si on considère
maintenant le nouveau vecteur aléatoire
Y = [Y1 , . . . , Yd ]′ = P (X − m) = P X − P m,
c’est encore un vecteur gaussien, en tant que transformée affine d’un vecteur gaussien (Proposition
13). Plus précisément, on sait que :
Y ∼ Nd (P m − P m, P ΓP ′ ) = Nd (0, ∆).
Ainsi le vecteur gaussien Y est centré et ses composantes sont indépendantes, puisque sa matrice
de dispersion est diagonale (Proposition 14).
Remarques :
1. La représentation de la densité de Y est bien plus simple que celle de X puisqu’on s’est
ramené à un produit de densités gaussiennes indépendantes : en dimension 2, on obtient donc
une surface en cloche plus ou moins aplatie suivant la direction (cf. exercice Changement de
base). La surface en cloche standard correspond à une loi centrée et de matrice de covariance
identité (cf. figure 2.6).
2. Si λj = 0 pour un indice j, la loi du vecteur X est dégénérée. Et on a alors Yj = 0 presque
sûrement (cf. exercice Problème de dégénérescence).
Applications.
1. Simulation : supposons qu’on ait à simuler un vecteur gaussien X = [X1 , . . . , Xd ]′ de moyenne
m et de matrice de covariance Γ données. On dispose simplement d’un générateur de variables
normales centrées réduites indépendantes√(par exemple rnorm en R). On peut écrire comme
ci-dessus Γ = P ′ ∆P = A′ A, avec A = P ′ ∆P et :
√ p p
∆ = diag λ1 , . . . , λd .
0.4
0.2
0.0
−5 −5
0 0
Y X
5 5
Figure 2.6 – Densité d’un vecteur gaussien centré de matrice de dispersion identité.
2. Composantes principales : dans les applications, on a souvent à traiter des vecteurs gaussiens
X = [X1 , . . . , Xd ]′ de très grande dimension d, mais dont les coordonnées présentent de très
fortes corrélations entre elles. Dans ce cas, après transformation comme ci-dessus, le nombre
de valeurs propres λj qui ne sont pas voisines de 0 est bien plus petit que d. Supposons que les
valeurs propres soient rangées par ordre décroissant dans ∆. On se fixe alors un seuil ε > 0 :
il y a dε valeurs propres λj > ε. On considère le nouveau vecteur aléatoire Ỹ = [Ỹ1 , . . . , Ỹd ]′
défini par
Yj si j ≤ dε
Ỹj =
0 sinon
pour avoir une idée de la qualité de l’approximation, à savoir : X̃ approche bien X si tant
est que le rapport :
Pd
j=dε +1 λj
Pd
j=1 λj
La situation agréable pour un vecteur gaussien est celle où la matrice de covariance est inversible
(i.e. définie positive). Il admet alors une densité dans Rd , que l’on peut facilement expliciter.
1 1 ′ −1
f (x) = f (x1 , . . . , xd ) = √ e− 2 (x−m) Γ (x−m) .
(2π)d/2 det Γ
P ΓP ′ = ∆ = diag(λ1 , . . . , λd ).
Dire que Γ est inversible équivaut à dire que les valeurs propres λj sont toutes strictement positives.
Les composantes Y1 , . . . , Yj sont indépendantes, avec Yj ∼ N (0, λj ), donc Y admet pour densité :
d d y2
Y Y 1 − j
fY (y) = fj (yj ) = p e 2λj ,
j=1 j=1
2πλj
∀x ∈ Rd Jφ (x) = P,
∀x ∈ Rd |detJφ (x)| = 1.
Représentation. La figure 2.7 correspond à un vecteur gaussien [X, Y ]′ de moyenne m = [1, 2]′
et de matrice de dispersion : √
1/ 2 1√
Γ= .
1 1/ 2
0.225
−5
0.113
0.000 X
−5 5
Y0
5
1 √
f (x, y) = √ e−((x−1) − 2(x−1)(y−2)+(y−2) )
2 2
π 2
Si Γ n’est pas inversible, on dit que la loi de X est dégénérée. Comme mentionné plus haut, ceci
signifie que le vecteur aléatoire ne prend ses valeurs que dans un sous-espace affine de Rd (cf.
exercice Problème de dégénérescence).
Enfin, on peut généraliser le théorème de la limite centrale aux vecteurs aléatoires. Le principe est
rigoureusement le même qu’en dimension 1. On dit qu’une suite (Xn )n≥0 de vecteurs aléatoires de
Rd converge en loi vers un vecteur gaussien X ∼ Nd (m, Γ) si pour tout borélien B ∈ Bd , on a :
P(Xn ∈ B) −n→+∞
→ P(X ∈ B).
−−−−
Comme en dimension 1, la convergence simple sur Rd de la suite des fonctions caractéristiques (Φn )
vers la fonction caractéristique ΦX est souvent le moyen le plus simple de montrer la convergence
en loi.
Remarques.
– Rappelons le point remarquable du théorème central limite : quelle que soit la loi des vecteurs
aléatoires Xn , on a convergence vers une loi gaussienne. C’est-à-dire que si n est assez grand, on
a en gros :
L(Sn ) ≈ N (nm, nΓ).
– Avec les hypothèses ci-dessus, on s’intéresse à la suite (Sn ) des sommes partielles. La loi forte
des grands nombres dit que :
Sn p.s.
−−−−−→ m.
n n→+∞
C’est-a-dire qu’en première approximation, la somme de n vecteurs aléatoires i.i.d. de moyenne
m se comporte comme une suite déterministe de vecteurs : Sn ≈ nm. Question qui en découle
naturellement : quel est l’ordre de grandeur de l’erreur effectuée en remplaçant Sn par nm ?
C’est à cette question que répond le théorème central limite : l’erreur faite en remplaçant la
√
somme partielle Sn par nm est de l’ordre de n. On peut donc voir la loi des grands nombres
et le théorème central limite comme le début du développement asymptotique de la somme Sn .
– L’exercice Sauts de puce donne un exemple d’application de ce théorème.
E[(Y − u(X))2 ],
on a vu que le mieux à faire est de prendre pour u la fonction de régression de Y sur X, c’est-à-dire
la fonction qui à x associe E[Y |X = x]. D’après le théorème de projection, la variable aléatoire
E[Y |X] est la fonction u(X) caractérisée par la double propriété 2 :
u(X) ∈ L2 (X)
Y − u(X) ⊥ L2 (X)
L2 (X) = {u(X) avec u : R 7→ R borélienne telle que E[u2 (X)] < +∞}.
∆
Néanmoins, l’espérance conditionnelle n’est pas nécessairement un objet très simple à calculer ou
à estimer. C’est pourquoi, faute de mieux, on se contente parfois de chercher à approcher au mieux
2. On rappelle que dans L2 (Ω) : X ⊥ Y signifie que E[XY ] = 0.
Y par une fonction affine de X : c’est ce qu’on appelle faire de la régression linéaire. Ce qu’on perd
en qualité d’approximation, on le gagne en commodité de résolution. La droite de régression est
donnée par : f (X) = aX + b, avec
(
a = Cov(X,Y
Var(X)
)
b = E[Y ] − aE[X]
c’est-à-dire :
Cov(X, Y )
f (X) = E[Y ] + (X − E[X]).
Var(X)
Nous allons voir que, dans le cas gaussien, ce procédé est complètement légitime : la fonction de
régression est exactement la droite de régression !
Cov(X, Y )
E[Y |X] = E[Y ] + (X − E[X]).
Var(X)
Autrement dit, courbe de régression et droite de régression coïncident.
le vecteur [X, Y − u(X)]′ est gaussien aussi comme transformée affine d’un vecteur gaussien, donc
montrer l’indépendance de ses composantes revient à montrer leur décorrélation. Or :
et par définition de a, on a :
de sorte qu’on a bien Cov(X, Y − u(X)) = 0, c’est-à-dire que X et (Y − u(X)) sont indépendantes.
Mais si (Y − u(X)) est une variable aléatoire indépendante de X, elle est aussi indépendante de
toute fonction f (X) de la variable X. Par suite :
car (Y − u(X)) est centrée. Ainsi la seconde propriété de caractérisation de l’espérance condition-
nelle est vérifiée et le théorème est prouvé.
Cov(X,Y )
VarX
(X − E[X])
X − E[X]
E[Y |X]
E[Y ] 1
H = Vect(1, X)
Figure 2.8 – E[Y |X] projeté orthogonal de Y sur la base orthogonale (1, X − E[X]).
Cov(X, Y )
E[Y ] + (X − E[X])
Var(X)
peut se voir comme la projection orthogonale de la variable aléatoire Y sur l’espace engendré par
la variable aléatoire constante 1 (que nous appellerons Michel) et la variable aléatoire X. Notons
H = Vect(1, X) ce sous-espace vectoriel de L2 (Ω). Une famille orthogonale est formée des deux
vecteurs 1 et X − E[X]. Appliquons le rappel ci-dessus (voir aussi figure 2.8). La projection de Y
sur le premier vecteur donne :
E[Y · 1]
= E[Y ],
E[12 ]
et la projection sur le second vecteur donne :
L’interprétation géométrique ci-dessus est toujours vraie. Dans le cas gaussien, on vient de plus de
voir que la projection orthogonale de Y sur L2 (X) est exactement la projection orthogonale sur
H = Vect(1, X).
f (X1 , . . . , Xn ) = b + a1 X1 + · · · + an Xn ,
qui approche le mieux la variable aléatoire Y au sens des moindres carrés, c’est-à-dire telle que
l’erreur quadratique moyenne :
E[(Y − (b + a1 X1 + · · · + an Xn ))2 ]
soit minimale. Autrement dit, au lieu de chercher la droite de régression, on cherche l’hyperplan
de régression (voir figure 2.9 pour n = 2). Ceci revient à déterminer la projection πH (Y ) de Y sur
le sous-espace :
H = Vect(1, X1 , . . . , Xn ),
engendré par la constante 1 et les variables aléatoires Xi .
Hypothèses :
– Notons X = [X1 , . . . , Xn ]′ le vecteur formé des variables Xi . On suppose dans toute la suite que
la matrice de dispersion ΓX = E[(X − E[X])(X − E[X])′ ] est inversible.
– Puisqu’on parle de projections et d’erreurs quadratiques, on suppose aussi que toutes les va-
riables aléatoires sont de carrés intégrables.
y = b + a1 x 1 + a2 x 2
X2
X1
avec :
ΓY,X = E[(Y − E[Y ])(X − E[X])′ ] = [Cov(Y, X1 ), . . . , Cov(Y, Xn )],
matrice ligne de covariance de la variable aléatoire Y et du vecteur aléatoire X.
Dire que Y − πH (Y ) est orthogonal à H est équivalent à dire que Y − πH (Y ) est orthogonal à
chacun des vecteurs qui engendrent H, c’est-à-dire : 1, X1 , . . . , Xn .
L’orthogonalité à 1 donne :
* n
+ n
X X
Y −b− ai Xi , 1 = E[Y ] − b − ai E[Xi ] = 0,
i=1 i=1
c’est-à-dire :
n
X
b = E[Y ] − ai E[Xi ].
i=1
ou encore :
* n
+
X
Y − E[Y ] − ai (Xi − E[Xi ]), Xj − E[Xj ] =0 1 ≤ j ≤ n.
i=1
Avec les notations de l’énoncé, ces n équations se résument sous forme matricielle à :
c’est-à-dire :
[a1 , . . . , an ] = ΓY,X Γ−1
X .
c’est-à-dire :
πH (Y ) = E[Y ] + ΓY,X Γ−1
X (X − E[X]).
E[(ΓY,X Γ−1 2 −1 −1 ′
X (X − E[X])) ] = E[(ΓY,X ΓX (X − E[X]))(ΓY,X ΓX (X − E[X])) ],
ce qui aboutit à :
E[(ΓY,X Γ−1 2 −1
X (X − E[X])) ] = ΓY,X ΓX ΓX,Y .
X1
ΓX ΓX,Y
=⇒ Γ=
Xn
Y ΓY,X ΓY
Figure 2.10 – Les sous-matrices mises en jeu dans le calcul de E[Y |X].
Les matrices de covariance ΓX , ΓY,X , ΓY,X et ΓY peuvent se voir comme des sous-matrices de la
matrice de covariance globale Γ du vecteur [X, Y ]′ = [X1 , . . . , Xn , Y ]′ . C’est ce que représente la
figure 2.10.
E[(Y − u(X))2 ]. On a vu que pour un vecteur gaussien bidimensionnel [X, Y ]′ , la droite de ré-
gression coïncide avec la courbe de régression. Plus généralement, on montre que pour un vecteur
gaussien [X1 , . . . , Xn , Y ], l’espérance conditionnelle coïncide avec la projection sur l’hyperplan de
régression.
Preuve. On pourrait la calquer sur celle vue pour la droite de régression. On adopte ici une
autre technique, basée sur la propriété de distance minimale vérifiée par l’espérance conditionnelle.
Notons comme ci-dessus πH (Y ) la projection orthogonale de Y sur H = Vect(1, X1 , . . . , Xn ), c’est-
à-dire :
πH (Y ) = E[Y ] + ΓY,X Γ−1
X (X − E[X]).
On a bien sûr πH (Y ) de la forme u(X) ci-dessus. De plus, dire que (Y − πH (Y )) est orthogonale au
sous-espace H signifie que (Y − πH (Y )) est décorrélée des variables Xi (puisque (Y − πH (Y )) est
centrée). Mais puisque tout est gaussien, c’est exactement dire que (Y − πH (Y )) est indépendante
du vecteur X. Pour toute fonction u, on a donc :
ce qui donne :
c’est-à-dire que W = Y − E[Y |X] est une variable aléatoire gaussienne indépendante des Xi . W
est centrée puisque E[E[Y |X]] = E[Y ] et, par le théorème de Pythagore, sa variance est la variance
résiduelle :
σ 2 = ΓY − ΓY,X Γ−1 X ΓX,Y .
En bref, on a :
W ∼ N (0, σ 2 )
W ⊥X
Y W
E[Y |X]
H = Vect(1, X1 , . . . , Xn )
qui est un réel et non plus une variable aléatoire. Mais alors la décomposition orthogonale de Y
devient :
Y = E[Y |X = x] + W
et on en déduit que, sachant X = x :
Y ∼ N (E[Y |X = x], σ 2 ).
Γ+ + ′
X = P∆ P
est appelée pseudo-inverse de Moore-Penrose de ΓX (cf. cours d’algèbre linéaire). On montre alors
que tous les résultats obtenus pour l’espérance conditionnelle sont conservés en remplaçant Γ−1
X
par Γ+X . Par exemple :
E[Y |X] = E[Y ] + ΓY,X Γ+
X (X − E[X]).
σ2
Var(Y )
E[Y ] E[Y |X = x]
W = Y − E[Y |X]
est un vecteur gaussien centré de matrice de covariance : ΓY − ΓY,X Γ+
X ΓX,Y . Qui plus est, W est
indépendant de X.
1
λ1 λ1
1
λ2 λ2
∆= λr =⇒ ∆+ = 1
λr
0 0
0 0
2.3 Exercices
“Tough ain’t enough.” Clint Eastwood, Million Dollar Baby.
Exercice 2.1 (Moments d’une loi normale)
Pour tout n ∈ N, on note :
Z +∞
x2
In = xn e− 2 dx.
−∞
1. Déterminer I0 et I1 .
2. Montrer que, pour tout n ∈ N, on a : In+2 = (n + 1)In .
3. Donner alors I2n+1 pour tout n ∈ N. Pouvait-on prévoir ce résultat sans calculs ?
4. Déterminer I2n pour tout n ∈ N.
5. Soit X une variable aléatoire gaussienne de moyenne 1 et de variance unité. Déterminer
E[X 4 ].
Corrigé
√
1. I0 = 2π puisqu’on reconnaît la densité d’une loi normale centrée réduite. Pour I1 , on a :
Z +∞ 2
2 +∞
− x2 − x2
I1 = xe dx = −e = 0.
−∞ −∞
– Méthode probabiliste : l’idée est la même, puisqu’on sait que si X ∼ N (1, 1), alors Y =
X −1 ∼ N (0, 1). Donc, par les calculs faits avant, on sait que E[Y ] = E[Y 3 ] = 0, E[Y 2 ] = 1
et E[Y 4 ] = 3. Or on a : E[X 4 ] = E[(Y + 1)4 ] = E[Y 4 ] + 4E[Y 3 ] + 6E[Y 2 ] + 4E[Y ] + 1 =
3 + 6 + 1 = 10.
t2
5. Calculer la dérivée de 1t e− 2 . En déduire que, pour tout x > 0, on a :
1 − x2
2 1 − x2
2
√ e ≤ Q(x) ≤ √ e .
(1 + x12 )x 2π x 2π
Corrigé
1. Pour tout réel x, on a F (x) = 1 − Q(x).
2. Soit x > 0 fixé. Le changement de variable t = x + u et le fait que e−ux ≤ 1 pour x et u
positifs donne
Z +∞ Z +∞ Z +∞
1 − (x+u)
2
− x2
2 1 −ux − u2
2
− x2
2 1 u2
Q(x) = √ e 2 du = e · √ e e du ≤ e · √ e− 2 du
2π 0 2π 0 2π 0
et on aura reconnu la densité de la gaussienne standard
Z +∞ Z +∞
1 u2 1 1 u2 1
√ e− 2 du = √ e− 2 du =
2π 0 2 2π −∞ 2
1
√ e− 2 ≤ Q(x) ≤ √ e− 2 .
(1 + x2 )x 2π x 2π
Q(x)
x 2 −−−−→ 1
√1 e− 2 x→+∞
x 2π
7. Application
√ √ √
(a) Si le symbole d’entrée est + Eb (respectivement − Eb ), alors Y ∼ N (+ Eb , N20 )
√
(respectivement Y ∼ N (− Eb , N20 )). De façon générale, Y = X + B où B est le
bruit additif, supposé gaussien centré de variance N0 /2 et indépendant de X, variable
aléatoire binaire correspondant au symbole d’entrée.
√
(b) Intuitivement, on se√ dit que le symbole d’entrée était plus vraisemblablement + Eb
(respectivement − Eb ) si la sortie y est positive (respectivement négative). Cette
règle est en
√ effet la bonne si√les symboles d’entrée sont équiprobables, c’est-à-dire si
P(X = + Eb ) = P(X = + Eb ) = 1/2. Il suffit de comparer les probabilités condi-
tionnelles pour s’en convaincre. Il convient juste d’adapter la formule de Bayes et celle
des probabilités totales au cas d’un cocktail entre loi discrète et loi à densité, ce qui
donne ici : √ √
p f (y|X = + Eb )P(X = + Eb )
P(X = + Eb |y) =
f (y)
d’où
√ √
p f (y|X = + Eb )P(X = + Eb )
P(X = + Eb |y) = √ √ √ √
f (y|X = + Eb )P(X = + Eb ) + f (y|X = − Eb )P(X = − Eb )
Il reste à tenir compte du fait que les symboles d’entrée sont équiprobables et des
densités respectives de la réponse Y connaissant X pour obtenir
√
(y− E b )2
p −
e N0 1
P(X = + Eb |y) = (y−
√
E b )2 (y+
√
E b )2
= √
Eb
(2.1)
− − −4 y
e N0 +e N0 1+e N0
On en déduit automatiquement :
√
Eb
p p −4 y
e N0
P(X = − Eb |y) = 1 − P(X = + Eb |y) = √
Eb
−4 y
1+e N0
et par suite √ √
P(X = + Eb |y) 4
Eb
y
√ =e N0
P(X = − Eb |y)
de sorte que ce rapport est supérieur à 1 si et seulement si y est positif, et la règle de
décision au maximum de vraisemblance correspond bien à la règle intuititive donnée
ci-dessus.
Remarque : si les symboles d’entrée ne sont pas équiprobables, il faut
√ en tenir compte
dans la règle de décision. Supposons par exemple que P(X = + Eb ) = 3/4, alors
l’équation (2.1) devient
p 3
P(X = + Eb |y) = √
Eb
−4 y
3+e N0
et √ √
P(X = + Eb |y) 4
Eb
y
√ =3e N0
P(X = − Eb |y)
√
Ainsi on décide que le symbole d’entrée était X = + Eb si
√
4
Eb
y − ln 3 N0
3e N0
>1 ⇔ y>τ = ×√
4 Eb
√ √ √
Figure
√ 2.14 – Fonctions y
√ →
7 f (y|X = + Eb )P (X = + Eb
√ ) et y →
7 f (y|X = − Eb )P(X =
− Eb ) lorsque P(X = + Eb ) = 1/2 (à gauche) et P(X = + Eb ) = 3/4 (à droite).
(b) Pour montrer que pour tout x > 0, ln x ≤ x − 1, il suffit par exemple d’étudier la
fonction g : x 7→ x − 1 − ln x sur ]0, +∞[. Sa dérivée est g ′ (x) = 1 − 1/x, qui est négative
sur ]0, 1] et positive sur [1, +∞[. Son minimum est donc g(1) = 0, autrement dit g est
bien positive sur son domaine de définition. On en déduit que :
Z +∞ Z +∞ Z +∞ Z +∞
ϕ(x) ϕ(x)
f (x) log dx ≤ f (x) − 1 dx = ϕ(x) dx − f (x) dx
−∞ f (x) −∞ f (x) −∞ −∞
or f et ϕ étant toutes deux des densités, elles intègrent à 1 et le majorant vaut bien 0.
(c) On a alors
Z +∞ Z +∞
2
− x2
e
− f (x) ln ϕ(x) dx = − f (x) ln √ dx
−∞ −∞ 2π
Au total on a bien
Z +∞
1
− f (x) log ϕ(x) dx = (1 + ln(2πσ 2 )).
−∞ 2
(d) Des trois questions précédentes et du calcul de l’entropie pour une variable gaussienne
X1 ∼ N (0, σ 2 ), on déduit que
1
h(X2 ) ≤ (1 + ln(2πσ 2 )) = h(X1 ),
2
c’est-à-dire que, à variance donnée, c’est la loi normale qui réalise le maximum de l’en-
tropie.
3. Montrer que le vecteur [X, Y ]′ ne prend ses valeurs que sur une droite de R2 , c’est-à-dire
qu’il existe deux réels α et β tels que : Y = αX + β (on pourra chercher α et β tels que
Var(Y − (αX + β)) = 0). Comment le vecteur se distribue-t-il sur cette droite ?
4. Généralisation : soit X = [X1 , . . . , Xd ]′ un vecteur aléatoire, non nécessairement gaussien,
de moyenne m et de matrice de covariance Γ. Supposons Γ non inversible. Montrer que le
vecteur aléatoire X ne prend ses valeurs que dans un sous-espace affine de Rd . Quelle est,
en fonction du spectre de Γ, la dimension de ce sous-espace affine ?
5. Exemple : montrer que le vecteur aléatoire X de moyenne m = [7, 0, 1]′ et de matrice de
dispersion :
7 2 5
Γ = 2 4 −2
5 −2 7
appartient à un plan de R3 que l’on précisera.
Corrigé
1. On obtient Γ = P ∆P ′ , avec :
1 1 1 1+ρ 0
P =√ ∆= .
2 1 −1 0 1−ρ
2. La probabilité P(X ≥ 0, Y ≥ 0) est la probabilité que le point aléatoire (X, Y ) tombe dans
le quadrant R+ × R+ , c’est-à-dire :
ZZ ZZ
1
P(X ≥ 0, Y ≥ 0) =
1 −1 ′
f (x, y) dx dy = p e− 2 [x,y]Γ [x,y] dx dy.
R+ ×R+ R+ ×R+ 2π 1 − ρ 2
mais c’est la forme matricielle de la densité qui va nous servir dans la suite.
3. Le changement de variables ϕ : (x, y) 7→ (u, v) défini par :
√ p
u −1 ′ x u = (x + y)/p2(1 + ρ)
= ∆ P ⇔
v y v = (x − y)/ 2(1 − ρ)
a pour réciproque : √ √ √
x = (u 1 + ρ + v 1 − ρ)/√2
√ √
y = (u 1 + ρ − v 1 − ρ)/ 2
donc : ZZ
P(X ≥ 0, Y ≥ 0) = f (ϕ−1 (u, v)) Jϕ−1 (u, v) du dv.
D
√
Or [x, y]′ =P ∆[u, v]′ et par ailleurs Γ −1 = P ∆−1 P ′ , donc :
1 1 −1 [x,y]′ 1 1
√ √
∆P ′ Γ−1 P ∆[u,v]′
f (x, y) = p e− 2 [x,y]Γ = p e− 2 [u,v] ,
2π 1 − ρ2 2π 1 − ρ2
et le produit matriciel se simplifie, pour donner :
1 u2 +v 2
f (x, y) = f (ϕ−1 (u, v)) = p e− 2 .
2π 1 − ρ2
Par ailleurs, l’application
√ ϕ−1 étant linéaire, son jacobien est tout simplement la matrice
Jϕ−1 (u, v) = P ∆, donc :
√ p
Jϕ−1 (u, v) = |det ∆| = 1 − ρ2 .
c’est-à-dire que Y = X presque sûrement. Dans ce cas, puisqu’on sait de plus que X suit
une loi normale centrée réduite, la probabilité cherchée est très simple :
1
P(X ≥ 0, Y ≥ 0) = P(X ≥ 0) = ,
2
1 1
qui est bien égal à 4 + 2π arcsin 1. Si ρ = −1, alors on montre cette fois que Y = −X presque
sûrement, donc :
q
1+ρ
v = u 1−ρ
q
1+ρ
θ = arctan 1−ρ
u
q
1+ρ
v = −u 1−ρ
[U, V ]′ ?
1. Quelle est la loi de Xn ? Pour quelles valeurs de θ a-t-on convergence en loi ? Préciser alors
la loi limite.
2. Calculer la covariance de Xn et Xn+k .
3. Quelle est la loi du vecteur aléatoire [X1 , . . . , Xn ]′ ?
4. Exprimer la densité du vecteur [ε1 , . . . , εn ]′ . Grâce à la formule de changement de variable,
en déduire celle du vecteur [X1 , . . . , Xn ]′ .
5. Déterminer l’estimateur du maximum de vraisemblance de (θ, σ 2 ) basé sur l’observation de
l’échantillon (X1 , . . . , Xn ).
Corrigé
1. On a pour tout n ≥ 1 :
n
X
Xn = εn + θεn−1 + · · · + θ n−1 ε1 = θ n−k εk .
k=1
3. On peut écrire :
X1 ε1
. .
. = A . ,
. .
Xn εn
avec A matrice triangulaire inférieure formée de 1 sur la diagonale, de θ sur la première
sous-diagonale, de θ 2 sur la deuxième sous-diagonale, ..., le coefficient An,1 valant θ n−1 .
Puisque [ε1 , . . . , εn ]′ est un vecteur gaussien, [X1 , . . . , Xn ]′ l’est aussi. La matrice de disper-
sion de [ε1 , . . . , εn ]′ étant égale à σ 2 In , on a :
X1
.
. ∼ N (0, σ 2 AA′ ).
.
Xn
1 − 12 (ǫ21 +···+ǫ2n )
g(ǫ1 , . . . , ǫn ) = n e 2σ
2
(2πσ ) 2
n 1
L(θ, σ 2 ) = ln f (x1 , . . . , xn ) = − ln(2πσ 2 ) − 2 (x21 + (x2 − θx1 )2 + · · · + (xn − θxn−1 )2 ),
2 2σ
dont on cherche le point critique. On obtient pour dérivées partielles :
n−1
∂L 1 X
= xk (xk+1 − θxk )
∂θ σ2
k=1
∂L n 1
= − 2 + 4 (x21 + (x2 − θx1 )2 + · · · + (xn − θxn−1 )2 )
∂σ 2 2σ 2σ
avec la convention x0 = 0.
Corrigé
Des exemples de trajectoires de la puce sont donnés figure 2.16.
1. Pour le vecteur moyenne, on a :
Z 2π
1 1
E[cos U ] = cos u du = [sin u]2π
0 = 0.
2π 0 2π
Et on trouve de la même façon E[sin U ] = 0. Ainsi V est centré :
E[cos U ] 0
E[V ] = = ,
E[sin U ] 0
2.1 2 10
1.7 0 0
1.3 −2 −10
0.9 −4 −20
0.5 −6 −30
0.1 −8 −40
Figure 2.16 – Exemples de trajectoires de la puce pour 10, 100 et 1000 sauts.
ce qui est évident puisque la puce ne privilégie aucune direction dans ses sauts. Pour la
matrice de dispersion, on a :
Z 2π 2π
2 1 2 1 1 1
Var(cos U ) = E[cos U ] = cos u du = u + sin(2u) = .
2π 0 4π 2 0 2
De même :
1
Var(sin U ) = E[sin2 U ] = E[1 − cos2 U ] = 1 − E[cos2 U ] = 1 − Var(cos U ) = .
2
Pour la covariance entre abscisse et ordonnée :
Z 2π
1 1
Cov(cos U, sin U ) = E[cos U sin U ] = cos u sin u du = − [cos 2u]2π
0 = 0,
2π 0 4
avec les Vk i.i.d. de même loi que le vecteur V de la question précédente. Le théorème central
limite nous apprend donc que :
Sn − nE[V ] Sn L 0 1/2 0
√ = √ −−−−−→ N (0, Γ) = N , .
n n n→+∞ 0 0 1/2
c’est-à-dire que Θ suit une loi uniforme sur [0, 2π]. Ainsi on a pour tout couple (r, θ) ∈
[0, +∞[×[0, 2π] :
g(r, θ) = g(r) × g(θ),
donc les variables aléatoires R et Θ sont indépendantes.
4. Soit F la fonction de répartition de R2 . Bien sûr F (t) = 0 si t < 0, et pour tout t ≥ 0 on a :
Z √ √ t
√ t 2
F (t) = P(R2 ≤ t) = P(R ≤ − r2 t
t) = g(r) dr = e = 1 − e− 2 ,
0 0
Corrigé
Cf. sujet de juin 2005 en annexe.
Corrigé
1. La formule de conditionnement pour un vecteur gaussien centré donne :
−1
−1 Y 9 −3 Y
E[X|Y, Z] = ΓX,(Y,Z) Γ(Y,Z) = [1, 2] ,
Z −3 4 Z
c’est-à-dire :
1
E[X|Y, Z] = (10Y + 21Z).
27
1
2. On a donc X −E[X|Y, Z] = X − 27 (10Y +21Z). Le vecteur [X −E[X|Y, Z], Y, Z]′ est gaussien
car obtenu par transformation linéaire d’un vecteur gaussien. Pour montrer que sa première
composante est indépendante des deux dernières, il suffit donc de vérifier que les covariances
sont nulles :
1
Cov(X − E[X|Y, Z], Y ) = E[(X − E[X|Y, Z])Y ] = E X − (10Y + 21Z) Y ,
27
c’est-à-dire en développant :
10 7 10 7
Cov(X − E[X|Y, Z], Y ) = E[XY ] − E[Y 2 ] − E[Y Z] = 1 − × 9 − × (−3) = 0.
27 9 27 9
On vérifie de la même façon que Cov(X − E[X|Y, Z], Z) = 0.
3. Première méthode (brutale, pour ceux qui ne connaissent pas leur cours) : puisque la variable
aléatoire (X −E[X|Y, Z]) est indépendante du couple (Y, Z), il en va de même pour la variable
aléatoire (X − E[X|Y, Z])2 . De ce fait, on a :
" 2 #
1
E[(X − E[X|Y, Z])2 |Y, Z] = E[(X − E[X|Y, Z])2 ] = E X − (10Y + 21Z) ,
27
Etonnov, niet ?
4. On sait qu’on a la décomposition en somme de variables indépendantes :
1
X = E[X|Y, Z] + (X − E[X|Y, Z]) = E[X|Y, Z] + T = (10Y + 21Z) + T,
27
avec T indépendante du couple (Y, Z) et de loi N (0, σ 2 ). Donc sachant Y = y et Z = z, on
1
a simplement X = 27 (10y + 21z) + T , c’est-à-dire que :
1 56
X∼N (10y + 21z), .
27 27
1. Rappeler à quelle condition V admet une densité f (x, y) et dans ce cas donner sa formule
en fonction de σX , σY et r. On suppose cette condition vérifiée dans toute la suite.
2. Donner l’expression de l’espérance conditionnelle E[Y |X] en fonction de σX , σY et r.
3. On considère un vecteur V = [X, Y ]′ ayant pour densité :
1 − x2 − 5y2 + xy
∀(x, y) ∈ R2 f (x, y) = e 8 8 4
4π
(a) Déterminer sa matrice de covariance Γ.
(b) Sachant x = 1, quelle est la loi de Y ?
(c) Sachant x = 1, en déduire un intervalle dans lequel se situe Y avec 95% de chances.
Corrigé
Cf. corrigé du sujet de mai 2007 en annexe.
Corrigé
1. Pour calculer E[Z|X, Y ], on applique la formule de conditionnement :
−1
X 1 1 1 1/2 X 1
E[Z|X, Y ] = ΓZ,(X,Y ) Γ−1
(X,Y ) = , = (X + Y ).
Y 2 2 1/2 1 Y 3
Cov(Z, T )
E[Z|X + Y ] = E[Z|T ] = T.
Var(T )
Or :
Cov(Z, T ) = Cov(Z, X + Y ) = E[Z(X + Y )] = E[ZX] + E[ZY ] = 1,
et :
Var(T ) = Var(X + Y ) = Var(X) + 2Cov(X, Y ) + Var(Y ) = 3.
Finalement :
1
E[Z|X + Y ] = (X + Y ) = E[Z|X, Y ].
3
On pouvait s’en douter sans calculs : la valeur moyenne prise par la variable aléatoire Z
lorsqu’on connaît à la fois X et Y ne dépend que de la somme (X + Y ). De ce fait, la valeur
moyenne prise par la variable aléatoire Z lorsqu’on connaît simplement la somme (X + Y ) va
être égale à celle trouvée précédemment. Ceci vient du fait que Z a la même covariance avec
X qu’avec Y . Faire un dessin pour expliquer le lien entre ce résultat et le résultat précédent.
3. On a la décomposition orthogonale :
avec :
Cov(X, Y ) X
E[Y |X] = X= ,
Var(X) 2
et la variable résiduelle W qui est indépendante de X qui suit une loi N (0, σ 2 ), avec le
résidu :
Cov(X, Y )2 3
σ 2 = Var(Y ) − = .
Var(X) 4
Ainsi, lorsque X = x, on a :
x 3
Y ∼N , .
2 4
4. Sachant X = x, on a vu que Y suit une loi normale. Or, de façon générale, lorsque V ∼
N (m, σ 2 ), on a : E[V 2 ] = m2 + s2 , donc ici :
x2 + 3
E[Y 2 |X = x] = ,
4
X 2 +3
et plus généralement : E[Y 2 |X] = 4 .
1
E[X 2 Y 2 ] = E[E[X 2 Y 2 |X]] = E[X 2 E[Y 2 |X]] = E[X 4 + 3X 2 ].
4
Or X suit une loi normale centrée réduite, loi dont on connaît tous les moments, en particulier
E[X 4 ] = 3. Ainsi E[X 2 Y 2 ] = 23 .
6. On applique la même technique, mais en inversant les rôles joués par X et Y : ceci évite d’avoir
2
à calculer E[Y 4 |X]. Puisque X et Y sont interchangeables, il est clair que E[X 2 |Y ] = Y 4+3 .
Ainsi : 2
2 4 2 4 4 Y +3 1
E[X Y ] = E[E[X Y |Y ]] = E Y = E[Y 6 + 3Y 4 ].
4 4
Or le moment d’ordre 6 d’une loi normale centrée réduite vaut 15, donc E[X 2 Y 4 ] = 6.
7. Généralisation : on suppose que les covariances valent a ∈]−1/2, 1[. Vérifier qu’on définit bien
ainsi une matrice de covariance. Que deviennent les résultats précédents ? Ils se généralisent...
Corrigé
Le corrigé de cet exercice est donné en annexe, sujet de juin 2005.
2. Si [X, Y ]′ est un vecteur aléatoire (non nécessairement gaussien), avec Y de carré intégrable,
on définit la variance conditionnelle de Y sachant X, notée Var[Y |X], comme la variable
aléatoire :
Var[Y |X] = E[(Y − E[Y |X])2 |X].
Montrer que dans notre situation, on a :
Corrigé
Cf. sujet de juin 2006 en annexe.
Corrigé succinct
Or x est fixé, donc on peut considérer f (x) comme une constante cx . La connaissance des
densités du numérateur permet d’écrire :
(x−m)2 m2
e− 2σ2 e− 2θ2
f (m|x) = cx √ √ .
2πσ 2 2πθ 2
σ2
3. Après calculs, on trouve que ceci est la densité d’une variable aléatoire gaussienne N ( σ02 x, σ02 ),
avec :
σ2θ2
σ02 = 2 ≤ σ2.
σ + θ2
4. On a :
σ2
σ02 = θ2
≤ σ2 .
1+ σ2
σ02
Pour tout x, on a donc : E[M |X = x] = σ2
x. On en déduit que :
σ02
E[M |X] = X.
σ2
5. On cherche la densité f de X. Le même type de calcul que précédemment montre que X suit
une loi gaussienne N (0, σ 2 + θ 2 ).
6. On cherche la densité fX,M du couple (X, M ). On trouve que c’est une densité gaussienne
de moyenne (0, 0) et de matrice de covariance Γ, avec :
2
σ + θ2 θ2
Γ= .
θ2 θ2
Corrigé
Cet exercice est corrigé en annexe, sujet de mai 2007.
Corrigé
Cete exercice est corrigé en annexe, sujet de mai 2008.
Chaînes de Markov
Introduction
Un modèle dynamique pour lequel le futur dépend de l’état présent et du hasard est appelé une
chaîne de Markov : c’est un modèle simple pour représenter un phénomène aléatoire évoluant au
cours du temps. Il est néanmoins efficace dans de nombreuses applications : sciences de la vie
(génétique, modèles d’épidémie), finance (les cours de la bourse), théorie du signal (problèmes de
filtrage, de prédiction), traitement d’image, traitement de la parole, informatique (files d’attente
dans les réseaux), etc. On se contente ici d’étudier les chaînes de Markov en temps discret et
à espace d’états fini. Le cours est en grande partie tiré du chapitre 1 du livre de Rick Durrett,
Essentials of Stochastic Processes [3].
Définition 16 (Homogénéité)
Une chaîne de Markov est dite homogène dans le temps si la probabilité précédente ne dépend pas
de n. On appelle alors probabilité de transition de l’état i vers l’état j la quantité :
113
114 Chapitre 3. Chaînes de Markov
La connaissance de la loi initiale, c’est-à-dire des P(X0 = i) pour tout i ∈ {1, . . . , M }, et des proba-
bilités de transition permet d’écrire très simplement la loi jointe du vecteur aléatoire (X0 , . . . , Xn ),
puisque :
On peut énoncer quelques résultats très simples sur les matrices de transition.
– Spectre : P admet la valeur propre 1, le vecteur e = [1, . . . , 1]′ étant un vecteur propre associé.
c’est-à-dire :
M
X P(Xn = i)
pij = = 1.
j=1
P(Xn = i)
– En notant e = [1, . . . , 1]′ , on a donc :
PM
j=1 p1j 1
. .
= e,
Pe = . = .
. .
PM
j=1 pM j
1
On appelle encore matrice stochastique, ou matrice markovienne, toute matrice vérifiant les deux
premières propriétés (elle vérifie alors aussi la dernière).
Remarque. Le sous-espace propre associé à la valeur propre 1 n’est pas nécessairement de di-
mension égale à 1. Pour preuve l’exemple trivial de la matrice identité : noter que cet exemple
correspondrait à une chaîne qui ne change jamais d’état, il ne présente donc pas un grand intérêt....
Exemple moins trivial, prendre pour matrice de transition :
0 1 0 0
1 0 0 0
P = 0 0 0 1 .
0 0 1 0
C’est bien une matrice de transition donc e est vecteur propre pour la valeur propre 1. Mais on
voit que le vecteur v = [1, 1, 0, 0]′ est un autre vecteur propre associé à 1. Noter que cette chaîne
a elle aussi un comportement déterministe : si on connaît l’état à un instant, on le connaît à tous
les instants suivants.
A toute chaîne de Markov peut être associé un graphe de transition de la façon suivante : les
sommets du graphe sont les états 1, . . . , M de la chaîne et il existe un arc, étiqueté pij , de i vers
j si pij > 0. Cette construction est commode lorsque la matrice P est très creuse. Autrement dit
lorsque d’un état on ne peut transiter que vers un petit nombre d’états.
1
2
1 2
2 0 1 3
1
3
Or on écrit :
P
= P(Xn+1 = j|X0 = i) = Mk=1 P(Xn+1 = j, Xn = k|X0 = i)
(n+1)
pij
PM
= k=1 P(Xn+1 = j|Xn = k, X0 = i) · P(Xn = k|X0 = i),
P (n+1) = P (n) · P.
C’est plutôt cette équation qu’on appelle relation de Chapman-Kolmogorov. Ce qu’on traduit
comme suit : aller de i à j en (m + n) pas, c’est aller de i à un certain k en m pas et de k à j en
n pas.
Notation. Tout comme les transitions de la chaîne, la position initiale X0 peut être aléatoire. On
convient de noter la loi de X0 comme un vecteur ligne de taille M :
c’est-à-dire : P(Xn ) = µP n .
Rappel. Pour une suite de variables aléatoires (Xn )n≥0 à valeurs dans un ensemble fini E =
{1, . . . , M }, la loi de Xn est simplement le vecteur ligne P(Xn ) = [P(Xn = 1), . . . , P(Xn = M )].
La convergence en loi correspond donc simplement à la convergence de ce vecteur de taille M ,
c’est-à-dire à la convergence de chacune de ses M composantes. Puisque P(Xn ) = µP n , une condi-
tion suffisante pour la convergence en loi de (Xn ) est donc la convergence de la suite (P n )n≥0 des
puissances de la matrice P .
Remarques.
1−α 0 1 1−β
1. Une autre méthode pour étudier les puissances de P sur cet exemple très simple est de noter
que P = I − A, avec A2 = 65 A, et d’appliquer la formule du binôme.
2. On peut généraliser le résultat précédent (voir figure 3.2). Si on considère la matrice de
transition :
1−α α
P = ,
β 1−β
avec 0 < α + β < 2, on a :
" #
β α
P n −−−→ P∞ = α+β
β
α+β
α .
n→∞
α+β α+β
En particulier, hquelle quei soit loi initiale µ, on a convergence en loi de (Xn ) vers le vecteur
β α
de probabilité α+β , α+β .
3. Si on se place dans le cas particulier α = β = 1, on n’a pas convergence de la suite des
puissances de la matrice de transition P , puisque pour tout n ≥ 0 :
P 2n = I2
P 2n+1 = P
Et, à part dans le cas particulier où µ = [1/2, 1/2], on n’a pas convergence en loi de (Xn ).
Ceci vient du phénomène de périodicité de la chaîne, nous y reviendrons plus tard.
Il est important de voir dès maintenant que, même lorsque la suite (P n ) converge, la convergence
de la loi de Xn vers une loi indépendante de la condition initiale n’est pas vraie pour toutes les
chaînes de Markov.
0 1 2 3 4
On vérifie que :
1 0 0 0 0
3/4 0 0 0 1/4
n
P −−−→ P∞ =
1/2 0 0 0 1/2
.
n→∞
1/4 0 0 0 3/4
0 0 0 0 1
Et on voit que si la loi initiale est µ = [µ0 , . . . , µ4 ], alors la loi asymptotique est :
3 1 1 1 1 3
µ∞ = µ0 + µ1 + µ2 + µ3 , 0, 0, 0, µ1 + µ2 + µ3 + µ4 .
4 2 4 4 2 4
Au final, l’un des deux joueurs sera ruiné, et ce avec une probabilité qui dépend de la répartition
initiale des 4e. Par exemple si A part avec 1e, alors il a trois chances sur quatre de finir ruiné,
tandis que s’il part avec 2e, il n’a qu’une chance sur deux de finir ruiné. Le graphe de transition
pour P∞ est donné figure 3.4. Le problème ici vient de l’existence de plusieurs classes de récurrence,
sujet sur lequel nous reviendrons par la suite.
1/4
1/2
0 1 2 3/4 4
3
Remarques.
– i → j ssi il existe n > 0 tel que : (P n )ij = P(Xn = j|X0 = i) > 0.
– La communication entre états est une relation transitive : si i → j et j → k, alors i → k.
– Si i ne communique pas avec j, on note i 9 j.
Ti = min{n ≥ 1 : Xn = i},
l’instant de premier retour dans cet état. Ti est une variable aléatoire à valeurs dans N∗ ∪ {+∞},
car il se peut qu’on ne revienne jamais, auquel cas Ti = +∞. On introduit donc :
Problème de cette définition : en général, on ne sait pas calculer ri . Heureusement, il y a une fa-
çon commode de reconnaître un état transitoire sur le graphe de transition d’une chaîne de Markov.
Preuve. Supposons i pour lequel il existe un état j tel que i → j, mais j 9 i. Notons m =
min{n ∈ N, (P n )ij > 0}. Ainsi il existe des états k1 , . . . , km−1 tels que
ces états étant tous distincts de i, sans quoi m ne serait pas minimal. Dès lors, puisque la probabilité
de revenir en i une fois l’état j atteint est nulle, on a :
1 2 4 6
5 3 7
Exemple. On considère la chaîne à 7 états de la figure 3.5. 2 → 1, mais 1 9 2, donc 2 est tran-
sitoire. 3 → 4, mais 4 9 3, donc 3 est transitoire. Il reste deux ensembles : {1, 5} et {4, 6, 7}, à
l’intérieur desquels il y a communication.
∀i ∈ A, ∀j ∈ Ā pij=0
∀(i, j) ∈ B × B i→j
Exemple. Dans l’exemple de chaîne à 7 états ci-dessus, l’ensemble {1, 5} est fermé, l’ensemble
{4, 6, 7} aussi. Mais alors {1, 4, 5, 6, 7} aussi, ainsi que {1, 2, 3, 4, 5, 6, 7}. Ces deux derniers exemples
ne semblent pas bien pertinents, d’où la notion d’irréductibilité pour préciser les choses : les en-
sembles {1}, {2}, {3}, {5}, {6}, {1, 5} et {4, 6, 7} sont irréductibles. Cette fois, ce sont les cinq
premiers ensembles qui ne semblent pas pertinents. La proposition suivante précise cette intuition.
Exemple. Les seuls ensembles à la fois fermés et irréductibles sont {1, 5} et {4, 6, 7}. De ce fait,
les états 1, 4, 5, 6 et 7 sont récurrents.
E = T ∪ R1 ∪ · · · ∪ R k ,
où T est l’ensemble des états transients et les Ri sont des classes de récurrence, c’est-à-dire des
ensembles fermés et irréductibles d’états récurrents.
Ci = {j ∈ E : i → j}
Ci est clos puisque, pour tout j ∈ Ci , si j → k, alors par transitivité i → k donc k ∈ Ci ; ainsi,
partant de Ci , on ne peut sortir. Par ailleurs, i n’étant pas transitoire, pour tout j ∈ Ci , on a
aussi j → i. Ainsi, si j et k appartiennent à Ci , j → i et i → k, donc j → k : tous les états de
Ci communiquent et Ci est un ensemble clos et irréductible. Ci est donc une classe de récurrence.
Notons R1 = Ci . Si E = T ∪ R1 , la messe est dite. Sinon, on prend i′ ∈ E \ (T ∪ R1 ) et on itère le
raisonnement. Puisque E est fini, on aboutira bien à un nombre fini de classes de récurrence.
Exemple. Toujours dans le même exemple, on a ainsi la partition (cf. figure 3.6) :
R1 T R2
1 2 4 6
5 3 7
Le cas confortable, et très fréquent, est celui où l’espace d’états n’est formé que d’une classe de
récurrence.
Sur le graphe de transition, ceci signifie qu’on peut aller de n’importe quel sommet à n’importe
quel autre en un certain nombre d’étapes. En théorie des graphes, c’est ce qu’on appelle un graphe
orienté fortement connexe.
Un cadre un peu plus général pour lequel les théorèmes asymptotiques du paragraphe suivant
s’appliqueront est celui où on a éventuellement, en plus, des états transitoires.
Exemples.
– Si α > 0, mais β = 0, la chaîne à deux états est indécomposable.
– La chaîne de la ruine du joueur n’est ni irréductible, ni indécomposable, puisqu’elle a deux classes
de récurrence :
E = T ∪ R1 ∪ R2 = {1, 2, 3} ∪ {0} ∪ {4}.
1 2/3 1/3
0 1 2 3
1/3 2/3 1
Exemples.
1. La ligne téléphonique : si 0 < α, β < 1, on a convergence de la suite des puissances de
matrices de transition (P n ) vers une matrice P∞ dont toutes les lignes sont les mêmes. Ceci
assure la convergence en loi de la chaîne (Xn ). De plus, la loi de (Xn ) converge vers une loi de
probabilité indépendante de la loi initiale de la chaîne. C’est la situation la plus confortable.
2. La ruine du joueur : on a encore convergence de la suite (P n ) vers une matrice P∞ . Ceci
implique qu’on a ici encore convergence en loi de la chaîne (Xn ). Néanmoins, puisque toutes
les lignes de P∞ ne sont pas égales, la loi limite de (Xn ) dépend de la loi initiale de la chaîne.
3. Modèle d’Ehrenfest : on considère deux urnes A et B, contenant N boules à elles deux,
numérotées de 1 à N . A chaque instant, on choisit un numéro i ∈ {1, . . . , N } de façon
équiprobable et on change d’urne à la boule numéro i. L’état Xn de la chaîne est le nombre
de boules à l’instant n dans l’urne A. Par exemple, avec N = 3 boules (voir figure 3.7),
on vérifie qu’on n’a pas convergence de la suite (P n ), mais qu’on a convergence des deux
sous-suites (P 2n ) et (P 2n+1 ). Plus précisément, si on note Q∞ et R∞ les limites respectives
de ces sous-suites, on a (voir aussi la figure 3.8) :
1/4 0 3/4 0
0 3/4 0 1/4
P 2n −−−−− → Q∞ = 1/4 0 3/4 0
n→+∞
0 3/4 0 1/4
et :
0 3/4 0 1/4
1/4 0 3/4 0
P 2n+1 −−−−−→ R∞ =
0 3/4 0 1/4
n→+∞
1/4 0 3/4 0
Ceci n’est pas étonnant : le nombre de boules dans une urne change de parité à chaque
opération, donc on ne peut avoir convergence de (P n ). De même, la loi de Xn dépend de la
parité de n, donc il n’y aura pas convergence en loi dans le cas général (i.e. sauf pour des
lois initiales particulières).
0 1 2 3 0 1 2 3
Si di = 1, on dit que i est apériodique. Si tous les états sont apériodiques, on dit que la chaîne est
apériodique.
Exemples.
1. La ligne téléphonique : si 0 < α, β < 1, les deux états sont apériodiques.
2. La ruine du joueur : les états 0 et N sont apériodiques, tous les autres sont de période 2.
3. Modèle d’Ehrenfest : tous les états sont de période 2.
Remarque. La périodicité est un phénomène théoriquement possible, mais très rare en pratique.
∀n ≥ n0 n ∈ Zi .
Preuve.
– Il est clair que si on peut boucler sur l’état i, alors :
Zi = {n ≥ 1 : P n (i, i) > 0} = N∗ ,
donc di = pgcd(Zi ) = 1.
– Puisque i est apériodique, il existe des entiers n1 , . . . , nk dans Zi dont le plus grand commun
diviseur est 1. Mais alors le théorème de Bezout assure qu’il existe des entiers relatifs α1 , . . . , αk
tels que :
α1 n1 + · · · + αk nk = 1.
En notant α+ = sup(α, 0) et α− = sup(−α, 0), on a donc :
k
X k
X
α+
i ni = 1 + α−
i ni .
i=1 i=1
Les deux sommes ci-dessus sont dans Zi comme sommes d’éléments de Zi et puisque Zi est
stable pour l’addition. Si on note :
Xk
N= α−
i ni ,
i=1
on en déduit que les deux entiers positifs consécutifs N et (N + 1) sont dans Zi . Montrons alors
que tout entier n tel que n ≥ N 2 − 1 est dans Zi . On effectue la division euclidienne de n par
N :
n = qN + r avec r < N.
Puisque n ≥ N 2 − 1, on a q ≥ r et on peut écrire q = r + r ′ , d’où :
n = r ′ N + r(N + 1) ⇒ n ∈ Zi ,
on en déduit que (k + m) ∈ Zi . Mais puisque i a pour période d, il s’ensuit que d divise (k + m).
Par ailleurs, pour tout entier l de Zj , c’est-à-dire tel que (P l )jj > 0, on a :
de sorte que d divise (k + l + m). Mais puisqu’on vient de dire que d divise (k + m), on en déduit
que d divise aussi l. Or ceci est vrai pour tout entier l de Zj , donc par définition du plus grand
commun diviseur, on en déduit que d divise d′ . Ceci contredit le fait que d′ < d.
– Ce point découle directement du précédent.
Remarque. S’il existe n0 > 0 tel que P(Xn0 = i|X0 = i) > 0 et P(Xn0 +1 = i|X0 = i) > 0, l’état
i est apériodique.
1/2
1 2 3
1/2
4 5 6
Si on revient aux exemples du début de paragraphe, on voit que la situation où tout se passe bien
est celle de la ligne téléphonique, à la fois irréductible et apériodique. C’est ce que nous allons
préciser maintenant.
Exemple. Pour la chaîne d’Ehrenfest à 3 boules, on cherche donc π = [π0 , . . . , π3 ] tel que :
πP = π
P3
i=0 πi = 1
Lemme 2
Si X0 ∼ π, alors pour tout n ≥ 0 : Xn ∼ π.
Preuve. Soit p0 un vecteur de probabilité ligne de taille M . On considère la suite (pn ) définie par :
n
1 X
pn = p0 P i .
n+1
i=0
P = {p ∈ RM
+ : p1 + · · · + pM = 1}.
C’est un compact de RM (fermé et borné), donc de toute suite d’éléments de P on peut extraire
une sous-suite convergente dans P. Notons donc (pnk )k≥0 une telle sous-suite et π sa probabilité
limite. On veut montrer que π est une loi stationnaire pour P . Il suffit de remarquer que :
p0 P nk +1 − p0
pnk P = pnk + ,
nk + 1
πP = π.
Remarque. On a vu au début du chapitre que 1 est valeur propre de P , donc c’est aussi une
valeur propre de P ′ . Ainsi il existe un vecteur colonne v non nul tel que P ′ v = v, ce qui équivaut
à dire que v ′ P = v ′ . Ce qui est moins évident, c’est de montrer qu’il existe un vecteur propre qui
soit un vecteur de probabilité.
Preuve. On montre la contraposée, à savoir : πj > 0 implique j récurrent. Soit donc j un état tel
que πj > 0. Soit Nj le nombre de visites à l’état j, c’est-à-dire :
+∞
X
Nj = 1{Xn =j} ,
n=1
de sorte que :
+∞
X +∞
X
E[Nj |X0 = i] = P(Xn = j|X0 = i) = (P n )ij .
n=1 n=1
On en déduit que : !
M
X M
X +∞
X
πi E[Nj |X0 = i] = πi (P n )ij ,
i=1 i=1 n=1
et tout étant positif, on peut intervertir les ordres de sommation :
M M
+∞ X
!
X X
πi E[Nj |X0 = i] = πi (P n )ij ,
i=1 n=1 i=1
avec bien sûr pour initialisation Tj0 = 0. Alors de la propriété de Markov on déduit que pour
effectuer k visites à l’état j partant à l’instant 0 de l’état i, il faut commencer par aller de l’état i
à l’état j, ce qui arrive avec probabilité rij , puis boucler (k − 1) fois sur l’état j, ce qui arrive avec
probabilité rjk−1 . Autrement dit :
Preuve. Soit π une loi stationnaire d’une chaîne de Markov irréductible. On commence par prouver
que toutes les coordonnées de π sont strictement positives. Puisque π est un vecteur de probabilité,
il est clair qu’il existe un état i tel que πi > 0. Soit alors j un autre état : étant donné que la chaîne
est irréductible, il existe k tel que (P k )ij > 0. On utilise alors la stationnarité de π, qui implique
en particulier πP k = π :
XM
πj = πl (P k )lj ≥ πi (P k )ij > 0.
l=1
Passons à l’unicité de π. On sait qu’il existe une loi stationnaire par la proposition 10. Pour montrer
qu’elle est unique, il suffit de prouver que le sous-espace propre associé à la valeur propre 1 est de
dimension 1 pour P ′ . Mais puisqu’une matrice et sa transposée ont mêmes valeurs propres avec
mêmes ordres de multiplicité, et qu’on sait que le vecteur constant e = [1, . . . , 1]′ vérifie P e = e, il
nous suffit de montrer que tout vecteur f = [f1 , . . . , fM ]′ vérifiant P f = f est constant, c’est-à-dire
brièvement :
P f = f ⇒ f1 = · · · = fM .
Si u et v sont deux vecteurs (colonnes), on convient de noter uv le vecteur défini par :
∀i ∈ {1, . . . , M } (uv)i = ui vi ,
Donc si f est un vecteur propre de P pour la valeur propre 1, on déduit de l’équation ci-dessus
que :
πΓ(f ) = 2π(f (f − P f )) = 0,
mais on a aussi simplement :
M
X
πΓ(f ) = πi Γ(f )i ,
i=1
avec Γ(f )i ≥ 0 pour tout i d’après ci-dessus, et πi > 0 puisque la chaîne est irréductible. On déduit
des deux dernières équations que :
∀i ∈ {1, . . . , M } Γ(f )i = 0
Et, à nouveau grâce à (+), on conclut que si Pij > 0, alors fi = fj . Et puisque la chaîne est
irréductible, on en déduit de proche en proche que :
∀(i, j) ∈ {1, . . . , M }2 fi = fj ,
π = [p, 0, 0, 0, 1 − p],
avec p loisible entre 0 et 1. Ceci est bien sûr dû au fait que la chaîne n’est pas irréductible : il y a
deux classes de récurrence correspondant aux deux états absorbants. Remarquons néanmoins que
tout vecteur de probabilité solution est nul sur les états récurrents 1, 2 et 3, comme annoncé en
proposition 20.
Remarque. En fait, ce résultat est encore vrai si on suppose seulement que la chaîne est indécom-
posable. Dans ce cas, on a vu que l’unique loi stationnaire π vaut 0 sur tous les états transients.
Ceci permet de gagner du temps dans la résolution du système linéaire πP = π.
Même si la loi stationnaire π est unique, on n’est pas assuré de la convergence de la loi de Xn
vers π : les phénomènes de périodicité peuvent poser problème, comme on l’a vu dans le modèle
d’Ehrenfest.
(n)
∀(i, j) ∈ {1, . . . , M } pij −−−→ πj
n→∞
P(Xn ) = µP n −n→∞
−−→ π
Remarque. Une autre façon d’exprimer le résultat ci-dessus est de dire que la suite de matrices
(P n ) converge vers une matrice Π dont toutes les lignes sont égales à π :
π π1 . . . πM
. .
n
P −−−−−→ Π = . = . .
n→+∞
. .
π π1 . . . πM
En d’autres termes, on introduit une chaîne de Markov à deux coordonnées, chacune se déplaçant
indépendamment suivant la dynamique donnée par P . On commence par vérifier que cette nouvelle
chaîne est irréductible. Puisque P l’est, il existe deux entiers k et l tels que :
Puisque j1 et j2 sont apériodiques, alors par le deuxième point des propriétés 9, on sait que pour
m assez grand on a :
(P l+m )j1 j1 > 0 et (P k+m )j2 j2 > 0,
On écrit alors :
p̄(k+l+m) ((i1 , i2 ), (j1 , j2 )) = (P k+l+m )i1 j1 (P k+l+m )i2 j2 .
de sorte que :
p̄(k+l+m) ((i1 , i2 ), (j1 , j2 )) = (P k )i1 j1 (P l+m )j1 j1 (P l )i2 j2 (P k+m )j2 j2 > 0,
T = min{n ≥ 0 : Xn = Yn },
Puisque P est irréductible, on a Vii < +∞ presque sûrement et puisque T ≤ Vii , on en déduit que
T est fini presque sûrement.
On veut maintenant prouver que sur l’événement {T ≤ n}, Xn et Yn ont même loi. Pour cela on
écrit :
Xn X M
P(Xn = j, T ≤ n) = P(T = m, Xm = i, Xn = j)
m=1 i=1
que l’on simplifie grâce à la propriété de Markov :
n X
X M
P(Xn = j, T ≤ n) = P(Xn = j|Xm = i)P(T = m, Xm = i).
m=1 i=1
et en sommant sur j :
M
X
|P(Xn = j) − P(Yn = j)| ≤ 2P(T > n).
j=1
d’où on déduit :
M
X
|P(Xn = j|X0 = x) − πj | −−−−−→ 0,
n→+∞
j=1
donc a fortiori :
(n)
∀(i, j) ∈ {1, . . . , M } pij −−−→ πj ,
n→∞
Rappel. Soit (Xn ) une suite de variables aléatoires i.i.d. à valeurs dans l’espace d’états fini
{1, . . . , M } et de loi commune π, alors pour toute fonction f : {1, . . . , M } → R, on a :
n M
1X p.s. X
f (Xk ) −−−→ f i πi
n n→∞
k=1 i=1
C’est ce qu’on appelle la loi forte des grands nombres. On montre (mais nous l’admettrons...) que
ceci est encore vrai pour des variables qui ne sont plus indépendantes, mais à dépendance marko-
vienne, si tant est que la loi π soit définie de façon unique !
n M
1X p.s. X
f (Xk ) −−−→ f i πi
n n→∞
k=1 i=1
Remarque. Ainsi, la loi des grands nombres est vérifiée sous des hypothèses moins fortes que la
convergence en loi. Ceci n’est pas étonnant car il y a un phénomène de moyennisation sur l’en-
semble d’une trajectoire, qui fait que l’éventuelle périodicité de la chaîne n’est pas gênante.
La loi des grands nombres nous renseigne en particulier sur le temps relatif passé par une trajec-
toire de la chaîne dans chacun des états et donne une interprétation simple de la loi d’équilibre π.
compte le nombre de passages de la chaîne par l’état i sur le nombre total d’étapes : quantité que
l’on peut interpréter comme le temps relatif passé dans l’état i entre les dates 1 et n.
Exemples.
1. Dans le modèle de la ligne téléphonique, sur un intervalle de temps assez long, celle-ci est
donc occupée les trois cinquièmes du temps.
2. Dans le modèle d’Ehrenfest à 3 boules, il y a 1 ou 2 boules dans l’urne A les trois quarts du
temps.
3. Pour le modèle
d’Ehrenfest à M boules, on a vu que la loi stationnaire π est une loi binomiale
B M, 12 . Donc, si M est grand, π se comporte à peu de choses près comme un loi normale :
M M
π≈N , .
2 4
La moyenne du nombre de boules dans l’urne A est M/2, c’était intuitivement évident puis-
qu’il n’y aucune dissymétrie entre les deux urnes.
√ De plus, la proportion
√ du temps passée
avec un nombre de boules compris entre M/2 − M et M/2 + M est de l’ordre de 95%.
3.5 Exercices
Exercice 3.1 (Lancers de pièce)
On lance une pièce équilibrée : les résultats des lancers sont des variables aléatoires indépendantes
Y0 , Y1 , . . . à valeurs 0 ou 1. Pour tout n ≥ 1, on note Xn = Yn + Yn−1 .
1. Calculer P(X3 = 0|X1 = 0, X2 = 1) et P(X3 = 0|X2 = 1).
2. Est-ce que (Xn ) est une chaîne de Markov ?
Corrigé
1. Si X1 = 0 et X2 = 1, ceci signifie que Y0 = Y1 = 0 et Y2 = 1, auquel cas X3 ∈ {1, 2}, donc
P(X3 = 0|X1 = 0, X2 = 1) = 0. Par contre
P(Y3 = 0, Y2 = 0, Y1 = 1) (1/2)3 1
P(X3 = 0|X2 = 1) = = = .
P(X2 = 1) 1/2 4
2. L’exemple ci-dessus montre que (Xn ) n’est pas une chaîne de Markov.
Les situations des exercices suivants sont modélisées par des chaînes de Markov. Donner dans
chaque cas la matrice et le graphe de transition associés.
1 2 3
4 5 6
7 8 9
Exercice 3.7 (La Suisse (son chocolat, ses banques, son temps mesuré))
Un magasin suisse vend des horloges : pour des raisons de place, il ne peut pas en stocker plus de
3. Le gérant a constaté que, en une journée, les probabilités de demande de 0, 1, 2 ou au moins 3
horloges sont respectivement :
p = [p0 , p1 , p2 , p≥3 ] = [0.3, 0.4, 0.2, 0.1].
Chaque soir, il peut en commander à nouveau, qui seront disponibles en magasin le lendemain
matin. On dit que l’Helvète applique une méthode (i, j)0≤i<j≤3 s’il passe commande lorsqu’à la
fermeture il lui reste un nombre inférieur ou égal à i en stock afin d’en avoir j en magasin le matin
suivant. Xn est le nombre d’horloges dans le magasin le soir à la fermeture.
1. Méthode (2, 3) : donner la matrice de transition.
2. Mêmes questions avec les méthodes (1, 3) et (0, 3).
Corrigé
1. La méthode (2, 3) signifie que chaque matin, à l’ouverture, le magasin a refait son stock,
donc il y a 3 horloges au début de la journée. Le soir, il peut en rester 0, 1, 2 ou 3 suivant
les demandes de la journée et conformément aux probabilités de l’énoncé. Autrement dit
Xn ∈ {0, 1, 2, 3} et toutes les les lignes de la matrice de transition P sont identiques dans ce
cas, à savoir :
0.1 0.2 0.4 0.3
0.1 0.2 0.4 0.3
P = 0.1 0.2 0.4 0.3
(b) Méthode (0, 3) : cette fois, le gérant ne repasse commande le soir que s’il ne lui reste
plus rien en magasin. La matrice de transition P s’écrit donc :
0.1 0.2 0.4 0.3
0.7 0.3 0 0
P = 0.3 0.4 0.3 0
Ti = min{n ≥ 1 | Xn = i}
∀k ∈ N∗ P(Ti+1 − Ti = k).
Corrigé
1. On trouvera plus d’informations sur ce thème dans le livre de Gilles Pagès et Claude Bouzitat [6].
1. On a :
+∞
X +∞
X +∞
X
E[T ] = k P(T = k) = kp(1 − p)k−1 = p k(1 − p)k−1 .
k=1 k=1 k=1
P
On reconnaît une série entière de type
P kxk−1 , dérivée terme à terme de la série entière
k 1 1
x . Or la dérivée de 1−x est (1−x)2 , donc :
1 1
E[T ] = p · 2
= .
(1 − (1 − p)) p
2. Pour tout n ≥ 1, Xn est donc compris entre 1 et N et on a bien sûr X1 = 1. Dans la matrice
de transition, de taille N , seules la diagonale et la surdiagonale ne sont pas nulles, avec
i
P (i, i) = N
N −i
P (i, i + 1) = N
Tous les états sont transitoires, sauf l’état {N }, qui est absorbant. La seule loi stationnaire
1 2 N
est donc déterministe : c’est π = [0, . . . , 0, 1], ce qu’on vérifie sans problème par la résolution
du système πP = π.
3. Ti correspond au nombre de jours nécessaires pour avoir i images distinctes. (Ti+1 − Ti ) est
le nombre de jours nécessaire pour obtenir une (i + 1)-ème nouvelle image. Si au jour n on a
i images, la probabilité de ne pas en avoir de nouvelle le jour suivant est Ni , celle d’en avoir
une nouvelle étant NN−i . La probabilité P(Ti+1 − Ti = k) est la probabilité de ne pas avoir de
nouvelle image pendant (k − 1) jours et d’en avoir une nouvelle le k-ème jour. On a donc :
k−1
N −i i
P(Ti+1 − Ti = k) = .
N N
N −i
Autrement dit (Ti+1 − Ti ) suit une loi géométrique de paramètre N .
N
4. La première question donne alors : E[Ti+1 − Ti ] = N −i . Par linéarité de l’espérance :
N
X −1 X1 N
N
E[TN ] = =N ∼ N ln N.
N −i k
i=0 k=1
En moyenne, il faut donc environ N ln N jours à l’enfant pour compléter son album. S’il y a
100 images dans l’album, il faut environ 100 ln(100) ≈ 460 jours pour le compléter 2 .
1 1
2. Le résultat exact est : 100 1 + 2
+ ··· + 100
≈ 519. L’approximation par l’équivalent donne donc une erreur
relative d’environ 10%.
5. Application : on lance un dé à six faces jusqu’à ce qu’on ait vu les six numéros sortir. Le
problème est rigoureusement le même. Le nombre moyen de lancers nécessaires est donc :
1 1 1 1 1
E[T ] = E[T6 ] = 6 1 + + + + + ≈ 14, 7.
2 3 4 5 6
Corrigé
Cet exercice est corrigé en annexe, sujet de juin 2005.
Corrigé
1. P est une matrice de taille 2N . Soit J la matrice carrée de taille N ne comportant que des 1,
[0] la matrice carrée de taille N ne comportant que des 0. Alors P se décrit très simplement
par blocs :
1 [0] J
P = .
N J [0]
Puisque J 2 = N · J, on a pour tout n ≥ 1 : J n = N n−1 J. Le calcul des puissances de P se
fait très simplement par blocs et on obtient pour tout n ≥ 1 : P 2n = P et
2n+1 1 J [0]
P = .
N [0] J
2. Tous les états communiquent donc la chaîne est irréductible. Tous les états sont clairement
de période 2.
3. La chaîne étant irréductible, elle admet une unique loi stationnaire π, solution de πP = π.
La résolution du système donne la loi uniforme sur les 2N états :
1 1
π= ,..., .
2N 2N
On n’a pas limn→∞ P n = Π, où Π serait la matrice aux lignes identiques, toutes égales à π.
Ceci vient du fait que la chaîne n’est pas apériodique.
2 3 4 5
1 6
D
B
0 9 8 7
4. Supposons maintenant qu’en chaque sommet, le scarabée reste sur place avec probabilité
7/10 et parte vers chacun des autres sommets avec probabilité 1/10. Que deviennent les
résultats précédents ?
Corrigé
1. La matrice de transition P de la chaîne de Markov (Xn ) a des coefficients 1/3 partout sauf
sur sa diagonale. Cette chaîne est une marche aléatoire sur un graphe connexe, et l’unique loi
stationnaire est la loi uniforme π = [0.25, 0.25, 0.25, 0.25]. Ceci n’est pas étonnant puisqu’on
peut tout aussi bien remarquer que la matrice P est bistochastique.
2. Partant du sommet A, on peut y revenir en 2 coups, 3 coups, 4 coups, etc. Donc A est
apériodique. Puisque tous les sommets communiquent, ils sont tous apériodiques et la chaîne
est apériodique. On a donc convergence de la loi de (Xn ) vers π.
3. Par contre, on a le théorème ergodique, i.e. la convergence presque sûre de la suite de variables
aléatoires ( CNN ) vers le coût moyen, à savoir 1+2+3+4
4 = 2.5 e.
4. La chaîne est bistochastique donc la loi stationnaire est toujours la loi uniforme π. On n’a
plus de périodicité, donc il y a convergence en loi : la loi de Xn tend vers π. A fortiori, on a
la loi des grands nombres.
Corrigé
1. La chaîne de Markov associée a pour matrice de transition :
1/3 2/3 0 0
2/9 5/9 2/9 0
P = 0 2/9
5/9 2/9
0 0 2/9 7/9
2
Et que ce soit à l’aller ou au retour, Kafka est mouillé avec probabilité 9n+3 .
Corrigé
Le corrigé est donné en annexe, sujet de juin 2006.
Corrigé
Le corrigé est donné en annexe, sujet de mai 2007.
Corrigé
Le corrigé est donné en annexe, sujet de mai 2008.
2/3 0 1/3 0
A B C D
Figure 3.13 – Fréquences empiriques pour une seule trajectoire de longueur 1000.
Corrigé
Les simulations sont effectuées à l’aide du logiciel R.
1. Le résultat est représenté figure 3.13.
P=matrix(1/3,4,4)-diag(1/3,4) # P est la matrice de transition.
mu0=c(1,0,0,0) # le scarabée part du sommet A.
n0=1001 # le scarabée marche de l’instant 0 à l’instant n0-1.
x=numeric(n0)
x[1]=sample(1:4,1,prob=mu0)
for (i in 1:(n0-1)){x[i+1]=sample(1:4,1,prob=P[x[i],])}
plot(table(x)/n0,type=’h’,xlab=’position du scarabee’,ylab=’frequences empi-
riques’)
2. Le résultat est représenté figure 3.14.
P=matrix(1/3,4,4)-diag(1/3,4) # P est la matrice de transition.
mu0=c(1,0,0,0) # le scarabée part du sommet A.
n0=51 # le scarabée marche de l’instant 0 à l’instant n0-1.
ns=1000 # on simule ns trajectoires du scarabée.
S=matrix(0,nrow=ns,ncol=n0)
for (j in (1:ns)){
S[j,1]=sample(1:4,1,prob=mu0)
0.25
0.20
0.15
0.10
0.05
0.00
A B C D
for (i in 1:(n0-1)){S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])}}
plot(table(S[,n0])/ns,type=’h’,xlab=’position du scarabee’,ylab=’frequences
empiriques’)
3. (a) Le résultat est représenté figure 3.15. La chaîne étant irréductible et la matrice de
transition bistochastique, la seule loi d’équilibre est à nouveau la loi π uniforme sur les
quatre états.
P=matrix(c(0,2/3,0,1/3,1/3,0,2/3,0,0,1/3,0,2/3,2/3,0,1/3,0),4,4,byrow=TRUE)
mu0=c(1,0,0,0)
n0=1001
x=numeric(n0)
x[1]=sample(1:4,1,prob=mu0)
for (i in 1:(n0-1)){x[i+1]=sample(1:4,1,prob=P[x[i],])}
plot(table(x)/n0,type=’h’,xlab=’position du scarabee’,ylab=’frequences
empiriques’)
(b) Le résultat est représenté figure 3.16. La chaîne étant périodique, de période 2, le sca-
rabée ne peut être qu’au sommet A ou C après un nombre pair de déplacements. On
voit donc que la loi des grands nombres s’applique, mais pas la convergence en loi.
P=matrix(c(0,2/3,0,1/3,1/3,0,2/3,0,0,1/3,0,2/3,2/3,0,1/3,0),4,4,byrow=TRUE)
mu0=c(1,0,0,0)
n0=51
ns=1000
S=matrix(0,nrow=ns,ncol=n0)
for (j in (1:ns)){
S[j,1]=sample(1:4,1,prob=mu0)
for (i in 1:(n0-1)){S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])}}
plot(table(S[,n0])/ns,type=’h’,xlab=’position du scarabee’,ylab=’frequences
empiriques’)
0.25
0.20
0.15
0.10
0.05
0.00
A B C D
Figure 3.15 – Fréquences empiriques pour une seule trajectoire de longueur 1000.
0.5
0.4
0.3
0.2
0.1
0.0
A C
0.35
0.35
0.35
0.30
0.30
0.30
0.25
0.25
0.25
0.20
0.20
0.20
0.15
0.15
0.15
0.10
0.10
0.10
0.05
0.05
0.05
0.00
0.00
0.00
A B C D A B C D A B C D
Figure 3.17 – Loi stationnaire obtenue de 3 façons : convergence en loi (à gauche), loi des grands
nombres (au centre), vecteur propre principal (à droite).
4. Le résultat est représenté figure 3.17. Si on tire une matrice au hasard, on est sûr d’obtenir
une chaîne irréductible et apériodique. La convergence en loi comme la loi des grands nombres
permettent donc de retrouver la loi stationnaire théorique.
P=matrix(runif(16),4,4)
P=P/(rowSums(P)%*%t(rep(1,4)))
vp=as.numeric(eigen(t(P))$vectors[,1])
vp=vp/(sum(vp))
mu0=c(1,0,0,0)
n0=1001
ns=1000
S=matrix(0,nrow=ns,ncol=n0)
for (j in (1:ns)){
S[j,1]=sample(1:4,1,prob=mu0)
for (i in 1:(n0-1)){S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])}}
m=matrix(1:3,nrow=1,ncol=3)
layout(m)
plot(table(S[,n0])/ns,type=’h’,xlab=’position du scarabee’,ylab=’frequences
empiriques’)
plot(table(S[1,])/n0,type=’h’,xlab=’position du scarabee’,ylab=’frequences
empiriques’)
plot(vp,type=’h’,xlab=’position du scarabee’,ylab=’probabilité théorique’)
Annales
Examen de Probabilités
147
148 Annexe A. Annales
Examen de Probabilités
Corrigé
I. Couple aléatoire
On considère la fonction suivante :
f (x, y) = e−y 1{0<x<y} .
1. f (x, y) est mesurable positive et on vérifie sans problème que son intégrale sur R2 vaut 1.
Donc f (x, y) définit bien une densité de probabilité sur R2 .
2. Pour les densités marginales, on obtient f (x) = e−x 1]0,+∞[ (x), c’est-à-dire que X suit une
loi exponentielle E(1). De même, on trouve :
f (y) = ye−y 1]0,+∞[(y).
Les variables X et Y ne sont pas indépendantes puisque :
f (x, y) 6= f (x)f (y).
On pouvait l’affirmer dès le début puisque le support de la loi jointe n’est pas un produit
d’intervalles.
3. Rappelons que si V ∼ E(1), alors :
E[V n ] = n!
On a donc : E[X] = 1. De même : E[Y ] = E[V 2 ] = 2! = 2. Pour la covariance :
Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[XY ] − 2.
Or : ZZ Z +∞
1 1
E[XY ] = xyf (x, y) dx dy = y 3 e−y dy = E[V 3 ] = 3,
R 2 2 0 2
d’où l’on déduit : Cov(X, Y ) = 1.
4. La densité conditionnelle f (y|x) de Y sachant X = x vaut par définition pour tout x > 0 :
f (x, y)
f (y|x) = = ex−y 1{x<y} .
f (x)
C’est donc une loi exponentielle translatée. Son espérance vaut :
Z +∞
E[Y |X = x] = yex−y dy = x + 1.
x
De façon générale, on a donc :
E[Y |X] = X + 1.
5. De même, on a successivement :
1
f (x|y) = 1 .
y {0<x<y}
C’est donc une loi uniforme sur [0, y]. Sa moyenne vaut :
y
E[X|Y = y] = ,
2
et de façon générale :
Y
E[X|Y ] = .
2
1 1
fZ,T (z, t) = e− 2 (z+t) 1{0<t<z} .
2
et :
fT (t) = e−t 1{t>0} ,
1 1 2 2
f (x, y) = √ e− 6 (4(x−1) −2(x−1)(y+1)+(y+1)
2π 3
2. X ∼ N (1, 1), Y ∼ N (−1, 4). Enfin X + Y ∼ N (0, 7), car E[X + Y ] = E[X] + E[Y ] et :
6. Les variables U , V et W sont donc gaussiennes. Par symétrie, elles suivent la même loi
N (0, 4). La variance s’obtient par exemple via la formule :
Var(U ) = Var(X) + Var(Y ) + Var(Z) − 2Cov(X, Y ) − 2Cov(X, Z) + 2Cov(Y, Z).
7. Le vecteur gaussien [U, V, W ]′ est centré et sa matrice de covariance est :
4 0 0
Γ2 = AΓA′ = 0 4 0 .
0 0 4
Cette matrice est diagonale, ce qui est dans le cas gaussien une condition nécessaire et suffi-
sante d’indépendance des variables U , V et W .
0 1 2 3 4
3. On peut passer de tout état à tout autre donc la chaîne est irréductible. Par ailleurs on peut
boucler sur chaque état, donc elle est apériodique.
4. L’irréductibilité de la chaîne entraîne l’existence d’une unique loi stationnaire π, c’est-à-dire
un vecteur ligne :
π = [π0 , π1 , π2 , π3 , π4 ],
avec les πi compris entre 0 et 1 et sommant à 1. On la détermine en résolvant le système
d’équations πP = π. Après quelques calculs, on obtient :
1 4 6 4 1
π= , , , , .
16 16 16 16 16
On peut noter que de façon générale :
i 4−i
4 1 1
∀i ∈ {0, 1, 2, 3, 4} πi = ,
i 2 2
c’est-à-dire que le nombre de boules dans l’urne A suit une loi binômiale B(4, 21 ).
7. La généralisation avec M boules est directe : la chaîne est encore irréductible et apériodique,
d’unique loi stationnaire π ∼ B(M, 12 ).
Examen de Probabilités
Examen de Probabilités
Corrigé
2. La densité de Y s’obtient en marginalisant la loi jointe par rapport à x. Pour tout y dans
[0, 1] :
Z 1
2 1 2
f (y) = 2 (1 + x)(1 + y)
dx = 2 (1 + y)
[ln(1 + x)]1y ,
y (ln 2) (ln 2)
ce qui donne :
2
f (y) = (ln 2 − ln(1 + y))1[0,1] (y).
(ln 2)2 (1
+ y)
On en déduit la densité conditionnelle de X sachant Y :
f (x, y) 1
f (x|y) = = 1 .
f (y) (1 + x)(ln 2 − ln(1 + y)) {0≤y≤x≤1}
En toute rigueur, cette formule n’est valable que pour y ∈ [0, 1[, mais pour y = 1 on a
forcément x = 1, Autrement dit, la loi de X sachant Y = 1 n’admet pas de densité, c’est un
Dirac au point 1.
3. Le support de la loi jointe f (x, y) est le domaine :
D = {(x, y) : 0 ≤ y ≤ x ≤ 1},
qui n’est pas un pavé, donc X et Y ne peuvent être indépendantes. Une autre façon de
le vérifier est de remarquer que le produit des marginales n’est pas égal à la loi jointe :
f (x, y) 6= f (x)f (y). Une autre méthode est de voir que la densité conditionnelle de X sachant
Y n’est pas égale à la densité marginale de X : f (x|y) 6= f (x). Dans la même idée, on vérifie
aussi que : f (y|x) 6= f (y).
De même, Y est à valeurs dans {1, . . . , 5} et pour tout j dans cet ensemble, on a :
5
X 6−j
p.j = P(Y = j) = pij = .
15
i=j
pij 1
pi|j = = 1 ≤ j ≤ i ≤ 5.
p.j 6−j
3. On en déduit :
5
X 5
1 X
E[X|Y = j] = ipi|j = i,
6−j
i=j i=j
j+5
E[X|Y = j] = .
2
On en déduit l’espérance conditionnelle de X sachant Y :
1 5
E[X|Y ] = Y + .
2 2
Puisqu’on sait que E[E[X|Y ]] = E[X], on en déduit une première relation entre les espérances
de X et Y :
1 5
E[X] = E[Y ] + .
2 2
4. Soit i ∈ {1, . . . , 5} fixé, la loi conditionnelle de Y sachant X = i est :
pij 1
pj|i = = 1 ≤ j ≤ i ≤ 5.
pi. i
5. On en déduit :
i
X i
1X
E[Y |X = i] = jpj|i = j,
i
j=1 j=1
i+1
E[Y |X = i] = ,
2
d’où l’espérance conditionnelle :
1 1
E[Y |X] = X + ,
2 2
et une seconde relation entre les espérances de X et Y :
1 1
E[Y ] = E[X] + .
2 2
6. Les questions précédentes donnent un système linéaire de deux équations à deux inconnues :
E[X] = 12 E[Y ] + 52
E[Y ] = 12 E[X] + 12
11
que l’on résout sans problème pour arriver à E[X] = 3 et E[Y ] = 37 .
Cov(Y, X)
E[Y |X] = E[Y ] + (X − E[X]) = X − 2,
Var(X)
Cov2 (Y, X)
σ 2 = Var(Y ) − = 1.
Var(X)
3. Puisque E[Y |X] est la projection orthogonale de Y sur H = Vect(1, X), on en déduit que la
variable aléatoire U = Y − E[Y |X] = Y − X + 2 est orthogonale à H, donc en particulier à
la variable aléatoire X − E[X] de H. Ceci signifie que :
Donc les variables aléatoires U et X sont décorrélées et puisque le vecteur [X, U ]′ est gaussien
comme image du vecteur gaussien V par une application affine, ceci est équivalent à dire que
X et U sont indépendantes.
4. Soit u = [u1 , u2 , u3 ]′ ∈ R3 , alors la fonction caractéristique du vecteur V est :
′ 1 ′
ΦV (u) = eiu m− 2 u Γu .
En développant, on a donc :
1 2 2 2
ΦV (u) = exp i(u1 − u2 + u3 ) − (u1 + 2u1 u2 + 2u1 u3 + 2u2 + 4u2 u3 + 3u3 ) .
2
E[Z|X, Y ] = Y + 2.
X = E[X|Y, Z] + W,
avec W ∼ N (0, v) indépendante du couple (Y, Z). Or le même calcul que ci-dessus donne :
1 3
E[X|Y, Z] = Y + ,
2 2
et la variance v de W est le résidu quadratique : v = 21 . Sachant que Y = 1 et Z = 2, la
variable aléatoire X suit donc une loi N (2, 1/2).
1 0 4 1 5 2 3
9 9
4
9
(a) – Si Xn = 0, personne n’est infecté le jour n, donc le jour suivant non plus. Ainsi p00 = 1
et p0j = 0 pour tout j ∈ {1, 2, 3}. En d’autres termes, l’état {0} est absorbant.
– Sachant Xn = 1 : puisque la personne infectée le jour n est guérie le lendemain, on
a nécessairement Xn+1 ∈ {0, 1, 2}. Plus précisément, la probabilité que Xn+1 = 0
est la probabilité que la personne infectée n’ait rencontré aucune des deux autres
personnes, ce qui arrive avec probabilité p10 = 2/3 × 2/3 = 4/9 ; la probabilité que
Xn+1 = 2 est la probabilité que la personne infectée ait rencontré chacune des deux
autres personnes, ce qui arrive avec probabilité p12 = 1/3 × 1/3 = 1/9 ; par suite, la
probabilité que Xn+1 = 1 est égale à :
4
p11 = 1 − (p10 + p12 ) = .
9
– Sachant Xn = 2, puisque les personnes infectées le jour n sont guéries le lendemain,
on a nécessairement Xn+1 ∈ {0, 1}. Plus précisément, la probabilité que Xn+1 = 0 est
la probabilité que la personne saine ne rencontre aucune des deux personnes infectées,
ce qui arrive avec probabilité p20 = 2/3 × 2/3 = 4/9 ; la probabilité que Xn+1 = 1 est
donc p21 = 1 − p20 = 5/9.
– Sachant Xn = 3, on a forcément Xn+1 = 0.
On en déduit la matrice de transition :
1 0 0 0
4 4 1 0
P = 9 9 9
4 5 0 0 .
9 9
1 0 0 0
(b) La chaîne est indécomposable : il y a un état récurrent {0} et trois états transitoires
{1, 2, 3}.
(c) Puisque la chaîne est indécomposable, il y a unicité de la loi stationnaire π. De plus,
celle-ci est nulle pour les états transitoires, donc :
π = [1, 0, 0, 0].
1 0 0 0
Le raisonnement fait ci-dessus tient toujours donc l’unique loi stationnaire est encore π =
[1, 0, 0, 0].
3. On suppose maintenant une population de N individus, avec taux de contact infectieux
p ∈]0, 1[. Sachant que Xn = i, on a forcément Xn+1 ∈ {0, . . . , N − i}, ce qui explique
l’indicatrice dans la formule.
On remarque aussi que la probabilité qu’une personne saine un jour le soit encore le lendemain
est égale à la probabilité qu’elle ne rencontre aucune des i personnes infectées, ce qui arrive
avec probabilité q i , puisque les rencontres sont indépendantes.
Soit alors j ∈ {0, . . . , N − i} : la probabilité de transition pij est la probabilité que parmi les
(N − i) personnes saines, j soient infectées. Puisque les rencontres sont indépendantes et que
l’infection arrive avec probabilité 1 − q i , c’est exactement la probabilité qu’une loi binômiale
B(N − i, 1 − q i ) prenne la valeur j. Ceci donne bien :
N −i
pij = (1 − q i )j q i(N −i−j) 1{i+j≤N } .
j
Examen de Probabilités
1. Soit V une variable aléatoire qui suit une loi exponentielle de paramètre λ. Rappeler son
moment d’ordre n, c’est-à-dire E[V n ].
2. Déterminer c pour que f soit effectivement une densité.
3. Calculer f (x|y), densité conditionnelle de X sachant Y = y.
4. En déduire que E[X|Y ] = Y /2.
5. Calculer f (y|x), densité conditionnelle de Y sachant X = x.
6. En déduire que E[Y |X] = X + 2.
7. Déduire des questions 4 et 6 les quantités E[X] et E[Y ].
1. Rappeler à quelle condition V admet une densité f (x, y) et dans ce cas donner sa formule
en fonction de σX , σY et r. On suppose cette condition vérifiée dans toute la suite.
2. Donner l’expression de l’espérance conditionnelle E[Y |X] en fonction de σX , σY et r.
3. On considère un vecteur V = [X, Y ]′ ayant pour densité :
1 − x2 − 5y2 + xy
∀(x, y) ∈ R2 f (x, y) = e 8 8 4
4π
(a) Déterminer sa matrice de covariance Γ.
(b) Sachant x = 1, quelle est la loi de Y ?
(c) Sachant x = 1, en déduire un intervalle dans lequel se situe Y avec 95% de chances.
Examen de Probabilités
Corrigé
I. Couple aléatoire
Soit (X, Y ) un couple aléatoire de densité jointe :
ce qui donne :
ZZ Z +∞ y Z +∞
x2 x3 −y c
f (x, y) dx dy = c y − e dy = y 3 e−y dy,
R2 0 2 3 0 6 0
5. La densité de X est :
Z Z +∞ Z +∞
f (x) = f (x, y) dy = x1{x>0} (y − x)e −y
dy = x1{x>0} ue−u−x du,
R x 0
Vérification : rappelons que si T ∼ Γ(n, λ), alors E[T ] = nλ. Or on a vu plus haut que
X ∼ Γ(2, 1) et Y ∼ Γ(4, 1), donc on retrouve bien E[X] = 2 et E[Y ] = 4.
detΓ = (1 − r 2 )σX
2 2
σY 6= 0.
Dans ce cas, on a :
2 x2 −2rσ σ xy+σ 2 y 2
σY X Y
1 −
2σ 2 σ 2 (1−r 2 )
X
f (x, y) = √ e X Y
2πσX σY 1 − r2
(c) On sait que, avec probabilité 0.95, une variable aléatoire suivant une loi normale tombe
à une distance inférieure à deux fois l’écart-type par rapport à sa moyenne. On en déduit
que, sachant x = 1, on a avec 95% de chances :
1 4 1 4
Y ∈ −√ , +√ .
5 5 5 5
(a) Le vecteur [X1 , X2 , X3 ]′ est gaussien en tant que transformée linéaire d’un vecteur gaus-
sien :
X1 1 0 0 U X1 0 1 1 1
X2 = 1 1 0 V ⇒ X2 ∼ N 0 , 1 2 2 .
X3 1 1 1 W X3 0 1 2 3
On trouve aussi :
Cov(X2 , X3 )
E[X3 |X2 ] = X2 = X2 ,
Var(X2 )
c’est-à-dire que : E[X3 |X1 , X2 ] = E[X3 |X2 ]. Noter qu’on peut retrouver ces résultats en
considérant directement U , V et W :
W X3
V
X2 = E[X3 |X2 ] = E[X3 |X1 , X2 ]
U X1
(c) Puisque les variables sont centrées et de carrés intégrables, l’espérance conditionnelle de
X3 sachant (X1 , X2 ) correspond à la projection orthogonale de X3 sur le plan vectoriel
engendré par X1 et X2 . La figure A.5 explique alors pourquoi dans notre cas particulier
on a l’égalité : E[X3 |X1 , X2 ] = E[X3 |X2 ].
(d) Cette affirmation est fausse puisque si on prend [X, Y, Z] = [X1 , X2 , X3 ], X1 et X3 ne
sont pas indépendantes (cf. Cov(X1 , X3 ) = 1) mais E[X3 |X1 , X2 ] = E[X3 |X2 ].
2. On définit cette fois le vecteur aléatoire [X1 , X2 , X3 ]′ comme suit :
X1 = U
X =U +V
2
X3 = V
X2 = U + V
X3 = V
X2
E[X3 |X2 ] = 2
X1 = U
X2
Figure A.6 – Interprétation géométrique de l’inégalité E[X3 |X1 , X2 ] = X3 6= E[X3 |X2 ] = 2 .
FF
PF FP
PP
2. La chaîne est irréductible puisque tous les états communiquent entre eux. Elle est aussi
apériodique, puisque E2 = (F, F ) l’est (on peut boucler sur cet état) et que la chaîne est
irréductible.
3. On trouve pour unique loi stationnaire la loi uniforme sur les quatre états :
1 1 1 1
π= , , , ,
4 4 4 4
Examen de Probabilités
I. Couple aléatoire
On considère le couple aléatoire (X, Y ) de densité la fonction f définie sur R2 par :
2 si 0 ≤ x ≤ y ≤ 1
f (x, y) =
0 sinon
3. En déduire la densité de V .
4. Calculer f (w|v). Quelle loi reconnaît-on ?
Examen de Probabilités
Corrigé
I. Couple aléatoire
1. La densité est représentée en gras sur la figure suivante :
Y
1
On calcule ainsi : Z 1
1
E[X] = 2x(1 − x)dx = .
0 3
Soit maintenant 0 ≤ y ≤ 1, on a :
Z Z y
f (y) = f (x, y)dx = 2dx = 2y.
R 0
Ainsi : Z 1
2
E[Y ] = 2y 2 dy = .
0 3
4. Soit x ∈ [0, 1] fixé. Pour x ≤ y ≤ 1, on a :
f (x, y) 2 1
f (y|x) = = = .
f (x) 2(1 − x) 1−x
Finalement :
1
f (y|x) = 1 (y),
1 − x {x≤y≤1}
c’est-à-dire que, sachant X = x, Y suit une loi uniforme sur [x, 1].
Soit maintenant y ∈ [0, 1] fixé. Pour tout 0 ≤ x ≤ y, on a :
f (x, y) 2 1
f (x|y) = = = .
f (y) 2y y
Autrement dit, sachant Y = y, X suit une loi uniforme sur [0, y].
5. Pour y fixé dans [0, 1], calculons d’abord E[X|Y = y] :
Z Z
1 1 y y
E[X|Y = y] = x 1{0≤x≤y} (x)dx = xdx = .
R y y 0 2
2. Le changement de variable proposé est linéaire et bijectif avec comme bijection réciproque :
X = W
Y = V −W
Le support de (X, Y ) est D = R2+ ce qui s’écrit pour (V, W ) : ∆ = (v, w) ∈ R2 : 0 ≤ w ≤ v .
On introduit le C 1 -difféomorphisme :
∆ −→ D
φ: x = w
(v, w) 7−→
y = v−w
Alors :
fV,W (v, w) = fX,Y (φ(v, w))|detJφ (v, w)|.
On en déduit :
fV,W (v, w) = λ2 e−λv 1{0≤w≤v} (v, w).
4. On en déduit :
f (v, w) λ2 e−λv 1{0≤w≤v} (v, w) 1
f (w|v) = = = 1{0≤w≤v} (w).
f (v) λ2 ve−λv 1{0≤v} v
Ainsi, sachant v > 0 fixé, W suit une loi uniforme sur [0, v].
2. X étant gaussien, l’indépendance de deux variables équivaut à leur décorrelation. Nous avons
donc X2 et X3 indépendantes. Les composantes étant centrées, la non-corrélation équivaut
à l’orthogonalité. Les deux variables précédentes sont donc aussi orthogonales.
3. On peut poser [X1 , X2 ]′ = AX avec
1 0 0
A= .
0 1 0
Ainsi [X1 , X2 ]′ est gaussien comme transformation affine d’un vecteur gaussien. Il est bien
sûr centré et les éléments de sa matrice de covariance sont donnés dans Γ :
′ 4 1
[X1 , X2 ] ∼ N [0, 0] , .
1 2
De plus :
′
E[(X1 − E[X1 |X2 , X3 ])2 ] = ΓX1 − ΓX1 ,(X2 ,X3 ) Γ−1
X2 ,X3 ΓX1 ,(X2 ,X3 )
1/2 0 1
= 4 − [1, −1]
0 1 −1
= 2.5.
8. S est le projeté orthogonal de X12 sur L2 (X2 , X3 ), espace des variables aléatoires fonctions de
X2 et X3 et de carré intégrable. Ŝ est le projeté orthogonal de X12 sur H = Vect(X2 , X3 ), qui
est un sous-espace vectoriel de L2 (X2 , X3 ). Dans le cas gaussien, ces deux projetés coïncident
mais X12 n’étant pas gaussienne, ce n’est pas le cas ici. On a donc :
2. L’ensemble {1, 2} est clos et irréductible alors que l’ensemble {3, 4} est transitoire. La chaîne
est donc indécomposable avec :
R ∪ T = {1, 2} ∪ {3, 4} .
3. La chaîne admet une loi stationnaire unique µ, solution de µP = µ. Après calcul, on obtient :
2 3
µ= , , 0, 0 .
5 5
4. Quelle que soit la loi initiale, on a convergence de la loi de (Xn ) vers µ. Ainsi, les probabilités
qu’on soit pour n grand dans les états 3 et 4 sont nulles alors que celles qu’on soit dans les
états 1 et 2 sont respectivement 2/5 et 3/5.
“Si j’étais pas tellement contraint, obligé pour gagner ma vie, je vous le dis tout de suite,
je supprimerais tout. Je laisserais pas passer plus une ligne.”
Louis-Ferdinand Céline, Voyage au bout de la nuit, préface à la 2ème édition, 1949.
177
[24] Jean-Yves Ouvrard. Probabilités 1. Cassini, 1998.
[25] Sheldon M. Ross. Initiation aux probabilités. Presses polytechniques et universitaires ro-
mandes, 1987.
[26] Bernard Ycart. Chaînes de Markov. Cahiers de Mathématiques Appliquées, CMA 11, 2004.
[27] Bernard Ycart. Vecteurs et suites aléatoires. Cahiers de Mathématiques Appliquées, 2004.