Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Chap 2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 18

Chapitre 2

Variables aléatoires réelles

2.1 Définitions
Définition 2.1.1 (Variable aléatoire réelle)

Soit (Ω, T ) un espace probabilisable. Une application X : Ω → R est définie comme


une variable aléatoire réelle (v.a.r) si elle est B(R)-mesurable, c’est-à-dire X −1 (B) ∈
T pour tout B ∈ BR .

Proposition 2.1.2

Y
Soit (Ω, T ) un espace probabilisable. X : Ω → R est une v.a.r si et seulement si pour
NA
tout x ∈ R, l’ensemble X −1 (] − ∞, x]) est un événement.

Exemple
AZ

Considérons (X, O) comme un espace topologique et µ la topologie usuelle de R. Alors toute


fonction continue f : (X, O) → (R, µ) est une variable aléatoire réelle (v.a.r).

Définition 2.1.3 (Tribu engendrée par une variable aléatoire réelle)


Z.

Soit X une variable aléatoire réelle sur un espace probabilisable (Ω, T ). La


tribu image réciproque de B(R) par la variable aléatoire X, c’est-à-dire la tribu
{X −1 (B); B ∈ B(R)}, est appelée la tribu engendrée par la variable aléatoire X
et est notée σ(X).

Définition 2.1.4 (Fonction de répartition et probabilité)

Soint P une mesure de probabilité sur les boréliens de R. On appelle fonction de


répartition de la probabilité P la fonction F définie sur R dans [0, 1] par F (x) =
P (] − ∞, x]) pour tout x ∈ R.

10
2.1. DÉFINITIONS

Définition 2.1.5 (Probabilité discrète)

Soit (Ω, T , P ) un espace probabilisé. On dit que P est discrète si elle est purement
atomique (i.e. P (Ac ) = 0, où A est l’ensemble de ses atomes qui est nécesseairement
dénombrable). La probabilité P s’écrit alors P = a∈A P ({a})δa , où δa désigne la
P

mesure de Dirac en a. La fonction de répartition de la probabilité P est définie par :


P
F (x) = a∈A,a≤x P (a).

exemples : 1. La probabilité de Dirac en un point a ∈ R, notée δa .

2. La probabilité de Bernoulli de paramètre 0 < p < 1, définie comme suit :

B(p) = pδ1 + (1 − p)δ0

3. La probabilité binomiale de paramètre 0 < p < 1 et n, définie comme suit :

Y n
!
n k
p (1 − p)n−k δk
X
B(n, p) =
NA
k=0 k

4. La probabilité de Poisson de paramètre λ, définie comme suit :



λk
e−λ
X
P(λ) = δk
AZ

k=0 k!

5. La probabilité géométrique de paramètre 0 < p < 1, définie comme suit :



p(1 − p)k−1 δk
X
G(p) =
Z.

k=1

6. La probabilité uniforme-discrète de paramètre n, ou équiprobabilité sur {1, 2, . . . , n},


définie comme suit : n
1X
U(n) = δk
n k=1
Ces distributions de probabilité sont utilisées dans divers domaines de la statistique et de
la théorie des probabilités pour modéliser différents phénomènes aléatoires.

Proposition 2.1.6

Soit P une probabilité sur la tribu des boréliens de R. Alors la fonction de répartition
F de P satisfait les conditions suivantes :
1. F est croissante.
2. F est continue à droite.
3. limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1.

11
2.1. DÉFINITIONS

Preuve
1. Pour tout x < y ∈ R, ] − ∞, x] ⊂] − ∞, y], ce qui implique que F (x) ≤ F (y), donc F est
croissante.
2. Soit x ∈ R et (xn )n une suite réelle décroissante convergente vers x. Alors ] − ∞, x] =
n ] − ∞, xn ] et ] − ∞, xn+1 ] ⊂] − ∞, xn ] pour tout n. Ainsi, F (x) = P (X ≤ x) =
T

P (X ∈ n ] − ∞, xn ]) = limn→∞ F (xn ). Cela démontre la continuité à droite de F en


T

x.
3. Soit (xn )n une suite réelle décroissante convergeant vers −∞. Alors ∅ = n ] − ∞, xn ]
T

et ] − ∞, xn+1 ] ⊂] − ∞, xn ] pour tout n. Donc limx→−∞ F (x) = limn→−∞ F (xn ) =


P (X ∈ n ] − ∞, xn ]) = P (∅) = 0. De manière similaire, on peut montrer que limx→+∞ F (x) =
T

1.

Définition 2.1.7 (Loi d’une v.a.r)

Soient (Ω, T , P ) un espace probabilisé et X une v.a.r sur (Ω, T ). On appelle loi de
probabilité de la variable aléatoire X la probabilité PX image de P par X. Autrement

Y
dit, PX est définie par PX (A) := P (X ∈ A) pour tout A ∈ B(R).
NA
Définition 2.1.8 (Fonction de répartition d’une v.a.r)

Soient (Ω, T , P ) un espace probabilisé et X une v.a.r sur (Ω, T ). On appelle fonction
de répartition de la variable aléatoire X, la fonction de répartition FX de la loi PX
AZ

de X. Autrement dit FX (x) = P (X ≤ x) pour tout x ∈ R.

Le lemme suivant est très utile pour montrer l’unicité d’une mesure de probabilité qui vérifie
Z.

certaine propriétés.

Lemme 2.1.9

Soit (E, T ) un espace mesurable et µ, ν deux mesures sur T . Supposons l’existence


d’un ensemble C ⊂ T vérifiant les propriétés suivantes :
1. C engendre T ,
2. C est stable sous l’intersection finie (c’est-à-dire que pour tout A, B ∈ C,
A ∩ B ∈ C),
3. Il existe une suite (En )n∈N ⊂ C telle que En ∩ Em = ∅ si n ̸= m, ν(En ) < ∞,
[
pour tout n ∈ N, et E = En ,
n∈N

4. µ(A) = ν(A) pour tout A ∈ C.


Dans ce cas, on a µ = ν sur T , c’est-à-dire que µ(A) = ν(A) pour tout A ∈ T .

12
2.1. DÉFINITIONS

Théorème 2.1.10 (Fonction quantile)

Soit F : R → R une fonction croissante, continue à droite, limx→−∞ F (x) = 0 et


limx→+∞ F (x) = 1. Alors, il existe une unique probabilité P sur B(]0, 1[) (ou bien sur
B(R)) telle que F soit la fonction de répartition de P. Plus précisement, la probabilité
P est la loi de probabilité uniforme sur ]0,1[ de la variable aléatoire X définie sur
Ω :=]0, 1[ (i.e. P := λX ) par

X(ω) = inf{x ∈ R | F (x) ≥ ω}.

Cette v.a X est appelée fonction quantile ou l’inverse généralisé à gauche de la


fonction de répartition F.

Preuve
Pour ω ∈]0, 1[, notons Aω = {x ∈ R | F (x) ≥ ω}. Ainsi, X(ω) = inf Aω . Comme limx→+∞ F (x) =
1, nous pouvons affirmer que Aω n’est pas vide. De plus, étant donné que limx→−∞ F (x) = 0,

Y
l’ensemble Aω est minoré. Par conséquent, la fonction X est bien définie. Montrons que
NA
X(ω) ≤ x si et seulement si ω ≤ F (x). Tout d’abord, la famille (Aω )ω est croissante (au
sens de l’inclusion). Par conséquent, X est décroissante. Il en résulte alors que X est une
variable aléatoire (mesurable). En effet, si ω ≤ F (x), alors x ∈ Aω , ce qui implique X(ω) ≤ x.
La réciproque vient du fait que X(ω) ∈ Aω , c’est-à-dire ω ≤ F (X(ω)). En effet, considérons
AZ

une suite strictement décroissante (xn ) d’éléments de Aω telle que limn xn = inf Aω = X(ω).
Par la continuité à droite de F , limn F (xn ) = F (X(ω)). Mais également, par définition de
Aω , limn F (xn ) ≥ ω. Par conséquent, X(ω) ∈ Aω . Ainsi, si X(ω) ≤ x, alors, par croissance
de F , F (X(ω)) ≤ F (x), et finalement ω ≤ F (x). Par conséquent, {X ≤ x} =]0, F (x)] et
F (x) = λ(]0, F (x)]) = λ(X ≤ x) = λX (] − ∞, x]) = FX (x) pour tout x ∈ R. La probabilité
Z.

cherchée est alors PX = λX , c’est-à-dire la loi de probabilité uniforme sur ]0, 1[ de la variable
aléatoire X.

Remarque 2.1.11

1. Si F est strictement croissante et continue, alors X(ω) est l’unique valeur de


x telle que F (x) = ω. Autrement dit, X(ω) = F −1 (ω). En revanche, pour les
lois discrètes, les fonctions de répartition sont toutes en escalier, d’où l’intérêt
de la définition précédente.
     
2. X 21 resp., X 14 et X 3
4
s’appelle la médiane (resp., le premier quar-
tile, le troisième quartile).

La fonction de répartition d’une v.a.r caractérise la loi de probabilité, comme la proposition


suivante montre :

13
2.1. DÉFINITIONS

Proposition 2.1.12 (Égalité de deux lois)

Soient (Ω, T , P ) et (Ω′ , T ′ , Q) deux espaces probabilisés, avec X et Y deux variables


aléatoires sur (Ω, T ) et (Ω′ , T ′ ) respectivement. Alors, X et Y ont la même loi si et
seulement si elles ont la même fonction de répartition. Plus précisément, PX = QX
si et seulement si FX = FY . Cela est également équivalent à P (X ∈ [a, b]) = Q(Y ∈
[a, b]) pour tout a ≤ b ∈ R. L’intervalle compact [a, b] peut être remplacé par un
intervalle ouvert ou semi-ouvert.

Proposition 2.1.13

Soient (Ω, T , P ) un espace probabilisé et X une variable aléatoire sur (Ω, T ). La


fonction de répartition de X, notée FX , possède les propriétés suivantes :
1. 0 ≤ FX (x) ≤ 1 pour tout x.
2. P (X > x) = 1 − FX (x).

Y
3. P (X < x) = FX (x− ), où FX (x− ) est la limite à gauche de FX en x.
NA
4. P (X ≥ x) = 1 − FX (x− ).
5. P (X = x) = FX (x) − FX (x− ).
6. P (x < X ≤ y) = FX (y) − FX (x).
7. P (x < X < y) = FX (y − ) − FX (x).
AZ

8. P (x ≤ X < y) = FX (y − ) − FX (x− ).
9. P (x ≤ X ≤ y) = FX (y) − FX (x− ).
Z.

Corollaire 2.1.14

Soient (Ω, T , P ) un espace probabilisé et X une v.a.r sur (Ω, T ). La fonction de


répartition FX est continue en x ∈ R si et seulement si x n’est pas un atome de X (i.e.
P (X = x) = 0). Par conséquent, FX est continue si et seulement si P (X = a) = 0
pour tout a ∈ R (on dit alors que la loi de X est diffuse, ou bien sans atomes).

Définition 2.1.15 (Variables aléatoires indépendantes)

Soient (Ω, T , P ) un espace probabilisé et X1 , . . . , Xn des v.a.r sur (Ω, T ). On dit que
les v.a.r X1 , . . . , Xn sont indépendantes (ou que la famille (X1 , . . . , Xn ) est indépen-
dante) si les tribus engendrées par X1 , . . . , Xn sont indépendantes.

14
2.1. DÉFINITIONS

Proposition 2.1.16

Soient (Ω, T , P ) un espace probabilisé et X1 , . . . , Xn des v.a.r sur (Ω, T ). les v.a.r
X1 , . . . , Xn sont indépendantes si et seulement si P (X1 ≤ x1 , . . . , Xn ≤ xn ) =
n
Y
P (Xk ≤ xk ), pour tout x1 , . . . , xn ∈ R.
k=1

Remarque 2.1.17

Soit (Ω, T , P ) un espace probabilisé, et X1 , X2 , X3 trois variables aléatoires réelles.


Le fait que X1 soit indépendante de X2 et X3 n’implique pas nécessairement que
X1 soit indépendante de la somme X2 + X3 , même si X2 et X3 sont indépendantes.
Cependant, on a bien X1 indépendante de X2 + X3 si la famille (X1 , X2 , X3 ) est
indépendante. Ceci découle de la proposition suivante.

Y
Proposition 2.1.18 (Indépendance et composition)
NA
Soit (E, T , p) un espace probabilisé, n ≥ 1, m ≥ 1 et X1 , . . . , Xn , Y1 , . . . , Ym des
variables aléatoires indépendantes. Soit ϕ une fonction borélienne de Rn dans R et ψ
une fonction borélienne de Rm dans R. Alors, les variables aléatoires ϕ(X1 , . . . , Xn )
et ψ(Y1 , . . . , Ym ) sont indépendantes. Nous avons ici décomposé la famille initiale
AZ

de variables aléatoires indépendantes en deux groupes. Cette proposition peut se


généraliser à une décomposition en un nombre quelconque de groupes.

Théorème 2.1.19 (V.a. mesurable par rapport à une autre v.a.)


Z.

Soient X et Y deux variables aléatoires réelles définies sur un espace probabilisé


(Ω, A, P ). Alors, la variable aléatoire Y est mesurable par rapport à la tribu engen-
drée par X (notée σ(X)) si et seulement si il existe une fonction borélienne f de R
dans R telle que Y = f (X).

15
2.2. PROBABILITÉS DE DENSITÉ

2.2 Probabilités de densité


Proposition 2.2.1

Soit (X, T , µ) un espace mesuré, et f : X → [0, +∞] une fonction mesurable. Soit
l’application ν : T → [0, +∞]
Z Z
ν(A) = f dµ = f 1A dµ
A

Alors, ν est une mesure sur (X, T ) appelée mesure de densité f par rapport à µ.

Définition 2.2.2

Une probabilité P sur B(R) est dite une probabilité de densité par rapport à la
mesure
Z de Lebesgue λ s’il existe une fonction mesurable positive f telle que P (A) =
f dλ, pour tout A ∈ B(R). On pose alors P = f λ (on dit aussi que f est la densité

Y
A
de probabilité P par rapport à λ).
NA
Les lois de probabilité définies sur l’espace mesurable B(R), relatives à des densités par rap-
port à la mesure de Lebesgue, énoncées dans les exemples suivants, seront fréquemment
AZ

employées dans le cadre du calcul des probabilités. Il est à noter qu’une loi de probabilité,
par définition, constitue une mesure de probabilité sur B(R).
Lois de probabilité usuelles sur R avec leurs densités :
1. Loi uniforme sur un intervalle :
1
— Densité : f (x) = b−a 1[a,b] (x), pour x ∈ R.
Z.

2. Loi normale (Gaussienne) :


(x−µ)2
— Densité : f (x) = √2πσ 1
e− 2σ2 , pour x ∈ R, où µ est la moyenne et σ est l’écart type.
3. Loi exponentielle :
— Densité : f (x) = λe−λx 1[0,+∞[ (x), pour x ∈ R, où λ est le paramètre de taux.
4. Loi de Cauchy standard :
1
— Densité : f (x) = π(1+x 2 ) , pour x ∈ R.

5. Loi de Laplace :
1 − |x−µ|
— Densité : f (x) = 2b e b , pour x ∈ R, où le réel µ est un paramètre de position et
b > 0 un paramètre d’échelle. Si µ = 0 et b = 1, la loi de Laplace est dite standard et
sa restriction à la demi-droite réelle positive est la loi exponentielle de paramètre 12 .
On aborde maintenant la notion de mesure absolument continue, laquelle se révèle perti-
nente en lien avec les mesures de densité.

16
2.2. PROBABILITÉS DE DENSITÉ

Définition 2.2.3 (Mesure absolument continue, mesure étrangère)

Soient (E, T ) un espace mesurable, et ν et µ des mesures (positives) sur T :


1. La mesure µ est dite absolument continue par rapport à la mesure ν (notée
µ ≪ ν) si pour tout A ∈ T tel que ν(A) = 0, alors µ(A) = 0.
2. La mesure µ est dite étrangère à la mesure ν (notée µ ⊥ ν) s’il existe A ∈ T
tel que ν(A) = 0 et µ(Ac ) = 0.

Exemples La mesure de Dirac δx sur B(R) en un point x ∈ R est étrangère à la mesure de


Lebesgue λ. En effet, δx (R \ {x}) = 0 et λ({x}) = 0.

Remarque 2.2.4 (Sur les mesures de densité :)

1. (Unicité de la densité "presque partout") Soient (E, T , m) un espace me-


suré et µ une mesure sur T . Supposons f, g ∈ M+ tels que µ = f · m et

Y
µ = g · m. Alors, f = g m-presque partout. En effet, pour tout A ∈ T , on
doit avoir A f dm = A g dm. En choisissant A = {f > g} puis A = {f < g},
R R
NA
on en déduit que {f >g} (f − g) dm + {f <g} (g − f ) dm = 0, ce qui implique
R R

|f − g| dm = 0 et donc f = g m-presque partout.


R

2. (Espace L1 pour une mesure de densité) Soit f ∈ M+ tel que µ = f · m.


Soit g ∈ M, alors :
AZ

(a) g ∈ L1R (E, T , µ) ⇔ f g ∈ L1R (E, T , m),


(b) g ∈ L1R (E, T , µ) ⇒ g dµ = f g dm.
R R

3. (Absolue continuité d’une mesure de densité) Soit f ∈ M+ tel que µ =


f · m. Soit A ∈ T tel que m(A) = 0. Alors, f 1A = 0 m-presque partout et donc
Z.

µ(A) = f 1A dm = 0. Ceci montre que la mesure µ est absolument continue


R

par rapport à la mesure m. L’objectif du théorème de Radon-Nikodym sera


de démontrer la réciproque de ce résultat (si µ est finie et m est σ-finie).

Théorème 2.2.5 (Théorème de Radon-Nikodym)

Soient (E, T , ν) un espace mesuré σ-fini et µ une mesure finie sur T . Alors, µ ≪ ν
(i.e. µ est absolument continue par rapport à ν) si et seulement si µ est une mesure
de densité par rapport à ν.

17
2.2. PROBABILITÉS DE DENSITÉ

2.2.6 Variable aléatoire à densité


Définition 2.2.7

On dit q’une variable aléatoire réelle X à densité si la loi de probabilité PX de X à


une densité. Autrement dit, s’il existe une fonction borélienne positive f qui vérifie
FX (x) = ]−∞,x] f dλ. Dans ce cas, on note PX = f dλ.
R

Remarque 2.2.8

(1) Si X à densité, alors la fonction de répartiton FX est continue, ce qui n’est pas
vrai pour toutes les fonctions de répartitions. Il existe même des variables aléatoires
dont la fonction de répartition est continue qui n’admettent pas de densité.
(2) Si X à densité f et g est une fonction borélienne positive tq λ(f ̸= g) = 0, alors
g est aussi une densité de X.
(3) La densité f d’une v.a.r X et la fonction de répartition FX étant liées par

Y
Rx
FX (x) = −∞ f (y)dy, on est tenté de conclure que FX est dérivable et que sa dé-

NA
rivée vaut F (x) = f (x). C’est vrai en tout point x où la fonction f est continue. On
peut montrer que c’est vrai pour λ−presque tout x. Comme la densité f n’est définie
de manière unique qu’à un ensemble de mesure de Lebesgue nulle près, «concrè-
tement» si on connaît FX et si on sait que X admet une densité (par exemple si
FX est continue et de classe C 1 sauf peut-être en un nombre fini de points), on
AZ

peut prendre pour comme densité la fonction f qui est la dérivée de FX partout où
celle-ci existe, et des valeurs arbitraires (par exemple 0) ailleurs.
Z.

Soit X une v.a. réelle de densité f . Soit Y = g(X) pour une autre fonction borélienne
g donnée. Pent-on exprimer la densile de la v.a.r Y, si elle existe, en termes de f et g ? On
le peut, dans les " bons cas", comme nous allons le voir maintenant. Commençons par un
résultat trivial :

Théorème 2.2.9

Soit X une v.a.r de densite fX et g une fonction borélienne. Soit Y = g(X). La


function de répartition de Y est
Z
FY (y) := P(Y ⩽ y) = P(X ∈ Ay ) = fX (u)du où Ay = {u : g(u) ⩽ y}
Ay

Si FY est continue et dérivable sauf en un nombre fini de points, on peut utiliser le résultat
ci-dessus pour obtenir la densité Fy de Y.

18
2.2. PROBABILITÉS DE DENSITÉ

Exemple 2.2.10

Soit X uniforme sur [0, 1] ot Y = − λ1 log X, où λ > 0. Alors

1
 
FY (y) = P − log X ⩽ y
λ
= P(log X ⩾ −λy)
= P(X ⩾ exp(−λy))

1 − exp(−λy)

si y ⩾ 0
=
0

sinon.

Donc FY est continue et de classe C 1 sauf en 0 (cf. la remarque 2.2.8)


 
d

FY (y) si y ̸= 0 λ exp(−λy)

si y > 0
fY (y) =  dy =
0 sinon 0 sinon

Y
et on voit que Y est exponentielle de paramètre λ.
NA
Attention : cet exemple est très simple car g est injective. Le résultat général pour g injective
est donné ci-dessous. le cas non injective étant donné plus bas.

Corollaire 2.2.11
AZ

Supposons que X admette une densité continue fX . Soit g : R → R une fonction


continûment dérivable avec g ′ > 0 ou g ′ < 0, et soit h = g −1 sa fonction rériproque,
qui est définie sur l’image g(R) de R par g et continûment dérivable sur g(R). Alors
Y = g(X) admet la densité
Z.


fX (h(y)) |h′ (y)|

si y ∈ g (R)
fY (y) = fX (h(y)) |h′ (y)| 1g(R) (y) = 
0 sinon.

19
2.2. PROBABILITÉS DE DENSITÉ

Corollaire 2.2.12

Supposons que X admette une densité continue par morceaux fX . Soit g : R → R


une fontion, continument dérivable et strictement monotone par morceaux, i.e. il
existe une partition I1 , . . . In de R constituée d’intervalles et telle que g soit continû-
ment dérivable avec g ′ > 0 ou g ′ < 0 sur chaque intervalle ouvert I′i ayant mèmes
extrémités que Ii (i.e. I′i est l’intérieur de l’intervalle Ii ). Pour chaque i on note hi la
fonction réciproque de la restriction de g à I′i , et Λi = g (I′i ) l’image de l’intervalle I′i
par g. Alors la v.a Y = g (X) admet la densité
n
fX (hi (y)) |h′i (y)| 1Λi (y)
X
fY (y) =
i=1

Exemple 2.2.13

Soit X une v.a. de loi N (0, 1), et Y = X2 . On applique le résultat précédent à g(x) =

Y

x2 , qui n’est pas injective. Prenons I1 =] − ∞, 0[ et I2 = [0, ∞[ (ici I1 =] − ∞, 0[= I1

et I2 =]0, ∞[) Alors g est injective et strictement monotone sur I1 et sur I2 de sorte
NA
√ √
que h1 :]0, ∞[−→ R avec h1 (y) = − y et h2 :]0, ∞[−→ R avec h2 (y) = y, On a

1 1
|h′i (y)| = √ = √ , pour i = 1, 2.
2 y 2 y
AZ

Donc le corollaire 2.2.12 entraine

1 1 1 1
fY (y) = √ e−y/2 √ 1]0,∞[ (y) + √ e−y/2 √ 1]0,∞[ (y)
2π 2 y 2π 2 y
1 1
= √ √ e−y/2 1]0,∞[ (y).
Z.

2π y
La v.a. Y est appelée variable χ2 (ou, khi-deux) à 1 degré de libertés.

Remarque 2.2.14

L’exemple ci-dessus est assez simple pour être résolu sans recourir au corollaire
2.2.12. En effet, soit y ∈ R, on a
  √ √
FY (y) = P(Y ⩽ y) = P X2 ⩽ y = P(− y ⩽ X ⩽ y)1[0,+∞[ (y)
√ √ √
= [FX ( y) − FX (− y)]1[0,+∞[ (y) = [2FX ( y) − 1]1[0,+∞[ (y).
La dernière ligne découle du fait que la fonction de répartition d’une loi centrée
réduite satisfait l’équation FX (x) + FX (−x) = 1 (prouvé le !). Étant donné que la
densité fX d’une loi normale centrée réduite est continue, alors FX est de classe C 1 .
En dérivant, on obtient le même résultat qu’auparavant.

20
2.3. MOMENTS D’UNE V.A

2.3 Moments d’une v.a


Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, T , P ). Nous dé-
finissons la partie positive de X comme X + := max{X, 0} et la partie négative de X comme
X − := max{−X, 0} (ce qui équivaut à X − = − min{X, 0}). Il est à noter que si X ≥ 0,
alors X + = X et X − = 0 ; et si X ≤ 0, alors X + = 0 et X − = −X. Il est important de
souligner que X + et X − sont tous deux des variables aléatoires positives. Nous rappelons
également que X est intégrable par rapport à la mesure de probabilité P , ce qui signifie que
X ∈ L1R (Ω, T , P ) si Ω |X|dP < ∞. Dans ce cas, l’intégrale de X par rapport à P est définie
R

comme Ω X dP := Ω X + dP − Ω X − dP .
R R R

Définition 2.3.1

Soit X une v.a.r définie sur un espace probabilisé (Ω, T , P ).


1. Si X est positive, son espérance est définie par E(X) :=
R
Ω X dP
(et donc E(X) ∈ [0, +∞]) .

Y
2. On dit que X a une espérance finie si elle est inté-
grable par rapport à la probabilité P . Autrement dit, X
NA
a une espérance finie lorsque E(|X|) Ω |X| dP ∞
R
:= <
+ −
(ou d’une manière équivalente lorsque max{E(X ), E(X )} < ∞) .
Dans ce cas, l’espérance de X est définie comme le nombre réel
E(X) := Ω X dP = E(X + ) − E(X − ).
R
AZ

3. Plus généralement, l’espérance de X est bien définie lorsque


min{E(X + ), E(X − )} < ∞. Dans ce cas, on définit l’espérance de X
comme E(X) := Ω X dP = E(X + ) − E(X − ) ∈ [−∞, +∞].
R
Z.

Proposition 2.3.2

Soit (Ω, T , P) un espace probabilisé et X, Y deux variables aléatoires sur (Ω, T ) :


1. Pour tout événement A ∈ T , E(1A ) = P(A). De plus, si X et Y sont positives
ou intégrables P -presque sûrement, alors E(aX +bY ) = aE(X)+bE(Y ) pour
tous a, b ∈ R.
2. |E(X)| ≤ E(|X|). En particulier, toute variable aléatoire bornée P -presque
sûrement a une espérance finie.
3. Si X ≥ 0 P -presque sûrement, alors E(X) est bien définie et E(X) ≥ 0.
4. Si X ≥ Y P -presque sûrement et que X est positive P -presque sûrement
(resp., intégrable), alors est positive P -presque sûrement (resp., intégrable)
et E(X) ≥ E(Y ). De plus, si X = Y presque sûrement, alors E(X) = E(Y ).

21
2.3. MOMENTS D’UNE V.A

Preuve
1. D’une part, si A ∈ T , alors 1A est une variable aléatoire. De plus, elle est positive.
Ainsi, nous avons E(1A ) = Ω 1A dP = A dP = P (A).
R R

D’autre part, comme X et Y sont des variables aléatoires réelles, aX + bY est


également une variable aléatoire pour tous a, b ∈ R. De plus, si X et Y sont intégrables
par rapport à P , alors |aX + bY | ≤ |a||X| + |b||Y |. Ainsi, aX + bY est intégrable
par rapport à P , et donc a une espérance finie. Nous avons alors : E(aX + bY ) =
Ω (aX + bY ) dP = a Ω X dP + b Ω Y dP = aE(X) + bE(Y ). Le cas où X et Y sont des
R R R

variables mesurables positives est démontré de manière similaire.


2. |E(X)| = |E(X + ) − E(X − )| ≤ E(X + ) + E(X − ) = E(|X|).
3. Si X ≥ 0 presque sûrement, alors X = X + = |X| presque sûrement. Ainsi, E(|X|) =
+
Ω |X| dP = Ω X dP , ce qui signifie que E(X) = E(X ) = E(|X|) ≥ 0.
R R

L’assertion (iv) découle directement de (iii).

Proposition 2.3.3 (L’inégalité de Cauchy-Schwarz)

Y
Soit X une v.a.r définie sur un espace probabilisé (Ω, T , P ). :
NA
1. Si X 2 et Y 2 ont une espérance finie, c’est-à-dire E(X 2 ) < ∞ et E(Y 2 ) < ∞,
alors E(|XY |) < ∞ et l’inégalité de Cauchy-Schwarz s’applique :
q q
E(|XY |) ≤ E(X 2 ) E(Y 2 ).
AZ

2. Si E(X 2 ) < ∞, alors E(|X|) < ∞ et E(X)2 ≤ E(X 2 ).

Preuve
2 2 2 2
Z.

On a (X − Y )2 ≥ 0, donc XY ≤ X +Y 2
. Ainsi |XY | ≤ X +Y
2
, et donc E(|XY |) < ∞.
La démonstration de l’inégalité de Cauchy-Schwarz est classique, notamment car l’espace
L2 (Ω, T , P ) est un espace de Hilbert. Pour le deuxième point, il découle directement de l’in-
égalité de Cauchy-Schwarz appliquée aux variables aléatoires X et Y = 1.

Proposition 2.3.4 (Inégalité de Markov)

Soit X une v.a.r sur un espace probabilisé (Ω, T , P ) d’espérance finie. Alors

E(|X|)
P (|X| ≥ α) ≤ .
α

Preuve
On a |X| ≥ α1(|X|≥α) . Donc

E(|X|) ≥ E(α1(|X|≥α) ) = αE(1(|X|≥α) ) = αP (|X| ≥ α).

En divisant de part et d’autre de l’inégalité par α on trouve le résultat recherché.

22
2.3. MOMENTS D’UNE V.A

Il existe une version plus générale de ce théorème.


Corollaire 2.3.5 (Inégalité de Tchebychev)

Soit X une v.a.r sur un espace probabilisé (Ω, T , P ) telle que la variable aléatoire
|X|p a une espérance finie, p ∈ N∗ . Alors, pour tout α > 0, on a

E(|X|p )
P (|X| ≥ α) ≤ .
αp

Preuve
Puisque {|X| ≥ α} ⊂ {|X|p ≥ αp }, le résultat découle de l’inégalité de Markov appliquée à la
variable aléatoire |X|p .

Remarque 2.3.6

Soient (Ω, T , P ) un espace probabilisé, X une v.a.r sur (Ω, T ), et ϕ une fonction
borélienne de R dans R+ ou bien dans R. Il est courant de noter improprement la

Y
composition de fonctions ϕ ◦ X comme ϕ(X), ce raccourci étant justifié par le fait
que (ϕ ◦ X)(ω) = ϕ(X(ω)) pour tout ω ∈ Ω.
NA
Soit X une v.a.r sur (Ω, T , P ) et ϕ une fonction borélienne de R dans R+ ou dans R. Le
théorème suivant montre que le calcul de E(ϕ(X)) ne nécessite pas le calcul de la loi de ϕ(X).
AZ

Théorème 2.3.7 (Théorème de transport)

Soient (Ω, T , P ) un espace probabilisé et X une v.a.r sur (Ω, T ). Alors :


1- Si ϕ est une fonction borélienne de R dans R+ , alors
Z.

Z Z
ϕ(X)dP = ϕdPX .
Ω R

2- Soit ϕ une fonction borélienne de R dans R, la fonction ϕ(X) ∈ L1R (Ω, T , P ) si et


seulement si ϕ ∈ L1R (R, B(R), PX ). De plus, si ϕ(X) ∈ L1R (Ω, T , P ), alors
Z Z
E(ϕ(X)) = ϕ(X)dP = ϕdPX .
Ω R

Remarque 2.3.8
X
Si la loi PX est discrète, i.e. PX = pn δxn , où X(Ω) = {x1 , x2 , . . . } et pn := P (X =
n∈N
xn ), alors
Z Z X X
E(ϕ(X)) = ϕ(X)dP = ϕdPX = ϕ(xn )pn = ϕ(xn )p(X = xn ).
Ω R n∈N n∈N

23
2.3. MOMENTS D’UNE V.A

Si de plus X à une densite de probabilité, alors on a le résultat suivant :

Proposition 2.3.9

Soit X une v.a.r, admettant la densité fX . Si g est une fonction borélienne sur R, elle
est intégrable par rapport à la loi PX de X si el seulement si la fonction produit f g
est intégrable par rapport à la mesure de Lebesgue, et on a alors
Z Z
E(g(X)) = gdPX = g(x)fX (x)dx.

R +∞
En particulier, E(X) = −∞ xfX (x)dx.

Y
NA
AZ
Z.

24
2.3. MOMENTS D’UNE V.A

Exemple 2.3.10

1. Soit X de loi 21 δ0 + 12 δ1 . Alors E(X) = 1/2.


1 Pn
2. Soient x1 , . . . , xn des réels et Pn = n i=1 δxi . Si X est de loi Pn , alors E(X) =
1 Pn
n i=1 xi est la moyenne des xi .

3. Si X est de loi binomiale B(n, p),

kCkn pk (1 − p)n−k
X
E(X) =
0≤k≤n

Ck−1 k−1
(1 − p)(n−1)−(k−1)
X
= pn n−1 p
1≤k≤n

Ckn−1 pk (1 − p)(n−1)−k = pn
X
= pn
0≤k≤n−1

4. Si X suit une loi de Poisson P(λ), on vérifie comme dans l’exemple (iii) que
E(X) = λ.
5. Soit X de loi exponentielle de fonction de répartition 1 − F (t) = e−θt , t ≥ 0.

Y
Elle a pour densité θe−θx 1[0,∞[ (x). Ainsi, en intégrant par parties,
NA
Z ∞ Z ∞
−θx 1
E(X) = xθe dx = e−θx dx =
0 0 θ
6. (loi de Cauchy standard) Soit X la v.a.r de densité fX par rapport à la me-
1
sure de Lebesgue, définie par fX (x) = π(1+x 2 ) sur R. Alors X n’admet pas
AZ

d’espérance. En effet, d’après le théorème du transport on a


Z +∞ Z +∞
+
E(X ) = max{x, 0}fx (x)dx = xfx (x)dx
−∞ 0
Z +∞
x 1Z +∞ 1
= dx ≥ dx = +∞.
Z.

0 π(1 + x2 ) π 1 2x

+∞ 0
De même E(X − ) = −∞ max{−x, 0}fx (x)dx −∞ −xfx (x)dx
R R
= =
R +∞ R +∞ +
0 xfx (−x)dx = 0 xfx (x)dx = E(X ) = +∞. Il est important de
noter que les variables aléatoires positives X + et X − n’ont pas de den-
sité, car leur fonction de répartition FX + = FX 1[0,+∞[ et FX − (x) = (1 −
FX ((−x)− ))1[0,+∞[ (x), ne sont pas continues en 0.
7. Si X est de loi N (0, 1), alors, par symétrie,
Z
2 /2 dx
E(X) = xe−x √ = 0.
R 2π
Donc si X est de loi N (m, σ 2 ), alors Y := X−m
σ
suit la loi normal centrée
réduite N (0, 1), par suite E(X) = E(σY + m) = m.

Nous rappelons à présent les inégalités de Jensen pour des variables aléatoires.

25
2.3. MOMENTS D’UNE V.A

Théorème 2.3.11 (Inégalité de Jensen)

Si ϕ est convexe sur R et si X est une variable aléatoire réelle telle que X et ϕ(X)
sont intégrables, alors
ϕ(E(X)) ≤ E(ϕ(X)).

Preuve
Puisque ϕ est convexe sur R, pour tout a ∈ R, il existe ca ∈ R tel que ca (x − a) ≤ ϕ(x) − ϕ(a)
pour tout x ∈ R. En choisissant a = E(X), nous obtenons ca (X − E(X)) ≤ ϕ(X) − ϕ(E(X)).
Intégrons des deux côtés de cette inégalité par rapport à la mesure de probabilité P :
Z Z Z
0 = ca (X − a) dP ≤ (ϕ(X) − ϕ(a))dP = ϕ(X) dP − ϕ(E(X)).
Ω Ω Ω

Par conséquent, E(ϕ(X)) ≥ ϕ(E(X)).

Remarque 2.3.12

Y
Dans la pratique, l’inégalité de Jensen est le plus souvent utilisée pour les fonctions
NA
ϕ(x) = |x|, x2 et 1/x lorsque x > 0. En particulier, pour une variable aléatoire X
intégrable, |E(X)| ≤ E(|X|) ; pour une variable aléatoire X dont le carré est in-
tégrable, (E(X))2 ≤ E (X 2 ) ; pour une variable aléatoire X à valeurs strictement
positives, E(1/X) ≥ 1/E(X).
AZ

La définition suivante décrit une mesure de la dispersion des valeurs d’une variable par
rapport à sa moyenne.
Z.

Définition 2.3.13

Soit X une variable aléatoire réelle dont le carré est intégrable. On appelle variance
de X, ou de sa loi P X , et on note Var(X), la quantité
 
Var(X) = E (X − E(X))2
q
La racine Var(X) est appelée l’écart type, parfois noté σX . Une variable aléatoire
d’écart type 1 est dite réduite.

26
2.3. MOMENTS D’UNE V.A

Remarque 2.3.14

(i) Une expression équivalente de la variance est (Formule de Huygens)


 
Var(X) = E X 2 − E(X)2 .

En effet, le développement du carré et la linéarité de l’espérance montrent que


   
Var(X) = E X 2 − 2XE(X) + E(X)2 = E X 2 − 2E(X)2 + E(X)2 .

(ii) Une autre écriture de la variance, de contenu plus géométrique, est en terme
de norme dans l’espace de Hilbert L2 (Ω, T , P ), mesurant la distance de X à son
espérance :

σX = ∥X − E(X)∥2 .

Y
Exemple 2.3.15
NA
(i) Si Var(X) = 0, alors X est p.s. constante, égale à sa moyenne E(X).

(ii) Si X est de loi de Bernoulli B(n, p), sa variance est np(1 − p).
AZ

(iii) Si X suit une loi N (0, 1), E(X) = 0 et donc


  Z
2 /2 dx
Var(X) = E X 2
= x2 e−x √ =1
R 2π
(intégration par parties). Ceci justifie la terminologie de loi normale centrée réduite
Z.

pour N (0, 1).

(iv) Si α est un nombre réel, Var(X + α) = Var(X) et Var(αX) = α2 Var(X). En


particulier, si X est de loi N (m, σ 2 ), on a σX
2
:= Var(X) = σ 2 et σX = σ.

Proposition 2.3.16 (Inégalité de Bienaymé-Tchebychev)

Soit X une v.a.r sur un espace probabilisé (Ω, T , P ), dont le carré est intégrable (i.e.
E(X 2 ) < ∞). Alors
σ2
P (|X − E(X)| ≥ α) ≤ X2 .
α

Preuve
C’est une application directe de l’inégalité de Tchebychev (Corollaire 2.3.5) sur la v.a (X −
E(X))

En d’autres termes, une faible variance indique que X est proche de son espérance E(X).

27

Vous aimerez peut-être aussi