Chap 2
Chap 2
Chap 2
2.1 Définitions
Définition 2.1.1 (Variable aléatoire réelle)
Proposition 2.1.2
Y
Soit (Ω, T ) un espace probabilisable. X : Ω → R est une v.a.r si et seulement si pour
NA
tout x ∈ R, l’ensemble X −1 (] − ∞, x]) est un événement.
Exemple
AZ
10
2.1. DÉFINITIONS
Soit (Ω, T , P ) un espace probabilisé. On dit que P est discrète si elle est purement
atomique (i.e. P (Ac ) = 0, où A est l’ensemble de ses atomes qui est nécesseairement
dénombrable). La probabilité P s’écrit alors P = a∈A P ({a})δa , où δa désigne la
P
Y n
!
n k
p (1 − p)n−k δk
X
B(n, p) =
NA
k=0 k
k=0 k!
k=1
Proposition 2.1.6
Soit P une probabilité sur la tribu des boréliens de R. Alors la fonction de répartition
F de P satisfait les conditions suivantes :
1. F est croissante.
2. F est continue à droite.
3. limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1.
11
2.1. DÉFINITIONS
Preuve
1. Pour tout x < y ∈ R, ] − ∞, x] ⊂] − ∞, y], ce qui implique que F (x) ≤ F (y), donc F est
croissante.
2. Soit x ∈ R et (xn )n une suite réelle décroissante convergente vers x. Alors ] − ∞, x] =
n ] − ∞, xn ] et ] − ∞, xn+1 ] ⊂] − ∞, xn ] pour tout n. Ainsi, F (x) = P (X ≤ x) =
T
x.
3. Soit (xn )n une suite réelle décroissante convergeant vers −∞. Alors ∅ = n ] − ∞, xn ]
T
1.
Soient (Ω, T , P ) un espace probabilisé et X une v.a.r sur (Ω, T ). On appelle loi de
probabilité de la variable aléatoire X la probabilité PX image de P par X. Autrement
Y
dit, PX est définie par PX (A) := P (X ∈ A) pour tout A ∈ B(R).
NA
Définition 2.1.8 (Fonction de répartition d’une v.a.r)
Soient (Ω, T , P ) un espace probabilisé et X une v.a.r sur (Ω, T ). On appelle fonction
de répartition de la variable aléatoire X, la fonction de répartition FX de la loi PX
AZ
Le lemme suivant est très utile pour montrer l’unicité d’une mesure de probabilité qui vérifie
Z.
certaine propriétés.
Lemme 2.1.9
12
2.1. DÉFINITIONS
Preuve
Pour ω ∈]0, 1[, notons Aω = {x ∈ R | F (x) ≥ ω}. Ainsi, X(ω) = inf Aω . Comme limx→+∞ F (x) =
1, nous pouvons affirmer que Aω n’est pas vide. De plus, étant donné que limx→−∞ F (x) = 0,
Y
l’ensemble Aω est minoré. Par conséquent, la fonction X est bien définie. Montrons que
NA
X(ω) ≤ x si et seulement si ω ≤ F (x). Tout d’abord, la famille (Aω )ω est croissante (au
sens de l’inclusion). Par conséquent, X est décroissante. Il en résulte alors que X est une
variable aléatoire (mesurable). En effet, si ω ≤ F (x), alors x ∈ Aω , ce qui implique X(ω) ≤ x.
La réciproque vient du fait que X(ω) ∈ Aω , c’est-à-dire ω ≤ F (X(ω)). En effet, considérons
AZ
une suite strictement décroissante (xn ) d’éléments de Aω telle que limn xn = inf Aω = X(ω).
Par la continuité à droite de F , limn F (xn ) = F (X(ω)). Mais également, par définition de
Aω , limn F (xn ) ≥ ω. Par conséquent, X(ω) ∈ Aω . Ainsi, si X(ω) ≤ x, alors, par croissance
de F , F (X(ω)) ≤ F (x), et finalement ω ≤ F (x). Par conséquent, {X ≤ x} =]0, F (x)] et
F (x) = λ(]0, F (x)]) = λ(X ≤ x) = λX (] − ∞, x]) = FX (x) pour tout x ∈ R. La probabilité
Z.
cherchée est alors PX = λX , c’est-à-dire la loi de probabilité uniforme sur ]0, 1[ de la variable
aléatoire X.
Remarque 2.1.11
13
2.1. DÉFINITIONS
Proposition 2.1.13
Y
3. P (X < x) = FX (x− ), où FX (x− ) est la limite à gauche de FX en x.
NA
4. P (X ≥ x) = 1 − FX (x− ).
5. P (X = x) = FX (x) − FX (x− ).
6. P (x < X ≤ y) = FX (y) − FX (x).
7. P (x < X < y) = FX (y − ) − FX (x).
AZ
8. P (x ≤ X < y) = FX (y − ) − FX (x− ).
9. P (x ≤ X ≤ y) = FX (y) − FX (x− ).
Z.
Corollaire 2.1.14
Soient (Ω, T , P ) un espace probabilisé et X1 , . . . , Xn des v.a.r sur (Ω, T ). On dit que
les v.a.r X1 , . . . , Xn sont indépendantes (ou que la famille (X1 , . . . , Xn ) est indépen-
dante) si les tribus engendrées par X1 , . . . , Xn sont indépendantes.
14
2.1. DÉFINITIONS
Proposition 2.1.16
Soient (Ω, T , P ) un espace probabilisé et X1 , . . . , Xn des v.a.r sur (Ω, T ). les v.a.r
X1 , . . . , Xn sont indépendantes si et seulement si P (X1 ≤ x1 , . . . , Xn ≤ xn ) =
n
Y
P (Xk ≤ xk ), pour tout x1 , . . . , xn ∈ R.
k=1
Remarque 2.1.17
Y
Proposition 2.1.18 (Indépendance et composition)
NA
Soit (E, T , p) un espace probabilisé, n ≥ 1, m ≥ 1 et X1 , . . . , Xn , Y1 , . . . , Ym des
variables aléatoires indépendantes. Soit ϕ une fonction borélienne de Rn dans R et ψ
une fonction borélienne de Rm dans R. Alors, les variables aléatoires ϕ(X1 , . . . , Xn )
et ψ(Y1 , . . . , Ym ) sont indépendantes. Nous avons ici décomposé la famille initiale
AZ
15
2.2. PROBABILITÉS DE DENSITÉ
Soit (X, T , µ) un espace mesuré, et f : X → [0, +∞] une fonction mesurable. Soit
l’application ν : T → [0, +∞]
Z Z
ν(A) = f dµ = f 1A dµ
A
Alors, ν est une mesure sur (X, T ) appelée mesure de densité f par rapport à µ.
Définition 2.2.2
Une probabilité P sur B(R) est dite une probabilité de densité par rapport à la
mesure
Z de Lebesgue λ s’il existe une fonction mesurable positive f telle que P (A) =
f dλ, pour tout A ∈ B(R). On pose alors P = f λ (on dit aussi que f est la densité
Y
A
de probabilité P par rapport à λ).
NA
Les lois de probabilité définies sur l’espace mesurable B(R), relatives à des densités par rap-
port à la mesure de Lebesgue, énoncées dans les exemples suivants, seront fréquemment
AZ
employées dans le cadre du calcul des probabilités. Il est à noter qu’une loi de probabilité,
par définition, constitue une mesure de probabilité sur B(R).
Lois de probabilité usuelles sur R avec leurs densités :
1. Loi uniforme sur un intervalle :
1
— Densité : f (x) = b−a 1[a,b] (x), pour x ∈ R.
Z.
5. Loi de Laplace :
1 − |x−µ|
— Densité : f (x) = 2b e b , pour x ∈ R, où le réel µ est un paramètre de position et
b > 0 un paramètre d’échelle. Si µ = 0 et b = 1, la loi de Laplace est dite standard et
sa restriction à la demi-droite réelle positive est la loi exponentielle de paramètre 12 .
On aborde maintenant la notion de mesure absolument continue, laquelle se révèle perti-
nente en lien avec les mesures de densité.
16
2.2. PROBABILITÉS DE DENSITÉ
Y
µ = g · m. Alors, f = g m-presque partout. En effet, pour tout A ∈ T , on
doit avoir A f dm = A g dm. En choisissant A = {f > g} puis A = {f < g},
R R
NA
on en déduit que {f >g} (f − g) dm + {f <g} (g − f ) dm = 0, ce qui implique
R R
Soient (E, T , ν) un espace mesuré σ-fini et µ une mesure finie sur T . Alors, µ ≪ ν
(i.e. µ est absolument continue par rapport à ν) si et seulement si µ est une mesure
de densité par rapport à ν.
17
2.2. PROBABILITÉS DE DENSITÉ
Remarque 2.2.8
(1) Si X à densité, alors la fonction de répartiton FX est continue, ce qui n’est pas
vrai pour toutes les fonctions de répartitions. Il existe même des variables aléatoires
dont la fonction de répartition est continue qui n’admettent pas de densité.
(2) Si X à densité f et g est une fonction borélienne positive tq λ(f ̸= g) = 0, alors
g est aussi une densité de X.
(3) La densité f d’une v.a.r X et la fonction de répartition FX étant liées par
Y
Rx
FX (x) = −∞ f (y)dy, on est tenté de conclure que FX est dérivable et que sa dé-
′
NA
rivée vaut F (x) = f (x). C’est vrai en tout point x où la fonction f est continue. On
peut montrer que c’est vrai pour λ−presque tout x. Comme la densité f n’est définie
de manière unique qu’à un ensemble de mesure de Lebesgue nulle près, «concrè-
tement» si on connaît FX et si on sait que X admet une densité (par exemple si
FX est continue et de classe C 1 sauf peut-être en un nombre fini de points), on
AZ
peut prendre pour comme densité la fonction f qui est la dérivée de FX partout où
celle-ci existe, et des valeurs arbitraires (par exemple 0) ailleurs.
Z.
Soit X une v.a. réelle de densité f . Soit Y = g(X) pour une autre fonction borélienne
g donnée. Pent-on exprimer la densile de la v.a.r Y, si elle existe, en termes de f et g ? On
le peut, dans les " bons cas", comme nous allons le voir maintenant. Commençons par un
résultat trivial :
Théorème 2.2.9
Si FY est continue et dérivable sauf en un nombre fini de points, on peut utiliser le résultat
ci-dessus pour obtenir la densité Fy de Y.
18
2.2. PROBABILITÉS DE DENSITÉ
Exemple 2.2.10
1
FY (y) = P − log X ⩽ y
λ
= P(log X ⩾ −λy)
= P(X ⩾ exp(−λy))
1 − exp(−λy)
si y ⩾ 0
=
0
sinon.
Y
et on voit que Y est exponentielle de paramètre λ.
NA
Attention : cet exemple est très simple car g est injective. Le résultat général pour g injective
est donné ci-dessous. le cas non injective étant donné plus bas.
Corollaire 2.2.11
AZ
fX (h(y)) |h′ (y)|
si y ∈ g (R)
fY (y) = fX (h(y)) |h′ (y)| 1g(R) (y) =
0 sinon.
19
2.2. PROBABILITÉS DE DENSITÉ
Corollaire 2.2.12
Exemple 2.2.13
Soit X une v.a. de loi N (0, 1), et Y = X2 . On applique le résultat précédent à g(x) =
Y
′
x2 , qui n’est pas injective. Prenons I1 =] − ∞, 0[ et I2 = [0, ∞[ (ici I1 =] − ∞, 0[= I1
′
et I2 =]0, ∞[) Alors g est injective et strictement monotone sur I1 et sur I2 de sorte
NA
√ √
que h1 :]0, ∞[−→ R avec h1 (y) = − y et h2 :]0, ∞[−→ R avec h2 (y) = y, On a
1 1
|h′i (y)| = √ = √ , pour i = 1, 2.
2 y 2 y
AZ
1 1 1 1
fY (y) = √ e−y/2 √ 1]0,∞[ (y) + √ e−y/2 √ 1]0,∞[ (y)
2π 2 y 2π 2 y
1 1
= √ √ e−y/2 1]0,∞[ (y).
Z.
2π y
La v.a. Y est appelée variable χ2 (ou, khi-deux) à 1 degré de libertés.
Remarque 2.2.14
L’exemple ci-dessus est assez simple pour être résolu sans recourir au corollaire
2.2.12. En effet, soit y ∈ R, on a
√ √
FY (y) = P(Y ⩽ y) = P X2 ⩽ y = P(− y ⩽ X ⩽ y)1[0,+∞[ (y)
√ √ √
= [FX ( y) − FX (− y)]1[0,+∞[ (y) = [2FX ( y) − 1]1[0,+∞[ (y).
La dernière ligne découle du fait que la fonction de répartition d’une loi centrée
réduite satisfait l’équation FX (x) + FX (−x) = 1 (prouvé le !). Étant donné que la
densité fX d’une loi normale centrée réduite est continue, alors FX est de classe C 1 .
En dérivant, on obtient le même résultat qu’auparavant.
20
2.3. MOMENTS D’UNE V.A
comme Ω X dP := Ω X + dP − Ω X − dP .
R R R
Définition 2.3.1
Y
2. On dit que X a une espérance finie si elle est inté-
grable par rapport à la probabilité P . Autrement dit, X
NA
a une espérance finie lorsque E(|X|) Ω |X| dP ∞
R
:= <
+ −
(ou d’une manière équivalente lorsque max{E(X ), E(X )} < ∞) .
Dans ce cas, l’espérance de X est définie comme le nombre réel
E(X) := Ω X dP = E(X + ) − E(X − ).
R
AZ
Proposition 2.3.2
21
2.3. MOMENTS D’UNE V.A
Preuve
1. D’une part, si A ∈ T , alors 1A est une variable aléatoire. De plus, elle est positive.
Ainsi, nous avons E(1A ) = Ω 1A dP = A dP = P (A).
R R
Y
Soit X une v.a.r définie sur un espace probabilisé (Ω, T , P ). :
NA
1. Si X 2 et Y 2 ont une espérance finie, c’est-à-dire E(X 2 ) < ∞ et E(Y 2 ) < ∞,
alors E(|XY |) < ∞ et l’inégalité de Cauchy-Schwarz s’applique :
q q
E(|XY |) ≤ E(X 2 ) E(Y 2 ).
AZ
Preuve
2 2 2 2
Z.
On a (X − Y )2 ≥ 0, donc XY ≤ X +Y 2
. Ainsi |XY | ≤ X +Y
2
, et donc E(|XY |) < ∞.
La démonstration de l’inégalité de Cauchy-Schwarz est classique, notamment car l’espace
L2 (Ω, T , P ) est un espace de Hilbert. Pour le deuxième point, il découle directement de l’in-
égalité de Cauchy-Schwarz appliquée aux variables aléatoires X et Y = 1.
Soit X une v.a.r sur un espace probabilisé (Ω, T , P ) d’espérance finie. Alors
E(|X|)
P (|X| ≥ α) ≤ .
α
Preuve
On a |X| ≥ α1(|X|≥α) . Donc
22
2.3. MOMENTS D’UNE V.A
Soit X une v.a.r sur un espace probabilisé (Ω, T , P ) telle que la variable aléatoire
|X|p a une espérance finie, p ∈ N∗ . Alors, pour tout α > 0, on a
E(|X|p )
P (|X| ≥ α) ≤ .
αp
Preuve
Puisque {|X| ≥ α} ⊂ {|X|p ≥ αp }, le résultat découle de l’inégalité de Markov appliquée à la
variable aléatoire |X|p .
Remarque 2.3.6
Soient (Ω, T , P ) un espace probabilisé, X une v.a.r sur (Ω, T ), et ϕ une fonction
borélienne de R dans R+ ou bien dans R. Il est courant de noter improprement la
Y
composition de fonctions ϕ ◦ X comme ϕ(X), ce raccourci étant justifié par le fait
que (ϕ ◦ X)(ω) = ϕ(X(ω)) pour tout ω ∈ Ω.
NA
Soit X une v.a.r sur (Ω, T , P ) et ϕ une fonction borélienne de R dans R+ ou dans R. Le
théorème suivant montre que le calcul de E(ϕ(X)) ne nécessite pas le calcul de la loi de ϕ(X).
AZ
Z Z
ϕ(X)dP = ϕdPX .
Ω R
Remarque 2.3.8
X
Si la loi PX est discrète, i.e. PX = pn δxn , où X(Ω) = {x1 , x2 , . . . } et pn := P (X =
n∈N
xn ), alors
Z Z X X
E(ϕ(X)) = ϕ(X)dP = ϕdPX = ϕ(xn )pn = ϕ(xn )p(X = xn ).
Ω R n∈N n∈N
23
2.3. MOMENTS D’UNE V.A
Proposition 2.3.9
Soit X une v.a.r, admettant la densité fX . Si g est une fonction borélienne sur R, elle
est intégrable par rapport à la loi PX de X si el seulement si la fonction produit f g
est intégrable par rapport à la mesure de Lebesgue, et on a alors
Z Z
E(g(X)) = gdPX = g(x)fX (x)dx.
R +∞
En particulier, E(X) = −∞ xfX (x)dx.
Y
NA
AZ
Z.
24
2.3. MOMENTS D’UNE V.A
Exemple 2.3.10
kCkn pk (1 − p)n−k
X
E(X) =
0≤k≤n
Ck−1 k−1
(1 − p)(n−1)−(k−1)
X
= pn n−1 p
1≤k≤n
Ckn−1 pk (1 − p)(n−1)−k = pn
X
= pn
0≤k≤n−1
4. Si X suit une loi de Poisson P(λ), on vérifie comme dans l’exemple (iii) que
E(X) = λ.
5. Soit X de loi exponentielle de fonction de répartition 1 − F (t) = e−θt , t ≥ 0.
Y
Elle a pour densité θe−θx 1[0,∞[ (x). Ainsi, en intégrant par parties,
NA
Z ∞ Z ∞
−θx 1
E(X) = xθe dx = e−θx dx =
0 0 θ
6. (loi de Cauchy standard) Soit X la v.a.r de densité fX par rapport à la me-
1
sure de Lebesgue, définie par fX (x) = π(1+x 2 ) sur R. Alors X n’admet pas
AZ
0 π(1 + x2 ) π 1 2x
+∞ 0
De même E(X − ) = −∞ max{−x, 0}fx (x)dx −∞ −xfx (x)dx
R R
= =
R +∞ R +∞ +
0 xfx (−x)dx = 0 xfx (x)dx = E(X ) = +∞. Il est important de
noter que les variables aléatoires positives X + et X − n’ont pas de den-
sité, car leur fonction de répartition FX + = FX 1[0,+∞[ et FX − (x) = (1 −
FX ((−x)− ))1[0,+∞[ (x), ne sont pas continues en 0.
7. Si X est de loi N (0, 1), alors, par symétrie,
Z
2 /2 dx
E(X) = xe−x √ = 0.
R 2π
Donc si X est de loi N (m, σ 2 ), alors Y := X−m
σ
suit la loi normal centrée
réduite N (0, 1), par suite E(X) = E(σY + m) = m.
Nous rappelons à présent les inégalités de Jensen pour des variables aléatoires.
25
2.3. MOMENTS D’UNE V.A
Si ϕ est convexe sur R et si X est une variable aléatoire réelle telle que X et ϕ(X)
sont intégrables, alors
ϕ(E(X)) ≤ E(ϕ(X)).
Preuve
Puisque ϕ est convexe sur R, pour tout a ∈ R, il existe ca ∈ R tel que ca (x − a) ≤ ϕ(x) − ϕ(a)
pour tout x ∈ R. En choisissant a = E(X), nous obtenons ca (X − E(X)) ≤ ϕ(X) − ϕ(E(X)).
Intégrons des deux côtés de cette inégalité par rapport à la mesure de probabilité P :
Z Z Z
0 = ca (X − a) dP ≤ (ϕ(X) − ϕ(a))dP = ϕ(X) dP − ϕ(E(X)).
Ω Ω Ω
Remarque 2.3.12
Y
Dans la pratique, l’inégalité de Jensen est le plus souvent utilisée pour les fonctions
NA
ϕ(x) = |x|, x2 et 1/x lorsque x > 0. En particulier, pour une variable aléatoire X
intégrable, |E(X)| ≤ E(|X|) ; pour une variable aléatoire X dont le carré est in-
tégrable, (E(X))2 ≤ E (X 2 ) ; pour une variable aléatoire X à valeurs strictement
positives, E(1/X) ≥ 1/E(X).
AZ
La définition suivante décrit une mesure de la dispersion des valeurs d’une variable par
rapport à sa moyenne.
Z.
Définition 2.3.13
Soit X une variable aléatoire réelle dont le carré est intégrable. On appelle variance
de X, ou de sa loi P X , et on note Var(X), la quantité
Var(X) = E (X − E(X))2
q
La racine Var(X) est appelée l’écart type, parfois noté σX . Une variable aléatoire
d’écart type 1 est dite réduite.
26
2.3. MOMENTS D’UNE V.A
Remarque 2.3.14
(ii) Une autre écriture de la variance, de contenu plus géométrique, est en terme
de norme dans l’espace de Hilbert L2 (Ω, T , P ), mesurant la distance de X à son
espérance :
σX = ∥X − E(X)∥2 .
Y
Exemple 2.3.15
NA
(i) Si Var(X) = 0, alors X est p.s. constante, égale à sa moyenne E(X).
(ii) Si X est de loi de Bernoulli B(n, p), sa variance est np(1 − p).
AZ
Soit X une v.a.r sur un espace probabilisé (Ω, T , P ), dont le carré est intégrable (i.e.
E(X 2 ) < ∞). Alors
σ2
P (|X − E(X)| ≥ α) ≤ X2 .
α
Preuve
C’est une application directe de l’inégalité de Tchebychev (Corollaire 2.3.5) sur la v.a (X −
E(X))
En d’autres termes, une faible variance indique que X est proche de son espérance E(X).
27