Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Proba Va2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 17

Probabilités et variables aléatoires

Préparation à l’agrégation interne


Frédérique Bienvenüe-Duheille
frederique.bienvenue@univ-lyon1.fr

1 Probabilité
1.1 Définitions
On se place sur un ensemble Ω appelé espace de probabilité ou univers.
Une tribu sur Ω est un sous-ensemble Σ de l’ensemble des parties de Ω tel que ∅ ∈ Σ, Σ est
stable par passage au complémentaire (i.e. si A ∈ Σ, alors Ac ∈ Σ) et par réunion dénombrable
(i.e. si (An ) est une famille dénombrable de parties de Ω telle que pour tout n, An ∈ Σ, alors
∪n An ∈ Σ).
On peut alors vérifier qu’une tribu est également stage par intersection dénombrable .
Le plus souvent, si Ω est dénombrable, la tribu utilisée sera P(Ω).
Dans le vocabulaire probabiliste,
– Un élément ω de Ω est appelé une épreuve
– Un sous-ensemble A de Ω qui appartient à Σ est un événement.
– Un événement élémentaire est un singleton de Ω.
– L’événement certain est Ω.
– L’événement impossible est l’ensemble vide.
– Deux événements disjoints sont dits incompatibles.

Définition 1.1 Une mesure de probabilité (P, Σ) est une fonction définie sur Σ et à valeurs
dans R vérifiant les propriétés suivantes :
1. Pour tout événement A de Ω, P(A) ≥ 0.
2. P(Ω) = 1.
3. Si (An )n≥1 est une famille dénombrables de sous-ensembles de Ω deux à deux disjoints,
on a [  X
P An = P(An ).
n≥1 n

On déduit la proposition suivante de la définition d’une mesure de probabilité :

Proposition 1.2 1. P(∅) = 0,


2. Si A est un événement, P(Ω\A) = 1 − P(A),
3. Si A ⊂ B sont deux événements, P(A) ≤ P(B),
4. Pour tout événement A, P(A) ≤ 1,
5. Si A et B sont deux événements, P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

En toute rigueur, P, en tant que fonction, est une mesure de probabilité. Le terme de
probabilité se rapporte à la probabilité P(A) de l’événement A. Par abus de langage, on utilisera
le mot « probabilité » dans les deux cas.
2

Remarque : Le troisième point de la définition signifie qu’une probabilité est une fonction
croissante : c’est une façon de calculer la « taille » des événements.
Pour la suite de ce cours, on se placera sur un espace Ω muni d’une mesure de
probabilité P.

1.2 Probabilités discrètes


La mesure de probabilité P est dite discrète dès que l’espace Ω est fini ou dénombrable
ou plus généralement, dès qu’il existe un sous-ensemble Ω0 de Ω fini ou dénombrable et tel que
P(Ω0 ) = 1. Une probabilité sur un ensemble dénombrable sera toujours discrète.
On se placera dans la suite de ce paragraphe dans le cas où Ω est fini ou dénombrable.

Proposition 1.3 Une probabilité sur un ensemble dénombrable est complètement déterminée
par les P({ω}) pour tout ω ∈ Ω. En effet, pour A ⊂ Ω, on a
X
P(A) = P({ω}).
ω∈A

Remarques : P
– Les poids d’une probabilité discrète P vérifient ω∈Ω P({ω}) = 1.
– Une mesure de probabilité ne permet d’évaluer a priori que la taille de sous-ensembles de
Ω.
Des exemples
• Lancer d’une pièce équilibrée : on souhaite modéliser le résultat du lancer d’une pièce sans
tricherie. Pour cela, on choisit Ω1 = {pile, face}, et donc cardΩ1 = 2. L’ensemble des parties de
Ω1 comporte quatre éléments et on définit la mesure de probabilité P par P{pile} = P{face} =
1/2 puisque les deux événements sont équiprobables (c’est-à-dire de même probabilité).
Remarque : On aurait très bien pu choisir Ω1 = {pile, face, rouge, vert}, et comme mesure
de probabilité P{pile} = P{face} = 1/2 et P{rouge} = P{vert} = 0, mais tant qu’à faire, on
choisit le plus simple...
• Lancer de k pièces, k ≥ 2 : on prend cette fois-ci Ωk = (Ω1 )k , c’est-à-dire l’ensemble des
k
k-uplets de pile ou face. On a cardΩk = 2k et cardP(Ωk ) = 22 . Les différents k-uplets sont tous
équiprobables donc P({ω}) = 2−k , pour tout ω ∈ Ωk .
• Probabilité uniforme discrète : sur un ensemble fini Ω = {ω1 , . . . , ωn }, avec n = card(Ω),
on définit la probabilité uniforme par P({ωi }) = 1/n pour tout i entre 1 et n. Dans ce cas, tous
les ωi ont la même probabilité de se produire (i.e. sont équiprobables), et pour une partie A
de Ω, on a
cardA nb cas favorables
P(A) = = .
n nb cas possibles
Par exemple, lors du lancer d’un dé régulier à six faces, chaque face est obtenue avec la même
probabilité 1/6.
Remarque : Il ne peut bien sûr pas y avoir de loi uniforme sur N.
• Exemple de mesure de probabilité sur N∗ . On lance un dé de façon répétée jusqu’à obtenir
un 6, et on note le numéro du tirage du premier 6. On a évidemment P({1}) = 1/6.
3

On a également

P({2}) = P(au premier tirage, on n’a pas eu de 6 ; au deuxième tirage, on a eu un 6)


5
=
36
car sur les 36 tirages possibles équiprobables, seuls 5 permettent d’obtenir le premier 6 au
deuxième tirage.
De même, pour tout k ≥ 2,
 k−1
5k−1 5 1
P({k}) = P(k − 1 échecs puis une réussite) = k = .
6 6 6

Cela constitue bien une mesure de probabilité discrète sur N∗ puisque k≥1 P(k) = 1.
P

Attention : Ne pas confondre cette probabilité avec la probabilité de tirer un 6 exactement


parmi les k premiers lancers.
Remarque : On pourrait chercher à écrire un univers U permettant de décrire l’intégralité
des résultats des tirages successifs. Le plus simple est de choisir U = {1, . . . , 6}N . Cet ensemble
n’est pas dénombrable. Une tribu raisonnable dont on peut le munir est la tribu cylindrique :
c’est la tribu qui est « engendrée » par tous les événements de la forme (x1 , . . . , xn ) × {0, 1}N ,
avec n ∈ N∗ et (xi )i≤n ) ∈ {0, 1}n (on fixe les n premières composantes et on laisse les autres
libres).

1.3 Probabilité à densité


On se place sur R et on note dx l’élément d’intégration de la mesure de Lebesgue. Soit
f : R → R une fonction positive et d’intégrale sur R égale à 1. On supposera que f est continue
par morceaux. Il est facile de vérifier que l’on définit une mesure de probabilité µ en posant,
pour tout I ⊂ R : Z
µ(I) = 1I (x)f (x) dx.
R

Une telle mesure est dite à densité (par rapport à la mesure de Lebesgue sur R). On dit
également que c’est une probabilité continue.
Des exemples
• La mesure uniforme sur l’intervalle [a, b], où a < b : On définit
Z Z
dx dx
µ(A) = 1A∩[a,b] (x) = 1[a,b] (x) .
R b−a A b−a

• La mesure de Gauss sur R. On utilise ici la fonction


(x − m)2
 
1
f (x) = √ exp − ,
2πσ 2σ 2

où m ∈ R et σ ∈ R+∗ sont deux paramètres fixés. Un joli exercice consiste à prouver (au moins
dans le cas m = 0 et σ = 1 que l’intégrale de la fonction f sur R est égale à 1.
4

2 Probabilité conditionnelle, indépendance


Définition 2.1 On se donne deux événements A et B de Ω, avec P(B) > 0. On définit la
probabilité conditionnelle de A sachant B, notée P(A|B) ou PB (A) par

PB (A) = P(A|B) = P(A ∩ B)/P(B).

Un cas typique où interviennent des probabilités conditionnelles est les expériences aléatoires
obtenues par des tirages successifs de boules dans des urnes (mais il y a bien sûr d’autres cadres
où elles apparaissent naturellement !) On résout ces question le plus souvent en dressant un arbre
de probabilité : les données figurant sur les arêtes de l’arbre ont des probabilités conditionnelles.
La probabilité conditionnelle vérifie les mêmes propriétés qu’une probabilité : on a ainsi
PB (Ω) = 1, PB (∅) = 0, si A1 et A2 sont disjoints, PB (A1 ∪A2 ) = PB (A1 )+PB (A2 ), PB (Ω\A) =
1 − PB (A)...
On peut donc énoncer la proposition suivante :

Proposition 2.2 Soit B un événement de probabilité strictement positive. On note PB la pro-


babilité conditionnelle sachant l’événement B. Alors PB est une probabilité sur Ω, c’est-à-dire
que
– Pour tout A ∈ Ω, PB (A) ≥ 0.
– PB (Ω) = 1
– Si A1 et A2 sont incompatibles, PB (A1 ∪ A2 ) = PB (A1 ) + PB (A2 ).

Les probabilités conditionnelles permettent de décomposer un événement suivant des sous-


ensembles de Ω sur lesquels on maı̂trise mieux ce qui se passe. Pour cela, introduisons la notion
de système complet d’événements :

Définition 2.3 Un système complet d’événements est une famille dénombrable ou finie
(Bn ) d’événements deux à deux disjoints et vérifiant ∪n Bn = Ω.

Remarque : Plusieurs définitions d’un système complet d’événements cohabitent : suivant


l’une d’elle par exemple, un système complet d’événements est une partition de Ω, d’autres
définitions imposent que les Bn soient tous de probabilité strictement positive ; on peut aussi
ne pas imposer que la réunion des Bn soit égale à Ω, mais plutôt qu’elle soit de probabilité
1... Le point commun à ces définitions est que les Bn sont en nombre dénombrables, deux à
deux disjoints et que leur réunion est « presque » Ω. La définition indiquée ici n’implique en
particulier pas que les Bn soient non vides.
Remarque : Si l’ensemble Ω est fini, tout système complet ne comporte qu’un nombre fini
d’événements non vides.

Proposition 2.4 (Formule des probabilités totales) Soit (Bn ) un système complet d’évé-
nements tel que, pour tout n ≥ 1, P(Bn ) > 0, et A un événement quelconque. On a
X X
P(A) = P(A ∩ Bn ) = PBn (A)P(Bn ).
n n
5

Remarque : Si par exemple P(B1 ) = 0, on pourrait poser PB1 (A) = 0, ou 1, ou 1/2 pour
tout A, cela n’interviendrait pas dans la formule ci-dessus. Néanmoins il est plus pédagogique
d’imposer que les Bn soient tous de probabilité strictement positive, pour que la formule ci-
dessus soit rigoureuse.
Preuve : Par définition, pour tout n, PBn (A)P(Bn ) = P(A ∩ Bn ) et les événements A ∩ Bn sont
deux à deux disjoints car les Bn le sont. On en déduit donc que
X
PBn (A)P(Bn ) = P(∪n (A ∩ Bn ))
n
= P(A ∩ (∪n Bn )) = P(A).


Un problème courant est de déterminer PB (A) à partir de PA (B). La seule donnée de PA (B)
n’y suffit pas. Il faut par exemple connaı̂tre aussi P(A) et P(B) : on a alors

PB (A) = PA (B)P(A)/P(B).

Une autre possibilité est de connaı̂tre P(A) et PĀ (B) où Ā est le complémentaire de A :
Formule de Bayes :
– Soient A et B deux événements de probabilité strictement positive, vérifiant également
P(Ā) > 0. On vérifie que

PA (B)P(A)
PB (A) = .
PA (B)P(A) + PĀ (B)P(A)

– Soient (An ) un système complet d’événements tel que, pour tout n, P(An ) > 0 et B un
événement tel que P(B) > 0. On a pour tout i :

PA (B)P(Ai )
PB (Ai ) = P i .
n PAn (B)P(An )

Preuve : Le dénominateur du membre de droite vaut en fait P(B), alors que le numérateur vaut
P(A ∩ B), d’où le résultat. 

Définition 2.5 Deux événements A et B sont dits indépendants si P(A ∩ B) = P(A)P(B).


On a alors P(A|B) = P(A) et P(B|A) = P(B) si P(A) > 0 et P(B) > 0.

Exercice 1 1. Montrer qu’un événement de probabilité nulle est indépendant de tout évé-
nement.
2. Montrer que si A et B sont indépendants, alors Ω\A et B le sont.
3. Montrer qu’un événement de probabilité 1 est indépendant de tout événement.
Exemples :
• Lors d’un lancer de pile ou face, les événements « tomber sur pile au premier tirage » et
« tomber sur pile au deuxième tirage » sont généralement indépendants (sauf en cas de triche-
rie...)
6

• Tirage avec remise. On dispose d’une urne contenant N boutons noirs et J boutons
jaunes. À chaque tirage, on prend un bouton au hasard, on note la couleur du bouton ob-
tenu et on le remet dans l’urne. Les événements A = {tirer un bouton noir au premier tirage}
et B = {tirer un bouton jaune au deuxième tirage} sont-ils indépendants ?

• Urne de Polya. On dispose toujours d’une urne contenant N boutons noirs et J boutons
jaunes. À chaque tirage, on note la couleur du bouton obtenu et on le remet dans l’urne accom-
pagné d’un bouton de la même couleur. Même question que précédemment.

Définition 2.6 Soit n un entier supérieur ou égal à 2. n événements A1 , . . . , An sont (mu-


tuellement ou n à n) indépendants si pour tout choix d’indices i1 , . . . , ik deux à deux
distincts, on a
P(Ai1 ∩ . . . ∩ Aik ) = P(Ai1 ) × · · · × P(Aik ).

Des événements n à n indépendants le sont bien évidemment 2 à 2 mais la réciproque est


fausse.

Exercice 2 • On choisit Ω = {1, 2, 3, 4} et on le munit de la probabilité uniforme. Trouver


trois événements deux à deux indépendants mais pas trois à trois.
• Sur Ω = {1, . . . , 8} muni de la probabilité uniforme, trouver trois événements A, B et C
tels que P(A ∩ B ∩ C) = P(A)P(B)P(C) mais tels que A, B et C ne sont pas indépendants.

3 Variables aléatoires réelles


3.1 La loi
3.1.1 Définition
Une variable aléatoire X sur Ω est une fonction X : (Ω, Σ) → R telle que pour tout
intervalle I de P, l’image-réciproque de I par X appartienne à Σ.
Notation : on notera {X ∈ I} = {ω ∈ Ω, X(ω) ∈ I} = X −1 (I).

Notation : Pour tout intervalle I et pour tout x ∈ R, on note

{X ∈ I} = {ω ∈ Ω, X(ω) ∈ I} = X −1 (I),

et pour tout x ∈ R,
{X = x} = {ω ∈ Ω, X(ω) = x} = X −1 ({x}).
Les ensembles {X ∈ I} et {X = x} sont des sous-ensembles de Ω. On pourra donc étudier par
exemple P{X ∈ I} pour tout intervalle I de R, mais pas P(I).
Énonçons la propriété fondamentale de µ :

Proposition 3.1 La fonction µ ainsi définie est une probabilité sur R (ou sur l’ensemble
X(Ω)).

Définition 3.2 La probabilité µ est appelée la mesure image de P par X, ou la loi de X.


7

Sa loi est ainsi complètement déterminée par la donnée de l’ensemble X(Ω) ainsi que par les
quantités µ(B) = P(X −1 (I)) pour tout intervalle I de R. On note parfois µ = X(P) ou µ = PX
(attention dans ce dernier cas à ne pas faire de confusion avec la probabilité conditionnelle).
La loi est la principale information dont on disposera sur une variable aléatoire : souvent
l’ensemble Ω sera inconnu ou implicite, on n’aura donc pas d’information sur X(ω).

Définition 3.3 – La variable aléatoire X sera discrète si elle prend ses valeurs dans un
ensemble discret (et sa mesure-image est alors une mesure discrète). Sa loi sera caracté-
risée par l’ensemble X(Ω) (ou par un ensemble dénombrable contenant X(Ω)) et par les
probabilités P(X = x) pour tout x ∈ X(Ω).
– X sera à densité (on dit aussi que X est continue) si sa mesure image admet une densité,
c’est-à-dire s’il existe une fonction f : R → R+ , continue par morceaux, d’intégrale sur R
égale à 1, telle que pour tous réels a et b vérifiant a ≤ b,
Z b
P(X ∈ [a, b]) = f (x) dx.
a

En particulier en prenant a = b dans l’égalité ci-dessus, on remarque P(X = a) = 0 pour


tout a ∈ R.

Remarque : Si Ω est un ensemble fini ou dénombrable, toute variable aléatoire définie sur Ω
sera discrète.
Attention : Deux variables aléatoires peuvent suivre la même loi sans être égales : par exemple
deux tirages successifs de pile ou face.
Nous allons maintenant étudier quelques exemples de variables aléatoires discrètes ou à den-
sité, mais il faut garder à l’esprit que cela ne recouvre pas tous les types de variables aléatoires.

3.2 Exemples de variables aléatoires discrètes


Définition 3.4 La loi d’une variable aléatoire discrète est donnée par
– l’ensemble (dénombrable) X(Ω),
– pour tout x ∈ X(Ω), la quantité

P({ω ∈ Ω tels que X(ω) = x}) = P(X −1 {x}) = P(X = x)

P
Remarque : On doit avoir x P(X = x) = 1, où la somme est prise sur x ∈ X(Ω).
Pour construire une variable aléatoire discrète à valeurs dans N, on peut aussi commencer
par
P définir une mesure de probabilité sur N en se donnant le poids pn de chaque entier n (avec
pn = 1) puis considérer une variable aléatoire X d’un certain espace Ω dans N dont la loi
est donnée par P(X = n) = pn .

Exercice 3 On se donne une variable aléatoire X : Ω → N. Montrer que la famille An =


{ω, X(ω) = n} pour tout n ≥ 0 forme un système complet d’événements.
Des exemples
8

• Pour un événement A ⊂ Ω, on note 1A la fonction suivante : 1A (ω) = 1 si ω ∈ A et


1A (ω) = 0 sinon. Cette fonction, appelée l’indicatrice de l’événement A, est une variable
aléatoire discrète très utile.
• Le nombre de « piles » obtenus lors des 8 premiers tirages d’un jeu de pile ou face est
aussi une variable aléatoire discrète.
• Loi de Dirac en a ∈ R. On fixe un nombre réel a. La loi de Dirac en a, généralement
notée δa , est la loi de la variable aléatoire suivante : X(Ω) = {a} et P(X = a) = 1. On dit que
X vaut « presque-sûrement » a.

Exercice 4 Montrer que, si X suit la loi de Dirac en a, pour tout A ⊂ R, P(X ∈ A) = 1A (a).
• Loi de Bernoulli. La loi de Bernoulli B(p) de paramètre p ∈ [0, 1] est donnée par X(Ω) =
{0, 1} et P(X = 1) = p = 1 − P(X = 0). Lors d’un tirage de pile ou face d’une pièce équilibrée,
si on note X = 1 si la pièce tombe sur pile et 0 sinon, on obtient une variable aléatoire de loi
de Bernoulli B( 12 ). Plus généralement, pour un événement A quelconque, la variable aléatoire
1A suit une loi de Bernoulli de paramètre P(A).
• Loi binomiale. La loi binomiale Bin(n, p), pour n ∈ N∗ et p ∈ [0, 1] est donnée par
X(Ω) = {0, . . . , n} et, pour tout k ∈ {0, . . . , n}, P(X = k) = nk pk (1 − p)n−k . On retrouve ici
la probabilité d’obtenir k fois exactement au cours de n tentatives (indépendantes) la réalisation
d’un événement dont la probabilité est p. Par exemple, la probabilité de tirer exactement k 6
lors des n premiers lancers d’un dé est nk 5n−k 6−n .
• Loi uniforme sur {1, . . . , n}. On a ici X(Ω) = {1, . . . , n} et cette loi affecte le même poids
à chacun des éléments. On a donc P(X = k) = 1/n, pour tout k ∈ {1, . . . , n}.
• Loi géométrique G(p), p ∈]0, 1[ : Cette loi est donnée par X(Ω) = N∗ et P(X = k) =
p(1 − p)k−1 pour tout k ∈ N∗ . On a vu plus haut que c’est la loi du numéro du tirage où la
réussite survient pour la première fois (toujours dans le cadre d’une répétition indépendante
des expériences de Bernoulli).
• Loi de Poisson P(λ), λ > 0. C’est la loi de la variable aléatoire X vérifiant X(Ω) = N et
P(X = k) = e−λ λk /k!. Elle est généralement utilisée pour modéliser le nombre d’appels reçus
par un serveur au cours d’un laps de temps donné.
• Loi hypergéométrique : Soit r, b et n trois entiers naturel non nuls. La loi hypergéométrique
(b + r, r, n) est la loi du nombre de boules rouges que l’on obtient lorsque l’on tire simultanément
n boules dans une urne contenant r boules rouges et b boules blanches. On a :
r
 b 
k n−k
P(X = k) = r+b

n

3.3 Exemples de variables aléatoires à densité

• Loi uniforme sur [a, b] : c’est la loi de la variable aléatoire X de densité 1[a,b] /(b − a). La
probabilité qu’une variable aléatoire de loi uniforme sur [a, b] appartienne à un sous-intervalle
de [a, b] est proportionnelle à la longueur de ce sous-intervalle. On a en particulier P(X ∈
[a, b]) = 1.
9

• Loi exponentielle de paramètre λ. Il s’agit de la loi de densité fλ (x) = λ exp(−λx)1x>0 .


Si X suit cette loi, on a P(X ≥ 0) = 1. La loi exponentielle est dite sans mémoire au sens où
pour tous réels positifs s et t, on a P(X > t + s|X > s) = P(X > t). C’est pour cette raison
qu’elle est utilisée généralement pour modéliser des temps d’attente entre deux événements :
par exemple entre deux pannes successives d’une machine, ou entre deux requêtes reçues par un
serveur informatique.
• Loi normale, ou loi √ de Gauss centrée réduite. Il s’agit de la loi de la variable aléatoire X
2
de densité f (x) = e−x /2 / 2π. C’est une loi très utilisée en statistique et en modélisation. Nous
allons commencer par vérifier que c’est Rbien la densité d’une probabilité : f est une fonction
continue positive, il reste à voir que I = R f (t) dt = 1. On ne connaı̂t pas de primitive explicite
de la fonction f , mais nous allons calculer I 2 . On a

Z +∞ 2
2
I = f (t) dt
−∞
Z +∞  Z +∞ 
= f (t) dt × f (s) ds
−∞ −∞
Z
2 2 ds dt
= e−(s +t )/2 .
R2 2π
Procédons à un changement de variables en coordonnées polaires en posant s = r cos θ et t =
r sin θ. Il vient
Z ∞Z π
2 r dr dθ
2
I = e−r /2

Z0 ∞ −π
2
= re−r /2 dr
0
= 1.

La loi normale N (m, σ 2 ) est de densité

(x − m)2
 
1
f (x) = √ exp −
2πσ 2σ 2

3.4 Espérance
Donnons tout d’abord la définition générale de l’espérance, avant de l’appliquer aux variables
aléatoires discrètes ou à densité.
Soit X : Ω → R une variable aléatoire de loi µ.
Définition 3.5 Une variable aléatoire X est dite intégrable si la quantité
Z Z
|X| dP = |x| dµ
Ω R

est finie. On définit alors son espérance par


Z Z
E(X) = X dP = x dµ.
Ω R
10

Plus généralement, pour toute fonction continue par morceaux h : R → R, on a


Z Z
E(h(X)) = h(X) dP = h(x) dµ,
Ω R

lorsque la quantité Z Z
|h(X)| dP = |h(x)| dµ < ∞.
Ω R
Dans le langage courant (et aussi probabiliste), l’espérance est appelée moyenne. C’est un
paramètre de position, qui indique autour de quelle valeur la variable aléatoire est répartie.
Insistons dès maintenant sur le fait qu’une variable aléatoire X bornée par une constante M
(c’est-à-dire que P(|X| ≤ M ) = 1) est toujours intégrable, que l’on a dans ce cas E(|X|) ≤ M
et E(X) ∈ [−M, M ].
Cette définition générale induit deux écritures différentes suivant que la variable aléatoire
X est discrète ou à densité :
– Si X est une variable aléatoire discrète, l’intégrabilité se traduit par
X
|x|P(X = x) < ∞
x∈X(Ω)

et on a alors : X
E(X) = xP(X = x).
x∈X(Ω)

Plus généralement, pour toute fonction h : X(Ω) → R, on a


X
E(h(X)) = h(x)P(X = x)
x∈X(Ω)

si h(X) est intégrable, c’est-à-dire, si


X
E|h(X)| = |h(x)|P(X = x) < ∞.
x∈X(Ω)

– Si X est une variable aléatoire à valeurs réelle et de densité f : R → R+ , elle est


intégrable si Z
|x|f (x) dx < ∞
R
et on a dans ce cas Z
E(X) = xf (x) dx.
R
Plus généralement, pour toute fonction continue par morceaux h : R → R, la variable
aléatoire h(X) est intégrable, si
Z
E|h(X)| = |h(x)|f (x) dx < ∞
R

et on a alors Z
E(h(X)) = h(x)f (x) dx.
R
11

Remarque importante pour le cas discret : Supposons que l’espace Ω soit fini : Ω =
{ω1 , . . . , ωk }. Dans ce cas, toute variable aléatoire X : Ω → R est discrète. Notons n =
card(X(Ω)) et X(Ω) = {x1 , . . . , xn }. On a
n
X
E(X) = xi P(X = xi )
i=1
 
n
X X
=  xi P({ω})
i=1 ω∈Ω;X(ω)=xi
 
n
X X
=  xi P({ω})
i=1 ω∈Ω;X(ω)=xi
 
n
X X
=  X(ω)P({ω})
i=1 ω∈Ω;X(ω)=xi
X
= X(ω)P({ω})
ω∈Ω

Cette expression permet de justifier très simplement que, pour toute variable aléatoire X : Ω →
R, partant d’un espace fini Ω, et pour toute fonction h : R → R, on a
X
E(h(X)) = h(x)P(X = x).
x∈X(Ω)

Cette expression de l’espérance de h(X) est appelée « thèorème du transfert ». Sa preuve peut
donc se faire simplement dans le cas discret (avec Ω fini ou dénombrable) ; on peut la faire
également pour certaines fonctions simples dans le cas des variables aléatoires à densité, mais
le cas général nécessite des connaissances en théorie de la mesure.

Exemple : Calcul de l’espérance de la loi géométrique de paramètre p. On se donne une variable


aléatoire X de loi G(p). On a vu que X(Ω) = N∗ : il est inutile de vérifier l’intégrabilité de X
puisque X(Ω) ⊂ R+ .
Puisque X est une variable aléatoire discrète, on a
X
E(X) = nP(X = n)
n≥1
X
= np(1 − p)n−1
n≥1
X
= p n(1 − p)n−1
n≥0

Or n(1 − p)n−1 est la dérivée de −(1 − p)n et n≥0 (1 − p)n = 1/p . On obtient (en inversant
P
une dérivation et une série, ce qui est licite car il s’agit d’une série entière) :
X d 1 1
n(1 − p)n−1 = − = 2.
n≥0
dp p p
12

Finalement, E(X) = 1/p.


Exemple : Calcul de l’espérance d’une variable aléatoire Y de loi exponentielle, c’est-à-dire de
densité f (y) = λ exp(−λy)1R+ (y) où λ > 0 est une constante. On constate que Y est une
variable aléatoire positive (l’intégrale de sa densité sur R− est nulle). On peut donc s’abstenir
de vérifier l’intégrabilité, et passer directement au calcul de l’espérance.
On a par définition Z Z
E(Y ) = yf (y) dy = λye−λy dy.
R R+
Cette intégrale s’intègre par parties :
 +∞ Z +∞
1
E(Y ) = y × (− exp(−λy)) − (− exp(−λy)) dy = .
0 0 λ
Proposition 3.6 • Soient a une constante et X une variable aléatoire intégrable. Les variables
aléatoires X + a et aX sont intégrables et on a E(X + a) = a + E(X) et E(aX) = aE(X).
• Si X est une variable aléatoire positive et intégrable, alors E(X) ≥ 0.
• Si X et Y sont deux variables aléatoires intégrables vérifiant X ≤ Y alors E(X) ≤ E(Y ).
On déduit de cette propriété que toute variable aléatoire bornée par une constante (ou plus
généralement par une variable aléatoire intégrable) est intégrable.
• L’espérance est une opération linéaire : si X et Y sont deux variables aléatoires intégrables
et a et b deux nombres réels, E(aX + bY ) = aE(X) + bE(Y )

Exercice 5 • On se donne un événement A. Montrer que E(1A ) = P(A).


• On considère une variable aléatoire X et un réel x. Calculer E(1X≤x ).

3.5 Variance
Définition 3.7 La variance d’une variable aléatoire de carré intégrable X est égale à
var X = E (X − E(X))2 .
 

p
On appelle écart-type la quantité σ = var (X). La variance et l’écart-type sont des para-
mètres de dispersion : plus ils sont grands, plus la variable aléatoire est dispersée au tour de sa
moyenne (c’est-à-dir : prend des valeurs éloignées de la moyenne).

Proposition 3.8 – Formule de Koenig. Pour toute variable aléatoire de carré intégrable
X, on a var X = E(X 2 ) − (E(X))2 .
– Si X est une variable aléatoire de carré intégrable et si a est une constante, on a var (X +
a) = var (X) et var (aX) = a2 var (X).
– La variance d’une variable aléatoire de carré intégrable est toujours une quantité positive.
Elle n’est nulle que si la variable aléatoire suit une loi de Dirac.

Preuve :
1) Notons m = E(X). On a (X − m)2 = X 2 − 2mX + m2 . Donc
E(X − m)2 = E(X 2 ) − E(2mX) + E(m2 )
= E(X 2 ) − 2mE(X) + m2
= E(X 2 ) − m2 .
13

2) On pose Y = X + a. On a E(Y ) = a + E(X) et var (Y ) = E((Y − E(Y ))2 ).


D’où var (Y ) = E((X − E(X))2 ) = var (X).
Posons aussi Z = aX. On a E(Z) = aE(X) et var (Z) = E((aX − E(Z))2 ).
D’où var (Y ) = a2 E((X − E(X))2 ) = a2 var (X).
3) La variance est l’espérance d’une variable aléatoire positive : elle est donc positive. Elle
ne peut être nulle que si X = E(X) p.s. 
Remarque : Rappelons les expressions usuelles de E(X 2 ) :
– Si X est une variable aléatoire discrète,
X
E(X 2 ) = x2 P(X = x)
x∈X(Ω)

– Si X est une variable aléatoire de densité f ,


Z +∞
2
E(X ) = x2 f (x) dx.
−∞

Exemple : Calcul de la variance d’une variable aléatoire X de loi G(p). On a déjà vu que
E(X) = 1/p. Calculons maintenant E(X 2 ). On a :
X
E(X 2 ) = n2 P(X = n)
n≥1
X
= n2 p(1 − p)n−1
n≥1

On va essayer de faire apparaı̂tre une dérivée seconde en écrivant n2 = n(n − 1) + n :


X X
E(X 2 ) = p(1 − p) n(n − 1)(1 − p)n−2 + p n(1 − p)n−1
n≥1 n≥1
2
d X  1
= p(1 − p) (1 − p)n +
dp2 n≥0
p
d2 1 1
= p(1 − p) +
dp2 p p
2p(1 − p) 1
= +
p3 p
2−p
=
p2
On en déduit maintenant la variance de X : var (X) = E(X 2 ) − (E(X))2 = (1 − p)/p2 .
Exemple : Calcul de la variance d’une variable aléatoire Y de loi exponentielle de paramètre λ.
On a vu (cf p.12) que l’espérance de Y est égale à 1/λ. Calculons maintenant E(Y 2 ) :
Z
2
E(Y ) = x2 λe−λx 1x≥0 dx
ZR+∞
= x2 λe−λx dx
0
Z +∞
 2 −λx +∞
= −x e 0
+2 xe−λx dx
0
2
= 2/λ
14

On a donc var (Y ) = 1/λ2 .

Exercice 6 Calculer les variances des lois des paragraphes 3 et 3.3.

3.6 Fonction de répartition d’une variable aléatoire


Définition 3.9 On considère une variable aléatoire X : Ω → R. La fonction de répartition de
la loi de X est la fonction FX : R → [0, 1] définie pour tout x ∈ R par

FX (x) = P(X ≤ x).

La fonction de répartition caractérise la loi d’une variable aléatoire.


Si X suit une loi discrète, on a
X
FX (x) = P(X = t),
t≤x

où la somme est prise sur tous les t ∈ X(Ω) inférieurs ou égaux à x. On obtient une fonction
constante par morceaux : ce n’est pas très maniable. La fonction de répartition est peu utilisée
dans ce contexte.
Si X suit la loi de densité f ,
Z x
FX (x) = f (t) dt.
−∞

C’est alors une fonction continue, et en tout point où elle est dérivable, sa dérivée est égale à la
densité de la loi de X : c’est par conséquent un outil utilisé pour déterminer la loi de variables
aléatoires que l’on pense à densité.

Proposition 3.10 La fonction de répartition d’une variable aléatoire X est toujours crois-
sante et continue à droite. On a limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1.

Exemple : Fonction de répartition de la loi uniforme sur l’intervalle [0, 1]. Si X est de loi
uniforme sur [0,1], X admet pour densité la fonction 1[0,1] . Notons F sa fonction de répartition.
Pour tout x ∈ R, on a donc Z x
F (x) = 1[0,1] (t) dt.
−∞

– Si x < 0 : on a F (x) = 0, car 1[0,1] (t) = 0 pour tout t ∈] − ∞, x].


– Si x ∈ [0, 1], on a
Z 0 Z x
F (x) = 1[0,1] (t) dt + 1[0,1] (t) dt
−∞ 0
Z x
= 0+ 1 × dt
0
= x
15

– Si x > 1,
Z 0 Z 1 Z x
F (x) = 1[0,1] (t) dt + 1[0,1] (t) dt + 1[0,1] (t) dt
−∞ 0 1
Z 1
= 0+ 1 × dt + 0
0
= 1

La fonction de répartition F de la loi uniforme sur [0, 1] est donc nulle sur R− , égale à la
fonction identité sur [0, 1] et constante égale à 1 sur [1, +∞[. On peut remarquer que cette
fonction F est continue, dérivable sur R\{0, 1}, et que sa dérivée coı̈ncide avec la densité de X
là où elle existe.

3.7 Fonctions génératrice


La fonction génératrice est utilisée pour les variables aléatoires positives, et même surtout
pour les variables aléatoires à valeurs dans N.

Définition 3.11 La fonction génératrice de la loi de la variable aléatoire X : Ω → R+ est


la fonction GX définie pour tout s ∈ [0, 1] par
X
GX (s) = E(sX ) = sx P(X = x).
x∈X(Ω)

Cette fonction est définie (et finie) pour s ∈ [0, 1] puisque pour tout s ∈ [0, 1], la variable
aléatoire sX est positive et majorée par 1 : c’est donc une variable aléatoire intégrable.
Dans le cas où X est à valeurs dans N, la fonction génératrice est une série entière, de
rayon de convergence supérieur ou égal à 1. On peut alors également la définir pour s ∈ [−1, 0]
et on a X
GX (s) = E(sX ) = sn P(X = n).
n∈N

Remarque : La fonction GX est polynômiale de degré au plus n si et seulement si X(Ω) ⊂


{0, . . . , n}.

Proposition 3.12
– Soit X une variable aléatoire discrète positive et intégrable. On a E(X) = G0X (1− ).
– Plus généralement, si X : Ω → R+ est une variable aléatoire vérifiant E(X n ) < ∞, la
dérivée nede GX en 1− est égale à E(X(X − 1) . . . (X − n + 1)).
– Si deux variables aléatoires positives ont la même fonction génératrice, alors elles suivent
la même loi. On dit que la fonction génératrice caractérise la loi des variables aléatoires
positives.

Aide-mémoire : La dérivée de s → sX est égale à XsX−1 . En prenant l’espérance pour s = 1,


on obtient donc G0X (1) = E(X).
De même, la dérivée seconde de s → sX est égale à X(X − 1)sX−1 , et après la même
opération que précédemment, G00X (1) = E(X(X − 1)).
16

Exemple : Calcul de l’espérance et de la variance d’une loi de Poisson à partir de la fonction


génératrice. Soit X une variable aléatoire de loi de Poisson de paramètre m > 0. Calculons sa
fonction génératrice GX .
Comme X est à valeurs dans N, on a

GX (s) = E(sX )
X
= sn P(X = n)
n≥0
X mn
= sn e−m
n≥0
n!
−m ms
= e e

En dérivant, on obtient, E(X) = G0X (1) = e−m mem×1 = m.


En dérivant à nouveau : E(X(X − 1)) = G00X (1) = e−m m2 em×1 = m2 .
On en déduit alors la variance de X : par définition, var X = E(X 2 ) − (E(X))2 et en
écrivant E(X 2 ) = E(X(X − 1)) + E(X), on obtient var (X) = m.

3.8 Comment calculer la loi


Le problème se pose fréquemment de calculer la loi d’une variable aléatoire Y définie par
exemple comme fonction d’une autre variable aléatoire X : Y = g(X), la fonction g étant
continue par morceaux.
Si Y est une variable discrète, il suffit de déterminer l’ensemble des valeurs prises par Y ,
puis pour tout y ∈ Y (Ω), on aura P(Y = y) = P(X ∈ g −1 ({y})), ce qui se calcule donc à l’aide
de la loi de X.
Si on pense que Y va avoir une densité, on peut imaginer calculer sa fonction de répartition :

P(Y ≤ y) = P(g(X) ≤ y).

Si la fonction g est monotone, on imagine facilement la suite... mais sinon ? La méthode ha-
bituellement utilisée consiste à utiliser une fonction test h : R → R continue et bornée. Si on
réussit alors à écrire E(h(Y )) sous la forme
Z
E(h(Y )) = h(y) dµ(y),
R

on aura gagné : la mesure de probabilité µ obtenue sera la mesure image de Y (de la forme
dµ = fY (y) dy si Y est à densité). En effet, en fixant x ∈ R et en prenant h de la forme
h(y) = 1y≤x , on retrouve ainsi la fonction de répartition de la loi de Y . L’avantage est que le
changement de variable auquel il faut procéder apparaı̂t clairement.
Exemple : Soit X une variable aléatoire de densité fX Déterminons les lois de Y = aX + b et
de Z = (1 + X)/(1 − X). Prenons donc une fonction test h continue par morceaux et bornée.
On a Z
E(h(Y )) = E(h(aX + b)) = h(ax + b)fX (x) dx.
R
Petite remarque préalable : la suite de la démonstration présentée ici est basée sur des notions
de calcul intégral (programme L3) : ne vous avisez pas à utiliser de telles justifications devant
17

une classe de terminale ! Il est tout à fait possible de traiter séparément les cas a > 0 et a < 0
pour rentrer dans le cadre des programmes de lycée.
On effectue alors le changement de variable y = ax + b. Ce changement de variable est bien
un difféomorphisme de R et son jacobien vaut dx = dy/|a|. Il vient :
 
y − b dy
Z
E(h(Y )) = h(y)fX .
R a |a|

On en déduit donc que Y admet pour densité la fonction fY définie sur R par
 
y−b 1
fY (Y ) = fX .
a |a|

Procédons de même pour Z :


Z 
1+x
E(h(Z)) = h fX (x) dx
R 1−x
 
z−1
Z
2
= h(z)fX dz
R z + 1 (z + 1)2

On a en effet posé z = (1 + x)/(1 − x), soit x = (z − 1)/(z + 1) = 1 − 2/(z + 1). Ce changement


de variable est un difféomorphisme de R\{−1} vers R\{1}. Remarquons qu’il est souvent plus
pratique de raisonner en terme de jacobien plutôt qu’en terme de dérivée : il n’y a pas à s’occuper
du sens des bornes des intégrales, mais il suffit de vérifier qu’un domaine s’envoie bien sur un
autre domaine de R (et de ne pas oublier de mettre la valeur absolue de la dérivée et non
la dérivée elle-même). On traite alors ce changement de variable comme un changement de
variable dans une intégrale multiple.

Vous aimerez peut-être aussi