Proba Va2

Probabilités et variables aléatoires
Préparation à l’agrégation interne

Frédérique Bienvenüe-Duheille
frederique.bienvenue@univ-lyon1.fr
1 Probabilité
1.1 Définitions
On se place sur un ensemble Ω appelé espace de probabilité ou univers.
Une tribu sur Ω est un sous-ensemble Σ de l’ensemble des parties de Ω tel que ∅ ∈ Σ, Σ est
stable par passage au complémentaire (i.e. si A ∈ Σ, alors Ac ∈ Σ) et par réunion dénombrable
(i.e. si (An ) est une famille dénombrable de parties de Ω telle que pour tout n, An ∈ Σ, alors
∪n An ∈ Σ).
On peut alors vérifier qu’une tribu est également stage par intersection dénombrable .
Le plus souvent, si Ω est dénombrable, la tribu utilisée sera P(Ω).
Dans le vocabulaire probabiliste,
– Un élément ω de Ω est appelé une épreuve
– Un sous-ensemble A de Ω qui appartient à Σ est un événement.
– Un événement élémentaire est un singleton de Ω.
– L’événement certain est Ω.
– L’événement impossible est l’ensemble vide.
– Deux événements disjoints sont dits incompatibles.
Définition 1.1 Une mesure de probabilité (P, Σ) est une fonction définie sur Σ et à valeurs
dans R vérifiant les propriétés suivantes :
1. Pour tout événement A de Ω, P(A) ≥ 0.
2. P(Ω) = 1.
3. Si (An )n≥1 est une famille dénombrables de sous-ensembles de Ω deux à deux disjoints,
on a [ X
P An = P(An ).
n≥1 n
On déduit la proposition suivante de la définition d’une mesure de probabilité :
Proposition 1.2 1. P(∅) = 0,

2. Si A est un événement, P(Ω\A) = 1 − P(A),
3. Si A ⊂ B sont deux événements, P(A) ≤ P(B),
4. Pour tout événement A, P(A) ≤ 1,
5. Si A et B sont deux événements, P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
En toute rigueur, P, en tant que fonction, est une mesure de probabilité. Le terme de
probabilité se rapporte à la probabilité P(A) de l’événement A. Par abus de langage, on utilisera
le mot « probabilité » dans les deux cas.
2
Remarque : Le troisième point de la définition signifie qu’une probabilité est une fonction
croissante : c’est une façon de calculer la « taille » des événements.
Pour la suite de ce cours, on se placera sur un espace Ω muni d’une mesure de
probabilité P.
1.2 Probabilités discrètes

La mesure de probabilité P est dite discrète dès que l’espace Ω est fini ou dénombrable
ou plus généralement, dès qu’il existe un sous-ensemble Ω0 de Ω fini ou dénombrable et tel que
P(Ω0 ) = 1. Une probabilité sur un ensemble dénombrable sera toujours discrète.
On se placera dans la suite de ce paragraphe dans le cas où Ω est fini ou dénombrable.
Proposition 1.3 Une probabilité sur un ensemble dénombrable est complètement déterminée
par les P({ω}) pour tout ω ∈ Ω. En effet, pour A ⊂ Ω, on a
X
P(A) = P({ω}).
ω∈A
Remarques : P
– Les poids d’une probabilité discrète P vérifient ω∈Ω P({ω}) = 1.
– Une mesure de probabilité ne permet d’évaluer a priori que la taille de sous-ensembles de
Ω.
Des exemples
• Lancer d’une pièce équilibrée : on souhaite modéliser le résultat du lancer d’une pièce sans
tricherie. Pour cela, on choisit Ω1 = {pile, face}, et donc cardΩ1 = 2. L’ensemble des parties de
Ω1 comporte quatre éléments et on définit la mesure de probabilité P par P{pile} = P{face} =
1/2 puisque les deux événements sont équiprobables (c’est-à-dire de même probabilité).
Remarque : On aurait très bien pu choisir Ω1 = {pile, face, rouge, vert}, et comme mesure
de probabilité P{pile} = P{face} = 1/2 et P{rouge} = P{vert} = 0, mais tant qu’à faire, on
choisit le plus simple...
• Lancer de k pièces, k ≥ 2 : on prend cette fois-ci Ωk = (Ω1 )k , c’est-à-dire l’ensemble des
k
k-uplets de pile ou face. On a cardΩk = 2k et cardP(Ωk ) = 22 . Les différents k-uplets sont tous
équiprobables donc P({ω}) = 2−k , pour tout ω ∈ Ωk .
• Probabilité uniforme discrète : sur un ensemble fini Ω = {ω1 , . . . , ωn }, avec n = card(Ω),
on définit la probabilité uniforme par P({ωi }) = 1/n pour tout i entre 1 et n. Dans ce cas, tous
les ωi ont la même probabilité de se produire (i.e. sont équiprobables), et pour une partie A
de Ω, on a
cardA nb cas favorables
P(A) = = .
n nb cas possibles
Par exemple, lors du lancer d’un dé régulier à six faces, chaque face est obtenue avec la même
probabilité 1/6.
Remarque : Il ne peut bien sûr pas y avoir de loi uniforme sur N.
• Exemple de mesure de probabilité sur N∗ . On lance un dé de façon répétée jusqu’à obtenir
un 6, et on note le numéro du tirage du premier 6. On a évidemment P({1}) = 1/6.
3
On a également
P({2}) = P(au premier tirage, on n’a pas eu de 6 ; au deuxième tirage, on a eu un 6)

5
=
36
car sur les 36 tirages possibles équiprobables, seuls 5 permettent d’obtenir le premier 6 au
deuxième tirage.
De même, pour tout k ≥ 2,
k−1
5k−1 5 1
P({k}) = P(k − 1 échecs puis une réussite) = k = .
6 6 6
Cela constitue bien une mesure de probabilité discrète sur N∗ puisque k≥1 P(k) = 1.
P
Attention : Ne pas confondre cette probabilité avec la probabilité de tirer un 6 exactement

parmi les k premiers lancers.
Remarque : On pourrait chercher à écrire un univers U permettant de décrire l’intégralité
des résultats des tirages successifs. Le plus simple est de choisir U = {1, . . . , 6}N . Cet ensemble
n’est pas dénombrable. Une tribu raisonnable dont on peut le munir est la tribu cylindrique :
c’est la tribu qui est « engendrée » par tous les événements de la forme (x1 , . . . , xn ) × {0, 1}N ,
avec n ∈ N∗ et (xi )i≤n ) ∈ {0, 1}n (on fixe les n premières composantes et on laisse les autres
libres).
1.3 Probabilité à densité

On se place sur R et on note dx l’élément d’intégration de la mesure de Lebesgue. Soit
f : R → R une fonction positive et d’intégrale sur R égale à 1. On supposera que f est continue
par morceaux. Il est facile de vérifier que l’on définit une mesure de probabilité µ en posant,
pour tout I ⊂ R : Z
µ(I) = 1I (x)f (x) dx.
R
Une telle mesure est dite à densité (par rapport à la mesure de Lebesgue sur R). On dit
également que c’est une probabilité continue.
Des exemples
• La mesure uniforme sur l’intervalle [a, b], où a < b : On définit
Z Z
dx dx
µ(A) = 1A∩[a,b] (x) = 1[a,b] (x) .
R b−a A b−a
• La mesure de Gauss sur R. On utilise ici la fonction

(x − m)2

1
f (x) = √ exp − ,
2πσ 2σ 2
où m ∈ R et σ ∈ R+∗ sont deux paramètres fixés. Un joli exercice consiste à prouver (au moins
dans le cas m = 0 et σ = 1 que l’intégrale de la fonction f sur R est égale à 1.
4
2 Probabilité conditionnelle, indépendance

Définition 2.1 On se donne deux événements A et B de Ω, avec P(B) > 0. On définit la
probabilité conditionnelle de A sachant B, notée P(A|B) ou PB (A) par
PB (A) = P(A|B) = P(A ∩ B)/P(B).
Un cas typique où interviennent des probabilités conditionnelles est les expériences aléatoires
obtenues par des tirages successifs de boules dans des urnes (mais il y a bien sûr d’autres cadres
où elles apparaissent naturellement !) On résout ces question le plus souvent en dressant un arbre
de probabilité : les données figurant sur les arêtes de l’arbre ont des probabilités conditionnelles.
La probabilité conditionnelle vérifie les mêmes propriétés qu’une probabilité : on a ainsi
PB (Ω) = 1, PB (∅) = 0, si A1 et A2 sont disjoints, PB (A1 ∪A2 ) = PB (A1 )+PB (A2 ), PB (Ω\A) =
1 − PB (A)...
On peut donc énoncer la proposition suivante :
Proposition 2.2 Soit B un événement de probabilité strictement positive. On note PB la pro-

babilité conditionnelle sachant l’événement B. Alors PB est une probabilité sur Ω, c’est-à-dire
que
– Pour tout A ∈ Ω, PB (A) ≥ 0.
– PB (Ω) = 1
– Si A1 et A2 sont incompatibles, PB (A1 ∪ A2 ) = PB (A1 ) + PB (A2 ).
Les probabilités conditionnelles permettent de décomposer un événement suivant des sous-

ensembles de Ω sur lesquels on maı̂trise mieux ce qui se passe. Pour cela, introduisons la notion
de système complet d’événements :
Définition 2.3 Un système complet d’événements est une famille dénombrable ou finie
(Bn ) d’événements deux à deux disjoints et vérifiant ∪n Bn = Ω.
Remarque : Plusieurs définitions d’un système complet d’événements cohabitent : suivant

l’une d’elle par exemple, un système complet d’événements est une partition de Ω, d’autres
définitions imposent que les Bn soient tous de probabilité strictement positive ; on peut aussi
ne pas imposer que la réunion des Bn soit égale à Ω, mais plutôt qu’elle soit de probabilité
1... Le point commun à ces définitions est que les Bn sont en nombre dénombrables, deux à
deux disjoints et que leur réunion est « presque » Ω. La définition indiquée ici n’implique en
particulier pas que les Bn soient non vides.
Remarque : Si l’ensemble Ω est fini, tout système complet ne comporte qu’un nombre fini
d’événements non vides.
Proposition 2.4 (Formule des probabilités totales) Soit (Bn ) un système complet d’évé-
nements tel que, pour tout n ≥ 1, P(Bn ) > 0, et A un événement quelconque. On a
X X
P(A) = P(A ∩ Bn ) = PBn (A)P(Bn ).
n n
5
Remarque : Si par exemple P(B1 ) = 0, on pourrait poser PB1 (A) = 0, ou 1, ou 1/2 pour
tout A, cela n’interviendrait pas dans la formule ci-dessus. Néanmoins il est plus pédagogique
d’imposer que les Bn soient tous de probabilité strictement positive, pour que la formule ci-
dessus soit rigoureuse.
Preuve : Par définition, pour tout n, PBn (A)P(Bn ) = P(A ∩ Bn ) et les événements A ∩ Bn sont
deux à deux disjoints car les Bn le sont. On en déduit donc que
X
PBn (A)P(Bn ) = P(∪n (A ∩ Bn ))
n
= P(A ∩ (∪n Bn )) = P(A).

Un problème courant est de déterminer PB (A) à partir de PA (B). La seule donnée de PA (B)
n’y suffit pas. Il faut par exemple connaı̂tre aussi P(A) et P(B) : on a alors
PB (A) = PA (B)P(A)/P(B).
Une autre possibilité est de connaı̂tre P(A) et PĀ (B) où Ā est le complémentaire de A :
Formule de Bayes :
– Soient A et B deux événements de probabilité strictement positive, vérifiant également
P(Ā) > 0. On vérifie que
PA (B)P(A)
PB (A) = .
PA (B)P(A) + PĀ (B)P(A)
– Soient (An ) un système complet d’événements tel que, pour tout n, P(An ) > 0 et B un
événement tel que P(B) > 0. On a pour tout i :
PA (B)P(Ai )
PB (Ai ) = P i .
n PAn (B)P(An )
Preuve : Le dénominateur du membre de droite vaut en fait P(B), alors que le numérateur vaut
P(A ∩ B), d’où le résultat.
Définition 2.5 Deux événements A et B sont dits indépendants si P(A ∩ B) = P(A)P(B).

On a alors P(A|B) = P(A) et P(B|A) = P(B) si P(A) > 0 et P(B) > 0.
Exercice 1 1. Montrer qu’un événement de probabilité nulle est indépendant de tout évé-
nement.
2. Montrer que si A et B sont indépendants, alors Ω\A et B le sont.
3. Montrer qu’un événement de probabilité 1 est indépendant de tout événement.
Exemples :
• Lors d’un lancer de pile ou face, les événements « tomber sur pile au premier tirage » et
« tomber sur pile au deuxième tirage » sont généralement indépendants (sauf en cas de triche-
rie...)
6
• Tirage avec remise. On dispose d’une urne contenant N boutons noirs et J boutons
jaunes. À chaque tirage, on prend un bouton au hasard, on note la couleur du bouton ob-
tenu et on le remet dans l’urne. Les événements A = {tirer un bouton noir au premier tirage}
et B = {tirer un bouton jaune au deuxième tirage} sont-ils indépendants ?
• Urne de Polya. On dispose toujours d’une urne contenant N boutons noirs et J boutons
jaunes. À chaque tirage, on note la couleur du bouton obtenu et on le remet dans l’urne accom-
pagné d’un bouton de la même couleur. Même question que précédemment.
Définition 2.6 Soit n un entier supérieur ou égal à 2. n événements A1 , . . . , An sont (mu-

tuellement ou n à n) indépendants si pour tout choix d’indices i1 , . . . , ik deux à deux
distincts, on a
P(Ai1 ∩ . . . ∩ Aik ) = P(Ai1 ) × · · · × P(Aik ).
Des événements n à n indépendants le sont bien évidemment 2 à 2 mais la réciproque est

fausse.
Exercice 2 • On choisit Ω = {1, 2, 3, 4} et on le munit de la probabilité uniforme. Trouver

trois événements deux à deux indépendants mais pas trois à trois.
• Sur Ω = {1, . . . , 8} muni de la probabilité uniforme, trouver trois événements A, B et C
tels que P(A ∩ B ∩ C) = P(A)P(B)P(C) mais tels que A, B et C ne sont pas indépendants.
3 Variables aléatoires réelles

3.1 La loi
3.1.1 Définition
Une variable aléatoire X sur Ω est une fonction X : (Ω, Σ) → R telle que pour tout
intervalle I de P, l’image-réciproque de I par X appartienne à Σ.
Notation : on notera {X ∈ I} = {ω ∈ Ω, X(ω) ∈ I} = X −1 (I).
Notation : Pour tout intervalle I et pour tout x ∈ R, on note
{X ∈ I} = {ω ∈ Ω, X(ω) ∈ I} = X −1 (I),
et pour tout x ∈ R,
{X = x} = {ω ∈ Ω, X(ω) = x} = X −1 ({x}).
Les ensembles {X ∈ I} et {X = x} sont des sous-ensembles de Ω. On pourra donc étudier par
exemple P{X ∈ I} pour tout intervalle I de R, mais pas P(I).
Énonçons la propriété fondamentale de µ :
Proposition 3.1 La fonction µ ainsi définie est une probabilité sur R (ou sur l’ensemble
X(Ω)).
Définition 3.2 La probabilité µ est appelée la mesure image de P par X, ou la loi de X.

7
Sa loi est ainsi complètement déterminée par la donnée de l’ensemble X(Ω) ainsi que par les
quantités µ(B) = P(X −1 (I)) pour tout intervalle I de R. On note parfois µ = X(P) ou µ = PX
(attention dans ce dernier cas à ne pas faire de confusion avec la probabilité conditionnelle).
La loi est la principale information dont on disposera sur une variable aléatoire : souvent
l’ensemble Ω sera inconnu ou implicite, on n’aura donc pas d’information sur X(ω).
Définition 3.3 – La variable aléatoire X sera discrète si elle prend ses valeurs dans un
ensemble discret (et sa mesure-image est alors une mesure discrète). Sa loi sera caracté-
risée par l’ensemble X(Ω) (ou par un ensemble dénombrable contenant X(Ω)) et par les
probabilités P(X = x) pour tout x ∈ X(Ω).
– X sera à densité (on dit aussi que X est continue) si sa mesure image admet une densité,
c’est-à-dire s’il existe une fonction f : R → R+ , continue par morceaux, d’intégrale sur R
égale à 1, telle que pour tous réels a et b vérifiant a ≤ b,
Z b
P(X ∈ [a, b]) = f (x) dx.
a
En particulier en prenant a = b dans l’égalité ci-dessus, on remarque P(X = a) = 0 pour

tout a ∈ R.
Remarque : Si Ω est un ensemble fini ou dénombrable, toute variable aléatoire définie sur Ω
sera discrète.
Attention : Deux variables aléatoires peuvent suivre la même loi sans être égales : par exemple
deux tirages successifs de pile ou face.
Nous allons maintenant étudier quelques exemples de variables aléatoires discrètes ou à den-
sité, mais il faut garder à l’esprit que cela ne recouvre pas tous les types de variables aléatoires.
3.2 Exemples de variables aléatoires discrètes

Définition 3.4 La loi d’une variable aléatoire discrète est donnée par
– l’ensemble (dénombrable) X(Ω),
– pour tout x ∈ X(Ω), la quantité
P({ω ∈ Ω tels que X(ω) = x}) = P(X −1 {x}) = P(X = x)
P
Remarque : On doit avoir x P(X = x) = 1, où la somme est prise sur x ∈ X(Ω).
Pour construire une variable aléatoire discrète à valeurs dans N, on peut aussi commencer
par
P définir une mesure de probabilité sur N en se donnant le poids pn de chaque entier n (avec
pn = 1) puis considérer une variable aléatoire X d’un certain espace Ω dans N dont la loi
est donnée par P(X = n) = pn .
Exercice 3 On se donne une variable aléatoire X : Ω → N. Montrer que la famille An =

{ω, X(ω) = n} pour tout n ≥ 0 forme un système complet d’événements.
Des exemples
8
• Pour un événement A ⊂ Ω, on note 1A la fonction suivante : 1A (ω) = 1 si ω ∈ A et

1A (ω) = 0 sinon. Cette fonction, appelée l’indicatrice de l’événement A, est une variable
aléatoire discrète très utile.
• Le nombre de « piles » obtenus lors des 8 premiers tirages d’un jeu de pile ou face est
aussi une variable aléatoire discrète.
• Loi de Dirac en a ∈ R. On fixe un nombre réel a. La loi de Dirac en a, généralement
notée δa , est la loi de la variable aléatoire suivante : X(Ω) = {a} et P(X = a) = 1. On dit que
X vaut « presque-sûrement » a.
Exercice 4 Montrer que, si X suit la loi de Dirac en a, pour tout A ⊂ R, P(X ∈ A) = 1A (a).
• Loi de Bernoulli. La loi de Bernoulli B(p) de paramètre p ∈ [0, 1] est donnée par X(Ω) =
{0, 1} et P(X = 1) = p = 1 − P(X = 0). Lors d’un tirage de pile ou face d’une pièce équilibrée,
si on note X = 1 si la pièce tombe sur pile et 0 sinon, on obtient une variable aléatoire de loi
de Bernoulli B( 12 ). Plus généralement, pour un événement A quelconque, la variable aléatoire
1A suit une loi de Bernoulli de paramètre P(A).
• Loi binomiale. La loi binomiale Bin(n, p), pour n ∈ N∗ et p ∈ [0, 1] est donnée par
X(Ω) = {0, . . . , n} et, pour tout k ∈ {0, . . . , n}, P(X = k) = nk pk (1 − p)n−k . On retrouve ici
la probabilité d’obtenir k fois exactement au cours de n tentatives (indépendantes) la réalisation
d’un événement dont la probabilité est p. Par exemple, la probabilité de tirer exactement k 6
lors des n premiers lancers d’un dé est nk 5n−k 6−n .
• Loi uniforme sur {1, . . . , n}. On a ici X(Ω) = {1, . . . , n} et cette loi affecte le même poids
à chacun des éléments. On a donc P(X = k) = 1/n, pour tout k ∈ {1, . . . , n}.
• Loi géométrique G(p), p ∈]0, 1[ : Cette loi est donnée par X(Ω) = N∗ et P(X = k) =
p(1 − p)k−1 pour tout k ∈ N∗ . On a vu plus haut que c’est la loi du numéro du tirage où la
réussite survient pour la première fois (toujours dans le cadre d’une répétition indépendante
des expériences de Bernoulli).
• Loi de Poisson P(λ), λ > 0. C’est la loi de la variable aléatoire X vérifiant X(Ω) = N et
P(X = k) = e−λ λk /k!. Elle est généralement utilisée pour modéliser le nombre d’appels reçus
par un serveur au cours d’un laps de temps donné.
• Loi hypergéométrique : Soit r, b et n trois entiers naturel non nuls. La loi hypergéométrique
(b + r, r, n) est la loi du nombre de boules rouges que l’on obtient lorsque l’on tire simultanément
n boules dans une urne contenant r boules rouges et b boules blanches. On a :
r
b
k n−k
P(X = k) = r+b

n
3.3 Exemples de variables aléatoires à densité
• Loi uniforme sur [a, b] : c’est la loi de la variable aléatoire X de densité 1[a,b] /(b − a). La
probabilité qu’une variable aléatoire de loi uniforme sur [a, b] appartienne à un sous-intervalle
de [a, b] est proportionnelle à la longueur de ce sous-intervalle. On a en particulier P(X ∈
[a, b]) = 1.
9
• Loi exponentielle de paramètre λ. Il s’agit de la loi de densité fλ (x) = λ exp(−λx)1x>0 .

Si X suit cette loi, on a P(X ≥ 0) = 1. La loi exponentielle est dite sans mémoire au sens où
pour tous réels positifs s et t, on a P(X > t + s|X > s) = P(X > t). C’est pour cette raison
qu’elle est utilisée généralement pour modéliser des temps d’attente entre deux événements :
par exemple entre deux pannes successives d’une machine, ou entre deux requêtes reçues par un
serveur informatique.
• Loi normale, ou loi √ de Gauss centrée réduite. Il s’agit de la loi de la variable aléatoire X
2
de densité f (x) = e−x /2 / 2π. C’est une loi très utilisée en statistique et en modélisation. Nous
allons commencer par vérifier que c’est Rbien la densité d’une probabilité : f est une fonction
continue positive, il reste à voir que I = R f (t) dt = 1. On ne connaı̂t pas de primitive explicite
de la fonction f , mais nous allons calculer I 2 . On a
Z +∞ 2
2
I = f (t) dt
−∞
Z +∞ Z +∞
= f (t) dt × f (s) ds
−∞ −∞
Z
2 2 ds dt
= e−(s +t )/2 .
R2 2π
Procédons à un changement de variables en coordonnées polaires en posant s = r cos θ et t =
r sin θ. Il vient
Z ∞Z π
2 r dr dθ
2
I = e−r /2
2π
Z0 ∞ −π
2
= re−r /2 dr
0
= 1.
La loi normale N (m, σ 2 ) est de densité
(x − m)2

1
f (x) = √ exp −
2πσ 2σ 2
3.4 Espérance
Donnons tout d’abord la définition générale de l’espérance, avant de l’appliquer aux variables
aléatoires discrètes ou à densité.
Soit X : Ω → R une variable aléatoire de loi µ.
Définition 3.5 Une variable aléatoire X est dite intégrable si la quantité
Z Z
|X| dP = |x| dµ
Ω R
est finie. On définit alors son espérance par

Z Z
E(X) = X dP = x dµ.
Ω R
10
Plus généralement, pour toute fonction continue par morceaux h : R → R, on a

Z Z
E(h(X)) = h(X) dP = h(x) dµ,
Ω R
lorsque la quantité Z Z
|h(X)| dP = |h(x)| dµ < ∞.
Ω R
Dans le langage courant (et aussi probabiliste), l’espérance est appelée moyenne. C’est un
paramètre de position, qui indique autour de quelle valeur la variable aléatoire est répartie.
Insistons dès maintenant sur le fait qu’une variable aléatoire X bornée par une constante M
(c’est-à-dire que P(|X| ≤ M ) = 1) est toujours intégrable, que l’on a dans ce cas E(|X|) ≤ M
et E(X) ∈ [−M, M ].
Cette définition générale induit deux écritures différentes suivant que la variable aléatoire
X est discrète ou à densité :
– Si X est une variable aléatoire discrète, l’intégrabilité se traduit par
X
|x|P(X = x) < ∞
x∈X(Ω)
et on a alors : X
E(X) = xP(X = x).
x∈X(Ω)
Plus généralement, pour toute fonction h : X(Ω) → R, on a

X
E(h(X)) = h(x)P(X = x)
x∈X(Ω)
si h(X) est intégrable, c’est-à-dire, si

X
E|h(X)| = |h(x)|P(X = x) < ∞.
x∈X(Ω)
– Si X est une variable aléatoire à valeurs réelle et de densité f : R → R+ , elle est

intégrable si Z
|x|f (x) dx < ∞
R
et on a dans ce cas Z
E(X) = xf (x) dx.
R
Plus généralement, pour toute fonction continue par morceaux h : R → R, la variable
aléatoire h(X) est intégrable, si
Z
E|h(X)| = |h(x)|f (x) dx < ∞
R
et on a alors Z
E(h(X)) = h(x)f (x) dx.
R
11
Remarque importante pour le cas discret : Supposons que l’espace Ω soit fini : Ω =
{ω1 , . . . , ωk }. Dans ce cas, toute variable aléatoire X : Ω → R est discrète. Notons n =
card(X(Ω)) et X(Ω) = {x1 , . . . , xn }. On a
n
X
E(X) = xi P(X = xi )
i=1
 
n
X X
=  xi P({ω})
i=1 ω∈Ω;X(ω)=xi
 
n
X X
=  xi P({ω})
 
n
X X
=  X(ω)P({ω})
X
= X(ω)P({ω})
ω∈Ω
Cette expression permet de justifier très simplement que, pour toute variable aléatoire X : Ω →
R, partant d’un espace fini Ω, et pour toute fonction h : R → R, on a
X
E(h(X)) = h(x)P(X = x).
x∈X(Ω)
Cette expression de l’espérance de h(X) est appelée « thèorème du transfert ». Sa preuve peut
donc se faire simplement dans le cas discret (avec Ω fini ou dénombrable) ; on peut la faire
également pour certaines fonctions simples dans le cas des variables aléatoires à densité, mais
le cas général nécessite des connaissances en théorie de la mesure.
Exemple : Calcul de l’espérance de la loi géométrique de paramètre p. On se donne une variable

aléatoire X de loi G(p). On a vu que X(Ω) = N∗ : il est inutile de vérifier l’intégrabilité de X
puisque X(Ω) ⊂ R+ .
Puisque X est une variable aléatoire discrète, on a
X
E(X) = nP(X = n)
n≥1
X
= np(1 − p)n−1
n≥1
X
= p n(1 − p)n−1
n≥0
Or n(1 − p)n−1 est la dérivée de −(1 − p)n et n≥0 (1 − p)n = 1/p . On obtient (en inversant
P
une dérivation et une série, ce qui est licite car il s’agit d’une série entière) :
X d 1 1
n(1 − p)n−1 = − = 2.
n≥0
dp p p
12
Finalement, E(X) = 1/p.

Exemple : Calcul de l’espérance d’une variable aléatoire Y de loi exponentielle, c’est-à-dire de
densité f (y) = λ exp(−λy)1R+ (y) où λ > 0 est une constante. On constate que Y est une
variable aléatoire positive (l’intégrale de sa densité sur R− est nulle). On peut donc s’abstenir
de vérifier l’intégrabilité, et passer directement au calcul de l’espérance.
On a par définition Z Z
E(Y ) = yf (y) dy = λye−λy dy.
R R+
Cette intégrale s’intègre par parties :
+∞ Z +∞
1
E(Y ) = y × (− exp(−λy)) − (− exp(−λy)) dy = .
0 0 λ
Proposition 3.6 • Soient a une constante et X une variable aléatoire intégrable. Les variables
aléatoires X + a et aX sont intégrables et on a E(X + a) = a + E(X) et E(aX) = aE(X).
• Si X est une variable aléatoire positive et intégrable, alors E(X) ≥ 0.
• Si X et Y sont deux variables aléatoires intégrables vérifiant X ≤ Y alors E(X) ≤ E(Y ).
On déduit de cette propriété que toute variable aléatoire bornée par une constante (ou plus
généralement par une variable aléatoire intégrable) est intégrable.
• L’espérance est une opération linéaire : si X et Y sont deux variables aléatoires intégrables
et a et b deux nombres réels, E(aX + bY ) = aE(X) + bE(Y )
Exercice 5 • On se donne un événement A. Montrer que E(1A ) = P(A).

• On considère une variable aléatoire X et un réel x. Calculer E(1X≤x ).
3.5 Variance
Définition 3.7 La variance d’une variable aléatoire de carré intégrable X est égale à
var X = E (X − E(X))2 .

p
On appelle écart-type la quantité σ = var (X). La variance et l’écart-type sont des para-
mètres de dispersion : plus ils sont grands, plus la variable aléatoire est dispersée au tour de sa
moyenne (c’est-à-dir : prend des valeurs éloignées de la moyenne).
Proposition 3.8 – Formule de Koenig. Pour toute variable aléatoire de carré intégrable
X, on a var X = E(X 2 ) − (E(X))2 .
– Si X est une variable aléatoire de carré intégrable et si a est une constante, on a var (X +
a) = var (X) et var (aX) = a2 var (X).
– La variance d’une variable aléatoire de carré intégrable est toujours une quantité positive.
Elle n’est nulle que si la variable aléatoire suit une loi de Dirac.
Preuve :
1) Notons m = E(X). On a (X − m)2 = X 2 − 2mX + m2 . Donc
E(X − m)2 = E(X 2 ) − E(2mX) + E(m2 )
= E(X 2 ) − 2mE(X) + m2
= E(X 2 ) − m2 .
13
2) On pose Y = X + a. On a E(Y ) = a + E(X) et var (Y ) = E((Y − E(Y ))2 ).

D’où var (Y ) = E((X − E(X))2 ) = var (X).
Posons aussi Z = aX. On a E(Z) = aE(X) et var (Z) = E((aX − E(Z))2 ).
D’où var (Y ) = a2 E((X − E(X))2 ) = a2 var (X).
3) La variance est l’espérance d’une variable aléatoire positive : elle est donc positive. Elle
ne peut être nulle que si X = E(X) p.s.
Remarque : Rappelons les expressions usuelles de E(X 2 ) :
– Si X est une variable aléatoire discrète,
X
E(X 2 ) = x2 P(X = x)
x∈X(Ω)
– Si X est une variable aléatoire de densité f ,

Z +∞
2
E(X ) = x2 f (x) dx.
−∞
Exemple : Calcul de la variance d’une variable aléatoire X de loi G(p). On a déjà vu que
E(X) = 1/p. Calculons maintenant E(X 2 ). On a :
X
E(X 2 ) = n2 P(X = n)
n≥1
X
= n2 p(1 − p)n−1
n≥1
On va essayer de faire apparaı̂tre une dérivée seconde en écrivant n2 = n(n − 1) + n :

X X
E(X 2 ) = p(1 − p) n(n − 1)(1 − p)n−2 + p n(1 − p)n−1
n≥1 n≥1
2
d X 1
= p(1 − p) (1 − p)n +
dp2 n≥0
p
d2 1 1
= p(1 − p) +
dp2 p p
2p(1 − p) 1
= +
p3 p
2−p
=
p2
On en déduit maintenant la variance de X : var (X) = E(X 2 ) − (E(X))2 = (1 − p)/p2 .
Exemple : Calcul de la variance d’une variable aléatoire Y de loi exponentielle de paramètre λ.
On a vu (cf p.12) que l’espérance de Y est égale à 1/λ. Calculons maintenant E(Y 2 ) :
Z
2
E(Y ) = x2 λe−λx 1x≥0 dx
ZR+∞
= x2 λe−λx dx
0
Z +∞
2 −λx +∞
= −x e 0
+2 xe−λx dx
0
2
= 2/λ
14
On a donc var (Y ) = 1/λ2 .
Exercice 6 Calculer les variances des lois des paragraphes 3 et 3.3.
3.6 Fonction de répartition d’une variable aléatoire

Définition 3.9 On considère une variable aléatoire X : Ω → R. La fonction de répartition de
la loi de X est la fonction FX : R → [0, 1] définie pour tout x ∈ R par
FX (x) = P(X ≤ x).
La fonction de répartition caractérise la loi d’une variable aléatoire.

Si X suit une loi discrète, on a
X
FX (x) = P(X = t),
t≤x
où la somme est prise sur tous les t ∈ X(Ω) inférieurs ou égaux à x. On obtient une fonction
constante par morceaux : ce n’est pas très maniable. La fonction de répartition est peu utilisée
dans ce contexte.
Si X suit la loi de densité f ,
Z x
FX (x) = f (t) dt.
−∞
C’est alors une fonction continue, et en tout point où elle est dérivable, sa dérivée est égale à la
densité de la loi de X : c’est par conséquent un outil utilisé pour déterminer la loi de variables
aléatoires que l’on pense à densité.
Proposition 3.10 La fonction de répartition d’une variable aléatoire X est toujours crois-
sante et continue à droite. On a limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1.
Exemple : Fonction de répartition de la loi uniforme sur l’intervalle [0, 1]. Si X est de loi
uniforme sur [0,1], X admet pour densité la fonction 1[0,1] . Notons F sa fonction de répartition.
Pour tout x ∈ R, on a donc Z x
F (x) = 1[0,1] (t) dt.
−∞
– Si x < 0 : on a F (x) = 0, car 1[0,1] (t) = 0 pour tout t ∈] − ∞, x].

– Si x ∈ [0, 1], on a
Z 0 Z x
F (x) = 1[0,1] (t) dt + 1[0,1] (t) dt
−∞ 0
Z x
= 0+ 1 × dt
0
= x
15
– Si x > 1,
Z 0 Z 1 Z x
F (x) = 1[0,1] (t) dt + 1[0,1] (t) dt + 1[0,1] (t) dt
−∞ 0 1
Z 1
= 0+ 1 × dt + 0
0
= 1
La fonction de répartition F de la loi uniforme sur [0, 1] est donc nulle sur R− , égale à la
fonction identité sur [0, 1] et constante égale à 1 sur [1, +∞[. On peut remarquer que cette
fonction F est continue, dérivable sur R\{0, 1}, et que sa dérivée coı̈ncide avec la densité de X
là où elle existe.
3.7 Fonctions génératrice

La fonction génératrice est utilisée pour les variables aléatoires positives, et même surtout
pour les variables aléatoires à valeurs dans N.
Définition 3.11 La fonction génératrice de la loi de la variable aléatoire X : Ω → R+ est

la fonction GX définie pour tout s ∈ [0, 1] par
X
GX (s) = E(sX ) = sx P(X = x).
x∈X(Ω)
Cette fonction est définie (et finie) pour s ∈ [0, 1] puisque pour tout s ∈ [0, 1], la variable
aléatoire sX est positive et majorée par 1 : c’est donc une variable aléatoire intégrable.
Dans le cas où X est à valeurs dans N, la fonction génératrice est une série entière, de
rayon de convergence supérieur ou égal à 1. On peut alors également la définir pour s ∈ [−1, 0]
et on a X
GX (s) = E(sX ) = sn P(X = n).
n∈N
Remarque : La fonction GX est polynômiale de degré au plus n si et seulement si X(Ω) ⊂

{0, . . . , n}.
Proposition 3.12
– Soit X une variable aléatoire discrète positive et intégrable. On a E(X) = G0X (1− ).
– Plus généralement, si X : Ω → R+ est une variable aléatoire vérifiant E(X n ) < ∞, la
dérivée nede GX en 1− est égale à E(X(X − 1) . . . (X − n + 1)).
– Si deux variables aléatoires positives ont la même fonction génératrice, alors elles suivent
la même loi. On dit que la fonction génératrice caractérise la loi des variables aléatoires
positives.
Aide-mémoire : La dérivée de s → sX est égale à XsX−1 . En prenant l’espérance pour s = 1,

on obtient donc G0X (1) = E(X).
De même, la dérivée seconde de s → sX est égale à X(X − 1)sX−1 , et après la même
opération que précédemment, G00X (1) = E(X(X − 1)).
16
Exemple : Calcul de l’espérance et de la variance d’une loi de Poisson à partir de la fonction

génératrice. Soit X une variable aléatoire de loi de Poisson de paramètre m > 0. Calculons sa
fonction génératrice GX .
Comme X est à valeurs dans N, on a
GX (s) = E(sX )
X
= sn P(X = n)
n≥0
X mn
= sn e−m
n≥0
n!
−m ms
= e e
En dérivant, on obtient, E(X) = G0X (1) = e−m mem×1 = m.

En dérivant à nouveau : E(X(X − 1)) = G00X (1) = e−m m2 em×1 = m2 .
On en déduit alors la variance de X : par définition, var X = E(X 2 ) − (E(X))2 et en
écrivant E(X 2 ) = E(X(X − 1)) + E(X), on obtient var (X) = m.
3.8 Comment calculer la loi

Le problème se pose fréquemment de calculer la loi d’une variable aléatoire Y définie par
exemple comme fonction d’une autre variable aléatoire X : Y = g(X), la fonction g étant
continue par morceaux.
Si Y est une variable discrète, il suffit de déterminer l’ensemble des valeurs prises par Y ,
puis pour tout y ∈ Y (Ω), on aura P(Y = y) = P(X ∈ g −1 ({y})), ce qui se calcule donc à l’aide
de la loi de X.
Si on pense que Y va avoir une densité, on peut imaginer calculer sa fonction de répartition :
P(Y ≤ y) = P(g(X) ≤ y).
Si la fonction g est monotone, on imagine facilement la suite... mais sinon ? La méthode ha-
bituellement utilisée consiste à utiliser une fonction test h : R → R continue et bornée. Si on
réussit alors à écrire E(h(Y )) sous la forme
Z
E(h(Y )) = h(y) dµ(y),
R
on aura gagné : la mesure de probabilité µ obtenue sera la mesure image de Y (de la forme
dµ = fY (y) dy si Y est à densité). En effet, en fixant x ∈ R et en prenant h de la forme
h(y) = 1y≤x , on retrouve ainsi la fonction de répartition de la loi de Y . L’avantage est que le
changement de variable auquel il faut procéder apparaı̂t clairement.
Exemple : Soit X une variable aléatoire de densité fX Déterminons les lois de Y = aX + b et
de Z = (1 + X)/(1 − X). Prenons donc une fonction test h continue par morceaux et bornée.
On a Z
E(h(Y )) = E(h(aX + b)) = h(ax + b)fX (x) dx.
R
Petite remarque préalable : la suite de la démonstration présentée ici est basée sur des notions
de calcul intégral (programme L3) : ne vous avisez pas à utiliser de telles justifications devant
17
une classe de terminale ! Il est tout à fait possible de traiter séparément les cas a > 0 et a < 0
pour rentrer dans le cadre des programmes de lycée.
On effectue alors le changement de variable y = ax + b. Ce changement de variable est bien
un difféomorphisme de R et son jacobien vaut dx = dy/|a|. Il vient :

y − b dy
Z
E(h(Y )) = h(y)fX .
R a |a|
On en déduit donc que Y admet pour densité la fonction fY définie sur R par

y−b 1
fY (Y ) = fX .
a |a|
Procédons de même pour Z :

Z
1+x
E(h(Z)) = h fX (x) dx
R 1−x

z−1
Z
2
= h(z)fX dz
R z + 1 (z + 1)2
On a en effet posé z = (1 + x)/(1 − x), soit x = (z − 1)/(z + 1) = 1 − 2/(z + 1). Ce changement

de variable est un difféomorphisme de R\{−1} vers R\{1}. Remarquons qu’il est souvent plus
pratique de raisonner en terme de jacobien plutôt qu’en terme de dérivée : il n’y a pas à s’occuper
du sens des bornes des intégrales, mais il suffit de vérifier qu’un domaine s’envoie bien sur un
autre domaine de R (et de ne pas oublier de mettre la valeur absolue de la dérivée et non
la dérivée elle-même). On traite alors ce changement de variable comme un changement de
variable dans une intégrale multiple.

Proba Va2

Transféré par

Droits d'auteur :

Formats disponibles

Proba Va2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Proba Va2

Transféré par

Droits d'auteur :

Formats disponibles

Probabilités et variables aléatoires

Préparation à l’agrégation interne

On déduit la proposition suivante de la définition d’une mesure de probabilité :

Proposition 1.2 1. P(∅) = 0,

1.2 Probabilités discrètes

P({2}) = P(au premier tirage, on n’a pas eu de 6 ; au deuxième tirage, on a eu un 6)

Attention : Ne pas confondre cette probabilité avec la probabilité de tirer un 6 exactement

1.3 Probabilité à densité

• La mesure de Gauss sur R. On utilise ici la fonction

2 Probabilité conditionnelle, indépendance

PB (A) = P(A|B) = P(A ∩ B)/P(B).

Proposition 2.2 Soit B un événement de probabilité strictement positive. On note PB la pro-

Les probabilités conditionnelles permettent de décomposer un événement suivant des sous-

Remarque : Plusieurs définitions d’un système complet d’événements cohabitent : suivant

Définition 2.5 Deux événements A et B sont dits indépendants si P(A ∩ B) = P(A)P(B).

Définition 2.6 Soit n un entier supérieur ou égal à 2. n événements A1 , . . . , An sont (mu-

Des événements n à n indépendants le sont bien évidemment 2 à 2 mais la réciproque est

Exercice 2 • On choisit Ω = {1, 2, 3, 4} et on le munit de la probabilité uniforme. Trouver

3 Variables aléatoires réelles

Notation : Pour tout intervalle I et pour tout x ∈ R, on note

Définition 3.2 La probabilité µ est appelée la mesure image de P par X, ou la loi de X.

En particulier en prenant a = b dans l’égalité ci-dessus, on remarque P(X = a) = 0 pour

3.2 Exemples de variables aléatoires discrètes

P({ω ∈ Ω tels que X(ω) = x}) = P(X −1 {x}) = P(X = x)

Exercice 3 On se donne une variable aléatoire X : Ω → N. Montrer que la famille An =

• Pour un événement A ⊂ Ω, on note 1A la fonction suivante : 1A (ω) = 1 si ω ∈ A et

3.3 Exemples de variables aléatoires à densité

• Loi exponentielle de paramètre λ. Il s’agit de la loi de densité fλ (x) = λ exp(−λx)1x>0 .

La loi normale N (m, σ 2 ) est de densité

est finie. On définit alors son espérance par

Plus généralement, pour toute fonction continue par morceaux h : R → R, on a

Plus généralement, pour toute fonction h : X(Ω) → R, on a

si h(X) est intégrable, c’est-à-dire, si

– Si X est une variable aléatoire à valeurs réelle et de densité f : R → R+ , elle est

Exemple : Calcul de l’espérance de la loi géométrique de paramètre p. On se donne une variable

Finalement, E(X) = 1/p.

Exercice 5 • On se donne un événement A. Montrer que E(1A ) = P(A).

2) On pose Y = X + a. On a E(Y ) = a + E(X) et var (Y ) = E((Y − E(Y ))2 ).

– Si X est une variable aléatoire de densité f ,

On va essayer de faire apparaı̂tre une dérivée seconde en écrivant n2 = n(n − 1) + n :

On a donc var (Y ) = 1/λ2 .

Exercice 6 Calculer les variances des lois des paragraphes 3 et 3.3.

3.6 Fonction de répartition d’une variable aléatoire

FX (x) = P(X ≤ x).

La fonction de répartition caractérise la loi d’une variable aléatoire.

– Si x < 0 : on a F (x) = 0, car 1[0,1] (t) = 0 pour tout t ∈] − ∞, x].

3.7 Fonctions génératrice

Définition 3.11 La fonction génératrice de la loi de la variable aléatoire X : Ω → R+ est

Remarque : La fonction GX est polynômiale de degré au plus n si et seulement si X(Ω) ⊂

Aide-mémoire : La dérivée de s → sX est égale à XsX−1 . En prenant l’espérance pour s = 1,

Exemple : Calcul de l’espérance et de la variance d’une loi de Poisson à partir de la fonction

En dérivant, on obtient, E(X) = G0X (1) = e−m mem×1 = m.

3.8 Comment calculer la loi

P(Y ≤ y) = P(g(X) ≤ y).

Procédons de même pour Z :

On a en effet posé z = (1 + x)/(1 − x), soit x = (z − 1)/(z + 1) = 1 − 2/(z + 1). Ce changement

Vous aimerez peut-être aussi