Proba Va2
Proba Va2
Proba Va2
1 Probabilité
1.1 Définitions
On se place sur un ensemble Ω appelé espace de probabilité ou univers.
Une tribu sur Ω est un sous-ensemble Σ de l’ensemble des parties de Ω tel que ∅ ∈ Σ, Σ est
stable par passage au complémentaire (i.e. si A ∈ Σ, alors Ac ∈ Σ) et par réunion dénombrable
(i.e. si (An ) est une famille dénombrable de parties de Ω telle que pour tout n, An ∈ Σ, alors
∪n An ∈ Σ).
On peut alors vérifier qu’une tribu est également stage par intersection dénombrable .
Le plus souvent, si Ω est dénombrable, la tribu utilisée sera P(Ω).
Dans le vocabulaire probabiliste,
– Un élément ω de Ω est appelé une épreuve
– Un sous-ensemble A de Ω qui appartient à Σ est un événement.
– Un événement élémentaire est un singleton de Ω.
– L’événement certain est Ω.
– L’événement impossible est l’ensemble vide.
– Deux événements disjoints sont dits incompatibles.
Définition 1.1 Une mesure de probabilité (P, Σ) est une fonction définie sur Σ et à valeurs
dans R vérifiant les propriétés suivantes :
1. Pour tout événement A de Ω, P(A) ≥ 0.
2. P(Ω) = 1.
3. Si (An )n≥1 est une famille dénombrables de sous-ensembles de Ω deux à deux disjoints,
on a [ X
P An = P(An ).
n≥1 n
En toute rigueur, P, en tant que fonction, est une mesure de probabilité. Le terme de
probabilité se rapporte à la probabilité P(A) de l’événement A. Par abus de langage, on utilisera
le mot « probabilité » dans les deux cas.
2
Remarque : Le troisième point de la définition signifie qu’une probabilité est une fonction
croissante : c’est une façon de calculer la « taille » des événements.
Pour la suite de ce cours, on se placera sur un espace Ω muni d’une mesure de
probabilité P.
Proposition 1.3 Une probabilité sur un ensemble dénombrable est complètement déterminée
par les P({ω}) pour tout ω ∈ Ω. En effet, pour A ⊂ Ω, on a
X
P(A) = P({ω}).
ω∈A
Remarques : P
– Les poids d’une probabilité discrète P vérifient ω∈Ω P({ω}) = 1.
– Une mesure de probabilité ne permet d’évaluer a priori que la taille de sous-ensembles de
Ω.
Des exemples
• Lancer d’une pièce équilibrée : on souhaite modéliser le résultat du lancer d’une pièce sans
tricherie. Pour cela, on choisit Ω1 = {pile, face}, et donc cardΩ1 = 2. L’ensemble des parties de
Ω1 comporte quatre éléments et on définit la mesure de probabilité P par P{pile} = P{face} =
1/2 puisque les deux événements sont équiprobables (c’est-à-dire de même probabilité).
Remarque : On aurait très bien pu choisir Ω1 = {pile, face, rouge, vert}, et comme mesure
de probabilité P{pile} = P{face} = 1/2 et P{rouge} = P{vert} = 0, mais tant qu’à faire, on
choisit le plus simple...
• Lancer de k pièces, k ≥ 2 : on prend cette fois-ci Ωk = (Ω1 )k , c’est-à-dire l’ensemble des
k
k-uplets de pile ou face. On a cardΩk = 2k et cardP(Ωk ) = 22 . Les différents k-uplets sont tous
équiprobables donc P({ω}) = 2−k , pour tout ω ∈ Ωk .
• Probabilité uniforme discrète : sur un ensemble fini Ω = {ω1 , . . . , ωn }, avec n = card(Ω),
on définit la probabilité uniforme par P({ωi }) = 1/n pour tout i entre 1 et n. Dans ce cas, tous
les ωi ont la même probabilité de se produire (i.e. sont équiprobables), et pour une partie A
de Ω, on a
cardA nb cas favorables
P(A) = = .
n nb cas possibles
Par exemple, lors du lancer d’un dé régulier à six faces, chaque face est obtenue avec la même
probabilité 1/6.
Remarque : Il ne peut bien sûr pas y avoir de loi uniforme sur N.
• Exemple de mesure de probabilité sur N∗ . On lance un dé de façon répétée jusqu’à obtenir
un 6, et on note le numéro du tirage du premier 6. On a évidemment P({1}) = 1/6.
3
On a également
Cela constitue bien une mesure de probabilité discrète sur N∗ puisque k≥1 P(k) = 1.
P
Une telle mesure est dite à densité (par rapport à la mesure de Lebesgue sur R). On dit
également que c’est une probabilité continue.
Des exemples
• La mesure uniforme sur l’intervalle [a, b], où a < b : On définit
Z Z
dx dx
µ(A) = 1A∩[a,b] (x) = 1[a,b] (x) .
R b−a A b−a
où m ∈ R et σ ∈ R+∗ sont deux paramètres fixés. Un joli exercice consiste à prouver (au moins
dans le cas m = 0 et σ = 1 que l’intégrale de la fonction f sur R est égale à 1.
4
Un cas typique où interviennent des probabilités conditionnelles est les expériences aléatoires
obtenues par des tirages successifs de boules dans des urnes (mais il y a bien sûr d’autres cadres
où elles apparaissent naturellement !) On résout ces question le plus souvent en dressant un arbre
de probabilité : les données figurant sur les arêtes de l’arbre ont des probabilités conditionnelles.
La probabilité conditionnelle vérifie les mêmes propriétés qu’une probabilité : on a ainsi
PB (Ω) = 1, PB (∅) = 0, si A1 et A2 sont disjoints, PB (A1 ∪A2 ) = PB (A1 )+PB (A2 ), PB (Ω\A) =
1 − PB (A)...
On peut donc énoncer la proposition suivante :
Définition 2.3 Un système complet d’événements est une famille dénombrable ou finie
(Bn ) d’événements deux à deux disjoints et vérifiant ∪n Bn = Ω.
Proposition 2.4 (Formule des probabilités totales) Soit (Bn ) un système complet d’évé-
nements tel que, pour tout n ≥ 1, P(Bn ) > 0, et A un événement quelconque. On a
X X
P(A) = P(A ∩ Bn ) = PBn (A)P(Bn ).
n n
5
Remarque : Si par exemple P(B1 ) = 0, on pourrait poser PB1 (A) = 0, ou 1, ou 1/2 pour
tout A, cela n’interviendrait pas dans la formule ci-dessus. Néanmoins il est plus pédagogique
d’imposer que les Bn soient tous de probabilité strictement positive, pour que la formule ci-
dessus soit rigoureuse.
Preuve : Par définition, pour tout n, PBn (A)P(Bn ) = P(A ∩ Bn ) et les événements A ∩ Bn sont
deux à deux disjoints car les Bn le sont. On en déduit donc que
X
PBn (A)P(Bn ) = P(∪n (A ∩ Bn ))
n
= P(A ∩ (∪n Bn )) = P(A).
Un problème courant est de déterminer PB (A) à partir de PA (B). La seule donnée de PA (B)
n’y suffit pas. Il faut par exemple connaı̂tre aussi P(A) et P(B) : on a alors
PB (A) = PA (B)P(A)/P(B).
Une autre possibilité est de connaı̂tre P(A) et PĀ (B) où Ā est le complémentaire de A :
Formule de Bayes :
– Soient A et B deux événements de probabilité strictement positive, vérifiant également
P(Ā) > 0. On vérifie que
PA (B)P(A)
PB (A) = .
PA (B)P(A) + PĀ (B)P(A)
– Soient (An ) un système complet d’événements tel que, pour tout n, P(An ) > 0 et B un
événement tel que P(B) > 0. On a pour tout i :
PA (B)P(Ai )
PB (Ai ) = P i .
n PAn (B)P(An )
Preuve : Le dénominateur du membre de droite vaut en fait P(B), alors que le numérateur vaut
P(A ∩ B), d’où le résultat.
Exercice 1 1. Montrer qu’un événement de probabilité nulle est indépendant de tout évé-
nement.
2. Montrer que si A et B sont indépendants, alors Ω\A et B le sont.
3. Montrer qu’un événement de probabilité 1 est indépendant de tout événement.
Exemples :
• Lors d’un lancer de pile ou face, les événements « tomber sur pile au premier tirage » et
« tomber sur pile au deuxième tirage » sont généralement indépendants (sauf en cas de triche-
rie...)
6
• Tirage avec remise. On dispose d’une urne contenant N boutons noirs et J boutons
jaunes. À chaque tirage, on prend un bouton au hasard, on note la couleur du bouton ob-
tenu et on le remet dans l’urne. Les événements A = {tirer un bouton noir au premier tirage}
et B = {tirer un bouton jaune au deuxième tirage} sont-ils indépendants ?
• Urne de Polya. On dispose toujours d’une urne contenant N boutons noirs et J boutons
jaunes. À chaque tirage, on note la couleur du bouton obtenu et on le remet dans l’urne accom-
pagné d’un bouton de la même couleur. Même question que précédemment.
{X ∈ I} = {ω ∈ Ω, X(ω) ∈ I} = X −1 (I),
et pour tout x ∈ R,
{X = x} = {ω ∈ Ω, X(ω) = x} = X −1 ({x}).
Les ensembles {X ∈ I} et {X = x} sont des sous-ensembles de Ω. On pourra donc étudier par
exemple P{X ∈ I} pour tout intervalle I de R, mais pas P(I).
Énonçons la propriété fondamentale de µ :
Proposition 3.1 La fonction µ ainsi définie est une probabilité sur R (ou sur l’ensemble
X(Ω)).
Sa loi est ainsi complètement déterminée par la donnée de l’ensemble X(Ω) ainsi que par les
quantités µ(B) = P(X −1 (I)) pour tout intervalle I de R. On note parfois µ = X(P) ou µ = PX
(attention dans ce dernier cas à ne pas faire de confusion avec la probabilité conditionnelle).
La loi est la principale information dont on disposera sur une variable aléatoire : souvent
l’ensemble Ω sera inconnu ou implicite, on n’aura donc pas d’information sur X(ω).
Définition 3.3 – La variable aléatoire X sera discrète si elle prend ses valeurs dans un
ensemble discret (et sa mesure-image est alors une mesure discrète). Sa loi sera caracté-
risée par l’ensemble X(Ω) (ou par un ensemble dénombrable contenant X(Ω)) et par les
probabilités P(X = x) pour tout x ∈ X(Ω).
– X sera à densité (on dit aussi que X est continue) si sa mesure image admet une densité,
c’est-à-dire s’il existe une fonction f : R → R+ , continue par morceaux, d’intégrale sur R
égale à 1, telle que pour tous réels a et b vérifiant a ≤ b,
Z b
P(X ∈ [a, b]) = f (x) dx.
a
Remarque : Si Ω est un ensemble fini ou dénombrable, toute variable aléatoire définie sur Ω
sera discrète.
Attention : Deux variables aléatoires peuvent suivre la même loi sans être égales : par exemple
deux tirages successifs de pile ou face.
Nous allons maintenant étudier quelques exemples de variables aléatoires discrètes ou à den-
sité, mais il faut garder à l’esprit que cela ne recouvre pas tous les types de variables aléatoires.
P
Remarque : On doit avoir x P(X = x) = 1, où la somme est prise sur x ∈ X(Ω).
Pour construire une variable aléatoire discrète à valeurs dans N, on peut aussi commencer
par
P définir une mesure de probabilité sur N en se donnant le poids pn de chaque entier n (avec
pn = 1) puis considérer une variable aléatoire X d’un certain espace Ω dans N dont la loi
est donnée par P(X = n) = pn .
Exercice 4 Montrer que, si X suit la loi de Dirac en a, pour tout A ⊂ R, P(X ∈ A) = 1A (a).
• Loi de Bernoulli. La loi de Bernoulli B(p) de paramètre p ∈ [0, 1] est donnée par X(Ω) =
{0, 1} et P(X = 1) = p = 1 − P(X = 0). Lors d’un tirage de pile ou face d’une pièce équilibrée,
si on note X = 1 si la pièce tombe sur pile et 0 sinon, on obtient une variable aléatoire de loi
de Bernoulli B( 12 ). Plus généralement, pour un événement A quelconque, la variable aléatoire
1A suit une loi de Bernoulli de paramètre P(A).
• Loi binomiale. La loi binomiale Bin(n, p), pour n ∈ N∗ et p ∈ [0, 1] est donnée par
X(Ω) = {0, . . . , n} et, pour tout k ∈ {0, . . . , n}, P(X = k) = nk pk (1 − p)n−k . On retrouve ici
la probabilité d’obtenir k fois exactement au cours de n tentatives (indépendantes) la réalisation
d’un événement dont la probabilité est p. Par exemple, la probabilité de tirer exactement k 6
lors des n premiers lancers d’un dé est nk 5n−k 6−n .
• Loi uniforme sur {1, . . . , n}. On a ici X(Ω) = {1, . . . , n} et cette loi affecte le même poids
à chacun des éléments. On a donc P(X = k) = 1/n, pour tout k ∈ {1, . . . , n}.
• Loi géométrique G(p), p ∈]0, 1[ : Cette loi est donnée par X(Ω) = N∗ et P(X = k) =
p(1 − p)k−1 pour tout k ∈ N∗ . On a vu plus haut que c’est la loi du numéro du tirage où la
réussite survient pour la première fois (toujours dans le cadre d’une répétition indépendante
des expériences de Bernoulli).
• Loi de Poisson P(λ), λ > 0. C’est la loi de la variable aléatoire X vérifiant X(Ω) = N et
P(X = k) = e−λ λk /k!. Elle est généralement utilisée pour modéliser le nombre d’appels reçus
par un serveur au cours d’un laps de temps donné.
• Loi hypergéométrique : Soit r, b et n trois entiers naturel non nuls. La loi hypergéométrique
(b + r, r, n) est la loi du nombre de boules rouges que l’on obtient lorsque l’on tire simultanément
n boules dans une urne contenant r boules rouges et b boules blanches. On a :
r
b
k n−k
P(X = k) = r+b
n
• Loi uniforme sur [a, b] : c’est la loi de la variable aléatoire X de densité 1[a,b] /(b − a). La
probabilité qu’une variable aléatoire de loi uniforme sur [a, b] appartienne à un sous-intervalle
de [a, b] est proportionnelle à la longueur de ce sous-intervalle. On a en particulier P(X ∈
[a, b]) = 1.
9
Z +∞ 2
2
I = f (t) dt
−∞
Z +∞ Z +∞
= f (t) dt × f (s) ds
−∞ −∞
Z
2 2 ds dt
= e−(s +t )/2 .
R2 2π
Procédons à un changement de variables en coordonnées polaires en posant s = r cos θ et t =
r sin θ. Il vient
Z ∞Z π
2 r dr dθ
2
I = e−r /2
2π
Z0 ∞ −π
2
= re−r /2 dr
0
= 1.
(x − m)2
1
f (x) = √ exp −
2πσ 2σ 2
3.4 Espérance
Donnons tout d’abord la définition générale de l’espérance, avant de l’appliquer aux variables
aléatoires discrètes ou à densité.
Soit X : Ω → R une variable aléatoire de loi µ.
Définition 3.5 Une variable aléatoire X est dite intégrable si la quantité
Z Z
|X| dP = |x| dµ
Ω R
lorsque la quantité Z Z
|h(X)| dP = |h(x)| dµ < ∞.
Ω R
Dans le langage courant (et aussi probabiliste), l’espérance est appelée moyenne. C’est un
paramètre de position, qui indique autour de quelle valeur la variable aléatoire est répartie.
Insistons dès maintenant sur le fait qu’une variable aléatoire X bornée par une constante M
(c’est-à-dire que P(|X| ≤ M ) = 1) est toujours intégrable, que l’on a dans ce cas E(|X|) ≤ M
et E(X) ∈ [−M, M ].
Cette définition générale induit deux écritures différentes suivant que la variable aléatoire
X est discrète ou à densité :
– Si X est une variable aléatoire discrète, l’intégrabilité se traduit par
X
|x|P(X = x) < ∞
x∈X(Ω)
et on a alors : X
E(X) = xP(X = x).
x∈X(Ω)
et on a alors Z
E(h(X)) = h(x)f (x) dx.
R
11
Remarque importante pour le cas discret : Supposons que l’espace Ω soit fini : Ω =
{ω1 , . . . , ωk }. Dans ce cas, toute variable aléatoire X : Ω → R est discrète. Notons n =
card(X(Ω)) et X(Ω) = {x1 , . . . , xn }. On a
n
X
E(X) = xi P(X = xi )
i=1
n
X X
= xi P({ω})
i=1 ω∈Ω;X(ω)=xi
n
X X
= xi P({ω})
i=1 ω∈Ω;X(ω)=xi
n
X X
= X(ω)P({ω})
i=1 ω∈Ω;X(ω)=xi
X
= X(ω)P({ω})
ω∈Ω
Cette expression permet de justifier très simplement que, pour toute variable aléatoire X : Ω →
R, partant d’un espace fini Ω, et pour toute fonction h : R → R, on a
X
E(h(X)) = h(x)P(X = x).
x∈X(Ω)
Cette expression de l’espérance de h(X) est appelée « thèorème du transfert ». Sa preuve peut
donc se faire simplement dans le cas discret (avec Ω fini ou dénombrable) ; on peut la faire
également pour certaines fonctions simples dans le cas des variables aléatoires à densité, mais
le cas général nécessite des connaissances en théorie de la mesure.
Or n(1 − p)n−1 est la dérivée de −(1 − p)n et n≥0 (1 − p)n = 1/p . On obtient (en inversant
P
une dérivation et une série, ce qui est licite car il s’agit d’une série entière) :
X d 1 1
n(1 − p)n−1 = − = 2.
n≥0
dp p p
12
3.5 Variance
Définition 3.7 La variance d’une variable aléatoire de carré intégrable X est égale à
var X = E (X − E(X))2 .
p
On appelle écart-type la quantité σ = var (X). La variance et l’écart-type sont des para-
mètres de dispersion : plus ils sont grands, plus la variable aléatoire est dispersée au tour de sa
moyenne (c’est-à-dir : prend des valeurs éloignées de la moyenne).
Proposition 3.8 – Formule de Koenig. Pour toute variable aléatoire de carré intégrable
X, on a var X = E(X 2 ) − (E(X))2 .
– Si X est une variable aléatoire de carré intégrable et si a est une constante, on a var (X +
a) = var (X) et var (aX) = a2 var (X).
– La variance d’une variable aléatoire de carré intégrable est toujours une quantité positive.
Elle n’est nulle que si la variable aléatoire suit une loi de Dirac.
Preuve :
1) Notons m = E(X). On a (X − m)2 = X 2 − 2mX + m2 . Donc
E(X − m)2 = E(X 2 ) − E(2mX) + E(m2 )
= E(X 2 ) − 2mE(X) + m2
= E(X 2 ) − m2 .
13
Exemple : Calcul de la variance d’une variable aléatoire X de loi G(p). On a déjà vu que
E(X) = 1/p. Calculons maintenant E(X 2 ). On a :
X
E(X 2 ) = n2 P(X = n)
n≥1
X
= n2 p(1 − p)n−1
n≥1
où la somme est prise sur tous les t ∈ X(Ω) inférieurs ou égaux à x. On obtient une fonction
constante par morceaux : ce n’est pas très maniable. La fonction de répartition est peu utilisée
dans ce contexte.
Si X suit la loi de densité f ,
Z x
FX (x) = f (t) dt.
−∞
C’est alors une fonction continue, et en tout point où elle est dérivable, sa dérivée est égale à la
densité de la loi de X : c’est par conséquent un outil utilisé pour déterminer la loi de variables
aléatoires que l’on pense à densité.
Proposition 3.10 La fonction de répartition d’une variable aléatoire X est toujours crois-
sante et continue à droite. On a limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1.
Exemple : Fonction de répartition de la loi uniforme sur l’intervalle [0, 1]. Si X est de loi
uniforme sur [0,1], X admet pour densité la fonction 1[0,1] . Notons F sa fonction de répartition.
Pour tout x ∈ R, on a donc Z x
F (x) = 1[0,1] (t) dt.
−∞
– Si x > 1,
Z 0 Z 1 Z x
F (x) = 1[0,1] (t) dt + 1[0,1] (t) dt + 1[0,1] (t) dt
−∞ 0 1
Z 1
= 0+ 1 × dt + 0
0
= 1
La fonction de répartition F de la loi uniforme sur [0, 1] est donc nulle sur R− , égale à la
fonction identité sur [0, 1] et constante égale à 1 sur [1, +∞[. On peut remarquer que cette
fonction F est continue, dérivable sur R\{0, 1}, et que sa dérivée coı̈ncide avec la densité de X
là où elle existe.
Cette fonction est définie (et finie) pour s ∈ [0, 1] puisque pour tout s ∈ [0, 1], la variable
aléatoire sX est positive et majorée par 1 : c’est donc une variable aléatoire intégrable.
Dans le cas où X est à valeurs dans N, la fonction génératrice est une série entière, de
rayon de convergence supérieur ou égal à 1. On peut alors également la définir pour s ∈ [−1, 0]
et on a X
GX (s) = E(sX ) = sn P(X = n).
n∈N
Proposition 3.12
– Soit X une variable aléatoire discrète positive et intégrable. On a E(X) = G0X (1− ).
– Plus généralement, si X : Ω → R+ est une variable aléatoire vérifiant E(X n ) < ∞, la
dérivée nede GX en 1− est égale à E(X(X − 1) . . . (X − n + 1)).
– Si deux variables aléatoires positives ont la même fonction génératrice, alors elles suivent
la même loi. On dit que la fonction génératrice caractérise la loi des variables aléatoires
positives.
GX (s) = E(sX )
X
= sn P(X = n)
n≥0
X mn
= sn e−m
n≥0
n!
−m ms
= e e
Si la fonction g est monotone, on imagine facilement la suite... mais sinon ? La méthode ha-
bituellement utilisée consiste à utiliser une fonction test h : R → R continue et bornée. Si on
réussit alors à écrire E(h(Y )) sous la forme
Z
E(h(Y )) = h(y) dµ(y),
R
on aura gagné : la mesure de probabilité µ obtenue sera la mesure image de Y (de la forme
dµ = fY (y) dy si Y est à densité). En effet, en fixant x ∈ R et en prenant h de la forme
h(y) = 1y≤x , on retrouve ainsi la fonction de répartition de la loi de Y . L’avantage est que le
changement de variable auquel il faut procéder apparaı̂t clairement.
Exemple : Soit X une variable aléatoire de densité fX Déterminons les lois de Y = aX + b et
de Z = (1 + X)/(1 − X). Prenons donc une fonction test h continue par morceaux et bornée.
On a Z
E(h(Y )) = E(h(aX + b)) = h(ax + b)fX (x) dx.
R
Petite remarque préalable : la suite de la démonstration présentée ici est basée sur des notions
de calcul intégral (programme L3) : ne vous avisez pas à utiliser de telles justifications devant
17
une classe de terminale ! Il est tout à fait possible de traiter séparément les cas a > 0 et a < 0
pour rentrer dans le cadre des programmes de lycée.
On effectue alors le changement de variable y = ax + b. Ce changement de variable est bien
un difféomorphisme de R et son jacobien vaut dx = dy/|a|. Il vient :
y − b dy
Z
E(h(Y )) = h(y)fX .
R a |a|
On en déduit donc que Y admet pour densité la fonction fY définie sur R par
y−b 1
fY (Y ) = fX .
a |a|