Cours
Cours
Cours
Fabrice Rossi
Cette œuvre est mise à disposition selon les termes de la licence Creative Commons
Paternité - Partage à l’Identique 3.0 non transposé.
Table des matières
2 Probabilités conditionnelles 21
2.1 Évènement réalisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Expériences aléatoires composées . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Règle des probabilités totales . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Règle de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.7 Indépendance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Variables aléatoires 37
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Notions générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Variable aléatoire numérique . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Variable aléatoire fonction d’une autre variable aléatoire . . . . . . . . . . 49
iii
iv TABLE DES MATIÈRES
B Fonctions 77
B.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
B.2 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
B.3 Composition de fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
B.4 Fonction réciproque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
C Dénombrement 81
C.1 Ensembles finis et ensembles dénombrables . . . . . . . . . . . . . . . . . . 81
C.2 Cardinaux et opérations ensemblistes . . . . . . . . . . . . . . . . . . . . . 81
C.3 Listes d’éléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
C.4 Sous-ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
C.5 Résultats complémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Évolutions de ce document 85
Index 89
Chapitre 1
\ Exemple 1.1 Le lancer d’un dé est une expérience aléatoire : le résultat est un entier
compris entre 1 et 6 dont la valeur ne peut être connue avant le lancer. [
Définition 1.2 L’ensemble des résultats possibles pour une expérience aléatoire, généra-
lement noté Ω, est appelé l’univers de l’expérience, aussi connu sous le nom d’ensemble
fondamental ou d’espace des possibles (ou encore l’espace des états).
Ω = {1, 2, 3, 4, 5, 6}.
On peut aussi avoir un point de vue plus proche des objets physiques et représente l’univers
comme l’ensemble des faces obtenues, soit
Ω = { , , , , , }. [
\ Exemple 1.3 Le lancer d’une pièce de monnaie est une expérience aléatoire dont
l’univers est l’ensemble Ω = {pile, face}. [
1
2 CHAPITRE 1. EXPÉRIENCE ALÉATOIRE ET PROBABILITÉS
\ Exemple 1.4 On choisit une carte à jouer au hasard dans un jeu de 32 cartes. Une
façon basique de décrire l’univers consiste à numéroter les cartes de 1 à 32 dans un ordre
arbitraire, puis à utiliser Ω = {1, 2, . . . , 32}.
On peut aussi considérer l’ensemble des couleurs C = {♣, ♠, ♥, ♦} et l’ensemble des
valeurs et des figures V F = {7, 8, 9, 10, V alet, Dame, Roi, As}. Ω est alors défini comme
le produit cartésien entre V F et C, soit Ω = V F × C. Une carte est ainsi représentée par
un couple de la forme (8, ♣) pour le 8 de trèfle, par exemple.
Notons que l’ordre choisi V F × C est arbitraire et qu’on pourrait utiliser Ω = C × V F
sans que cela n’influence les résultats. Une carte serait alors de la forme (♥, 4) pour le 4
de cœur, par exemple. [
\ Exemple 1.5 On lance deux fois de suite un dé. Comme pour un seul dé, l’espace des
possibles associé à un lancer peut être proche des objets physiques eux-mêmes, soit par
exemple L = { , , , , , }. On peut aussi considérer seulement la valeur du dé et donc
prendre L = {1, 2, 3, 4, 5, 6}. Comme on réalise deux lancers, l’expérience produit un couple
de résultats, c’est-à-dire un élément du produit cartésien L × L. L’univers de l’expérience
est donc Ω = {1, 2, 3, 4, 5, 6}2 pour la version numérique, ou Ω = { , , , , , }2 pour
une version plus imagée.
Notons que dans cette expérience, l’ordre dans un couple de résultats est significatif
puisqu’on lance d’abord un dé, puis après avoir observé son résultat, on le relance. On a
donc bien un premier résultat, puis un second. De ce fait la paire ( , ) est bien différente
de la paire ( , ). [
Ω = {(a, b) ∈ J 2 | a 6= b},
= {(1, 2), (1, 3), (2, 1), (2, 3), (3, 1), (3, 2)}.
Cet ensemble ne peut pas se formuler plus simplement sous forme d’un produit cartésien,
par exemple. [
Une des difficultés de modélisation est de décider si les résultats d’une expérience sont
discernables. Les exemples suivants illustrent cette difficulté.
\ Exemple 1.7 On lance deux dés simultanément. Si on considère les deux dés comme
indiscernables, on ne doit pas faire de différence entre les paires ( , ) et ( , ) : rien ne
permet d’ordonner les dés (contrairement à la situation de l’exemple 1.5). Pour représenter
1.1. EXPÉRIENCE ALÉATOIRE 3
\ Exemple 1.8 On considère une urne contenant cinq jetons, trois rouges et deux bleus.
On tire au hasard un jeton dans l’urne. Comme dans l’exemple 1.7, on peut être tenté de
modéliser de façon naturelle l’expérience en supposant que les jetons ne sont discernables
que par leur couleur. L’univers naturel est alors
U = {•, •}.
Cet univers respecte une symétrie des couleurs qui n’est pas très satisfaisante intuitivement :
on se doute que si on prend un jeton au hasard dans l’urne, on tombera plus fréquemment
sur un rouge que sur un bleu. Pour représenter cette intuition au niveau de l’univers,
on rend les jetons complètement discernables en les numérotant de 1 à 5. Comme dans
l’exemple 1.7, ceci est artificiel mais est très utile pour faciliter l’analyse de l’expérience.
L’univers devient alors par exemple
Ω = {¶, ·, ¸, ¹, º}.
La numérotation étant arbitraire, on peut très bien mettre les jetons bleus en premier
ou choisir n’importe quel ordre. L’intérêt du modèle est qu’il n’est plus symétrique : on
respecte dans l’univers la structure de l’expérience. En ce sens, Ω est un meilleur modèle
que U , mais ce dernier reste un modèle exact. [
4 CHAPITRE 1. EXPÉRIENCE ALÉATOIRE ET PROBABILITÉS
1.2 Évènements
Définition 1.3 Soit une expérience aléatoire et son univers Ω. On appelle évènement 1
un sous-ensemble de Ω, c’est-à-dire en sous-ensemble de tous les résultats possibles. Un
évènement est donc un élément de P(Ω).
On appelle évènement élémentaire les singletons de P(Ω), c’est-à-dire les ensembles
réduits à un seul élément. Un évènement élémentaire est donc de la forme {ω} pour tout
ω ∈ Ω.
B Remarque 1.1 Dans les situations complexes, en particulier quand Ω n’est pas dé-
nombrable (par exemple Ω = R), on ne peut pas considérer toute partie de Ω comme un
évènement. On se donne alors un sous-ensemble (strict) de P(Ω), celui des évènements
observables. Ce sous-ensemble est une tribu, c’est-à-dire qu’il vérifie des propriétés de
stabilité qu’on ne détaillera pas ici car la notion n’est pas au programme de ce cours.
\ Exemple 1.9 On considère de nouveau l’exemple 1.2 du lancer d’un dé. Voici quelques
exemples d’évènements :
— l’évènement A = { , , } correspond à l’obtention d’un chiffre pair ;
— l’évènement B = { , , } correspond à l’obtention d’un chiffre impair ;
— l’évènement C = { , , } correspond à l’obtention d’un chiffre plus petit ou égal
à trois ;
— l’évènement D = { } correspond à l’obtention d’un six. C’est un évènement
élémentaire. [
\ Exemple 1.10 Dans l’expérience des deux lancers successifs d’un dé de l’exemple 1.5 :
— l’obtention de deux fois de suite la même valeur est l’évènement
A = {( , ), ( , ), ( , ), ( , ), ( , ), ( , )};
— l’obtention d’un tirage dont le premier lancer est pair est l’évènement
B = { , , } × { , , , , , }. [
Une formule logique relativement simple peut conduire à un évènement complexe, comme
le montre l’exemple suivant.
\ Exemple 1.11 On considère l’exemple 1.2 des deux lancers d’un dé et l’évènement
« obtenir une somme de 6 en ajoutant le résultat des deux lancers ». Une façon simple
d’écrire l’évènement de façon ensembliste est la suivante
A = {(u, v) ∈ { , , , , , }2 | u + v = 6}.
1. On rencontre encore l’orthographe événement malgré les rectifications orthographiques de 1990...
1.2. ÉVÈNEMENTS 5
A = {( , ), ( , ), ( , ), ( , ), ( , )}.
A = {{a, b} ∈ U | a 6= b et a + b = 6} ∪ {{ }},
ce qui isole le cas du double qui est représenté par l’ensemble { }. Il est en fait plus
simple d’écrire directement A en extension, soit
A = {{ , }, { , }, { }} .
Pour bien utiliser les notations ensemblistes et le vocabulaire probabiliste, il faut conserver
à l’esprit le sens d’un évènement : c’est un sous-ensemble de tous les résultats possibles
pour une expérience. Chacun de ces résultats réalise l’évènement. En ce sens, A et B
doit bien se traduire par l’intersection des ensembles A et B : en effet, pour réaliser à la
fois A et B, il faut qu’un résultat de l’expérience appartienne aux deux ensembles, ce qui
est exactement la définition de A ∩ B. On raisonne de la même façon pour A ou B et
pour A implique B.
La traduction des connecteurs logiques (et, ou, implique) en opérations ensemblistes
facilite le passage d’une formule logique à une description ensembliste pour un évènement 2 .
Le processus est illustré par l’exemple suivant.
\ Exemple 1.14 On considère un jeu de 32 cartes (cf l’exemple 1.4) dans lequel on
choisit deux cartes successivement sans remise. Si on note P le paquet de cartes, l’univers
de l’expérience est
Ω = {(p1 , p2 ) ∈ P 2 | p1 6= p2 }.
En effet, le tirage étant successif, on observe bien une paire ordonnée de cartes. De plus,
l’absence de remise fait que les cartes sont nécessairement distinctes.
On s’intéresse à l’évènement « obtenir au moins un roi ». Cette formulation logique est
clairement équivalente à « obtenir exactement un roi ou obtenir exactement deux rois ».
L’utilisation du connecteur logique « ou » montre que l’évènement est obtenu comme union
ensembliste des évènements « obtenir exactement un roi » et « obtenir exactement deux
rois » (évènements qui sont d’ailleurs clairement incompatibles). Le deuxième évènement
peut être décrit directement comme suit
1.4 Probabilité
Définition 1.4 Soit une expérience aléatoire et son univers Ω. On appelle probabilité
sur Ω (ou mesure de probabilité) une fonction P de P(Ω) dans [0, 1] telle que :
1. P(Ω) = 1
2. pour toute suite (dénombrable) de sous-ensembles de Ω (Ai )i≥0 disjoints deux à deux
(c’est-à-dire tels que pour tout j 6= k, Aj ∩ Ak = ∅),
[ X
P Ai = P(Ai ).
i≥0 i≥0
B Remarque 1.2 Comme nous l’avons indiqué dans la remarque 1.1, on s’autorise dans
le cas général à ne considérer que certains sous-ensembles de Ω comme observables. Dans
ces situations, la probabilité n’est définie que pour les ensembles considérés.
B Remarque 1.3 Nous numérotons les suites (finies ou dénombrables) de façon arbi-
traire à partir de 0 ou de 1, où même d’un entier quelconque. Si elle est utilisée de façon
cohérente, la numérotation n’a pas d’influence sur les résultats. Il faut simplement s’assurer
qu’on utilise une numérotation fixe pour une suite donnée.
\ Exemple 1.15 On lance une pièce de monnaie. L’univers de l’expérience est alors
Ω = {pile, face}. Décrivons l’ensemble P(Ω). On a clairement
Pour définir une probabilité, on doit donner quatre réels dans [0, 1] vérifiant les propriétés
de la définition 1.4. On a bien sûr
Propriétés 1.1 Soit une expérience aléatoire, son univers Ω et une probabilité P sur Ω.
Alors P vérifie les propriétés suivantes :
1. P(∅) = 0 ;
2. pour Pn finie d’évènements deux à deux disjoints (Ai )1≤i≤n , on a
Sn toute suite
P ( i=1 Ai ) = i=1 P(Ai ) ;
3. pour tout évènement A, P(A) = 1 − P(A) ;
4. pour tous évènements A et B,
7. pour toute suite décroissante de sous-ensembles de Ω, les (Ai )i≥0 (avec donc i ≤
j ⇒ Aj ⊂ Ai ), on a
\
lim P(An ) = P Ai .
n→∞
i≥0
1.4. PROBABILITÉ 9
Preuve Ces propriétés sont des conséquences des caractéristiques des probabilités :
1. Considérons la suite d’ensembles définie par A0 = Ω et Ai = ∅ pour tout i ≥ 1. On
constate que pour tout j 6= k, Aj ∩ Ak = ∅. En effet, comme j =6 k, au moins un des
indices est supérieur ou égal à 1, et l’ensemble correspondant est alors l’ensemble
vide. Son intersection avec n’importe quel autre ensemble étant vide, on en déduit
Aj ∩ Ak = ∅. On a donc une suite d’ensembles disjoints deux à deux à laquelle on
peut appliquer la propriété de sigma additivité de la définition 1.4. On a donc
[ X X
P( Ai ) = P(Ai ) = P(Ω) + P(∅).
i≥0 i≥0 i≥1
Or, P(∅) est une valeurP numérique fixée de [0, 1]. Supposons
S par l’absurde que
P(∅)
S > 0. On a alors i≥1 P(∅) = ∞. Mais on a aussi i≥0 A i = Ω et donc que
P( i≥0 Ai ) = P(Ω) = 1 (la deuxième égalité venant de la première propriété de
P selon la définition 1.4). On a donc 1 = ∞, ce qui est impossible et donne donc
P(∅) = 0.
2. Soit donc une suite finie d’évènements deux à deux disjoints (Ai )1≤i≤n . On complète
cette suite en une suite infinie en prenant A0 = ∅ et Ai = ∅ pour i > n. Cette
suite est constituée d’ensembles deux à deux disjoints. En effet, si on considère
l’intersection Aj ∩ Ak pour k 6= j, soit les deux ensembles sont dans la suite finie
d’origine et leur intersection est donc vide par hypothèse. Dans le cas contraire, au
moins un des deux ensembles est vide (par construction) et l’intersection est donc
vide. On peut alors appliquer la sigma additivité qui donne
[ X n
X
P( Ai ) = P(Ai ) = P(Ai ),
i≥0 i≥0 i=1
A ∪ B = (A ∩ B) ∪ (B ∩ A) ∪ (A ∩ B).
10 CHAPITRE 1. EXPÉRIENCE ALÉATOIRE ET PROBABILITÉS
Or
[ \
Ai = Ai ,
i≥0 i≥0
et donc
[ \
P Ai = 1 − P Ai ,
i≥0 i≥0
B Remarque 1.4 La définition et les propriétés des probabilités font intervenir des
S
unions et intersections infinies (dénombrables). Intuitivement ω ∈ i≥1 Ai si au moins
T un
des évènements de la suite (Ai )i≥1 contient le résultat ω. De la même façon, ω ∈ i≥1 Ai
si tous les évènements de la suite (Ai )i≥1 contiennent le résultat ω.
En combinant de telles unions et intersections infinies, on peut exprimer des propriétés
logiques intéressantes. Par exemple,
\ [
ω∈ Ak ,
n≥1 k≥n
s’interprète de la façon suivante : le résultat ω est réalisé infiniment souvent dans la suite
S une infinité d’indices i tels que ω ∈ Ai . On remarque
(Ai )i≥1 . En d’autres termes, il existe
en effet que pour tout S n, ω ∈ k≥n Ak (en raison de l’interprétation de l’intersection
infinie). Mais ω ∈ k≥n Ak signifie qu’il existe un indice k ≥ n tel que ω ∈ Ak (en
raison de l’interprétation de l’union infinie). Supposons que le nombre d’indices i tels que
ω∈A Si soit fini : alors il existe un plus grand indice imax vérifiant cette propriété. Mais
ω ∈ k≥imax +1 Ak et il existe donc k > imax tel que ω ∈ Ak ce qui contredit le caractère
maximal de imax . On en déduit qu’il y a bien une infinité d’indices i tels que ω ∈ Ai .
De la même façon, la propriété
[ \
ω∈ Ak ,
n≥1 k≥n
Cas général
On a tout d’abord la proposition suivante.
Proposition 1.1 Soit une expérience aléatoire dont l’univers Ω est fini et s’écrit donc
Ω = {ω1 , . . . , ωn }. Une probabilité P sur Ω est caractérisée de façon unique par les n
que pi = P({ωi }). Réciproquement, tout ensemble de n réels
réels de [0, 1], (pi )1≤i≤n tels P
n
de [0, 1] P
(pi )1≤i≤n tels que i=1 pi = 1 définit une (unique) probabilité P sur Ω par
n
P(A) = i=1 δωi ∈A pi , où δωi ∈A vaut 1 si ω ∈ A, zéro sinon.
En termes moins formels, se donner une probabilité sur un univers fini à n éléments revient
à se donner n nombres réels de [0, 1] correspondant aux probabilités de n évènements
élémentaires de l’univers. La somme des n réels doit être de 1.
en appliquant pour l’égalité centrale l’hypothèse sur les deux probabilités. On a donc
montré que pour tout A, P1 (A) = P2 (A), ce qui montre que P1 = P2 . Une probabilité est
donc uniquement caractérisée les pi = P({ωi }).
Soit maintenant réciproquement. n nombres réels de [0, 1] (pi )1≤i≤n tels que ni=1 pi =
P
1. Montrons que P telle que définie dans la proposition est bien une mesure dePprobabilité.
n
Il est clair tout d’abord que P(A) ≥ 0 pour tout A. De plus, comme P(A) Pn ≤ i=1 pi = 1,
P est bien à valeurs dans [0, 1]. De plus, il est aussi clair que P(Ω) = i=1 pi et donc que
P(Ω) = 1.
Considérons maintenant la propriété de sigma additivité et S soit donc une suite d’évè-
nements de Ω, (Ai )i≥0 deux à deux disjoints. Notons S B = i≥0 Ai . Comme B ⊂ Ω, il
existe J un sous-ensemble de {1, . . . , n} tel que B = j∈J {ωj }. Soit Ji = {j ∈ J|ωj ∈ Ai }.
Comme les Ai sont disjoints deux à deux, les Ji le sont aussi. Par définition de P puis par
définition des Ji , on a
Xn X
P(Ai ) = δωk ∈Ai pk = pj ,
k=1 j∈Ji
3. La définition d’un ensemble fini et de son cardinal sont rappelées dans l’annexe C
1.5. PROBABILITÉS SUR UN UNIVERS FINI 13
et donc X XX
P(Ai ) = pj .
i≥0 i≥0 j∈Ji
S
Par définition J = i≥0 Ji . Comme l’union est disjointe, on a
XX X n
X
pj = pj = δωk ∈B pk = P(B).
i≥0 j∈Ji j∈J k=1
P S
On a donc bien i≥0 P(Ai ) = P( i≥0 Ai ).
\ Exemple 1.16 On considère Ω = {0, 1, 2, 3, 4, 5}, l’ensemble des notes possibles pour
des films sur un site d’agrégation de critiques. L’expérience aléatoire consiste à fixer un
film et à choisir au hasard une des notes qui lui ont été attribuées par les spectateurs et
critiques. En fonction de la perception du film, la probabilité sur Ω change. Par exemple,
un film bien critiqué peut être caractérisé par la probabilité suivante :
ω 0 1 2 3 4 5
1 3 2 1
Pbon ({ω}) 0 0 10 10 5 5
alors qu’un film considéré comme très mauvais pourrait avoir la probabilité suivante :
ω 0 1 2 3 4 5
2 1 1
Pnul ({ω}) 5 2 10 0 0 0
Dans les deux, nous avons bien des probabilités car la somme des valeurs numériques
indiquées dans les tableaux est de 1. De plus, toutes ces valeurs sont éléments de [0, 1].
La proposition 1.1 permet en outre de calculer la probabilité d’un évènement pour
les deux films. Par exemple, la probabilité de tomber sur une note inférieure ou égale à 3
pour le bon film est donnée par
Pbon ({0, 1, 2, 3}) = Pbon ({0}) + Pbon ({1}) + Pbon ({2}) + Pbon ({3}),
1 3
=0+0+ + ,
10 10
2
= .
5
La première égalité est une simple application de la propriété 2 des propriétés 1.1. On
utilise ensuite le tableau ci-dessous pour réaliser les calculs. [
Cas équiprobable
La situation se simplifie encore s’il est naturel de faire une hypothèse de symétrie sur
l’expérience aléatoire. Considérons en effet le lancer d’un dé non truqué. Par symétrie
matérielle de l’objet, on s’attend à tomber avec autant de chance sur chacun des faces. En
termes de fréquences, on s’attend, lors de lancers répétés, à obtenir environ autant de fois
chacune des six faces. Ceci se traduit naturellement en supposant que les probabilités de
chacun des évènements élémentaires sont égales.
14 CHAPITRE 1. EXPÉRIENCE ALÉATOIRE ET PROBABILITÉS
Définition 1.5 Soit une expérience aléatoire et son univers fini Ω. La probabilité uni-
forme sur Ω est celle qui associe à chaque évènement élémentaire la même probabilité.
Elle est définie par
1
∀ω ∈ Ω, P({ω}) = .
|Ω|
\ Exemple 1.17 Reprenons l’exemple 1.7 dans lequel on lance simultanément deux dés.
Considérons tout d’abord la modélisation dans laquelle les dés sont discernables. On a
donc
Ωd = { , , , , , } × { , , , , , },
en matérialisant la différence entre les dés par leur couleur. On sait que |Ωd | = 36 et
donc que dans l’hypothèse d’une probabilité uniforme, la probabilité d’un évènement
1
élémentaire est de 36 .
Considérons maintenant la modélisation dans laquelle les dés ne sont pas discernables.
On a alors
Ωu = {{a, b} | a ∈ { , , , , , } et b ∈ { , , , , , }} .
1.5. PROBABILITÉS SUR UN UNIVERS FINI 15
Dans ce tableau, on a toujours mis le dé donnant le plus petit chiffre en premier, mais
cet ordre est arbitraire car l’indiscernabilité des dés empêche tout construction d’ordre.
On constate d’après ce recensement exhaustif que |Ωu | = 21. Dans l’hypothèse d’une
1
probabilité uniforme, la probabilité d’un évènement élémentaire est de 21 .
On constate donc que les deux modèles correspondent à des univers différents et
donc des probabilités uniformes différentes. Considérons maintenant un évènement simple,
comme celui d’obtenir la somme de 12 en lançant les deux dés. Dans les deux modèles, il
s’agit d’un évènement élémentaire, soit ( , ) pour le modèle discernable et { , } = { }
pour le modèle indiscernable. Dans le modèle discernable, cet évènement a donc une
1 1
probabilité de 36 alors que dans le modèle indiscernable, on obtient une probabilité de 21 .
Bien entendu, ces résultats sont contradictoires, puisqu’il s’agit d’une même expérience
aléatoire et d’un même évènement. Un des deux modèles ne correspond donc pas à la
réalité. Dans le cas présent, c’est le choix de la probabilité uniforme qui n’est pas adaptée
au modèle indiscernable. Intuitivement, cela vient du fait qu’en pratique, pour obtenir
par exemple { , }, on devrait tenir compte du fait qu’il existe deux possibilités non
observables, correspondant à ( , ) et ( , ). Au contraire, il n’y a qu’une façon d’obtenir
{ , } = { }. Intuitivement, il faudrait donc que ce deuxième type d’évènements soit
moins probable que le premier type. Ce n’est pas le cas pour la probabilité uniforme.
Cet exemple montre qu’il est général plus simple de choisir un modèle discernable
car celui-ci est plus souvent compatible avec une probabilité uniforme que le modèle
indiscernable. [
Propriété 1.2 Soit une expérience aléatoire et son univers fini Ω, muni de la probabilité
P uniforme. Pour tout évènement A ⊂ Ω, on a
|A|
P(A) = .
|Ω|
Preuve On écrit Ω = {ω1 , . . . , ωn }, avec n = |Ω|. Tout évènement A s’écrit A = ∪j∈J {ωj }
pour un ensemble J ⊂ {1, . . . , n}. On a donc
[ X 1 |A|
P(A) = P {ωj } = P({ωj }) = |J| = .
|Ω| |Ω|
j∈J j∈J
On s’appuie d’abord sur les propriétés des probabilités, puis sur le fait que |A| = |J|.
16 CHAPITRE 1. EXPÉRIENCE ALÉATOIRE ET PROBABILITÉS
\ Exemple 1.18 On lance deux fois de suite un dé (cf exemple 1.5). L’univers de
l’expérience est donc Ω = { , , , , , }2 . Le dé n’étant pas truqué, il est naturel
de considérer une probabilité uniforme sur Ω. D’après l’annexe C, on a donc |Ω| =
|{ , , , , , }|2 = 36. Considérons maintenant les évènements de l’exemple 1.10.
L’évènement « obtention de deux fois le même résultat » (évènement A) par un
raisonnement simple : le nombre de paires dont les deux éléments sont égaux est identique
au nombre de choix possible pour le premier élément, c’est-à-dire à 6. Pour la probabilité
uniforme, on a donc
|A| 6 1
P(A) = = = .
|Ω| 36 6
Considérons l’évènement B, l’« obtention d’un tirage dont le premier lancer est pair ». On
a donc
B = { , , } × { , , , , , }.
D’après l’annexe C, on a donc
|B| = |{ , , }| × |{ , , , , , }| = 3 × 6 = 18.
Tirages multiples
Un cas particulier important d’expérience aléatoire illustre parfaitement les liens entre
dénombrement et probabilité uniforme. Considérons l’expérience suivante : on place n
jetons numérotés de 1 à n dans une urne, puis on choisit au hasard p jetons dans cette urne.
On note J = {1, . . . , n} l’ensemble des jetons. En fonction du mode de tirage, l’expérience
est modélisée par des univers différents.
Tirages successifs avec remise : il s’agit du mode de tirage qui conduit au modèle le
plus simple. On choisit les jetons un par un, en remettant le jeton choisi dans l’urne
après chaque tirage. On obtient donc un p-uplet dont les éléments sont choisis dans
J, sans contrainte particulière. On peut notamment tomber plusieurs fois sur le
même jeton. Formellement, l’univers de l’expérience est donc Ω = J p et on a donc
|J p | = |J|p = np . L’expérience est caractérisée par la prise en compte de l’ordre (on
obtient une liste de p jetons) et par la remise qui autorise à avoir plusieurs fois le
même jeton.
Tirages successifs sans remise : dans cette situation, on choisit les jetons un par un,
en ne remettant pas les jetons après tirage. On obtient ainsi un p-uplet (une liste de p
jetons) dont les éléments sont tous distincts. Formellement, l’univers de l’expérience
est donc
Ω = {(j1 , . . . , jp ) ∈ J p | ∀(k, l) k 6= l ⇒ jk 6= jl }.
D’après l’annexe C, Ω est en fait l’ensemble des arrangements de p éléments parmi
n et donc |Ω| = Apn . Les deux aspects importants de l’expérience qui conduisent à
1.5. PROBABILITÉS SUR UN UNIVERS FINI 17
ce résultat sont la prise en compte de l’ordre des tirages (et donc l’obtention d’un
p-uplet) et de l’absence de remise dans l’urne (et donc le fait que les éléments du
p-uplet sont distincts).
Tirage simultané : le dernier mode classique de tirage consiste à prendre en une seule
fois un paquet de p jetons. Comme dans le mode précédent, chaque tirage ne peut
contenir qu’une seule fois un jeton. Cependant, on ne peut pas déduire du tirage un
ordre sur les p jetons choisis. L’univers de l’expérience est donc le suivant
\ Exemple 1.19 Beaucoup de pays possèdent une loterie nationale qui propose une
variante de jeu de loto. Un exemple d’un tel jeu est celui dans lequel chaque joueur choisit
6 numéros distincts parmi 42. Le tirage du lot est aussi de 6 numéros (sans remise) dans
les 42. Le joueur gagne s’il a découvert au moins 3 des nombres, le gain augmentant avec
le nombre de numéros obtenus.
Le tirage se déroule de façon séquentielle, mais il est plus simple de le considérer
comme simultané car l’ordre n’est pas pris en compte dans les évènements correspondants
à des gains. On se retrouve donc dans la situation d’un tirage simultané de 6 éléments
parmi 42, donc l’univers est
6 .
On a donc |Ω| = C42
Considérons maintenant les différents évènements correspondants à des gains :
6 numéros : cette situation est la plus facile à gérer. En effet, chaque combinaison de
6 nombres est unique. De ce fait, l’évènement « la combinaison du joueur a été
obtenue » est de cardinal 1 et donc, sous l’hypothèse de probabilité uniforme, sa
probabilité est de C16 (soit environ 1.9 10−7 ).
42
On est ici dans la configuration du théorème C.4 puisqu’on choisit des sous-ensembles
de taille fixée (B et C) dans des sous-ensembles disjoints de {1, . . . , 42}, T et son
complémentaire. D’après le théorème, on a donc
et ainsi
C6p C36
6−p
P(Ap ) = 6 .
C42
On obtient finalement les probabilités suivantes :
p 1 2 3 4 5
P(Ap ) 0,43 0,17 0,027 1,8 10−3 4,1 10−5 [
\ Exemple 1.20 L’ancien Loto de la Française des jeux (avant 2008) utilisait les règles
suivantes. Un joueur choisit 6 numéros parmi 49. Un tirage du loto consiste en 7 numéros
parmi 49, repartis en deux groupes : les 6 numéros principaux et un numéro complémentaire.
Pour gagner, le joueur doit avoir obtenu au moins 3 numéros parmi les 6 principaux. Les
gains augmentent en fonction du nombre de numéros obtenus dans l’ensemble principal,
en tenant compte de l’éventuelle obtention du numéro complémentaire.
Le tirage est légèrement plus complexe que celui de l’exemple 1.19. Comme dans ce
dernier, on ne tient pas compte de l’ordre. On note J l’ensemble des entiers de 1 à 49 (les
numéros possibles). L’univers de l’expérience est alors
c’est-à-dire qu’un tirage est une paire composée de 6 numéros distincts choisis dans J
(le sous-ensemble K) et d’un numéro (c) choisi parmi les 43 numéros restants après le
tirage de K. Il y a clairement C496 possibilités pour K car un choix de numéros est une
possibilités.
Les combinaisons gagnantes sont celles qui contiennent des numéros de K, avec
éventuellement le chiffre c. Notons T la combinaison de 6 numéros distincts choisis par le
joueur et étudions les différents gains possibles :
6 numéros : cette situation est proche de celle de l’exemple 1.19. Elle correspond à
K = T et donc plus précisément à l’évènement
A = {(T, c) ∈ P(J) × J | c ∈ J \ T } .
1.5. PROBABILITÉS SUR UN UNIVERS FINI 19
Il est clair que |A| = 43. Sous l’hypothèse d’une probabilité uniforme, on a donc
43 1
P(A) = 6 = 6 ' 7,15 10−8 .
43 × C49 C49
On remarque que tout se passe ici comme dans l’exemple 1.19, c’est-à-dire comme si
le numéro complémentaire n’existait pas.
moins de 6 numéros sans complémentaire : considérons l’évènement Ap « le tirage
comporte p numéros principaux contenus dans la combinaison du joueur », avec
0 < p < 6. Si T désigne la combinaison choisie par le joueur, une combinaison dans
Ap se décompose en deux sous-ensembles B et D, et en un numéro complémentaire c.
D ⊂ T , de cardinal p, est l’ensemble des numéros du joueur contenus dans le tirage.
B est le reste des numéros principaux, avec |B| = 6 − p. Enfin, le complémentaire c
est choisi dans J \ (B ∪ T ) (en effet, le complémentaire n’est pas dans la combinaison
choisie par le joueur). Formellement, Ap s’écrit donc
Ap = (K, c) ∈ P(J) × J | K = B ∪ D, D ⊂ T, |D| = p,
B ⊂ J \ T, |B| = 6 − p, c ∈ J \ B ∪ T .
p 1 2 3 4 5
P(Ap ) 0,36 0,12 0,016 9,2 10−4 1,8 10−5
ce qui conduit à
(6 − p)C6p C43
6−p
P(Bp ) = 6 ,
43 × C49
et aux probabilités suivantes :
p 1 2 3 4 5
P(Bp ) 0,048 0,012 0,0012 4,5 10−5 4,3 10−7 [
Chapitre 2
Probabilités conditionnelles
P(B ∩ A)
∀B ∈ P(Ω), P(B|A) = .
P(A)
21
22 CHAPITRE 2. PROBABILITÉS CONDITIONNELLES
En effet pour tout chiffre impair d l’évènement {d} ∩ A est impossible, et est donc de
probabilité nulle. Au contraire, pour tout chiffre pair, {d} ∩ A = {d} et la probabilité de
P({d} ∩ A) est donc 16 .
On retrouve ainsi les probabilités obtenues dans l’exemple introductif. [
B Remarque 2.1 Pour bien utiliser les probabilités conditionnelles, il faut absolument
s’appuyer sur l’intuition que dans P(B|A), l’évènement A est réalisé de façon certaine.
De ce fait, tout se passe comme si on changeait d’univers pour l’expérience aléatoire.
Considérons en effet l’exemple 2.1. Comme A est réalisé de façon certaine, tout se
passe comme si on avait une nouvelle expérience aléatoire dont l’univers est justement A,
puisque les seuls résultats maintenant possibles sont les éléments de A. En supposant que
les évènements élémentaires de ce nouvel univers sont toujours équiprobables, la probabilité
de B ⊂ A est alors |B| |A|
|A| . Or, dans l’univers Ω de départ, la probabilité de A était |Ω| et
celle de B était |B|
|Ω| . Comme B ⊂ A, A ∩ B = B et donc dans Ω, on avait P(B ∩ A) =
|B|
|Ω| .
On constate alors que
P(B ∩ A) |B| |Ω| |B|
P(B|A) = = = ,
P(A) |Ω| |A| |A|
ce qui correspond bien à l’intuition du changement d’univers.
Proposition 2.1 Pour tout A tel que P(A) > 0, la fonction P(.|A) est une probabilité
sur Ω.
Preuve Pour montrer que P(.|A) est une probabilité, il suffit de vérifier les deux conditions
de la définition 1.4 :
1. d’après la définition de P(.|A), on a
P(Ω ∩ A)
P(Ω|A) = .
P(A)
Or Ω ∩ A = A et donc P(Ω ∩ A) = P(A), soit finalement P(Ω|A) = 1, comme
demandé par la définition.
2. Considérons maintenant une suite de sous-ensembles de Ω (Ai )i≥0 disjoints deux à
deux. Posons Bi = Ai ∩ A. Comme les Ai sont disjoints deux à deux, les Bi le sont
aussi. Donc, par σ additivité de la probabilité P, on a
[ X
P Bi = P(Bi ).
i≥0 i≥0
2.2. PROBABILITÉ CONDITIONNELLE 23
P(Bi )
Par définition de P(.|A), chaque terme P(A) est en fait P(Ai |A). D’autre part, on a
[ [ [
Bi = (Ai ∩ A) = Ai ∩ A,
i≥0 i≥0 i≥0
On a donc
[ X
Ai A = P(Ai |A),
P
i≥0 i≥0
Comme P(.|A) est une probabilité, on peut lui appliquer les propriétés 1.1 des probabilités.
Par exemple, si B et C sont deux évènements disjoints, P(B ∪ C|A) = P(B|A) + P(C|A).
\ Exemple 2.2 Reprenons l’exemple 1.8 de l’urne contenant trois jetons rouges et deux
jetons bleus. On considère l’expérience dans laquelle on tire deux jetons successivement et
sans remise. L’univers de l’expérience est alors
n o
Ω = (j1 , j2 ) ∈ {¶, ·, ¸, ¹, º}2 | j1 6= j2 .
Par symétrie, on se trouve dans un cas classique d’équiprobabilité (cf la section 1.5) dans
lequel on utilisera le fait que |Ω| = A25 = 20.
Soit l’évènement A « obtenir un premier jeton rouge ». Cet évènement s’écrit mathé-
matiquement
A ∩ B = {¶, ·, ¸} × {¹, º} ,
24 CHAPITRE 2. PROBABILITÉS CONDITIONNELLES
6 3
et donc P(A ∩ B) = 20 = 10 . On peut alors calculer des probabilités conditionnelles, par
exemple :
P(A ∩ B) 3 5 3
P(A|B) = = × = ,
P(B) 10 2 4
P(A ∩ B) 3 5 1
P(B|A) = = × = .
P(A) 10 3 2
La deuxième probabilité conditionnelle est très simple à interpréter. Quand A est réalisé,
on sait qu’il reste dans l’urne deux jetons de chaque couleur. On a donc maintenant une
chance sur deux de tomber sur un jeton bleu.
La première probabilité est plus délicate à appréhender intuitivement car on donne
une information sur le deuxième tirage. On ne peut donc pas faire le même raisonnement
que pour la seconde probabilité. Il faut alors étudier les évènements élémentaires qui
constituent B. Si on fixe le second jeton au jeton ¹, on voit que A a obligatoirement
été choisi dans {¶, ·, ¸,º}, et donc qu’il y a 3 chance sur 4 qu’il soit bleu. La situation
est symétrique pour le cas où le second jeton est º, ce qui conduit bien à la probabilité
obtenue. [
\ Exemple 2.3 On dispose de deux urnes dans lesquelles sont placés des billes numé-
rotées. La première urne contient 3 billes numérotées 1, 2 et 3, soit U1 = {1, 2, 3}. La
seconde urne contient 4 billes numérotées 2, 3, 4 et 5, soit U2 = {2, 3, 4, 5}. On suppose
que le choix d’une bille dans une urne obéit à une loi uniforme. L’expérience aléatoire
composée consiste en la procédure suivante. Dans une première étape, on lance une pièce
non truquée. Dans la deuxième étape, on choisit une bille dans une des deux urnes. Si on
a obtenu pile dans la première étape, la bille est choisie dans U1 , sinon elle est choisie
dans U2 .
L’univers de cette expérience est constitué de couples avec le résultat du lancer de la
pièce et la bille obtenue. Il est clair qu’on a
Ω = ({pile} × U1 ) ∪ ({face} × U2 ).
D’autre part, la première étape de l’expérience est un lancer simple d’une pièce non
truquée. Il est donc clair que P(« pile ») = P(« face ») = 12 , si « pile » (respectivement «
face ») désigne ici l’évènement dans lequel la première étape produit le résultat pile (resp.
face) quel que soit le résultat de la deuxième étape, c’est-à-dire si
« pile » = {pile} × U1 ,
« face » = {face} × U2 .
2.3. EXPÉRIENCES ALÉATOIRES COMPOSÉES 25
En d’autres termes, P est ici la probabilité définie sur l’univers de l’expérience composée.
De la même façon, il est facile de déterminer les probabilités d’obtenir certaines billes
si on sait dans quelle urne la bille est choisie. Or, comme la deuxième étape a lieu après
l’obtention du résultat de la première étape, l’évènement correspondant est certain. On doit
donc considérer les probabilités de la seconde étape comme des probabilités conditionnelles.
Ainsi on a par exemple P(B = 2|« pile ») = 13 , où B désigne le numéro porté par la bille
obtenue dans la deuxième étape. En effet, si on a obtenu pile dans la première étape, on
choisit dans l’urne U1 uniformément et chaque chiffre a donc une probabilité de un tiers.
De même, on a P(B = 2|« face ») = 14 car le choix est maintenant réalisé dans l’urne U2
qui contient 4 billes.
On peut alors calculer P(B = 2), soit la probabilité d’obtenir une bille numérotée 2
dans l’expérience composée (c’est-à-dire sans tenir compte de l’urne dont elle provient).
On remarque que l’évènement {B = 2} s’écrit comme l’union disjointe {B = 2} = {B =
2 et pile } ∪ {B = 2 et face}. Or, par définition des probabilités conditionnelles,
P({B = 2 et pile}) = P({B = 2} ∩ {« pile »})
= P(B = 2|« pile »)P(« pile »).
De même, on a
P({B = 2 et face}) = P({B = 2} ∩ {« face »})
= P(B = 2|« face »)P(« face »),
et donc, puisque l’union des évènements est disjointe :
P(B = 2) = P(B = 2|« pile »)P(« pile ») + P(B = 2|« face »)P(« face »),
1 1 1 1
= × + × ,
3 2 4 2
7
= . [
24
B Remarque 2.2 On pourrait croire naïvement qu’il est possible de raisonner di-
rectement sur l’univers Ω de l’exemple précédent, en faisant par exemple une hypo-
thèse d’uniformité. On constate que |Ω| = 7, ce qui conduit à supposer que la pro-
babilité de tout ω ∈ Ω est de 17 . En utilisant de nouveau la décomposition disjointe
{B = 2} = {B = 2 et pile} ∪ {B = 2 et face}, on en déduit que P(B = 2) = 17 + 17 = 27 .
Cette modélisation est cependant fausse, car elle repose sur une hypothèse implicite
de symétrie entre tous les évènements élémentaires. Or, ceux-ci ne sont clairement par
équiprobables puisque les billes 2 et 3 apparaissent dans les deux urnes, contrairement aux
autres billes (par exemple). Il est donc clair que la bille 1, par exemple, ne peut pas être
tirée aussi souvent qu’une bille 2 : le seul moyen d’obtenir la bille 1 est d’abord d’obtenir
pile (une chance sur deux), puis de tirer la bille 1 dans l’urne U1 (une chance sur trois).
Pour obtenir une bille 2, on peut soit faire pile puis tirer la bille 2 dans l’urne U1 , ce qui
arrive clairement aussi souvent que de faire pile puis de tirer la bille 1 (par hypothèse).
Mais on a en plus la possibilité d’obtenir une bille 2 en faisant face, puis en tirant la bille 2
de l’urne U2 . De ce fait, l’hypothèse d’équiprobabilité n’est pas acceptable, et le seul moyen
de déterminer la probabilité sur Ω associée à l’expérience est de passer par le concept de
probabilités conditionnelles.
26 CHAPITRE 2. PROBABILITÉS CONDITIONNELLES
Proposition 2.2 (Règle des probabilités totales) Considérons une expérience aléa-
toire décrite par l’univers Ω et la probabilité P. Soit une partition {A1 , . . . ,An } de Ω en n
évènements A1 , . . . ,An . Soit B un évènement quelconque. On a
n
X
P(B) = P(B ∩ Ai ) (2.1)
i=1
Si en outre les A1 , . . . ,An sont tels que pour tout i, P(Ai ) > 0, on a
n
X
P(B) = P(B|Ai )P(Ai ). (2.2)
i=1
Preuve Comme {A1 , . . . ,An } est une partition, les B ∩ Ai sont disjoints deux à deux.
En effet, on a (B ∩ Ai ) ∩ (B ∩ Aj ) = B ∩ (Ai ∩ Aj ) (par associativité, commutativité et
B ∩ B = B). Or, si i 6= j, Ai ∩ S
Aj = ∅ car {A1 , . . . ,An } est une partition. Donc si i 6= j,
(B ∩ Ai ) ∩ (B ∩ Aj ) = ∅. Donc ni=1 (B ∩ Ai ) est une union disjointe et
n n
!
[ X
P (B ∩ Ai ) = P(B ∩ Ai ).
i=1 i=1
Sn
En outre, i=1 (B ∩ Ai ) = B. En effet, par distributivité,
n n
!
[ [
(B ∩ Ai ) = B ∩ Ai .
i=1 i=1
Sn Sn
Or, comme {A1 , . . . ,An } est une
Snpartition de Ω, i=1 Ai = Ω et donc i=1 (B ∩ Ai ) =
B ∩ Ω = B. Donc P(B) = P ( i=1 (B ∩ Ai )) ce qui achève de démontrer la règle des
probabilités totales dans le premier cas (équation 2.1).
Si en outre tous les P(Ai ) > 0, on a par définition des probabilités conditionnelles :
pour tout i, P(B ∩ Ai ) = P(B|Ai )P(Ai ). Il suffit de réinjecter ces égalités dans l’équation
(2.1) pour obtenir l’équation (2.2).
La règle des probabilités totales est très utile pour analyser les expériences composées,
même quand celles-ci sont plus simples que dans l’exemple 2.3. Elle s’applique notamment
dans le cas des tirages sans remise, comme dans l’exemple suivant.
\ Exemple 2.4 On tire deux cartes successivement et sans remise dans un jeu de 32
cartes (cf l’exemple 1.4). On cherche la probabilité d’obtenir un trèfle pour la seconde
carte, soit P(C2 ∈ ♣). Or, les évènements {C1 ∈ ♣} et {C1 6∈ ♣} forment une partition
2.4. RÈGLE DES PROBABILITÉS TOTALES 27
de Ω : en effet, la première carte est soit un trèfle, soit une autre carte, de façon exclusive.
On a donc, par la règle des probabilités totales
Lors du premier tirage, le paquet est complet et comprend 32 cartes, dont 8 sont des
trèfles. Par symétrie, on a donc clairement
8 1
P(C1 ∈ ♣) = = ,
32 4
et donc
1 3
P(C1 6∈ ♣) = 1 − = .
4 4
De plus, si {C1 ∈ ♣} est réalisé, le paquet de cartes restantes contient maintenant 31
cartes dont 7 sont des trèfles. On a donc
7
P(C2 ∈ ♣|C1 ∈ ♣) = .
31
Au contraire, si {C1 6∈ ♣} est réalisé, le paquet de cartes restantes contient maintenant 31
cartes dont 8 sont des trèfles. On a donc
8
P(C2 ∈ ♣|C1 6∈ ♣) = .
31
On obtient ainsi
7 1 8 3 1
P(C2 ∈ ♣) = × + × = .
31 4 31 4 4
L’analyse directe de ce problème se fait de la façon suivante. D’après l’exemple 1.14,
l’univers de l’expérience est
Ω = {(C1 , C2 ) ∈ P 2 | C1 6= C2 },
Le second sous-évènement correspond à choisir une carte non trèfle parmi 24 possibilités,
puis une carte trèfle parmi 8 possibilité, ce qui donne
{C2 ∈ ♣, C1 6∈ ♣} = ♣ × (P \ ♣),
28 CHAPITRE 2. PROBABILITÉS CONDITIONNELLES
et donc
|{C2 ∈ ♣, C1 6∈ ♣}| = 24 × 8 = 192.
Finalement, on a donc
|{C2 ∈ ♣}| = 56 + 192 = 248.
Par uniformité de la probabilité, on obtient ainsi
248 1
P(C2 ∈ ♣) = = .
992 4
Bien entendu, les deux méthodes de résolution conduisent au même résultat. En pratique,
la première est souvent plus simple que la seconde, mais elle ne s’applique naturellement
que quand l’expérience est séquentielle. Les tirages simultanés, par exemple, ne peuvent
pas être étudiés facilement au moyen des probabilités conditionnelles. [
Notons que l’exemple précédent applique une version simple de la règle des probabilités
totales dans laquelle on étudie un évènement et son complémentaire. On l’énonce de façon
générale dans la proposition suivante.
Proposition 2.3 (Cas simple de la règle des probabilités totales) Soit une expé-
rience aléatoire décrite par l’univers Ω et la probabilité P. Pour tout évènement A tel que
1 > P(A) > 0, et tout évènement B, on a
Preuve Il s’agit simplement d’une application de la proposition 2.2 à {A, A} qui forme par
définition une partition de Ω. Notons que comme P(A) < 1, on a bien P(A) = 1 − P(A) > 0
ce qui permet l’application de la règle générale. On pourrait bien sûr considérer le cas
P(A) = 1, mais cela ne présente pas grand intérêt puisqu’on se retrouve alors avec
P(B|A) = P(B).
Proposition 2.4 (Règle de Bayes) Soit une expérience aléatoire décrite par l’univers
Ω et la probabilité P. Soit A et B, deux évènements de probabilités non nulles (P(A) > 0
et P(B) > 0). On a
P(B|A)P(A)
P(A|B) = (2.4)
P(B)
Preuve La formule s’obtient en appliquant deux fois la définition des probabilités condi-
tionnelles. En effet :
P(A ∩ B)
P(A|B) = ,
P(B)
P(B|A)P(A)
= .
P(B)
\ Exemple 2.6 (Urne de Pòlya) Soit une urne contenant une bille blanche et une
bille noire. À chaque étape de l’expérience composée, on tire une bille dans l’urne.
L’évènement Bk correspond à obtenir une bille blanche à l’étape k, son complémentaire
Nk correspondant à l’obtention d’une bille noire à l’étape k. Après le tirage, on replace
dans l’urne la bille tirée et une autre de la même couleur.
Le premier tirage est très simple, on a de façon évidente P(B1 ) = P(N1 ) = 12 , par
symétrie. Pour étudier la deuxième étape, on applique le cas simple de la loi des probabilités
totales en conditionnant par le résultat du premier tirage. On a donc :
2
P(N2 |N1 ) = ,
3
1
P(N2 |B1 ) = .
3
30 CHAPITRE 2. PROBABILITÉS CONDITIONNELLES
et donc que
2 1 1 1
P(N2 ) = × + × ,
3 2 3 2
1
= .
2
On peut alors appliquer la règle de Bayes pour voir ce que révèle le résultat du deuxième
tirage sur le premier tirage. Comme dans l’exemple 2.2, on s’attend à ce que l’obtention
d’une bille noire (évènement N2 ) augmente probabilité (conditionnelle) de l’évènement
N1 . La règle de Bayes donne ici :
P(N2 |N1 )P(N1 )
P(N1 |N2 ) = ,
P(N2 )
2 1
3 × 2
= 1 ,
2
2
= .
3
Le résultat confirme ainsi l’intuition. [
2.6 Indépendance
Dans certaines situations, avoir une information sur une partie d’une expérience
aléatoire sous la forme d’un évènement réalisé n’entraîne pas de révision de la probabilité
d’un autre évènement, comme le montre l’exemple simple suivant.
\ Exemple 2.7 On lance deux dés à six faces non truqués, un dé rouge et un dé noir.
Soit l’évènement A « les deux dés donnent des résultats identiques » et l’évènement B «
le dé rouge donne 1 ». On étudie P(A) et P(A|B).
L’univers de l’expérience est clairement
Ω = { , , , , , } × { , , , , , },
avec comme convention que le premier résultat est celui du dé rouge. Par symétrie, on
prend sur Ω la probabilité uniforme. A est alors la diagonale de Ω, soit
A = {( , ), ( , ), ( , ), ( , ), ( , ), ( , )}.
Dans une telle situation, on parle d’indépendance entre les deux évènements, selon la
définition suivante.
Définition 2.2 Soit une expérience aléatoire décrite par l’univers Ω et la probabilité P.
Soit A et B deux évènements. On dit que A et B sont indépendants si et seulement
si :
P(A ∩ B) = P(A) × P(B). (2.5)
On note alors A ⊥
⊥ B.
Propriété 2.1 Soit une expérience aléatoire décrite par l’univers Ω et la probabilité P.
Soit A et B deux évènements. Si P(A) > 0 alors A ⊥⊥ B si et seulement si :
B Remarque 2.3 Attention, il est très important de ne pas confondre des évènements
incompatibles (cf la section 1.3) avec des évènements indépendants. En effet, si A et B
sont incompatibles, alors P(A ∩ B) = 0. Dans cette situation, l’indépendance n’est possible
que si un au moins des évènements est impossible. En effet, on doit avoir P(A) × P(B) =
P(A ∩ B) = 0. Cette situation se produit parfois, mais ce n’est généralement pas celle
qui nous intéresse. Au contraire, la notion d’indépendance prend tout son intérêt quand
P(A ∩ B) > 0 : on se trouve en effet confronté à des évènements compatibles (le résultat
de l’expérience aléatoire peut conduire à la réalisation de A et de B simultanément) mais
qui pourtant n’apportent pas d’information l’un sur l’autre, ce qui peut d’ailleurs sembler
paradoxal.
\ Exemple 2.8 Reprenons l’exemple de l’urne de Pòlya (exemple 2.6). D’après les calculs
effectués précédemment, N1 et N2 ne sont pas des évènements indépendants. En effet,
P(N2 |N1 ) = 23 alors que P(N2 ) = 21 (et P(N1 ) > 0).
Considérons maintenant une expérience plus simple dans laquelle on part toujours
d’une urne avec une bille blanche et une bille noire. On effectue ensuite une série de tirages
avec remise : le contenu de l’urne ne change donc jamais. L’évènement « obtenir une
bille noire au tirage k » est noté ici Sk . Comme pour l’urne de Pòlya, on a clairement
P(S1 ) = P(S1 ) = 12 . Comme le contenu de l’urne n’est jamais modifié, il est aussi
évident que P(Sk ) = P(Sk ) = 12 . Quand on considère un seul tirage, on a donc des
32 CHAPITRE 2. PROBABILITÉS CONDITIONNELLES
probabilités identiques pour l’urne classique et l’urne de Pòlya. En revanche, les tirages
sont indépendants dans l’urne classique.
Pour deux tirages, l’univers est en effet Ω = {Blanche, N oire}2 . Par symétrie, il est
clair qu’on doit prendre sur cet univers une probabilité uniforme. On a donc P(S1 et S2 ) =
|{(N oire,N oire)}|
|Ω| = 14 . On a donc bien P(S1 et S2 ) = P(S1 ) × P(S2 ) et donc S1 ⊥
⊥ S2 . Notons
que ce résultat peut être obtenu aussi en considérant l’expérience comme composée et en
appliquant les techniques vues précédemment.
On constate que c’est avant tout la probabilité sur l’univers qui détermine si ces
évènements sont indépendants, et non pas simplement leur description en français. [
Définition 2.3 Soit une expérience aléatoire décrite par l’univers Ω et la probabilité P.
Soit une famille d’évènements Ai indexés par un ensemble quelconque d’indices, I (par
exemple I = {1, 2, . . . , n} pour n évènements). On dit que les Ai sont indépendants
dans leur ensemble si et seulement si pour tout sous-ensemble fini d’indices J ⊂ I,
\ Y
P Aj = P(Aj ). (2.8)
j∈J j∈J
Pour bien comprendre l’impact de cette définition, étudions le cas de trois évènements,
A1 , A2 et A3 , L’ensemble d’indices est I = {1, 2, 3} et on doit donc considérer tous les
sous-ensembles de I. Il est clair que le sous-ensemble vide et les sous-ensembles réduits à
un seul indice ne sont pas intéressants. Reste donc :
1. J = {1, 2} ce qui donne P(A1 ∩ A2 ) = P(A1 ) × P(A2 ) soit A1 ⊥
⊥ A2 ;
2. J = {1, 3} ce qui donne P(A1 ∩ A3 ) = P(A1 ) × P(A3 ) soit A1 ⊥
⊥ A3 ;
3. J = {2, 3} ce qui donne P(A2 ∩ A3 ) = P(A2 ) × P(A3 ) soit A2 ⊥
⊥ A3 ;
4. et enfin J = I ce qui donne
En résumé, trois évènements sont indépendants dans leur ensemble s’ils sont indépendants
deux à deux mais aussi s’ils vérifient la quatrième condition ci-dessus.
Ceci montre que l’indépendance d’un ensemble d’évènements est une condition beau-
coup plus forte que l’indépendance deux à deux de tous les évènements considérés.
L’exemple suivant illustre cette situation.
\ Exemple 2.10 Supposons donnés deux dés spéciaux. Le premier est un dé à 6 faces
truqué. La probabilité de chaque face est donnée par le tableau suivant :
x
1 1 1 1 1 3
P(D1 = x) 4 10 20 5 4 20
conditionnelle permet de préciser cette idée intuitive que nous commençons par illustrer
par un exemple.
Ω = { , , , , , } × { , , , , , } × { , , , , , }.
Les dés sont supposés non truqués et il est donc naturel de choisir sur Ω la probabilité
uniforme. On a |Ω| = 63 = 216.
On étudie les trois évènements suivants :
— A = « la somme du dé rouge et du dé noir est inférieure ou égale à 4 » ;
— B = « la somme du dé noir et du dé blanc est inférieure ou égale à 4 » ;
— C = « le dé noir vaut 1 ».
Montrons tout d’abord que A et B ne sont pas indépendants. On commence par expliciter
A qui est clairement donné par
A = {( , ), ( , ), ( , ), ( , ), ( , ), ( , )} × { , , , , , }.
De même, on a
B = { , , , , , } × {( , ), ( , ), ( , ), ( , ), ( , ), ( , )}.
36
On a donc |A| = |B| = 6 × 6 = 36, et P(A) = P(B) = 216 = 16 . On peut ensuite énumérer
le contenu de A ∩ B sous la forme du tableau suivant
14 7
On a donc |A × B| = 14, soit P(A ∩ B) = 216 = 108 et donc P(A ∩ B) 6= P(A) × P(B).
Étudions maintenant A ∩ C et B ∩ C. Il est clair qu’on a
A ∩ C = { , , } × { } × { , , , , , },
B ∩ C = { , , , , , } × { } × { , , }.
18 1
On a donc |A ∩ C| = |B ∩ C| = 18, P(A ∩ C) = P(B ∩ C) = 216 = 12 . De plus, il est évident
1
que |C| = 6 × 1 × 6 = 36 et donc que P(C) = 6 . Donc, par définition des probabilités
conditionnelles, P(A|C) = P(B|C) = 12 .
2.7. INDÉPENDANCE CONDITIONNELLE 35
Or, P(.|C) est une probabilité, et donc, au sens de cette probabilité, A et B sont indé-
pendants. Intuitivement, cela ne semble pas choquant. En effet, si on ne sait rien sur le
résultat de l’expérience, A et B ne peuvent pas être indépendants : si on apprend que A a
eu lieu, on en déduit quelque chose sur B. On s’attend effet à ce que B soit plus probable
puisque la réalisation de A implique que le dé noir a une valeur inférieur ou égale à trois,
ce qui réduit les chances d’obtenir un couple (noir, blanc) qui n’est pas compatible avec B.
En revanche, on sent bien que la dépendance entre A et B s’explique par le dé noir.
Donc si on connaît le résultat du dé noir (ce qui est le cas quand C est réalisé), on ne
s’attend plus à avoir une dépendance entre A et B. En d’autres termes, toute l’information
sur B disponible dans A est déjà disponible dans C. D’où cette indépendance entre A et
B quand C est connu. [
Définition 2.4 Soit une expérience aléatoire décrite par l’univers Ω et la probabilité P. Soit
A, B et C trois évènements, avec P(C) > 0. On dit que A et B sont conditionnellement
indépendants sachant C si et seulement si :
On note alors (A ⊥
⊥ B) | C.
Comme pour l’indépendance, l’indépendance conditionnelle est très utile comme outil
de modélisation. C’est une hypothèse naturelle quand deux phénomènes sont liés à un
troisième. Si on observe les deux phénomènes sans connaître le troisième, on peut constater
une dépendance entre eux, mais la connaissance du troisième fait disparaître la dépendance.
L’exemple suivant illustre ce phénomène.
\ Exemple 2.12 On se donne deux urnes U1 et U2 contenant chacune une bille blanche
et une bille noire. On dispose de plus d’une bille blanche additionnelle. On procède à
l’expérience suivante : on lance une pièce équilibrée. Si on obtient face, on place la bille
blanche dans l’urne U1 , sinon on la place dans l’urne U2 . On tire ensuite une bille dans
chaque urne. On étudie les évènements
Variables aléatoires
3.1 Introduction
Il est fréquent en pratique que le résultat d’une expérience aléatoire ne soit pas le point
intéressant dans un problème concret. On s’intéresse plutôt à un résultat dérivé de celui
de l’expérience aléatoire. C’est le cas notamment dans les jeux de hasard. Considérons,
par exemple, deux joueurs qui s’accordent sur les règles suivantes : le premier joueur lance
un dé ; si le résultat est pair, il donne 1 e au second joueur, sinon, le second joueur lui
donne 1 e. Du point de vue du premier joueur, le gain est donc soit 1 e, soit -1 e, et c’est
cette information qui importe. Or l’expérience aléatoire concerne simplement le lancer du
dé et pas dans le transfert d’argent entre joueurs. Celui-ci est de fait déterministe quand
le résultat du lancer est connu. Par déterministe, on entend que pour un résultat donné
de l’expérience aléatoire (ici le lancer du dé), le résultat final (ici le transfert d’argent) est
toujours le même.
La notion de variable aléatoire permet de formaliser ce type de situations. On dispose
d’une expérience aléatoire et on transforme de façon déterministe son résultat en un autre
résultat. Mathématiquement, on représente la partie aléatoire par une probabilité P sur
un univers Ω, et la partie déterministe par une fonction. La combinaison d’un élément
aléatoire avec un élément déterministe produit au final un résultat aléatoire, mais la
séparation des deux éléments simplifie en général l’analyse. Dans certaines situations, on
pourra en outre donner directement la combinaison des deux opérations, ce qui simplifiera
la modélisation de certains phénomènes.
37
38 CHAPITRE 3. VARIABLES ALÉATOIRES
ω
G(ω) 1 −1 1 −1 1 −1
\ Exemple 3.2 On place dans une urne des billes numérotées de 1 à 3. L’urne contient
une bille portant le chiffre 1, deux portant le chiffre 2 et 3 portant le chiffre 3. L’expérience
consiste à tirer une bille au hasard dans l’urne. En considérant les billes discernables,
l’univers est
Ω = {B11 , B21 , B22 , B31 , B32 , B33 },
où la notation Bij désigne la j-ième bille portant le chiffre i. Par symétrie, on utilise pour
cette expérience la probabilité uniforme P.
La fonction X de Ω dans {1, 2, 3} définie par X(Bij ) = i est une variable aléatoire sur
(Ω, P) à valeurs dans {1, 2, 3}. En termes simples, la variable aléatoire donne le chiffre
porté par la bille choisie au hasard. [
Notons qu’il est fréquent de prendre pour W ensemble « trop grand ». Dans les deux
exemples précédents, on pourrait ainsi utiliser W = N ou W = R. X est bien une fonction
de Ω dans W , mais les valeurs réellement prises par X forment seulement un sous-ensemble
de W . On a alors la définition suivante :
Définition 3.2 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans W . On appelle
support de X l’ensemble image de Ω par X, noté X(Ω) et définit par
Le support d’une variable aléatoire X est une caractéristique propre de cette variable : on
ne peut pas changer X(Ω) sans changer la variable elle-même. En revanche, on peut utiliser
un ensemble pratique pour W à partir du moment où celui-ci contient X(Ω). Cependant,
prendre un W vraiment « trop grand » peut poser quelques difficultés techniques décrites
dans la remarque suivante.
B Remarque 3.1 Comme indiqué à plusieurs reprises, si l’ensemble Ω n’est pas fini (ou
dénombrable), la probabilité P ne sera définie que sur un sous ensemble de P(Ω). Par
cohérence, il faudra définir un sous ensemble de P(W ) et on devra assurer que X est
compatible avec ces deux sous ensembles. La notion correspondante (la mesurabilité) n’est
pas au programme de ce cours. On acceptera donc ici toute fonction de Ω dans W comme
une variable aléatoire potentielle.
3.2. NOTIONS GÉNÉRALES 39
(Ω, P) (W, PX )
X
ω× × X(ω)
X(Ω)
X −1 (A) A
X −1
Définition 3.3 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans W . On définit
une probabilité sur W , la loi de X, notée PX , par
∀A ⊂ W, PX (A) = P X −1 (A) = P({ω ∈ Ω|X(ω) ∈ A}).
On note aussi
PX (A) = P(X ∈ A),
et pour tout x ∈ W ,
PX ({x}) = P(X = x).
La figure 3.1 représente graphiquement cette définition.
Preuve Pour assurer que cette définition est cohérente, il faut montrer que PX est bien
une probabilité en vérifiant que les deux propriétés de la définition 1.4 sont satisfaites.
Il est clair tout d’abord que PX (W ) = 1. En effet, X −1 (W ) = Ω car tout élément de
Ω a une image dans W , puisque X est une fonction de Ω dans W . Or comme P est une
probabilité P(Ω) = 1 ce qui permet de conclure.
Considérons maintenant une suite de sous ensembles de W , les (Ai )i≥0 , disjoints deux
à deux. D’après les propriétés de fonctions réciproques (cf la section B.4), on a
[ [
X −1 Ai = X −1 (Ai ).
i≥0 i≥0
Or, par définition, P(Bi ) = PX (Ai ) et donc en combinant les résultats, on obtient :
[ [
P X Ai = PX (Ai ),
i≥0 i≥0
40 CHAPITRE 3. VARIABLES ALÉATOIRES
ce qui montre que PX est sigma additive. C’est donc bien une probabilité.
\ Exemple 3.3 Dans l’exemple 3.1, les deux valeurs possibles pour le gain, −1 et 1, sont
clairement équiprobables, car nous avons supposé Ω muni de la probabilité uniforme. De
ce fait, on s’attend à ce que PG soit uniforme. On peut le vérifier en calculant PG (A) pour
tout A ⊂ {−1,1}, soit :
PG (∅) = P(∅) = 0,
PG ({−1,1}) = P(Ω) = 1,
|{ , , }| 1
PG ({−1}) = P({ , , }) = = ,
|Ω| 2
|{ , , }| 1
PG ({1}) = P({ , , }) = = .
|Ω| 2
[
\ Exemple 3.4 Reprenons l’exemple 3.2 et étudions la loi de X. Comme X est à valeurs
dans {1, 2, 3} qui est un ensemble fini, la proposition 1.1 indique qu’il suffit de connaître les
probabilités des évènements élémentaires pour connaître la probabilité PX complètement.
Or, on a
Propriétés 3.1 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans W . La loi PX
vérifie les propriétés suivantes :
1. pour tout A ⊂ W tel que A ∩ X(Ω) = ∅, P(X ∈ A) = 0 ;
2. pour tout A ⊂ W tel que X(Ω) ⊂ A, P(X ∈ A) = 1 ;
3. pour toute suite finie ou dénombrable de sous-ensembles de W deux à deux disjoints
(Ai )i≥1 ,
[ X
P X ∈ Ai = P(X ∈ Ai );
i≥1 i≥1
Notons que ces propriétés s’appliquent bien sûr aussi à la notation P(X = x). Par exemple,
si X prend ses valeurs dans W = R, on a
\ Exemple 3.5 Reprenons l’exemple 3.2 (cf le calcul de la loi PX dans l’exemple 3.4).
Cherchons la probabilité P(X ∈ {2, 3}). On peut calculer cette probabilité de trois façons
différentes :
1. une première solution consiste à traduire X ∈ {2, 3} directement en un évènement
de Ω. On constate en effet que pour obtenir 2 ou 3, il faut obtenir une des billes
portant le numéro 2 ou une des billes portant le numéro 3. Il y a 5 billes de ce type,
ce qui donne une probabilité de 56 (par uniformité) ;
2. une deuxième solution passe par le calcul de X −1 ({2, 3}) afin d’appliquer la définition
de PX . On trouve
X −1 ({2, 3}) = {B21 , B22 , B31 , B32 , B33 },
5
et donc de nouveau P(X ∈ {2, 3}) = 6 ;
3. enfin, on peut appliquer les propriétés 3.1, ce qui donne
En utilisant la loi trouvée à l’exemple 3.4, on en déduit encore une fois que P(X ∈
{2, 3}) = 65 .
Notons que dans les trois approches, il aurait bien sûr été plus efficace de calculer P(X = 1)
comme complémentaire de P(X ∈ {2, 3}), toujours en s’appuyant sur les propriétés 3.1.[
42 CHAPITRE 3. VARIABLES ALÉATOIRES
Définition 3.4 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans R. Pour tout
t ∈ R, on note
P(X ≤ t) = PX (] − ∞, t]),
P(X < t) = PX (] − ∞, t[),
P(X ≥ t) = PX ([t, +∞[),
P(X > t) = PX (]t, +∞[).
Fonction de répartition
Définition 3.5 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans R. On appelle
fonction de répartition de X la notion FX de R dans [0,1] définie par
\ Exemple 3.6 On lance deux dés à quatre faces non truqués et on appelle S la variable
aléatoire donnant la somme des valeurs obtenues. On considère les deux dés comme
discernables, ce qui donne pour l’univers
Ω = {1, 2, 3, 4}2 .
Les dés n’étant pas truqués, on suppose que la probabilité P est uniforme.
On constate de plus que
En effet, les faces sont numérotés de 1 à 4 et la somme peut donc prendre toutes les valeurs
entre 2 au minimum et 8 au maximum. Ceci permet de calculer facilement FS (t) pour
certaines valeurs de t. En effet, comme la plus petite valeur de S est 2, on a clairement
D1 /D2 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
1 1
Par hypothèse, P est uniforme et donc chaque case à la même probabilité |Ω| = 16 . Donc
pour tout s ∈ S(Ω), P(S = s) est obtenue en comptant le nombre de cases contenant s et
1
en le multipliant par 16 . On obtient ainsi la loi de S :
s 2 3 4 5 6 7 8
1 2 3 4 3 2 1
P(S = s) 16 16 16 16 16 16 16
P
Pour obtenir les valeurs de P(S ≤ s), il suffit alors de réaliser la somme k∈S(Ω), k≤s P(S =
k), puisque que le seul moyen d’obtenir par exemple S ≤ 3 est d’obtenir S = 2 ou S = 3.
On obtient ainsi
s 2 3 4 5 6 7 8
1 3 6 10 13 15 16
P(S ≤ s) 16 16 16 16 16 16 16
En combinant ce résultat avec les remarques précédentes, on peut enfin donner FS grâce
au tableau suivant :
1
7
8
3
4
5
8 FS (t)
1
2
3
8
1
4
1
8
t
1 2 3 4 5 6 7 8 9
Propriétés 3.2 Soit X une variable aléatoire sur (Ω, P) à valeurs dans R et FX sa fonc-
tion de répartition. La fonction FX vérifie les quatre propriétés fondamentales suivantes :
1. limt→−∞ FX (t) = 0 ;
2. limt→+∞ FX (t) = 1 ;
3. FX est croissante :
s ≤ t ⇒ FX (s) ≤ FX (t);
4. FX est continue à droite en tout point :
∀t ∈ R, lim FX (t + h) = FX (t).
h→0+
lim PX (] − ∞, −i]) = 0.
i→+∞
T
En effet, la suite des Ai =] − ∞, −i] est décroissante et on constate que i≥0 Ai = ∅, ce
qui permet de conclure. Par croissance de FX , on en déduit que limt→−∞ FX (t) = 0. De
la même façon,
lim PX (] − ∞, i]) = 1,
i→+∞
Propriétés 3.3 Soit X une variable aléatoire sur (Ω, P) à valeurs dans R et FX sa
fonction de répartition. La fonction FX vérifie les propriétés suivantes :
1. P(X > x) = 1 − FX (x)
2. P(X ∈]a, b]) = FX (b) − FX (a)
3. P(X = t) = FX (t) − limh→0+ FX (t − h)
Preuve Les deux premières propriétés sont élémentaires et sont des conséquences immé-
diates de la définition de FX . Pour la première, on a P(X > x) = P(X ∈]x,∞[). Comme
R est l’union disjointe de ]x,∞[ et ] − ∞,x], les propriétés 3.1 donnent
On reconnaît FX (x) comme premier terme de cette somme ce qui permet de conclure.
De même ] − ∞, b] =] − ∞, a]∪]a, b] et cette union est disjointe. Donc d’après les
propriétés 3.1, on a
Comme FX est croissante, on peut en déduire que cette propriété est vraie en général
pour la limite à gauche, et donc que
L’ensemble des résultats obtenus ci-dessus montrent que la fonction de répartition d’une
variable aléatoire X caractérise PX . Le théorème suivant précise ce résultat (sa preuve est
hors programme).
Théorème 3.1 Soit deux variables aléatoires réelles X et Y (donc à valeurs dans R). On
suppose que FX et FY sont identiques, c’est-à-dire que pour tout t ∈ R, FX (t) = FY (t).
Alors X et Y sont de même loi (PX = PY ), c’est-à-dire que pour toute partie de R, A
PX (A) = PY (A),
P(X ∈ A) = P(Y ∈ A).
ω
G(ω) 1 −1 1 −1 1 −1
H(ω) −1 1 −1 1 −1 1
3.3. VARIABLE ALÉATOIRE NUMÉRIQUE 47
Il est clair que H 6= G, car, par exemple, H( ) = −G( ) (on a en général H = −G).
Nous avons obtenu la loi de G dans l’exemple 3.3. En appliquant le même raisonnement,
on constate ici que
|{ , , }| 1
PH ({1}) = P({ , , }) = = ,
|Ω| 2
et que
|{ , , }| 1
PH ({−1}) = P({ , , }) = = .
|Ω| 2
On constate ainsi que PH ({1}) = PG ({1}) et PH ({−1}) = PG ({−1}), puis plus générale-
ment que PH = PG . [
Théorème de la réciproque
Les propriétés 3.2 caractérisent totalement les fonctions de répartition. D’une part,
toutes les fonctions de répartition doivent les vérifier. D’autre part, comme l’indique
le théorème suivant, toute fonction qui vérifie ces quatre propriétés est la fonction de
répartition d’une certaine variable aléatoire.
Théorème 3.2 Soit F une fonction de R dans [0,1] vérifiant les quatre propriétés 3.2,
c’est-à-dire telle que :
1. limt→−∞ F (t) = 0 ;
2. limt→+∞ F (t) = 1 ;
3. F est croissante ;
4. F est continue à droite en tout point.
Alors il existe un univers Ω muni de la probabilité P et une variable aléatoire X sur
(Ω, P) et à valeurs dans R telle que F soit la fonction de répartition de X, soit donc
P(X ≤ t) = F (t) pour tout t ∈ R.
\ Exemple 3.8 Un exemple simple est donné par la fonction F de R dans [0,1] définie
par :
0 si x < 0,
F (x) = 1
2 si x ∈ [0,1[,
1 si x ≥ 1.
4. et enfin F est continue à droite en tout point puisqu’elle est constante sur les
intervalles indiqués précédemment et que ces intervalles sont fermés à gauche.
Soit donc X une variable aléatoire de fonction de répartition F . D’après les propriétés 3.3,
P(X = 0) = 12 et P(X = 1) = 12 . En effet, comme F est nulle sur ]−∞,0[, limx→0+ F (−x) =
0 et donc P(X = 0) = F (0) − limx→0+ F (−x) = 12 . De même, limx→0+ F (1 − x) = 12 car
F est constante et égale à 1 sur [0,1[. En appliquant le même résultat avec la limite, on
obtient P(X = 1) = 12 .
Il est clair alors que pour tout A ⊂ R tel que 0 6∈ A et 1 6∈ A, P(X ∈ A) = 0. En effet,
P(X ∈ A) = 1 − P(X ∈ A). Mais {0, 1} ⊂ A et donc P(X ∈ A) ≥ P(X ∈ {0,1}) = P(X =
0) + P(X = 1). Or cette dernière somme vaut 1 et donc P(X ∈ A) = 1 puis P(X ∈ A) = 0.
En pratique, on peut donc considérer que la variable X ne prend que les valeurs 0 et
1. En outre ces valeurs sont équiprobables. Nous verrons dans le chapitre suivant que X
est une variable discrète. [
et est représentée sur la figure 3.3. On constate que F vérifie bien les propriétés 1 et 2
du théorème 3.2 car F est constante en dehors de l’intervalle [0,1] et qu’elle vaut 0 sur
] − ∞,0[ et 1 sur [1,∞[.
1
2 F (x)
x
0 1
On constate aussi que F est continue à droite. En effet, sur chacun des intervalles
] − ∞,0[, ]0,1[ et [1,∞[, F est soit constante, soit affine et est donc continue. Comme [1,∞[
3.4. VARIABLE ALÉATOIRE FONCTION D’UNE AUTRE VARIABLE ALÉATOIRE
49
est fermé à gauche, F est continue à droite en 1. Il reste donc à étudier la situation en
0. Or, on constate que la limite à droite de x 7→ x+1 1
2 en 0 est 2 par continuité de cette
1
fonction (sur R tout entier). Comme F (0) = 2 , F est bien continue à droite en 0, et donc
finalement sur R tout entier. Notons que F n’est pas continue à gauche en 0 car la limite
à gauche en 0 est 0, par continuité de la fonction constante t 7→ 0.
F est aussi croissante sur les intervalles ] − ∞,0[, ]0,1[ et [1,∞[. En effet elle est
constante sur les intervalles infinis et sur l’intervalle ]0,1[, sa dérivée est 12 > 0. Soit
maintenant u et v tels que u < v. Si u et v sont dans le même intervalle, F (u) < F (v).
Supposons donc que cela ne soit pas le cas. Si u est dans ] − ∞,0] alors F (u) = 0 et donc
F (v) ≥ F (u) car F est toujours positive. Si u = 0, alors F (u) = 12 . Si v ∈]0,1[, F (v) > 12
par croissance (stricte) de F sur ]0,1[. Enfin si v ∈ [1,∞[, F (v) = 1 > F (u). Enfin, si
u ∈]0,1[, F (u) ≤ 1 = F (v) par croissance de F sur ]u,1[ et par continuité en 1. F est donc
croissante sur R tout entier.
L’application du théorème 3.2 permet donc de conclure à l’existence d’une variable
aléatoire X dont la fonction de répartition est F . En utilisant F , on peut caractériser X :
— on constate que P(X = 0) = 12 . On applique en effet les propriétés 3.3, en particulier
\ Exemple 3.10 Au jeu de la roulette, l’expérience aléatoire consiste à lancer une bille
dans une roue en rotation contenant des cases. Après une phase de rotation, la bille
s’arrête dans une case. Le résultat direct de l’expérience est le numéro de la case (entre 0
et 36 dans la roulette française). Il est naturel de considérer que l’univers Ω est l’ensemble
des entiers compris entre 0 et 36 (inclus) et que la probabilité est uniforme sur Ω.
50 CHAPITRE 3. VARIABLES ALÉATOIRES
Le mécanisme général de construction d’une variable à partir d’une autre est le suivant.
Définition 3.6 Soit (Ω, P) une expérience aléatoire et X une variable aléatoire sur (Ω, P)
à valeurs dans W . V un ensemble et φ une fonction de W dans V . La fonction Y de Ω
dans V définie par
∀ω ∈ Ω, Y (ω) = φ(X(ω)), (3.3)
est une variable aléatoire sur (Ω, P) à valeurs dans V . On dit que Y est une variable
aléatoire fonction de X. Pour simplifier la définition de Y , on note Y = φ(X). On
peut aussi écrire Y = φ ◦ X en utilisant la notation classique ◦ pour la composition des
fonctions.
B Remarque 3.4 Comme rappelé lors de la remarque 3.1, si Ω n’est pas dénombrable
(ou fini), on doit introduire une notion de mesurabilité dans la définition d’une variable
aléatoire. Cette notion devrait aussi être utilisée ici pour s’assurer que Y est bien une
variable aléatoire.
\ Exemple 3.11 Reprenons l’exemple 3.10 de façon un peu plus formelle. Nous avons no-
tamment introduit la variable aléatoire H de Ω = {0, . . . , 36} dans {Manque, Passe, Zéro}.
Nous souhaitons définir la variable aléatoire M , à valeurs dans {−1, 1} qui donne le
gain du joueur qui mise sur Manque. Il suffit pour cela de considérer la fonction φ de
{Manque, Passe, Zéro} dans {−1, 1} telle que φ(Manque) = 1 et φ(Passe) = φ(Zéro) = −1.
Alors d’après la définition ci-dessus, M donnée par M = φ(H) est bien une variable aléa-
toire. [
La loi d’une variable aléatoire Y obtenue à partir d’une variable aléatoire X est reliée
directement à la loi de X, comme le montre la proposition suivante.
3.4. VARIABLE ALÉATOIRE FONCTION D’UNE AUTRE VARIABLE ALÉATOIRE
51
Proposition 3.1 Soit (Ω, P) une expérience aléatoire et X une variable aléatoire sur
(Ω, P) à valeurs dans W . V un ensemble et φ une fonction de W dans V . La loi de
Y = φ(X) est donnée par
Preuve Soit donc A ⊂ V . Par définition PY (A) = P(Y −1 (A)). Or, Y = φ ◦ X, donc,
d’après les propriétés des fonctions réciproques,
et donc
par définition de PX .
Le gros intérêt de cette proposition est qu’elle montre que si on peut définir directement
une variable aléatoire X (sans passer explicitement par un univers (Ω, P)), on peut alors
calculer la loi de toute variable obtenue à partir de X toujours sans passer par l’univers.
\ Exemple 3.12 Continuons l’exemple 3.10 (et 3.11). Il est facile de montrer que la loi
de H est donnée par
h Manque Passe Zéro
18 18 1
P(H = h) 37 37 37
Déterminons alors la loi de M = φ(H), avec φ définie dans l’exemple 3.11. Comme M est
à valeurs dans {−1, 1}, il suffit de calculer PM ({1}) et PM ({−1}). D’après la propriété
ci-dessus et la définition de φ, on a
Cas numérique
Quand une variable aléatoire X est à valeurs réelles, on peut réaliser toute sorte de
calculs sur les valeurs de X, ce qui revient à définir des variables aléatoires fonction de X.
La convention qui consiste à écrire Y = φ(X) devient dans ce contexte très expressive,
comme le montre l’exemple suivant.
\ Exemple 3.13 Reprenons l’exemple 3.6 du lancé de deux dés à quatre faces dans
lequel on définit la variable aléatoire S, somme des deux dés. Soit maintenant la fonction
φ de R dans R définie par φ(x) = x2 − 1 et Y la variable aléatoire Y = φ(S). Comme φ
52 CHAPITRE 3. VARIABLES ALÉATOIRES
est donnée par une formule explicite, on peut appliquer cette formule à la variable S, ce
qui revient à écrire
S
Y = − 1.
2
√
On peut définir ainsi d’autres variables comme Z = S 2 + 1, T = S, etc. [
Il faut cependant bien conserver à l’esprit que cette écriture est une convention qui masque
le fait que les objets concernés (par exemple X et Y ) sont des fonctions et que l’égalité
est à comprendre comme une égalité entre fonctions. Si on écrit par exemple Y = 2X + 1,
cela signifie en fait que pour tout ω ∈ Ω, Y (ω) = 2X(ω) + 1.
Un autre avantage des variables aléatoires numériques est qu’elles peuvent être données
par une fonction de répartition, en vertu du théorème de la réciproque 3.2. Dans certains
cas, on peut calculer la fonction de répartition d’une variable Y fonction d’une variable
X directement à partir de la fonction de répartition de X. C’est le cas dans l’exemple
suivant.
\ Exemple 3.14 Reprenons l’exemple 3.9 et une variable aléatoire X obtenue en appli-
quant le théorème de la réciproque. Soit maintenant Y = 2X + 1. On cherche à déterminer
FY . D’après la définition de FY et la proposition 3.1, on a
car φ est bijective et sa fonction inverse est donnée par φ−1 (t) = (t−1)
2 . On a donc
(t − 1) (t − 1)
FY (t) = PX −∞, = FX ,
2 2
[
Chapitre 4
4.1 Définition
On étudie dans ce chapitre un cas particulier de variables aléatoires pour lesquelles
certains concepts et calculs sont plus faciles à définir et réaliser que dans le cas général.
Ces variables peuvent prendre un nombre « raisonnable » de valeurs, selon la définition
suivante :
Définition 4.1 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans un ensemble
quelconque W . X est dite discrète si son support est fini ou dénombrable.
Quand X est discrète et |X(Ω)| = n, on note (xi )1≤i≤n les valeurs du support. Quand
X(Ω) est dénombrable, on note (xi )i≥i ces valeurs.
Le cas le plus simple est bien sur celui où |X(Ω)| < ∞ car le cas dénombrable est associé
à toutes les subtilités induites par le passage à l’infini. Le point important est cependant
la possibilité de numéroter les valeurs du support.
B Remarque 4.1 La définition 4.1 sépare l’ensemble W dans lequel la variable aléatoire
prend ses valeurs et le support X(Ω) de la variable. Ce point est très important car les
variables aléatoires numériques sont en général à valeurs dans R qui n’est pas un ensemble
dénombrable. Pourtant de nombreuses variables aléatoires numériques sont discrètes ce
qui montre que cette caractérisation n’est pas liée à l’ensemble « ambiant » mais bien aux
valeurs réellement prises par la variable aléatoire.
\ Exemple 4.1 Considérons le lancer d’un dé à six faces non truqué. On définit sur
Ω = { , , , , , } la variable aléatoire X qui indique la parité du résultat du lancer et
qui est donc à valeurs dans W = {pair, impair}. Comme W est fini, X est nécessairement
discrète. Ici on a X(Ω) = W , ce qui simplifie l’analyse. [
Une conséquence pratique importante du caractère discret d’une variable est qu’on peut
la spécifier directement par l’intermédiaire de sa loi plutôt que comme une fonction, en
s’appuyant sur la proposition 1.1. On a ainsi la proposition suivante.
53
54 CHAPITRE 4. VARIABLES ALÉATOIRES DISCRÈTES
Proposition 4.1 Soit W = {w1 , . . . , wn } un ensemble fini et n réels de [0,1], (pi )1≤i≤n
tels que ni=1 pi = 1. Alors il existe un univers Ω, une probabilité P sur Ω et une variable
P
aléatoire X sur (Ω, P) à valeurs dans W telle que
∀i, 1 ≤ i ≤ n, P(X = wi ) = pi .
Preuve Cette proposition est assez simple à prouver. Il suffit en effet d’évoquer la
proposition 1.1 qui garantit l’existence d’une probabilité P sur W telle que P({wi }) = pi
pour tout i. On pose alors Ω = W et on prend pour X la fonction identité de W dans lui-
même qui à tout w associe w (et donc X(w) = w). Il est clair que pour tout sous-ensemble
A de W , X −1 (A) = A et donc que PX (A) = P(A), ce qui permet de conclure.
et
y a b c
5 1 1
P(Y = y) 6 12 12
On constate que X est « plus aléatoire » que Y dans le sens suivant : il est possible de
parier sur une valeur de W avec une probabilité de gagner bien plus grande dans le cas de
Y que dans le cas de X. Il suffit en effet de parier sur a. Dans ce cas, la probabilité de
gagner est P(Y = a) = 56 pour Y et P(X = a) = 13 . De plus, la probabilité de gagner dans
le cas de la variable X ne peut pas être plus grande que 13 quel que soit le choix de la
valeur. [
Plusieurs mesures ont été proposées pour quantifier le niveau d’aléa que présente une
variable aléatoire. La mesure la plus générale est l’entropie de Shannon décrite dans la
définition suivante.
Définition 4.2 Soit X une variable aléatoire discrète à valeurs dans W = {w1 , . . . , wn }.
Pour tout réel strictement positif b, l’entropie (de Shannon) de X en base b, Hb (X) est
la quantité
Xn
Hb (X) = − P(X = wi ) logb P(X = wi ), (4.1)
i=1
4.2. ENTROPIE ET MODE 55
où logb est la fonction logarithme en base b. Par convention, dès que P(X = wi ) = 0 on
remplace P(X = wi ) logb P(X = wi ) par la valeur 0 dans la somme ci-dessus.
On utilise en général b = 2 et on parle alors d’entropie, sans préciser la base. On note
ainsi H(X) = H2 (X).
\ Exemple 4.3 Reprenons les deux variables aléatoires de l’exemple 4.2. Un simple
calcul donne
1
H(X) = − log2 = log2 3 ' 1,585
3
5 5 1 1
H(Y ) = − log2 − log2 ' 0,8167.
6 6 6 12
Définition 4.3 Soit X une variable aléatoire discrète à valeurs dans W = {w1 , . . . , wn }.
On dit que w est le mode de X si et seulement si
Alors que la notion d’entropie mesure la dispersion d’une variable aléatoire, celle de mode
formalise l’idée de tendance dominante. Notons notamment qu’une variable aléatoire
d’entropie maximale n’a pas de mode (sauf si elle est constante).
56 CHAPITRE 4. VARIABLES ALÉATOIRES DISCRÈTES
\ Exemple 4.4 Reprenons les deux variables aléatoires de l’exemple 4.2. On voit que
X n’a pas de mode car les trois valeurs a, b et c sont equiprobables. Aucune valeur n’est
donc dominante et la variable n’exhibe pas de tendance. Au contraire, elle a une entropie
maximale.
En revanche, Y est unimodale et son mode est a. La valeur a est en effet la plus
probable. Comme l’entropie de Y est faible, cela montre que Y a une forte tendance à
prendre la valeur a. [
Propriété 4.2 Soit X une variable aléatoire réelle et discrète sur (Ω, P), c’est-à-dire à
valeurs dans R et telle que X(Ω) soit fini ou dénombrable. Alors sa fonction de répartition
FX vérifie les propriétés suivantes (en plus des propriétés générales 3.2) :
1. pour tout x ∈ X(Ω) tel que P(X = x) > 0, FX est discontinue en x ;
2. réciproquement, si FX est discontinue en x, alors x ∈ X(Ω) et P(X = x) > 0 ;
3. en dehors de ses points de discontinuité, FX est constante (elle est dite constante
par morceaux).
Preuve La preuve de ces propriétés est assez simple car l’essentiel fourni par les propriétés
3.2 et 3.3.
1. Soit donc x ∈ X(Ω) avec P(X = x) > 0. Alors d’après la propriété 3.3
Comme cette grandeur est strictement positive, au moins un des xi est tel que
P(X = xi ) > 0. De ce fait, il y a donc au moins une discontinuité sur l’intervalle ]s,t].
Par contra-position, s’il n’y a pas de discontinuité sur ]s,t], c’est que FX (s) = FX (t)
et donc que FX est constante sur l’intervalle.
\ Exemple 4.5 L’exemple 3.6 et la figure 3.2 sont typiques du cas d’une fonction de
répartition pour une variable aléatoire discrète. On voit notamment très bien sur la figure
le caractère constant par morceaux de FX . [
4.4 Moments
Nous avons vu dans la section 4.2 deux façons de caractériser une variable aléatoire,
le mode pour la tendance centrale et l’entropie pour la dispersion. Dans le cas discret
numérique, d’autres mesures sont disponibles. Elles exploitent le caractère numérique de
la variable et viennent compléter le mode et l’entropie.
Espérance
Définition 4.4 Soit X une variable aléatoire réelle et discrète sur (Ω, P). On appelle
espérance (mathématique) de X, la valeur numérique notée E(X) définie par
X
E(X) = xP(X = x), (4.2)
x∈X(Ω)
B Remarque 4.3 La série qui apparaît à droite dans l’équation (4.2) est bien définie
car X(Ω) est au plus dénombrable. On peut toujours l’écrire sous la forme suivante :
∞
X
E(X) = xi P(X = xi ),
i=1
\ Exemple 4.6 Considérons le lancer d’un dé à six faces non truqué. On définit sur
Ω = { , , , , , } la variable aléatoire X qui indique la valeur de la face. On a donc
58 CHAPITRE 4. VARIABLES ALÉATOIRES DISCRÈTES
1
X(Ω) = {1, 2, 3, 4, 5, 6}. Il est évident que P(X = x) = 6 pour tout x ∈ X(Ω). On a donc
6
X
E(X) = xP(X = x),
x=1
6
1 X 17×6
= x= ,
6 6 2
x=1
7
= . [
2
L’exemple précédent montre que l’espérance s’apparente à une valeur moyenne. Intuitive-
ment, dans cet exemple, on s’attend à avoir aussi souvent chaque valeur entre 1 et 6. La
valeur obtenue « en moyenne » correspond donc intuitivement à la moyenne de ces valeurs.
De façon plus générale, la formule (4.2) peut être interprétée comme une moyenne pondérée
des valeurs prises par la variable aléatoire, les poids étant les probabilités d’obtenir ces
valeurs. En ce sens, l’espérance mathématique est une version théorique de la notion de
moyenne. Elle caractérise une forme de « position » pour une variable aléatoire. Elle donne
aussi une idée de la valeur moyenne obtenue en prenant plusieurs valeurs de la variable
aléatoire (de façon indépendante entre chaque répétition) au sous où cette valeur moyenne
s’approche de plus en plus de l’espérance quand le nombre de répétitions augmente.
Il est intéressante de comparer la notion d’espérance et celle de mode (dans le cas
d’une variable aléatoire numérique). Dans certaines situations, l’espérance d’une variable
aléatoire unimodale peut être proche de son mode (voir égale au mode), mais rien ne
l’oblige, comme le montre l’exemple suivant.
x −1 0 1 2
1 3 1 1
P(X = x) 6 6 6 6
Il est clair que X est unimodale et que son mode est 0. Son espérance est donnée par
X
E(X) = xP(X = x),
x∈{−1,0,1,2}
1 3 1 1
= −1 × +0× +1× +2× ,
6 6 6 6
1
= .
3
On constante ainsi que l’espérance et le mode ne sont pas identiques. Le mode correspond
à la valeur la plus fréquente alors que l’espérance tient compte aussi des autres valeurs.[
Propriété 4.3 Soit (Ω, P) une expérience aléatoire et soit X une variable aléatoire réelle
et discrète sur (Ω, P). Alors pour tous nombres réels a et b, on a
Théorème 4.1 Soit X une variable aléatoire réelle et discrète sur (Ω, P) et soit φ une
fonction de R dans R. On a
X
E(φ(X)) = φ(x)P(X = x). (4.4)
x∈X(Ω)
Pour appliquer cette formule, il faut donc calculer la loi de φ(X) (par exemple en utilisant
la proposition 3.1, puis faire la somme pondérée des valeurs prises par φ(X). Le théorème
de transport montre qu’on peut se contenter de faire la somme pondérée des φ(x) pour
x ∈ X(Ω), en utilisant la loi de X. Tout se passe comme si φ n’intervenait que sur les
valeurs de X, pas sur sa loi. La preuve du théorème éclaire ce point mais est assez abstraite.
Nous proposons donc à la place un exemple qui illustre cette preuve.
\ Exemple 4.8 Reprenons l’exemple 4.6 et la variable aléatoire X qui donne la valeur
de la face du dé. Soit Y = |X − 3|, la variable aléatoire obtenue à partir de la fonction φ
donnée par φ(x) = |x − 3|. Calculons la loi de Y . Pour ce faire, considérons le tableau
suivant qui associe aux valeurs de X celles de Y :
X 1 2 3 4 5 6
Y 2 1 0 1 2 3
En conduisant ce type de calculs pour les autres valeurs, on constate que Y (Ω) = {0, 1, 2, 3}
et que la loi de Y est donnée par
y 0 1 2 3
1 1 1 1
P(Y = y) 6 3 3 6
60 CHAPITRE 4. VARIABLES ALÉATOIRES DISCRÈTES
On remarque que φ(1) = φ(3) et donc qu’on peut regrouper les termes correspondants.
De façon plus générale, si φ(a) = φ(b), on peut remplacer φ(a)P(X = a) + φ(b)P(X = b)
par φ(a)P(X ∈ {a, b}). Ici, on obtient
1 1 1 1 1 1
E(Y ) = 0 × + 1 × + +2× + +3×
6 6 6 6 6 6
1 1 1 1
=0× +1× +2× +3× ,
6 3 3 6
3
= .
2
Toute l’astuce pour voir l’égalité entre les deux formules (directe et par le théorème de
transport) réside donc dans le regroupement des valeurs de x ∈ X(Ω) qui donnent la
même valeur de φ(x). Or, on sait que
Variance
De la même façon que l’espérance complète le mode dans la détermination de la
tendance centrale d’une variable aléatoire, la variance complète l’entropie dans l’estimation
de sa dispersion.
4.4. MOMENTS 61
Définition 4.5 Soit X une variable aléatoire réelle et discrète sur (Ω, P) dont l’espérance
E(X) existe. On appelle variance de X, la valeur numérique notée V(X) définie par
V(X) = E (X − E(X))2 ,
(4.5)
quand elle existe. Il s’agit donc de l’espérance de la variable aléatoire Y définie par
Y = (X − E(X))2 .
Quand la variance de X, son écart type est donné par
p
σ(X) = V(X). (4.6)
B Remarque 4.4 Comme nous l’avons déjà indiqué dans la remarque 4.3, l’espérance
d’une variable aléatoire n’existe pas toujours. Il en est de même pour la variance, celle-ci
étant une espérance.
Propriétés 4.4 Soit X une variable aléatoire réelle et discrète dont l’espérance et la
variance sont bien définies. On a alors
1. V(X) = x∈X(ω) (x − E(X))2 P(X = x).
P
\ Exemple 4.9 Reprenons l’exemple 4.6 et la variable aléatoire X qui donne la valeur
de la face du dé. Nous avons vu que E(X) = 72 . Calculons V(X) par les trois méthodes
possibles : à partir de la variable aléatoire Y = (X − E(X))2 , en appliquant le théorème
de transport à cette variable, ou avec la formule V(X) = E X 2 − (E(X))2 .
62 CHAPITRE 4. VARIABLES ALÉATOIRES DISCRÈTES
X 1 2 3 4 5 6
25 9 1 1 9 25
Y 4 4 4 4 4 4
1 9 25
On a donc Y (Ω) = 4 4 4 . Le calcul de la loi de Y est simple, on trouve
, ,
1 9 25
y 4 4 4
1 1 1
P(Y = y) 3 3 3
91 49
V(X) = − ,
6 4
35
= . [
12
4.4. MOMENTS 63
Vocabulaire
L’espérance et la variance étant deux mesures très utiles pour résumer numériquement
le comportement d’une variable aléatoire, il existe un vocabulaire spécifique construit à
partir d’elles.
Définition 4.6 Soit X une variable aléatoire numérique discrète dont l’espérance et la
variance sont bien définies.
1. Si E(X) = 0, X est dite centrée.
2. La variable aléatoire X − E(X) est obtenue à partir de X par centrage et elle est
centrée.
3. Si V(X) = 1, X est dite réduite.
X
4. Si V(X) > 0, la variable aléatoire σ(X) est obtenue à partir de X par réduction et
elle est réduite.
5. Si E(X) = 0 et V(X) = 1, X est dite centrée-réduite.
6. Si V(X) > 0, la variable aléatoire X−E(X)
σ(X) est obtenue à partir de X par centrage
et réduction et elle est centrée-réduite.
X−E(X)
On parle aussi de versions de X pour les différentes opérations. Par exemple σ(X) est
la version centrée-réduite de X.
Autres moments
L’espérance et la variance d’une variable aléatoire sont des moments de cette variable.
On a plus généralement toute une collection de moments.
Définition 4.7 Soit X une variable aléatoire numérique discrète. Soit r un entier stric-
tement positif. Le moment (dit aussi moment ordinaire) d’ordre r de X est donné par
L’espérance est donc le moment ordinaire d’ordre 1 alors que la variance est le moment
centré d’ordre 2.
64 CHAPITRE 4. VARIABLES ALÉATOIRES DISCRÈTES
Propriétés 4.5 Soit X une variable aléatoire de loi uniforme sur l’ensemble {1, . . . , n}.
Alors
1
1. P(X = k) = n pour tout k ∈ {1, . . . , n} ;
n+1
2. E(X) = 2 ;
n2 −1
3. V(X) = 12 .
B Remarque 4.5 Il faut bien être attentif au fait que la loi uniforme est définie pour
tout ensemble U mais que les propriétés indiquées ci-dessus ne sont valables que dans le
cas particulier de U = {1, . . . , n}. Si U n’est pas numérique, les notions d’espérance et de
variances ne s’appliquent pas. Si U est numérique mais par exactement égal à {1, . . . , n},
les valeurs de ces moments ne sont pas les mêmes. Par exemple si U = {−2, −1, 0, 1, 2} et
que X ∼ U(U ), alors E(X) = 0.
Loi de Bernoulli
Définition 4.9 Toute variable aléatoire à valeurs dans {0, 1} est dite suivre une loi de
Bernoulli. La valeur 1 représente le succès alors que le 0 représente l’échec.
La notation X ∼ B(p) indique que X suit une loi de Bernoulli de paramètre p,
c’est-à-dire que X(Ω) = {0, 1} et que P(X = 1) = p.
B Remarque 4.6 Une expérience aléatoire d’univers Ω = {Échec, Succès} est souvent
appelée une épreuve de Bernoulli. La variable aléatoire de Bernoulli associée est définie
par X(Échec) = 0 et X(Succès) = 1.
Loi binomiale
Définition 4.10 Soit n un entier strictement positif et p ∈ [0,1]. On dit qu’une variable
aléatoire X à valeurs dans {0, 1, . . . , n} suit une loi binomiale de paramètres n et p, et
on note X ∼ B(n, p), si et seulement si sa loi est donnée par
Propriétés 4.7 Soit X une variable de loi binomiale de paramètres n et p (X ∼ B(n, p)).
Alors
1. E(X) = np ;
2. V(X) = np(1 − p).
La loi binomiale est fortement liée à la loi de Bernoulli comme le montre la proposition
suivante qui donne aussi un « manuel d’utilisation » de la loi binomiale.
B Remarque 4.7 La notion d’indépendance utilisée ici est celle des évènements indé-
pendants dans leur ensemble (cf définition 2.3). Plus précisément, on suppose que les n
évènements (Ai )1≤i≤n , s’ils sont tels que chaque Ai ne concerne que l’épreuve numéro i,
sont indépendants dans leur ensemble.
Loi géométrique
Définition 4.11 Soit p ∈]0,1[. On dit qu’une variable aléatoire X à valeurs dans N∗
(l’ensemble des entiers strictement positifs) suit une loi géométrique de paramètre p, et
on note X ∼ G(p), si et seulement si sa loi est donnée par
pour tout k ∈ N∗ .
Propriétés 4.8 Soit X une variable de loi géométrique de paramètre p (X ∼ G(p)). Alors
1
1. E(X) = p;
1−p
2. V(X) = p2
;
3. pour tout k ∈ N∗ , FX (k) = 1 − (1 − p)k .
66 CHAPITRE 4. VARIABLES ALÉATOIRES DISCRÈTES
Comme la loi binomiale, la loi géométrique est fortement liée à la loi de Bernoulli.
Proposition 4.3 Soit l’expérience aléatoire suivante : on effectue une série d’épreuves
de Bernoulli indépendantes et de même paramètre p, et on s’arrête à l’obtention du
premier succès. On considère la variable aléatoire X donnant le nombre d’épreuves de
Bernoulli réalisées (si X = k, on a obtenu k − 1 échecs et 1 dernier succès). Alors X suit
une loi géométrique de paramètre p.
Loi de Poisson
Définition 4.12 Soit λ un nombre réel strictement positif. On dit qu’une variable aléatoire
X à valeurs dans N suit une loi de Poisson de paramètre λ, et on note X ∼ P(λ), si et
seulement si sa loi est donnée par
λk e−λ
P(X = k) = , (4.14)
k!
pour tout k ∈ N.
Propriétés 4.9 Soit X une variable de loi de Poisson de paramètre λ (X ∼ P(λ)). Alors
1. E(X) = λ ;
2. V(X) = λ.
L’un des intérêts pratique de la loi de Poisson est qu’elle est proche d’une loi binomiale
dans certaines circonstances, ce qui permet d’approcher la loi binomiale et de simplifier
les calculs associés.
Propriété 4.10 (Loi des évènements rares) Soit X une variable aléatoire suivant
une loi binomiale B(n, p). Alors la loi de X est approximativement égale à la loi d’une
variable aléatoire de Poisson P(λ) avec λ = np quand
approximation grossière : n ≥ 20 et p ≤ 0,05 ;
approximation fine : n ≥ 100 et np ≤ 10.
En pratique, cela veut dire que si X ∼ B(n, p) et si les conditions d’approximation sont
vérifiées, alors
(np)k e−np
P(X = k) ' .
k!
Annexes
67
Annexe A
La théorie des ensembles est à la base des mathématiques. Elle est utilisée pour
construire la plupart des concepts de plus haut niveau, comme par exemple les probabilités.
Il s’agit d’une partie des mathématiques très formelle dont la maîtrise est largement hors
du programme du présent cours. Il faut cependant connaître un minimum de notions qui
sont rappelées dans ce chapitre, en général de façon assez informelle.
\ Exemple A.1
Bien que cela soit rare, on désigne parfois l’ensemble vide par ∅ = {}.
3. la notation x ∈ A indique que l’objet x est élément de A (on dit aussi que x
appartient à A). On note x 6∈ A pour dire que l’objet x n’est pas élément de A.
\ Exemple A.2
69
70 ANNEXE A. THÉORIE DES ENSEMBLES
\ Exemple A.3 L’ensemble des es entiers pairs U est défini à partir de l’ensemble
des entiers naturels N par
B = {x ∈ A | P (x)},
où P (x) est une propriété. Les éléments de B sont ceux de A qui rendent la propriété
vraie.
\ Exemple A.5
A B
A.1. NOTATIONS ET OPÉRATIONS 71
S généralise à plus de deux ensembles : soit (Ai )i≥1 une suite d’ensembles,
L’union se
on note i≥1 Ai l’union des Ai , c’est-à-dire l’ensemble constitué des objets qui
appartiennent à au moins un des Ai .
Notons que l’union ne peut pas s’écrire rigoureusement en compréhension.
\ Exemple A.6
{a, 2, {0}} ∪ {b, ∅, 3} = {a, 2, {0}, b, ∅, 3}. [
A A∩B B
\ Exemple A.7
{2, 3, 4} ∩ {1, 2, 3} = {2, 3} {a, b} ∩ {{a}, {b}} = ∅ [
A B
A\B
72 ANNEXE A. THÉORIE DES ENSEMBLES
\ Exemple A.8
{2, 3, 4} \ {1, 2, 3} = {4}. [
Quand tous les ensembles considérés sont des sous-ensembles d’un ensemble fixé
Ω, on note plus simplement A = Ω \ A et on parle alors de complémentaire
sans préciser relativement à quel ensemble. On remarque que si A et B sont deux
sous-ensembles de Ω, on a
A \ B = A ∩ B,
où B désigne comme convenu le complémentaire de B dans Ω.
9. si A et B sont deux ensembles, on note A∆B la différence symétrique entre A
et B. Cet ensemble est constitué de l’union des éléments de A qui ne sont pas dans
B et des éléments de B qui ne sont pas dans A. Par définition, on a donc
A∆B = (A \ B) ∪ (B \ A).
A∆B = (A ∪ B) \ (A ∩ B).
\ Exemple A.9
{2, 3, 4}∆{1, 2, 3} = {1, 4}. [
\ Exemple A.10
A ∩ B = B ∩ A,
A ∪ B = B ∪ A.
A.2. PROPRIÉTÉS DES OPÉRATIONS ENSEMBLISTES 73
A B
A B A B
A B
74 ANNEXE A. THÉORIE DES ENSEMBLES
Définition A.2 Soit A1 , . . . , An , n ensembles. On appelle n-uplet sur ces ensembles une
liste (a1 , . . . , an ) d’objets telle que ∀i, 1 ≤ i ≤ n, ai ∈ Ai . L’ensemble des Q n-uplets est le
produit cartésien de A1 , .Q . . , An , noté A1 × A2 × · · · × An , ou encore ni=1 Ai .
Le produit cartésien de ni=1 A est noté An .
Il est important de noter que dans un n-uplet, l’ordre des éléments est pris en compte.
Par exemple, si a et b sont deux éléments distincts de A, la paire (a, b) ∈ A2 est différente
de la paire (b, a).
A.4 Partition
Définition A.3 Soit A un ensemble et P = {C1 , C2 , . . . , Ck } un ensemble de k sous-
ensembles de A. On dit que P est une partition de A si et seulement si les propriétés
suivantes sont vérifiées :
1. aucun des Ci n’est vide : ∀i , 1 ≤ i ≤ k, Ci 6= ∅ ;
2. les Ci ne s’intersectent pas : ∀i, j, 1 ≤ i ≤ k, 1 ≤ j ≤ k, i 6= j ⇒ Ci ∩ Cj = ∅ ;
3. l’union des Ci forme A tout entier : A = ki=1 Ci .
S
\ Exemple A.12 Soit A = {1, a, z, {u, v}}. Une partition de A est donnée par les trois
ensembles suivants :
C1 = {1} C2 = {z, {u, v}},
C3 = {a}.
En revanche, les ensembles suivants ne forment pas une partition de A :
C1 = {1} C2 = {u, v},
C3 = {a, z}.
En effet, leur union vaut {1, a, z, u, v}, un ensemble distinct de A. [
En probabilité, on utilise très fréquemment des partitions car les propriétés fondamentales
des probabilités (cf propriétés 1.1) assurent que la probabilité d’un évènement A est égale
A.4. PARTITION 75
A B
Fonctions
B.1 Définition
De façon informelle, une fonction est un moyen d’associer à chaque élément d’un
ensemble au plus élément d’un autre ensemble. Par exemple la fonction « valeur absolue »
associe à un nombre quelconque soit le nombre lui même s’il est positif, soit son opposé
s’il est négatif.
Pour définir une fonction, il faut donc un ensemble de départ, par exemple A, et un
ensemble d’arrivée, par exemple B. Il faut ensuite lister les associations entre certains
éléments de l’ensemble de départ et les éléments correspondants dans l’ensemble de départ.
Une association entre deux éléments peut être représentée comme une paire (x, y) avec
x ∈ A et y ∈ B. Mathématiquement, la fonction est alors un ensemble de ces paires. La
définition formelle est alors la suivante.
Définition B.1 Soit A et B deux ensembles. Une fonction f de A vers B est une partie
de A × B, telle que si (x, y) ∈ f et (x, y 0 ) ∈ f , alors y = y 0 .
Si (x, y) ∈ f , on note f (x) = y. On dit alors que y est l’image par f de x et que x est
un antécédent de y par f . L’ensemble des x ∈ A tels qu’il existe y ∈ B avec (x, y) ∈ f
est le domaine de définition de f .
Pour résumer les notations pour une fonction particulière, on note
f : A → B
(B.1)
x 7→ y = f (x)
77
78 ANNEXE B. FONCTIONS
∀U ⊂ B , f −1 (U ) = {a ∈ A|f (a) ∈ U }.
et
\ \
f −1 Bi = f −1 (Bi ) .
i≥1 i≥1
B.4. FONCTION RÉCIPROQUE 79
f −1 B = f −1 (B).
(g ◦ f )−1 (U ) = f −1 g −1 (U ) .
Annexe C
Dénombrement
Définition C.2 Soit A un ensemble. On dit que A est fini si A est vide ou s’il existe un
entier n > 0 tel que A soit en bijection avec {0, . . . , n − 1}. On appelle n le cardinal de
A qui est noté |A|, card(A) ou encore #A. C’est le nombre d’éléments de A. L’ensemble
vide est de cardinal nul.
Quand A est fini, on peut numéroter ces éléments et donc écrire
A = {a1 , a2 , . . . , an },
si n = |A|.
Définition C.3 Soit A un ensemble. On dit que A est dénombrable si A est en bijection
avec l’ensemble des entiers naturels N. En pratique, un ensemble dénombrable se décrit
comme une suite infinie d’éléments, sous la forme
81
82 ANNEXE C. DÉNOMBREMENT
Permutations
Définition C.4 Soit A un ensemble. On appelle permutation de A une fonction f
bijective de A dans lui même.
Ce résultat est assez clair intuitivement. En effet pour construire une liste de n éléments
distincts, il faut d’abord choisir le premier élément parmi les n éléments de l’ensemble.
Mais dès le deuxième élément, le choix se fait parmi seulement les n − 1 éléments restants,
etc. On donc n choix, puis n − 1 choix, n − 2 choix, et ainsi de suite jusqu’au dernier
choix qui est imposé (c’est l’élément restant). On retrouve ainsi la définition de n!.
Arrangements
Les permutations sont un cas particulier de listes à n éléments distincts choisis dans
un ensemble de n éléments. On peut en effet se contenter de choisir p < n éléments en
respectant toujours le principe de n’avoir que des éléments distincts.
n!
Apn = n × (n − 1) × · · · × (n − p + 1) = .
(n − p)!
C.4 Sous-ensembles
Dans certaines situations, on s’intéresse à des « listes » d’éléments distincts d’un
ensemble A dans lesquelles l’ordre n’est pas important. Il s’agit donc en fait de sous-
ensembles de cardinal fixé d’un ensemble A. On les dénombre grâce au théorème suivant.
n! n × (n − 1) × · · · × (n − p + 1) Apn
Cnp = = = .
(n − p)!p! p! p!
B Remarque C.1 La notation Cnp est peu utilisée en dehors des zones francophones.
On lui préfère la notation np dans le reste du monde. Il faut bien noter l’inversion des
positions : le n est en indice dans Cnp alors qu’il est situé en haut dans np , mais il s’agit
La relation Cnp = Apn /p! s’explique assez bien intuitivement. Pour construire un sous-
ensemble à p éléments de A, on peut en effet utiliser une liste de p éléments distincts
de A et ne pas tenir compte de l’ordre de son contenu. Comme il y a p! ordres possibles
(permutations) pour p éléments, on voit qu’un ensemble correspond à p! listes différentes.
84 ANNEXE C. DÉNOMBREMENT
Pour obtenir le nombre d’ensembles, il faut donc diviser le nombre de listes Apn par le
nombre d’ordres possibles pour chaque liste p!.
Il s’agit ici de choisir des sous-ensembles de Ω de tailles fixées (les ni ) de telle sorte que
chaque sous-ensemble Bi soit contenu dans une partie Ai de Ω. Comme les parties Ai sont
disjointes, le choix des Bi est essentiellement indépendant : chaque Bi est déterminé en
dehors des considérations sur les autres Bj . On obtient de ce fait un produit des nombres
de choix possibles pour chacun des Bi .
\ Exemple C.1 Soit Ω = {1, . . . ,9}. On cherche à dénombrer tous les sous-ensembles
de Ω contenant 4 valeurs distinctes, deux paires et deux impaires. Prenons pour A1 les
entiers impairs de Ω et pour A2 les entiers pairs. En fixant n1 = n2 = 2, on se retrouve
dans les conditions du théorème. Le nombre de sous-ensembles est donc
85
86 ÉVOLUTIONS DE CE DOCUMENT
des partitions
10/01/2013 : version 0.2.0 début de rédaction du chapitre 2 :
— introduction à la notion d’évènement réalisé
87
89
90 INDEX
Entropie, 54
Espérance, 57
E, 57
fonction d’une autre, 50
loi, 51
fonction de répartition, 42
loi, 39
PX , 39
moment, 63
moment centré, 63
moment ordinaire, 63
numérique, 42
réduction, 63
réduite, 63
réelle, 42
support, 38
X(Ω), 38
Variance, 61
V, 61
Variable aléatoire discrète, 53
Variance, 61
V, 61
X(Ω), 38