Cours

Probabilités et statistique
Université Paris 1 Panthéon-Sorbonne
Cours de deuxième année de licence de sciences économiques
Fabrice Rossi
Cette œuvre est mise à disposition selon les termes de la licence Creative Commons
Paternité - Partage à l’Identique 3.0 non transposé.
Table des matières
Table des matières iii
1 Expérience aléatoire et probabilités 1

1.1 Expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Évènements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Vocabulaire probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Probabilités sur un univers fini . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Probabilités conditionnelles 21
2.1 Évènement réalisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Expériences aléatoires composées . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Règle des probabilités totales . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Règle de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.7 Indépendance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Variables aléatoires 37
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Notions générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Variable aléatoire numérique . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Variable aléatoire fonction d’une autre variable aléatoire . . . . . . . . . . 49
4 Variables aléatoires discrètes 53

4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Entropie et mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 Variable aléatoire discrète numérique . . . . . . . . . . . . . . . . . . . . . 56
4.4 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.5 Lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
A Théorie des ensembles 69

A.1 Notations et opérations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A.2 Propriétés des opérations ensemblistes . . . . . . . . . . . . . . . . . . . . 72
A.3 Produit cartésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
A.4 Partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
iii
iv TABLE DES MATIÈRES
B Fonctions 77
B.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
B.2 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
B.3 Composition de fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
B.4 Fonction réciproque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
C Dénombrement 81
C.1 Ensembles finis et ensembles dénombrables . . . . . . . . . . . . . . . . . . 81
C.2 Cardinaux et opérations ensemblistes . . . . . . . . . . . . . . . . . . . . . 81
C.3 Listes d’éléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
C.4 Sous-ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
C.5 Résultats complémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Évolutions de ce document 85
Index 89
Chapitre 1
Expérience aléatoire et probabilités
1.1 Expérience aléatoire

Définition 1.1 On appelle expérience aléatoire ou épreuve aléatoire une expérience
dont on connaît l’ensemble des résultats possibles mais dont on ne peut prévoir le résultat
effectif avec certitude.
\ Exemple 1.1 Le lancer d’un dé est une expérience aléatoire : le résultat est un entier
compris entre 1 et 6 dont la valeur ne peut être connue avant le lancer. [
Définition 1.2 L’ensemble des résultats possibles pour une expérience aléatoire, généra-
lement noté Ω, est appelé l’univers de l’expérience, aussi connu sous le nom d’ensemble
fondamental ou d’espace des possibles (ou encore l’espace des états).
\ Exemple 1.2 L’univers de l’expérience du lancer de dé de l’exemple 1.1 est l’ensemble
Ω = {1, 2, 3, 4, 5, 6}.
On peut aussi avoir un point de vue plus proche des objets physiques et représente l’univers
comme l’ensemble des faces obtenues, soit
Ω = { , , , , , }. [
\ Exemple 1.3 Le lancer d’une pièce de monnaie est une expérience aléatoire dont
l’univers est l’ensemble Ω = {pile, face}. [
L’univers d’une expérience aléatoire étant un ensemble, sa description s’appuie sur

la théorie des ensembles dont les éléments nécessaires pour ce cours sont rappelés dans
l’annexe A. On utilise en particulier la notion de produit cartésien, comme l’illustrent les
exemples suivants.
1
2 CHAPITRE 1. EXPÉRIENCE ALÉATOIRE ET PROBABILITÉS
\ Exemple 1.4 On choisit une carte à jouer au hasard dans un jeu de 32 cartes. Une
façon basique de décrire l’univers consiste à numéroter les cartes de 1 à 32 dans un ordre
arbitraire, puis à utiliser Ω = {1, 2, . . . , 32}.
On peut aussi considérer l’ensemble des couleurs C = {♣, ♠, ♥, ♦} et l’ensemble des
valeurs et des figures V F = {7, 8, 9, 10, V alet, Dame, Roi, As}. Ω est alors défini comme
le produit cartésien entre V F et C, soit Ω = V F × C. Une carte est ainsi représentée par
un couple de la forme (8, ♣) pour le 8 de trèfle, par exemple.
Notons que l’ordre choisi V F × C est arbitraire et qu’on pourrait utiliser Ω = C × V F
sans que cela n’influence les résultats. Une carte serait alors de la forme (♥, 4) pour le 4
de cœur, par exemple. [
\ Exemple 1.5 On lance deux fois de suite un dé. Comme pour un seul dé, l’espace des
possibles associé à un lancer peut être proche des objets physiques eux-mêmes, soit par
exemple L = { , , , , , }. On peut aussi considérer seulement la valeur du dé et donc
prendre L = {1, 2, 3, 4, 5, 6}. Comme on réalise deux lancers, l’expérience produit un couple
de résultats, c’est-à-dire un élément du produit cartésien L × L. L’univers de l’expérience
est donc Ω = {1, 2, 3, 4, 5, 6}2 pour la version numérique, ou Ω = { , , , , , }2 pour
une version plus imagée.
Notons que dans cette expérience, l’ordre dans un couple de résultats est significatif
puisqu’on lance d’abord un dé, puis après avoir observé son résultat, on le relance. On a
donc bien un premier résultat, puis un second. De ce fait la paire ( , ) est bien différente
de la paire ( , ). [
La nature de l’expérience peut conduire à des univers relativement complexes, comme

le montrent les exemples suivants.
\ Exemple 1.6 Considérons une urne contenant 3 jetons numérotés de 1 à 3. On tire

au hasard un premier jeton puis un second jeton. Le résultat de l’expérience est donc une
paire (ordonnée) d’éléments choisis dans J = {1, 2, 3}. L’univers n’est pas cependant J 2 .
En effet, si on tire d’abord le jeton 1, par exemple, celui n’est plus disponible dans l’urne.
Les résultats de l’expérience sont donc des paires d’éléments distincts. L’univers est alors
Ω = {(a, b) ∈ J 2 | a 6= b},
= {(1, 2), (1, 3), (2, 1), (2, 3), (3, 1), (3, 2)}.
Cet ensemble ne peut pas se formuler plus simplement sous forme d’un produit cartésien,
par exemple. [
Une des difficultés de modélisation est de décider si les résultats d’une expérience sont
discernables. Les exemples suivants illustrent cette difficulté.
\ Exemple 1.7 On lance deux dés simultanément. Si on considère les deux dés comme
indiscernables, on ne doit pas faire de différence entre les paires ( , ) et ( , ) : rien ne
permet d’ordonner les dés (contrairement à la situation de l’exemple 1.5). Pour représenter
1.1. EXPÉRIENCE ALÉATOIRE 3
l’univers, on introduit l’ensemble des résultats d’un seul dé, R = { , , , , , }. On

peut alors représenter l’univers sous la forme suivante :
U = {r ∈ P(R) | 1 ≤ |r| ≤ 2} .
Dans cette définition, les éléments de U sont des sous-ensembles de R (d’où le r ∈ P(R))
contraints à contenir au plus deux éléments (d’où la condition 1 ≤ |r| ≤ 2). En d’autres
termes, les éléments de U s’écrivent soit {a, b} avec a ∈ R et b ∈ R, soit {c} avec c ∈ R.
Ceci s’explique par le fait que par nature, un ensemble n’est pas ordonné et donc que
{a, b} = {b, a}, ce qui semble bien adapté pour l’expérience considérée. Cependant, un
ensemble ne contient qu’une seule fois chacun de ses éléments. De ce fait, l’ensemble
{ , } correspond en réalité à l’ensemble { }, ce qui explique la nécessité d’inclure des
sous-ensembles de R réduits à un unique élément. Techniquement, ce détail ne change
rien à la qualité de la modélisation : les seuls singletons de U correspondent aux lancers
pour lesquels on obtient deux fois le même chiffre.
Il est parfois cependant plus clair de supposer les objets étudiés comme discernables et
donc de considérer comme dans l’exemple 1.5 des n-uplets plutôt que des sous-ensembles
de n éléments. En considérant les dés comme discernables, on obtient ici le même univers
que dans l’exemple 1.5, c’est-à-dire :
Ω = { , , , , , } × { , , , , , }.
Une façon de visualiser le caractère discernable des dés est de faire comme s’ils avaient
chacun une couleur différente. Avec un dé noir et un dé blanc, ceci donne par exemple :
Ω = { , , , , , } × { , , , , , }.
Ici, le fait que les dés soient lancés simultanément n’empêche pas de donner les résultats
dans un ordre fixé, par exemple le dé noir en premier comme ci-dessus.
Nous verrons notamment dans l’exemple 1.17 que le modèle discernable est souvent
plus simple à utiliser que le modèle indiscernable. [
\ Exemple 1.8 On considère une urne contenant cinq jetons, trois rouges et deux bleus.
On tire au hasard un jeton dans l’urne. Comme dans l’exemple 1.7, on peut être tenté de
modéliser de façon naturelle l’expérience en supposant que les jetons ne sont discernables
que par leur couleur. L’univers naturel est alors
U = {•, •}.
Cet univers respecte une symétrie des couleurs qui n’est pas très satisfaisante intuitivement :
on se doute que si on prend un jeton au hasard dans l’urne, on tombera plus fréquemment
sur un rouge que sur un bleu. Pour représenter cette intuition au niveau de l’univers,
on rend les jetons complètement discernables en les numérotant de 1 à 5. Comme dans
l’exemple 1.7, ceci est artificiel mais est très utile pour faciliter l’analyse de l’expérience.
L’univers devient alors par exemple
Ω = {¶, ·, ¸, ¹, º}.
La numérotation étant arbitraire, on peut très bien mettre les jetons bleus en premier
ou choisir n’importe quel ordre. L’intérêt du modèle est qu’il n’est plus symétrique : on
respecte dans l’univers la structure de l’expérience. En ce sens, Ω est un meilleur modèle
que U , mais ce dernier reste un modèle exact. [
1.2 Évènements
Définition 1.3 Soit une expérience aléatoire et son univers Ω. On appelle évènement 1
un sous-ensemble de Ω, c’est-à-dire en sous-ensemble de tous les résultats possibles. Un
évènement est donc un élément de P(Ω).
On appelle évènement élémentaire les singletons de P(Ω), c’est-à-dire les ensembles
réduits à un seul élément. Un évènement élémentaire est donc de la forme {ω} pour tout
ω ∈ Ω.
B Remarque 1.1 Dans les situations complexes, en particulier quand Ω n’est pas dé-
nombrable (par exemple Ω = R), on ne peut pas considérer toute partie de Ω comme un
évènement. On se donne alors un sous-ensemble (strict) de P(Ω), celui des évènements
observables. Ce sous-ensemble est une tribu, c’est-à-dire qu’il vérifie des propriétés de
stabilité qu’on ne détaillera pas ici car la notion n’est pas au programme de ce cours.
Mathématiquement, un évènement s’exprime sous forme d’un ensemble. On peut aussi le

décrire grâce à une formule logique s’appliquant aux résultats possibles de l’expérience :
l’évènement ensemble est alors l’ensemble des résultats qui rendent la formule vraie.
\ Exemple 1.9 On considère de nouveau l’exemple 1.2 du lancer d’un dé. Voici quelques
exemples d’évènements :
— l’évènement A = { , , } correspond à l’obtention d’un chiffre pair ;
— l’évènement B = { , , } correspond à l’obtention d’un chiffre impair ;
— l’évènement C = { , , } correspond à l’obtention d’un chiffre plus petit ou égal
à trois ;
— l’évènement D = { } correspond à l’obtention d’un six. C’est un évènement
élémentaire. [
\ Exemple 1.10 Dans l’expérience des deux lancers successifs d’un dé de l’exemple 1.5 :
— l’obtention de deux fois de suite la même valeur est l’évènement
A = {( , ), ( , ), ( , ), ( , ), ( , ), ( , )};
— l’obtention d’un tirage dont le premier lancer est pair est l’évènement
B = { , , } × { , , , , , }. [
Une formule logique relativement simple peut conduire à un évènement complexe, comme
le montre l’exemple suivant.
\ Exemple 1.11 On considère l’exemple 1.2 des deux lancers d’un dé et l’évènement
« obtenir une somme de 6 en ajoutant le résultat des deux lancers ». Une façon simple
d’écrire l’évènement de façon ensembliste est la suivante
A = {(u, v) ∈ { , , , , , }2 | u + v = 6}.
1. On rencontre encore l’orthographe événement malgré les rectifications orthographiques de 1990...
1.2. ÉVÈNEMENTS 5
Bien que parfaitement correcte mathématiquement, cette formulation ne renseigne pas

beaucoup sur l’évènement. En outre, elle s’appuie sur l’identité entre le dé et sa valeur
numérique. Malheureusement, il n’existe pas d’autre formulation simple et on doit donc
se contenter soit de la formule précédente, soit d’une description exhaustive de A (en
extension)
A = {( , ), ( , ), ( , ), ( , ), ( , )}.
L’expérience étant très simple, la description exhaustive n’est pas trop grande. Dans
le cas d’une expérience plus complexe, on peut rapidement arriver à des formulations
ensemblistes assez lourdes. [
La traduction d’une formule logique en évènement dépend de la modélisation effectuée,

c’est-à-dire essentiellement de l’univers, comme le montrent les exemples suivants.
\ Exemple 1.12 On reprend l’exemple 1.8 et on considère l’évènement « obtenir un

jeton rouge ». Dans le modèle indiscernable, l’univers étant réduit à Ωi = {•, •}, l’évè-
nement s’écrit simplement Ai = {•}. Dans le modèle discernable, l’univers devient
Ωd = {¶, ·, ¸, ¹, º}, ce qui conduit naturellement à une nouvelle description pour
l’évènement, à savoir Ad = {¶, ·, ¸}. [
\ Exemple 1.13 On considère l’expérience du lancer simultané de deux dés (exemple

1.7) et l’évènement « obtenir une somme de 6 ». Si on suppose les dés discernables, on
se retrouve exactement dans la situation de l’exemple 1.11. En reprenant l’idée des dés
colorés, on peut même formuler A d’une façon un peu différente, soit
A = {( , ), ( , ), ( , ), ( , ), ( , )}.
Cette représentation exacerbe les différences entre les deux dés.

Si on suppose au contraire que les deux ne sont pas discernables, l’évènement est assez
difficile à écrire en compréhension. En effet, comme nous l’avons vu dans l’exemple 1.7,
l’univers U est constitué de sous-ensembles de { , , , , , } de cardinal 1 ou 2. On
ne peut donc pas se contenter de considérer des sous-ensembles de la forme {a, b}. Une
formulation correcte possible est
A = {{a, b} ∈ U | a 6= b et a + b = 6} ∪ {{ }},
ce qui isole le cas du double qui est représenté par l’ensemble { }. Il est en fait plus
simple d’écrire directement A en extension, soit
A = {{ , }, { , }, { }} .
Ce résultat est parfaitement correct mathématiquement, mais il peut surprendre, ce qui

conduit souvent à préférer la solution dans laquelle on impose aux dés d’être discernables,
même s’ils ne le sont pas. Le seul point à bien vérifier dans ce cas est que la modélisation
choisie est la même pour l’univers et pour les évènements : supposer par exemple les dés
discernables dans l’univers mais indiscernables dans les évènements conduit nécessairement
à des erreurs. [
1.3 Vocabulaire probabiliste

Bien que l’univers d’une expérience et les évènements associés soient décrits grâce
aux concepts de la théorie des ensembles, la théorie des probabilités utilise un vocabu-
laire différent détaillé ci-dessous (ce vocabulaire est en partie partagé avec la logique
mathématique).
Vocabulaire probabiliste Vocabulaire ensembliste Notation

évènement de l’univers Ω sous-ensemble de Ω A⊂Ω
évènement impossible ensemble vide ∅
évènement certain ensemble plein Ω Ω
évènement contraire de A complémentaire de A dans Ω A
A et B sont incompatibles A et B sont disjoints A∩B =∅
A implique B A est inclus dans B A⊂B
A et B intersection de A et B A∩B
A ou B union de A et B A∪B
Pour bien utiliser les notations ensemblistes et le vocabulaire probabiliste, il faut conserver
à l’esprit le sens d’un évènement : c’est un sous-ensemble de tous les résultats possibles
pour une expérience. Chacun de ces résultats réalise l’évènement. En ce sens, A et B
doit bien se traduire par l’intersection des ensembles A et B : en effet, pour réaliser à la
fois A et B, il faut qu’un résultat de l’expérience appartienne aux deux ensembles, ce qui
est exactement la définition de A ∩ B. On raisonne de la même façon pour A ou B et
pour A implique B.
La traduction des connecteurs logiques (et, ou, implique) en opérations ensemblistes
facilite le passage d’une formule logique à une description ensembliste pour un évènement 2 .
Le processus est illustré par l’exemple suivant.
\ Exemple 1.14 On considère un jeu de 32 cartes (cf l’exemple 1.4) dans lequel on
choisit deux cartes successivement sans remise. Si on note P le paquet de cartes, l’univers
de l’expérience est
Ω = {(p1 , p2 ) ∈ P 2 | p1 6= p2 }.
En effet, le tirage étant successif, on observe bien une paire ordonnée de cartes. De plus,
l’absence de remise fait que les cartes sont nécessairement distinctes.
On s’intéresse à l’évènement « obtenir au moins un roi ». Cette formulation logique est
clairement équivalente à « obtenir exactement un roi ou obtenir exactement deux rois ».
L’utilisation du connecteur logique « ou » montre que l’évènement est obtenu comme union
ensembliste des évènements « obtenir exactement un roi » et « obtenir exactement deux
rois » (évènements qui sont d’ailleurs clairement incompatibles). Le deuxième évènement
peut être décrit directement comme suit
A2 rois = ((Roi, c1 ), (Roi, c2 ))) | (c1 , c2 ) ∈ {♣, ♠, ♥, ♦}2 et c1 6= c2 .

On utilise une deuxième décomposition pour le premier évènement en s’appuyant sur le

fait qu’ « obtenir exactement un roi » est logiquement équivalent à « obtenir exactement
2. On pourra se reporter à l’annexe A pour obtenir une liste de propriétés importantes des opérations
ensemblistes.
1.4. PROBABILITÉ 7
un roi en premier ou obtenir exactement un roi en deuxième ». De nouveau, on doit donc

passer par l’union de deux évènements. On a
Apremier roi = ((Roi, c1 ), (r, c2 ))) | (c1 , c2 ) ∈ {♣, ♠, ♥, ♦}2 et r 6= Roi ,

Asecond roi = ((r, c1 ), (Roi, c2 ))) | (c1 , c2 ) ∈ {♣, ♠, ♥, ♦}2 et r 6= Roi .

Finalement, l’évènement « obtenir au moins un roi » s’écrit donc

A = Apremier roi ∪ Asecond roi ∪ A2 rois . [
1.4 Probabilité
Définition 1.4 Soit une expérience aléatoire et son univers Ω. On appelle probabilité
sur Ω (ou mesure de probabilité) une fonction P de P(Ω) dans [0, 1] telle que :
1. P(Ω) = 1
2. pour toute suite (dénombrable) de sous-ensembles de Ω (Ai )i≥0 disjoints deux à deux
(c’est-à-dire tels que pour tout j 6= k, Aj ∩ Ak = ∅),
 
[ X
P  Ai  = P(Ai ).
i≥0 i≥0
Cette seconde propriété est la sigma additivité de la mesure de probabilité.
B Remarque 1.2 Comme nous l’avons indiqué dans la remarque 1.1, on s’autorise dans
le cas général à ne considérer que certains sous-ensembles de Ω comme observables. Dans
ces situations, la probabilité n’est définie que pour les ensembles considérés.
B Remarque 1.3 Nous numérotons les suites (finies ou dénombrables) de façon arbi-
traire à partir de 0 ou de 1, où même d’un entier quelconque. Si elle est utilisée de façon
cohérente, la numérotation n’a pas d’influence sur les résultats. Il faut simplement s’assurer
qu’on utilise une numérotation fixe pour une suite donnée.
Classiquement, les probabilités s’interprètent comme des limites de fréquences. Considé-

rons par exemple le lancer d’une pièce parfaitement symétrique. Intuitivement, nous avons
« autant de chance » d’obtenir pile ou face en laçant la pièce. Cependant, nous savons
tout aussi intuitivement que si nous lançons dix fois de suite la pièce, nous obtiendrons
seulement « environ » 5 fois pile. Par « environ », nous entendons qu’en général, nous nous
attendons à obtenir 5 fois pile, mais qu’il n’est pas impossible d’obtenir 4 ou 6 fois pile et
qu’il n’est pas impossible, mais plus rare, d’obtenir 1 ou 9 fois pile. Si nous répétons n fois
l’expérience et que nous calculons la fréquence des piles, nous nous attendons de ce fait à
obtenir environ 0,5. L’intuition suggère que la fréquence sera d’autant plus proche de 0,5
que n est grand, ce que nous pouvons formaliser en disant que la probabilité d’obtenir
pile est la limite de la fréquence quand n tend vers l’infini.
\ Exemple 1.15 On lance une pièce de monnaie. L’univers de l’expérience est alors
Ω = {pile, face}. Décrivons l’ensemble P(Ω). On a clairement
P(Ω) = {∅, {pile}, {face}, {pile, face}} .
Pour définir une probabilité, on doit donner quatre réels dans [0, 1] vérifiant les propriétés
de la définition 1.4. On a bien sûr
P({pile, face}) = P(Ω) = 1.
Si la pièce est parfaitement régulière, l’interprétation ci-dessus conduit à poser
P({pile}) = P({face}) = 0,5.
Comme l’évènement ∅ ne se produit jamais (l’expérience à toujours un résultat), il semble

naturel de poser enfin
P(∅) = 0.
Nous verrons plus loin que P ainsi définie est bien une probabilité. Il nous faut en particulier
vérifier que la deuxième propriété de la définition est bien satisfaite. C’est le rôle de la
proposition 1.1. [
Propriétés 1.1 Soit une expérience aléatoire, son univers Ω et une probabilité P sur Ω.
Alors P vérifie les propriétés suivantes :
1. P(∅) = 0 ;
2. pour Pn finie d’évènements deux à deux disjoints (Ai )1≤i≤n , on a
Sn toute suite
P ( i=1 Ai ) = i=1 P(Ai ) ;
3. pour tout évènement A, P(A) = 1 − P(A) ;
4. pour tous évènements A et B,
P(A ∪ B) = P(A) + P(B) − P(A ∩ B),
et en particulier quand A ∩ B = ∅, P(A ∪ B) = P(A) + P(B) ;

5. P est croissante, c’est-à-dire que pour tous A et B tels que A ⊂ B, P(A) ≤ P(B) ;
6. pour toute suite croissante de sous-ensembles de Ω, les (Ai )i≥0 (avec donc i ≤ j ⇒
Ai ⊂ Aj ), on a  
[
lim P(An ) = P  Ai  ;
n→∞
i≥0
7. pour toute suite décroissante de sous-ensembles de Ω, les (Ai )i≥0 (avec donc i ≤
j ⇒ Aj ⊂ Ai ), on a  
\
lim P(An ) = P  Ai  .
n→∞
i≥0
1.4. PROBABILITÉ 9
Preuve Ces propriétés sont des conséquences des caractéristiques des probabilités :
1. Considérons la suite d’ensembles définie par A0 = Ω et Ai = ∅ pour tout i ≥ 1. On
constate que pour tout j 6= k, Aj ∩ Ak = ∅. En effet, comme j =6 k, au moins un des
indices est supérieur ou égal à 1, et l’ensemble correspondant est alors l’ensemble
vide. Son intersection avec n’importe quel autre ensemble étant vide, on en déduit
Aj ∩ Ak = ∅. On a donc une suite d’ensembles disjoints deux à deux à laquelle on
peut appliquer la propriété de sigma additivité de la définition 1.4. On a donc
[ X X
P( Ai ) = P(Ai ) = P(Ω) + P(∅).
i≥0 i≥0 i≥1
Or, P(∅) est une valeurP numérique fixée de [0, 1]. Supposons
S par l’absurde que
P(∅)
S > 0. On a alors i≥1 P(∅) = ∞. Mais on a aussi i≥0 A i = Ω et donc que
P( i≥0 Ai ) = P(Ω) = 1 (la deuxième égalité venant de la première propriété de
P selon la définition 1.4). On a donc 1 = ∞, ce qui est impossible et donne donc
P(∅) = 0.
2. Soit donc une suite finie d’évènements deux à deux disjoints (Ai )1≤i≤n . On complète
cette suite en une suite infinie en prenant A0 = ∅ et Ai = ∅ pour i > n. Cette
suite est constituée d’ensembles deux à deux disjoints. En effet, si on considère
l’intersection Aj ∩ Ak pour k 6= j, soit les deux ensembles sont dans la suite finie
d’origine et leur intersection est donc vide par hypothèse. Dans le cas contraire, au
moins un des deux ensembles est vide (par construction) et l’intersection est donc
vide. On peut alors appliquer la sigma additivité qui donne
[ X n
X
P( Ai ) = P(Ai ) = P(Ai ),
i≥0 i≥0 i=1
la deuxième égalité S P(∅) = 0 que nous venons de démontrer. Comme en

S venant de
outre nous avons i≥0 Ai = ni=1 Ai , ce qui conduit à la conclusion recherchée.
3. Soit un évènement A. Considérons la suite finie d’ensembles définie par A1 = A,
A2 = A. Cette suite est constituée d’ensembles deux à deux disjoints car A1 ∩A2 = ∅,
par définition du complémentaire. On peut donc appliquer la propriété 2, ce qui
donne
P(A1 ∪ A2 ) = P(A1 ) + P(A2 ) = P (A) + P (A).
Or, on a A ∪ A = Ω par définition du complémentaire. On a donc
P(Ω) = 1 = P (A) + P (A),
ce qui conduit donc à P(A) = 1 − P(A).

4. La démonstration de la troisième propriété s’appuie sur la décomposition de A ∪ B
en trois sous-ensembles. En effet, un élément de A ∪ B est soit élément de A mais
pas de B (donc élément de A ∩ B), soit élément de B mais pas de A (donc élément
de B ∩ A), soit enfin élément de A et de B (donc élément de A ∩ B). Il est clair que
ces trois ensembles sont disjoints et qu’on a bien (cf l’annexe A)
A ∪ B = (A ∩ B) ∪ (B ∩ A) ∪ (A ∩ B).
On appliquer alors la propriété 2, ce qui donne

P(A ∪ B) = P (A ∩ B) ∪ (B ∩ A) ∪ (A ∩ B) ,
= P(A ∩ B) + P(B ∩ A) + P(A ∩ B).
D’autre part, on sait aussi que A = (A ∩ B) ∪ (A ∩ B), relation dans laquelle l’union
est disjointe. De ce fait, en appliquant de nouveau la propriété 2, on a
P(A) = P(A ∩ B) + P(A ∩ B).
De la même façon, on a
P(B) = P(B ∩ A) + P(B ∩ A).
En ajoutant les deux égalités, on obtient
P(A) + P(B) = 2P(A ∩ B) + P(A ∩ B) + P(B ∩ A).
En combinant avec l’égalité démontrée pour P(A ∪ B) on obtient bien
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Le cas particulier A ∩ B = ∅ s’obtient soit directement comme conséquence de la
propriété 2, soit en utilisant la relation qui vient d’être démontrée en conjonction
avec la propriété 1.
5. Soit A et B tels que A ⊂ B. Alors B = A ∪ (B ∩ A). Comme l’union est disjointe,
on a donc par la propriété 2
P(B) = P(A) + P(B ∩ A).
Comme une probabilité est positive ou nulle, on en déduit que P(A) ≤ P(B).
6. Pour prouver la propriété 6, il faut s’affranchir du fait que les Ai ne sont pas disjoints.
Comme la suite (Ai )i≥0 est croissante, on peut construire une suite des différences
en posant Bi = Ai \ Ai−1 pour i ≥ 1 et B0 = A0 .
On montre par récurrence que ni=0 Bi = ni=0 Ai = An . Notons que ni=0 Ai = An
S S S
est une conséquence évidente de la croissance de la suite des Ai . Pour l’autre égalité,
le cas n = 0 est évident
Sn+1 Sn de B0 = A0 . En supposant l’hypothèse vraie
par définition
au rang n,
Sn+1 on étudie i=0 B i = ( i=0 Bi ) ∪ Bn+1 . Par hypothèse de récurrence, on a
donc i=0 Bi = An ∪Bn+1 . Par définition de Bn+1 = An+1 \An , An ∪Bn+1 = An+1 ,
ce qui montre que l’hypothèse est vraie au rang n + 1.
D’autre part, il est clair que les Bi sont disjoints deux àSdeux. Soit en effet 0 ≤ i < j,
alors par propriété précédente, Bi ⊂ Aj−1 car Aj−1 = j−1 k=0 Bk . Or Bj = Aj \ Aj−1
et donc Bj ∩ Aj−1 = ∅ ce qui implique Bj ∩ Bi = ∅.
Les Bi étant disjoints, on peut appliquer l’additivité pour conclure que
n
X
P(An ) = P(Bi ).
i=0
P S
La somme de droite converge vers i≥0 P(Bi ) = P B
i≥0 i par sigma additivité,
et on a donc    
[ [
lim P(An ) = P  Bi  = P  Ai  .
n→+∞
i≥0 i≥0
1.4. PROBABILITÉ 11
7. La propriété 7 s’obtient simplement en passant au complémentaire. En effet, si la

suite (Ai )i≥0 est décroissante, alors la suite (Ai )i≥0 est croissante. On lui applique
donc la propriété 6 qui donne
 
[
lim P(An ) = P  Ai  .
n→+∞
i≥0
Or
[ \
Ai = Ai ,
i≥0 i≥0
et donc    
[ \
P Ai  = 1 − P  Ai  ,
i≥0 i≥0
ce qui permet de conclure car limn→+∞ P(An ) = 1 − limn→+∞ P(An ).
B Remarque 1.4 La définition et les propriétés des probabilités font intervenir des
S
unions et intersections infinies (dénombrables). Intuitivement ω ∈ i≥1 Ai si au moins
T un
des évènements de la suite (Ai )i≥1 contient le résultat ω. De la même façon, ω ∈ i≥1 Ai
si tous les évènements de la suite (Ai )i≥1 contiennent le résultat ω.
En combinant de telles unions et intersections infinies, on peut exprimer des propriétés
logiques intéressantes. Par exemple,
 
\ [
ω∈  Ak  ,
n≥1 k≥n
s’interprète de la façon suivante : le résultat ω est réalisé infiniment souvent dans la suite
S une infinité d’indices i tels que ω ∈ Ai . On remarque
(Ai )i≥1 . En d’autres termes, il existe
en effet que pour tout S n, ω ∈ k≥n Ak (en raison de l’interprétation de l’intersection
infinie). Mais ω ∈ k≥n Ak signifie qu’il existe un indice k ≥ n tel que ω ∈ Ak (en
raison de l’interprétation de l’union infinie). Supposons que le nombre d’indices i tels que
ω∈A Si soit fini : alors il existe un plus grand indice imax vérifiant cette propriété. Mais
ω ∈ k≥imax +1 Ak et il existe donc k > imax tel que ω ∈ Ak ce qui contredit le caractère
maximal de imax . On en déduit qu’il y a bien une infinité d’indices i tels que ω ∈ Ai .
De la même façon, la propriété
 
[ \
ω∈  Ak  ,
n≥1 k≥n
s’interprète de la façon suivante : il existe un indice k tel que pour tout i ≥ k, ω ∈ Ai .

Ces deux constructions complexes permettent de définir des limites ensemblistes.
1.5 Probabilités sur un univers fini

La définition d’une mesure de probabilité peut sembler complexe car on doit a priori
définir une fonction sur l’ensemble de tous les sous-ensembles de l’univers considéré. Dans
le cas où l’univers est un ensemble fini 3 , la situation est beaucoup plus simple.
Cas général
On a tout d’abord la proposition suivante.
Proposition 1.1 Soit une expérience aléatoire dont l’univers Ω est fini et s’écrit donc
Ω = {ω1 , . . . , ωn }. Une probabilité P sur Ω est caractérisée de façon unique par les n
que pi = P({ωi }). Réciproquement, tout ensemble de n réels
réels de [0, 1], (pi )1≤i≤n tels P
n
de [0, 1] P
(pi )1≤i≤n tels que i=1 pi = 1 définit une (unique) probabilité P sur Ω par
n
P(A) = i=1 δωi ∈A pi , où δωi ∈A vaut 1 si ω ∈ A, zéro sinon.
En termes moins formels, se donner une probabilité sur un univers fini à n éléments revient
à se donner n nombres réels de [0, 1] correspondant aux probabilités de n évènements
élémentaires de l’univers. La somme des n réels doit être de 1.
Preuve (hors programme) Soit donc Ω = {ω1 , . . . , ωn } et deux probabilités P1 et P2

qui coïncident sur les n évènements élémentaires, c’est-à-dire pour tout i ∈ {1, . . . , n},
P1 ({ωi }) = P2 ({ωi }). On veut montrer que P1 et P2 sont en fait la même probabilité.
Soit donc un évènement A ⊂ Ω. Si A = ∅, alors P1 (A) S = 0 = P2 (A). Sinon, il existe
un sous-ensemble non vide J de {1, . . . , n} tel que A = j∈J {ωj }. D’après les propriétés
1.1, on a donc
X X
P1 (A) = P1 ({ωj }) = P2 ({ωj }) = P2 (A).
j∈J j∈J
en appliquant pour l’égalité centrale l’hypothèse sur les deux probabilités. On a donc
montré que pour tout A, P1 (A) = P2 (A), ce qui montre que P1 = P2 . Une probabilité est
donc uniquement caractérisée les pi = P({ωi }).
Soit maintenant réciproquement. n nombres réels de [0, 1] (pi )1≤i≤n tels que ni=1 pi =
P
1. Montrons que P telle que définie dans la proposition est bien une mesure dePprobabilité.
n
Il est clair tout d’abord que P(A) ≥ 0 pour tout A. De plus, comme P(A) Pn ≤ i=1 pi = 1,
P est bien à valeurs dans [0, 1]. De plus, il est aussi clair que P(Ω) = i=1 pi et donc que
P(Ω) = 1.
Considérons maintenant la propriété de sigma additivité et S soit donc une suite d’évè-
nements de Ω, (Ai )i≥0 deux à deux disjoints. Notons S B = i≥0 Ai . Comme B ⊂ Ω, il
existe J un sous-ensemble de {1, . . . , n} tel que B = j∈J {ωj }. Soit Ji = {j ∈ J|ωj ∈ Ai }.
Comme les Ai sont disjoints deux à deux, les Ji le sont aussi. Par définition de P puis par
définition des Ji , on a
Xn X
P(Ai ) = δωk ∈Ai pk = pj ,
k=1 j∈Ji
3. La définition d’un ensemble fini et de son cardinal sont rappelées dans l’annexe C
1.5. PROBABILITÉS SUR UN UNIVERS FINI 13
et donc X XX
P(Ai ) = pj .
i≥0 i≥0 j∈Ji
S
Par définition J = i≥0 Ji . Comme l’union est disjointe, on a
XX X n
X
pj = pj = δωk ∈B pk = P(B).
i≥0 j∈Ji j∈J k=1
P S
On a donc bien i≥0 P(Ai ) = P( i≥0 Ai ).
\ Exemple 1.16 On considère Ω = {0, 1, 2, 3, 4, 5}, l’ensemble des notes possibles pour
des films sur un site d’agrégation de critiques. L’expérience aléatoire consiste à fixer un
film et à choisir au hasard une des notes qui lui ont été attribuées par les spectateurs et
critiques. En fonction de la perception du film, la probabilité sur Ω change. Par exemple,
un film bien critiqué peut être caractérisé par la probabilité suivante :
ω 0 1 2 3 4 5
1 3 2 1
Pbon ({ω}) 0 0 10 10 5 5
alors qu’un film considéré comme très mauvais pourrait avoir la probabilité suivante :
ω 0 1 2 3 4 5
2 1 1
Pnul ({ω}) 5 2 10 0 0 0
Dans les deux, nous avons bien des probabilités car la somme des valeurs numériques
indiquées dans les tableaux est de 1. De plus, toutes ces valeurs sont éléments de [0, 1].
La proposition 1.1 permet en outre de calculer la probabilité d’un évènement pour
les deux films. Par exemple, la probabilité de tomber sur une note inférieure ou égale à 3
pour le bon film est donnée par
Pbon ({0, 1, 2, 3}) = Pbon ({0}) + Pbon ({1}) + Pbon ({2}) + Pbon ({3}),
1 3
=0+0+ + ,
10 10
2
= .
5
La première égalité est une simple application de la propriété 2 des propriétés 1.1. On
utilise ensuite le tableau ci-dessous pour réaliser les calculs. [
Cas équiprobable
La situation se simplifie encore s’il est naturel de faire une hypothèse de symétrie sur
l’expérience aléatoire. Considérons en effet le lancer d’un dé non truqué. Par symétrie
matérielle de l’objet, on s’attend à tomber avec autant de chance sur chacun des faces. En
termes de fréquences, on s’attend, lors de lancers répétés, à obtenir environ autant de fois
chacune des six faces. Ceci se traduit naturellement en supposant que les probabilités de
chacun des évènements élémentaires sont égales.
Définition 1.5 Soit une expérience aléatoire et son univers fini Ω. La probabilité uni-
forme sur Ω est celle qui associe à chaque évènement élémentaire la même probabilité.
Elle est définie par
1
∀ω ∈ Ω, P({ω}) = .
|Ω|
On parle alors d’équiprobabilité pour l’expérience concernée.
B Remarque 1.5 Le choix d’utiliser la probabilité uniforme pour modéliser le hasard

dans une expérience aléatoire n’est pas anodin. Considérons de nouveau l’exemple 1.12
dans lequel on choisit au hasard un jeton dans une urne qui en compte cinq, trois rouges
et deux bleus.
Si on modélise les jetons comme indiscernables, l’univers de l’expérience est réduit aux
deux couleurs. Dans cette situation, l’hypothèse d’équiprobabilité ne semble pas pertinente :
intuitivement, le fait d’avoir plus de jetons rouges que de bleus laisse penser qu’on tirera
plus souvent un jeton rouge et donc que la probabilité de l’évènement correspondant devrait
être plus grande que celle de l’évènement « tirer un jeton bleu ». Bien que l’univers soit
ici symétrique (deux couleurs), l’expérience sous-jacente ne l’est pas : il y a plus de jetons
rouges que de jetons bleus.
Si on modélise au contraire les jetons comme discernables, l’univers contient cinq
résultats possibles, un par jeton. Il est alors naturel de faire une hypothèse d’équiprobabilité,
c’est même d’ailleurs le sens qu’on accorde en général à l’expression « choisir au hasard »
dans cette situation : aucun des jetons n’est privilégié à priori et on a donc une chance
sur cinq de choisir l’un d’entre eux. Ce choix conduit à des valeurs intuitivement correctes
pour les probabilités (en particulier, avoir deux chances sur cinq de tomber sur un jeton
bleu).
On voit donc que le choix de l’univers comme modélisation de l’expérience aléatoire
peut avoir des conséquences très importantes par la suite, en particulier au niveau de la
construction d’une probabilité.
\ Exemple 1.17 Reprenons l’exemple 1.7 dans lequel on lance simultanément deux dés.
Considérons tout d’abord la modélisation dans laquelle les dés sont discernables. On a
donc
Ωd = { , , , , , } × { , , , , , },
en matérialisant la différence entre les dés par leur couleur. On sait que |Ωd | = 36 et
donc que dans l’hypothèse d’une probabilité uniforme, la probabilité d’un évènement
1
élémentaire est de 36 .
Considérons maintenant la modélisation dans laquelle les dés ne sont pas discernables.
On a alors
Ωu = {{a, b} | a ∈ { , , , , , } et b ∈ { , , , , , }} .
On peut détailler le contenu de Ωu en recensant toutes les possibilités, ce qui donne
Dans ce tableau, on a toujours mis le dé donnant le plus petit chiffre en premier, mais
cet ordre est arbitraire car l’indiscernabilité des dés empêche tout construction d’ordre.
On constate d’après ce recensement exhaustif que |Ωu | = 21. Dans l’hypothèse d’une
1
probabilité uniforme, la probabilité d’un évènement élémentaire est de 21 .
On constate donc que les deux modèles correspondent à des univers différents et
donc des probabilités uniformes différentes. Considérons maintenant un évènement simple,
comme celui d’obtenir la somme de 12 en lançant les deux dés. Dans les deux modèles, il
s’agit d’un évènement élémentaire, soit ( , ) pour le modèle discernable et { , } = { }
pour le modèle indiscernable. Dans le modèle discernable, cet évènement a donc une
1 1
probabilité de 36 alors que dans le modèle indiscernable, on obtient une probabilité de 21 .
Bien entendu, ces résultats sont contradictoires, puisqu’il s’agit d’une même expérience
aléatoire et d’un même évènement. Un des deux modèles ne correspond donc pas à la
réalité. Dans le cas présent, c’est le choix de la probabilité uniforme qui n’est pas adaptée
au modèle indiscernable. Intuitivement, cela vient du fait qu’en pratique, pour obtenir
par exemple { , }, on devrait tenir compte du fait qu’il existe deux possibilités non
observables, correspondant à ( , ) et ( , ). Au contraire, il n’y a qu’une façon d’obtenir
{ , } = { }. Intuitivement, il faudrait donc que ce deuxième type d’évènements soit
moins probable que le premier type. Ce n’est pas le cas pour la probabilité uniforme.
Cet exemple montre qu’il est général plus simple de choisir un modèle discernable
car celui-ci est plus souvent compatible avec une probabilité uniforme que le modèle
indiscernable. [
Les propriétés classiques des probabilités simplifient grandement le calcul de la probabilité

d’un évènement dans le cas d’équiprobabilité.
Propriété 1.2 Soit une expérience aléatoire et son univers fini Ω, muni de la probabilité
P uniforme. Pour tout évènement A ⊂ Ω, on a
|A|
P(A) = .
|Ω|
Preuve On écrit Ω = {ω1 , . . . , ωn }, avec n = |Ω|. Tout évènement A s’écrit A = ∪j∈J {ωj }
pour un ensemble J ⊂ {1, . . . , n}. On a donc
 
[ X 1 |A|
P(A) = P  {ωj } = P({ωj }) = |J| = .
|Ω| |Ω|
j∈J j∈J
On s’appuie d’abord sur les propriétés des probabilités, puis sur le fait que |A| = |J|.
Le calcul de la probabilité d’un évènement dans le cas d’équiprobabilité se ramène donc

au calcul du cardinal d’un ensemble, c’est-à-dire à du dénombrement. L’annexe C rappelle
des résultats importants de dénombrement utiles en calcul des probabilités. Nous illustrons
ces résultats dans les exemples qui concluent ce chapitre.
\ Exemple 1.18 On lance deux fois de suite un dé (cf exemple 1.5). L’univers de
l’expérience est donc Ω = { , , , , , }2 . Le dé n’étant pas truqué, il est naturel
de considérer une probabilité uniforme sur Ω. D’après l’annexe C, on a donc |Ω| =
|{ , , , , , }|2 = 36. Considérons maintenant les évènements de l’exemple 1.10.
L’évènement « obtention de deux fois le même résultat » (évènement A) par un
raisonnement simple : le nombre de paires dont les deux éléments sont égaux est identique
au nombre de choix possible pour le premier élément, c’est-à-dire à 6. Pour la probabilité
uniforme, on a donc
|A| 6 1
P(A) = = = .
|Ω| 36 6
Considérons l’évènement B, l’« obtention d’un tirage dont le premier lancer est pair ». On
a donc
B = { , , } × { , , , , , }.
D’après l’annexe C, on a donc
|B| = |{ , , }| × |{ , , , , , }| = 3 × 6 = 18.
On en déduit que pour la probabilité uniforme, P(B) = 12 . [
Tirages multiples
Un cas particulier important d’expérience aléatoire illustre parfaitement les liens entre
dénombrement et probabilité uniforme. Considérons l’expérience suivante : on place n
jetons numérotés de 1 à n dans une urne, puis on choisit au hasard p jetons dans cette urne.
On note J = {1, . . . , n} l’ensemble des jetons. En fonction du mode de tirage, l’expérience
est modélisée par des univers différents.
Tirages successifs avec remise : il s’agit du mode de tirage qui conduit au modèle le
plus simple. On choisit les jetons un par un, en remettant le jeton choisi dans l’urne
après chaque tirage. On obtient donc un p-uplet dont les éléments sont choisis dans
J, sans contrainte particulière. On peut notamment tomber plusieurs fois sur le
même jeton. Formellement, l’univers de l’expérience est donc Ω = J p et on a donc
|J p | = |J|p = np . L’expérience est caractérisée par la prise en compte de l’ordre (on
obtient une liste de p jetons) et par la remise qui autorise à avoir plusieurs fois le
même jeton.
Tirages successifs sans remise : dans cette situation, on choisit les jetons un par un,
en ne remettant pas les jetons après tirage. On obtient ainsi un p-uplet (une liste de p
jetons) dont les éléments sont tous distincts. Formellement, l’univers de l’expérience
est donc
Ω = {(j1 , . . . , jp ) ∈ J p | ∀(k, l) k 6= l ⇒ jk 6= jl }.
D’après l’annexe C, Ω est en fait l’ensemble des arrangements de p éléments parmi
n et donc |Ω| = Apn . Les deux aspects importants de l’expérience qui conduisent à
ce résultat sont la prise en compte de l’ordre des tirages (et donc l’obtention d’un
p-uplet) et de l’absence de remise dans l’urne (et donc le fait que les éléments du
p-uplet sont distincts).
Tirage simultané : le dernier mode classique de tirage consiste à prendre en une seule
fois un paquet de p jetons. Comme dans le mode précédent, chaque tirage ne peut
contenir qu’une seule fois un jeton. Cependant, on ne peut pas déduire du tirage un
ordre sur les p jetons choisis. L’univers de l’expérience est donc le suivant
Ω = {K ⊂ J | |K| = p} = {{j1 , . . . , jp } ⊂ J | ∀(k, l) k 6= l ⇒ jk 6= jl } .
D’après l’annexe C, Ω est donc l’ensemble des combinaisons de p éléments choisis

parmi n et donc |Ω| = Cnp . Ce mode de tirage est caractérisé par son aspect simultané
qui conduit à la fois à l’absence d’ordre et de répétition.
Comme indiqué dans l’exemple 1.7, il est parfois plus clair ou plus simple de ne pas
modéliser directement l’expérience étudiée mais plutôt une version dans laquelle on
aurait plus d’information. Les exemples 1.7 et 1.8 montrent qu’on peut considérer comme
discernables résultats qui ne le sont pas dans l’expérience réelle. Dans le présent contexte,
on peut modéliser un tirage simultané par une série de tirages successifs : on fait comme
si on pouvait observer un ordre dans le paquet de jetons tirés de l’urne.
Le modèle général du tirage dans une urne se retrouve dans de nombreuses situations
concrètes illustrées dans les exemples suivants.
\ Exemple 1.19 Beaucoup de pays possèdent une loterie nationale qui propose une
variante de jeu de loto. Un exemple d’un tel jeu est celui dans lequel chaque joueur choisit
6 numéros distincts parmi 42. Le tirage du lot est aussi de 6 numéros (sans remise) dans
les 42. Le joueur gagne s’il a découvert au moins 3 des nombres, le gain augmentant avec
le nombre de numéros obtenus.
Le tirage se déroule de façon séquentielle, mais il est plus simple de le considérer
comme simultané car l’ordre n’est pas pris en compte dans les évènements correspondants
à des gains. On se retrouve donc dans la situation d’un tirage simultané de 6 éléments
parmi 42, donc l’univers est
Ω = {K ⊂ {1, 2, . . . , 42} | |K| = 6} .
6 .
On a donc |Ω| = C42
Considérons maintenant les différents évènements correspondants à des gains :
6 numéros : cette situation est la plus facile à gérer. En effet, chaque combinaison de
6 nombres est unique. De ce fait, l’évènement « la combinaison du joueur a été
obtenue » est de cardinal 1 et donc, sous l’hypothèse de probabilité uniforme, sa
probabilité est de C16 (soit environ 1.9 10−7 ).
42
moins de 6 numéros : la situation se complique quand le tirage ne donne pas la com-

binaison du joueur. Considérons l’évènement Ap « le tirage comporte p numéros
contenus dans la combinaison du joueur », avec 0 < p < 6. Formellement, on a
Ap = {K ⊂ {1, . . . , 42} | |K| = 6, |K ∩ T | = p} ,

où T désigne la combinaison du joueur. Un tirage de Ap se décompose en p éléments

choisis dans T et en 6 − p éléments choisis dans {1, . . . , 42} \ T . On peut donc réécrire
Ap sous la forme suivante

Ap = K ⊂ {1, . . . , 42} | K = B ∪ C, C ⊂ T, |C| = p,

B ⊂ {1, . . . , 42} \ T, |B| = 6 − p .
On est ici dans la configuration du théorème C.4 puisqu’on choisit des sous-ensembles
de taille fixée (B et C) dans des sous-ensembles disjoints de {1, . . . , 42}, T et son
complémentaire. D’après le théorème, on a donc
|Ap | = C6p C36

6−p
,
et ainsi
C6p C36
6−p
P(Ap ) = 6 .
C42
On obtient finalement les probabilités suivantes :
p 1 2 3 4 5
P(Ap ) 0,43 0,17 0,027 1,8 10−3 4,1 10−5 [
\ Exemple 1.20 L’ancien Loto de la Française des jeux (avant 2008) utilisait les règles
suivantes. Un joueur choisit 6 numéros parmi 49. Un tirage du loto consiste en 7 numéros
parmi 49, repartis en deux groupes : les 6 numéros principaux et un numéro complémentaire.
Pour gagner, le joueur doit avoir obtenu au moins 3 numéros parmi les 6 principaux. Les
gains augmentent en fonction du nombre de numéros obtenus dans l’ensemble principal,
en tenant compte de l’éventuelle obtention du numéro complémentaire.
Le tirage est légèrement plus complexe que celui de l’exemple 1.19. Comme dans ce
dernier, on ne tient pas compte de l’ordre. On note J l’ensemble des entiers de 1 à 49 (les
numéros possibles). L’univers de l’expérience est alors
Ω = {(K, c) ∈ P(J) × J | |K| = 6, c ∈ J \ K} ,
c’est-à-dire qu’un tirage est une paire composée de 6 numéros distincts choisis dans J
(le sous-ensemble K) et d’un numéro (c) choisi parmi les 43 numéros restants après le
tirage de K. Il y a clairement C496 possibilités pour K car un choix de numéros est une
combinaison de 6 numéros parmi 49. Pour chaque valeur de K, on a 43 possibilités pour c,

puisqu’on choisi c dans les 49−6 = 43 éléments restants. On a donc au total |Ω| = 43×C496
possibilités.
Les combinaisons gagnantes sont celles qui contiennent des numéros de K, avec
éventuellement le chiffre c. Notons T la combinaison de 6 numéros distincts choisis par le
joueur et étudions les différents gains possibles :
6 numéros : cette situation est proche de celle de l’exemple 1.19. Elle correspond à
K = T et donc plus précisément à l’évènement
A = {(T, c) ∈ P(J) × J | c ∈ J \ T } .
Il est clair que |A| = 43. Sous l’hypothèse d’une probabilité uniforme, on a donc
43 1
P(A) = 6 = 6 ' 7,15 10−8 .
43 × C49 C49
On remarque que tout se passe ici comme dans l’exemple 1.19, c’est-à-dire comme si
le numéro complémentaire n’existait pas.
moins de 6 numéros sans complémentaire : considérons l’évènement Ap « le tirage
comporte p numéros principaux contenus dans la combinaison du joueur », avec
0 < p < 6. Si T désigne la combinaison choisie par le joueur, une combinaison dans
Ap se décompose en deux sous-ensembles B et D, et en un numéro complémentaire c.
D ⊂ T , de cardinal p, est l’ensemble des numéros du joueur contenus dans le tirage.
B est le reste des numéros principaux, avec |B| = 6 − p. Enfin, le complémentaire c
est choisi dans J \ (B ∪ T ) (en effet, le complémentaire n’est pas dans la combinaison
choisie par le joueur). Formellement, Ap s’écrit donc

Ap = (K, c) ∈ P(J) × J | K = B ∪ D, D ⊂ T, |D| = p,

B ⊂ J \ T, |B| = 6 − p, c ∈ J \ B ∪ T .
On raisonne comme dans l’exemple 1.19 : il y a C6p sous-ensembles distincts à p

6−p
éléments de T (les choix pour D), C43 sous-ensembles distincts à 6 − p éléments
de J \ T et enfin 43 − (6 − p) = 37 + p choix possibles pour le complémentaire. Ces
choix étant tous indépendants, on en déduit donc que
|Ap | = (37 + p)C6p C43

6−p
.
Sous l’hypothèse de probabilité uniforme, on en déduit donc que
(37 + p)C6p C43

6−p
P(Ap ) = 6 .
43 × C49
On obtient finalement les probabilités suivantes :
p 1 2 3 4 5
P(Ap ) 0,36 0,12 0,016 9,2 10−4 1,8 10−5
moins de 6 numéros avec complémentaire : considérons l’évènement Bp « le tirage

comporte p numéros principaux ainsi que le numéro complémentaire contenus dans
la combinaison du joueur », avec 0 < p < 6. Si T désigne la combinaison choisie par
le joueur, une combinaison dans Bp se décompose comme précédemment en deux
sous-ensembles A et D, et en un numéro complémentaire c. D ⊂ T , de cardinal p, est
l’ensemble des numéros du joueur contenus dans les numéros principaux du tirage.
A est le reste des numéros principaux, avec |A| = 6 − p. Enfin, le complémentaire est
choisi dans T \ D, puisqu’il est contenu dans la combinaison du joueur. De ce fait, il
y a 6 − p choix possibles pour le complémentaire. Par un raisonnement similaire à
celui du cas sans complémentaire, on en déduit donc que
|Bp | = (6 − p)C6p C43

6−p
,
ce qui conduit à
(6 − p)C6p C43
6−p
P(Bp ) = 6 ,
43 × C49
et aux probabilités suivantes :
p 1 2 3 4 5
P(Bp ) 0,048 0,012 0,0012 4,5 10−5 4,3 10−7 [
Chapitre 2
Probabilités conditionnelles
2.1 Évènement réalisé

Les probabilités peuvent s’interpréter comme une prévision sur le résultat futur d’une
expérience aléatoire. Quand on lance un dé (à six faces et non truqué), dire que la
probabilité d’obtenir 1 est de 16 revient à dire qu’on s’attend en moyenne à obtenir 1 une
fois sur 6.
Intuitivement, si on obtient une information certaine (même partielle) sur le résultat
d’une expérience aléatoire, il semble naturel que les probabilités associées soient modifiées.
Considérons une première personne qui lance un dé sans regarder le résultat et qui demande
à une deuxième personne de lui dire si ce résultat est pair. Avant d’avoir la réponse, la
première personne suppose que chaque entier entre 1 et 6 a la même probabilité d’être
obtenu, 16 . Après avoir eu une réponse, par exemple positive, la première personne ne
connaît toujours pas le résultat effectif, mais elle modifie ses croyances (ses attentes) sur
ce résultat. Elle sait maintenant que les chiffres 1, 3 et 5 sont impossibles et suppose
naturellement que les trois autres chiffres sont équiprobables, et sont donc chacun de
probabilité 13 . Ainsi, la probabilité d’obtenir 2 est passée de 16 quand on ne savait rien sur
le résultat de l’expérience à 13 maintenant qu’on sait que l’évènement « obtenir un chiffre
pair » est réalisé.
La notion de probabilité conditionnelle permet de formaliser le raisonnement développé
dans l’exemple qui précède de manière à pouvoir l’appliquer simplement à toute expérience
aléatoire dans laquelle on sait que certains évènements sont réalisés.
2.2 Probabilité conditionnelle

Définition 2.1 Soit une expérience aléatoire d’univers Ω et une probabilité P sur Ω. Soit
un évènement A ⊂ Ω tel que P(A) > 0. On appelle probabilité conditionnelle sachant
A la fonction de P(Ω) dans [0,1], notée P(.|A), définie par
P(B ∩ A)
∀B ∈ P(Ω), P(B|A) = .
P(A)
La notation P(B|A) se lit « probabilité de B sachant A ».
21
22 CHAPITRE 2. PROBABILITÉS CONDITIONNELLES
\ Exemple 2.1 Reprenons l’exemple de l’introduction : on lance un dé à six faces non

truqué, ce qui conduit à l’univers Ω = { , , , , , } et à l’équiprobabilité. Soit A
l’évènement « obtenir un chiffre pair ». Il est clair que P(A) = 12 car A = { , , }. Pour
tout évènement B, on a donc P(B|A) = 2P(B ∩ A). Ceci conduit à la table suivante pour
les évènements élémentaires :
d
1 1 1
P({d}|A) 0 3 0 3 0 3
En effet pour tout chiffre impair d l’évènement {d} ∩ A est impossible, et est donc de
probabilité nulle. Au contraire, pour tout chiffre pair, {d} ∩ A = {d} et la probabilité de
P({d} ∩ A) est donc 16 .
On retrouve ainsi les probabilités obtenues dans l’exemple introductif. [
B Remarque 2.1 Pour bien utiliser les probabilités conditionnelles, il faut absolument
s’appuyer sur l’intuition que dans P(B|A), l’évènement A est réalisé de façon certaine.
De ce fait, tout se passe comme si on changeait d’univers pour l’expérience aléatoire.
Considérons en effet l’exemple 2.1. Comme A est réalisé de façon certaine, tout se
passe comme si on avait une nouvelle expérience aléatoire dont l’univers est justement A,
puisque les seuls résultats maintenant possibles sont les éléments de A. En supposant que
les évènements élémentaires de ce nouvel univers sont toujours équiprobables, la probabilité
de B ⊂ A est alors |B| |A|
|A| . Or, dans l’univers Ω de départ, la probabilité de A était |Ω| et
celle de B était |B|
|Ω| . Comme B ⊂ A, A ∩ B = B et donc dans Ω, on avait P(B ∩ A) =
|B|
|Ω| .
On constate alors que
P(B ∩ A) |B| |Ω| |B|
P(B|A) = = = ,
P(A) |Ω| |A| |A|
ce qui correspond bien à l’intuition du changement d’univers.
Proposition 2.1 Pour tout A tel que P(A) > 0, la fonction P(.|A) est une probabilité
sur Ω.
Preuve Pour montrer que P(.|A) est une probabilité, il suffit de vérifier les deux conditions
de la définition 1.4 :
1. d’après la définition de P(.|A), on a
P(Ω ∩ A)
P(Ω|A) = .
P(A)
Or Ω ∩ A = A et donc P(Ω ∩ A) = P(A), soit finalement P(Ω|A) = 1, comme
demandé par la définition.
2. Considérons maintenant une suite de sous-ensembles de Ω (Ai )i≥0 disjoints deux à
deux. Posons Bi = Ai ∩ A. Comme les Ai sont disjoints deux à deux, les Bi le sont
aussi. Donc, par σ additivité de la probabilité P, on a
 
[ X
P  Bi  = P(Bi ).
i≥0 i≥0
2.2. PROBABILITÉ CONDITIONNELLE 23
En divisant de chaque côté par P(A) > 0, on obtient

S
P i≥0 Bi X P(Bi )
= .
P(A) P(A)
i≥0
P(Bi )
Par définition de P(.|A), chaque terme P(A) est en fait P(Ai |A). D’autre part, on a
 
[ [ [
Bi = (Ai ∩ A) =  Ai  ∩ A,
i≥0 i≥0 i≥0
par distributivité des opérations d’intersection et d’union. De ce fait,

S  
P i≥0 B i [
=P Ai A .

P(A)
i≥0
On a donc  
[ X
Ai A = P(Ai |A),

P

i≥0 i≥0
ce qui montre la σ additivité de P(.|A).
Comme P(.|A) est une probabilité, on peut lui appliquer les propriétés 1.1 des probabilités.
Par exemple, si B et C sont deux évènements disjoints, P(B ∪ C|A) = P(B|A) + P(C|A).
\ Exemple 2.2 Reprenons l’exemple 1.8 de l’urne contenant trois jetons rouges et deux
jetons bleus. On considère l’expérience dans laquelle on tire deux jetons successivement et
sans remise. L’univers de l’expérience est alors
n o
Ω = (j1 , j2 ) ∈ {¶, ·, ¸, ¹, º}2 | j1 6= j2 .
Par symétrie, on se trouve dans un cas classique d’équiprobabilité (cf la section 1.5) dans
lequel on utilisera le fait que |Ω| = A25 = 20.
Soit l’évènement A « obtenir un premier jeton rouge ». Cet évènement s’écrit mathé-
matiquement
A = {(j1 , j2 ) ∈ {¶, ·, ¸} × {¶, ·, ¸, ¹, º} | j1 6= j2 } ,

= {¶} × {·, ¸, ¹, º} ∪ {·} × {¶, ¸, ¹, º} ∪ {¸} × {¶, ·, ¹, º} .
On constate que |A| = 3 × 4 = 12, et donc que P(A) = 12 3

20 = 5 . De la même façon,
on détermine facilement que l’évènement B « obtenir un deuxième jeton bleu » est de
probabilité P(B) = 4×2 2
20 = 5 . Enfin, l’évènement A ∩ B est donné par
A ∩ B = {¶, ·, ¸} × {¹, º} ,
6 3
et donc P(A ∩ B) = 20 = 10 . On peut alors calculer des probabilités conditionnelles, par
exemple :
P(A ∩ B) 3 5 3
P(A|B) = = × = ,
P(B) 10 2 4
P(A ∩ B) 3 5 1
P(B|A) = = × = .
P(A) 10 3 2
La deuxième probabilité conditionnelle est très simple à interpréter. Quand A est réalisé,
on sait qu’il reste dans l’urne deux jetons de chaque couleur. On a donc maintenant une
chance sur deux de tomber sur un jeton bleu.
La première probabilité est plus délicate à appréhender intuitivement car on donne
une information sur le deuxième tirage. On ne peut donc pas faire le même raisonnement
que pour la seconde probabilité. Il faut alors étudier les évènements élémentaires qui
constituent B. Si on fixe le second jeton au jeton ¹, on voit que A a obligatoirement
été choisi dans {¶, ·, ¸,º}, et donc qu’il y a 3 chance sur 4 qu’il soit bleu. La situation
est symétrique pour le cas où le second jeton est º, ce qui conduit bien à la probabilité
obtenue. [
2.3 Expériences aléatoires composées

Il arrive fréquemment en pratique qu’une expérience aléatoire consiste en plusieurs
étapes faisant chacune intervenir une source de hasard. C’est le cas à chaque fois qu’on
réalise une succession de tirages aléatoires d’objets dans un ensemble (par exemple des
cartes dans un jeu de cartes). Une telle expérience aléatoire est dite composée. La notion
de probabilité conditionnelle permet de calculer relativement facilement les probabilités
de certains évènements pour une expérience composée. Elle facilite aussi la définition de
la probabilité sur l’univers de l’expérience.
\ Exemple 2.3 On dispose de deux urnes dans lesquelles sont placés des billes numé-
rotées. La première urne contient 3 billes numérotées 1, 2 et 3, soit U1 = {1, 2, 3}. La
seconde urne contient 4 billes numérotées 2, 3, 4 et 5, soit U2 = {2, 3, 4, 5}. On suppose
que le choix d’une bille dans une urne obéit à une loi uniforme. L’expérience aléatoire
composée consiste en la procédure suivante. Dans une première étape, on lance une pièce
non truquée. Dans la deuxième étape, on choisit une bille dans une des deux urnes. Si on
a obtenu pile dans la première étape, la bille est choisie dans U1 , sinon elle est choisie
dans U2 .
L’univers de cette expérience est constitué de couples avec le résultat du lancer de la
pièce et la bille obtenue. Il est clair qu’on a
Ω = ({pile} × U1 ) ∪ ({face} × U2 ).
D’autre part, la première étape de l’expérience est un lancer simple d’une pièce non
truquée. Il est donc clair que P(« pile ») = P(« face ») = 12 , si « pile » (respectivement «
face ») désigne ici l’évènement dans lequel la première étape produit le résultat pile (resp.
face) quel que soit le résultat de la deuxième étape, c’est-à-dire si
« pile » = {pile} × U1 ,
« face » = {face} × U2 .
2.3. EXPÉRIENCES ALÉATOIRES COMPOSÉES 25
En d’autres termes, P est ici la probabilité définie sur l’univers de l’expérience composée.
De la même façon, il est facile de déterminer les probabilités d’obtenir certaines billes
si on sait dans quelle urne la bille est choisie. Or, comme la deuxième étape a lieu après
l’obtention du résultat de la première étape, l’évènement correspondant est certain. On doit
donc considérer les probabilités de la seconde étape comme des probabilités conditionnelles.
Ainsi on a par exemple P(B = 2|« pile ») = 13 , où B désigne le numéro porté par la bille
obtenue dans la deuxième étape. En effet, si on a obtenu pile dans la première étape, on
choisit dans l’urne U1 uniformément et chaque chiffre a donc une probabilité de un tiers.
De même, on a P(B = 2|« face ») = 14 car le choix est maintenant réalisé dans l’urne U2
qui contient 4 billes.
On peut alors calculer P(B = 2), soit la probabilité d’obtenir une bille numérotée 2
dans l’expérience composée (c’est-à-dire sans tenir compte de l’urne dont elle provient).
On remarque que l’évènement {B = 2} s’écrit comme l’union disjointe {B = 2} = {B =
2 et pile } ∪ {B = 2 et face}. Or, par définition des probabilités conditionnelles,
P({B = 2 et pile}) = P({B = 2} ∩ {« pile »})
= P(B = 2|« pile »)P(« pile »).
De même, on a
P({B = 2 et face}) = P({B = 2} ∩ {« face »})
= P(B = 2|« face »)P(« face »),
et donc, puisque l’union des évènements est disjointe :
P(B = 2) = P(B = 2|« pile »)P(« pile ») + P(B = 2|« face »)P(« face »),
1 1 1 1
= × + × ,
3 2 4 2
7
= . [
24
B Remarque 2.2 On pourrait croire naïvement qu’il est possible de raisonner di-
rectement sur l’univers Ω de l’exemple précédent, en faisant par exemple une hypo-
thèse d’uniformité. On constate que |Ω| = 7, ce qui conduit à supposer que la pro-
babilité de tout ω ∈ Ω est de 17 . En utilisant de nouveau la décomposition disjointe
{B = 2} = {B = 2 et pile} ∪ {B = 2 et face}, on en déduit que P(B = 2) = 17 + 17 = 27 .
Cette modélisation est cependant fausse, car elle repose sur une hypothèse implicite
de symétrie entre tous les évènements élémentaires. Or, ceux-ci ne sont clairement par
équiprobables puisque les billes 2 et 3 apparaissent dans les deux urnes, contrairement aux
autres billes (par exemple). Il est donc clair que la bille 1, par exemple, ne peut pas être
tirée aussi souvent qu’une bille 2 : le seul moyen d’obtenir la bille 1 est d’abord d’obtenir
pile (une chance sur deux), puis de tirer la bille 1 dans l’urne U1 (une chance sur trois).
Pour obtenir une bille 2, on peut soit faire pile puis tirer la bille 2 dans l’urne U1 , ce qui
arrive clairement aussi souvent que de faire pile puis de tirer la bille 1 (par hypothèse).
Mais on a en plus la possibilité d’obtenir une bille 2 en faisant face, puis en tirant la bille 2
de l’urne U2 . De ce fait, l’hypothèse d’équiprobabilité n’est pas acceptable, et le seul moyen
de déterminer la probabilité sur Ω associée à l’expérience est de passer par le concept de
probabilités conditionnelles.
2.4 Règle des probabilités totales

L’analyse réalisée dans l’exemple 2.3 s’appuie sur une décomposition d’un évènement
en une union disjointe d’évènements sous une forme particulière qui facilite l’utilisation
des probabilités conditionnelles. On dispose d’une proposition générale qui systématise le
raisonnement réalisé.
Proposition 2.2 (Règle des probabilités totales) Considérons une expérience aléa-
toire décrite par l’univers Ω et la probabilité P. Soit une partition {A1 , . . . ,An } de Ω en n
évènements A1 , . . . ,An . Soit B un évènement quelconque. On a
n
X
P(B) = P(B ∩ Ai ) (2.1)
i=1
Si en outre les A1 , . . . ,An sont tels que pour tout i, P(Ai ) > 0, on a
n
X
P(B) = P(B|Ai )P(Ai ). (2.2)
i=1
Preuve Comme {A1 , . . . ,An } est une partition, les B ∩ Ai sont disjoints deux à deux.
En effet, on a (B ∩ Ai ) ∩ (B ∩ Aj ) = B ∩ (Ai ∩ Aj ) (par associativité, commutativité et
B ∩ B = B). Or, si i 6= j, Ai ∩ S
Aj = ∅ car {A1 , . . . ,An } est une partition. Donc si i 6= j,
(B ∩ Ai ) ∩ (B ∩ Aj ) = ∅. Donc ni=1 (B ∩ Ai ) est une union disjointe et
n n
!
[ X
P (B ∩ Ai ) = P(B ∩ Ai ).
i=1 i=1
Sn
En outre, i=1 (B ∩ Ai ) = B. En effet, par distributivité,
n n
!
[ [
(B ∩ Ai ) = B ∩ Ai .
i=1 i=1
Sn Sn
Or, comme {A1 , . . . ,An } est une
Snpartition de Ω, i=1 Ai = Ω et donc i=1 (B ∩ Ai ) =
B ∩ Ω = B. Donc P(B) = P ( i=1 (B ∩ Ai )) ce qui achève de démontrer la règle des
probabilités totales dans le premier cas (équation 2.1).
Si en outre tous les P(Ai ) > 0, on a par définition des probabilités conditionnelles :
pour tout i, P(B ∩ Ai ) = P(B|Ai )P(Ai ). Il suffit de réinjecter ces égalités dans l’équation
(2.1) pour obtenir l’équation (2.2).
La règle des probabilités totales est très utile pour analyser les expériences composées,
même quand celles-ci sont plus simples que dans l’exemple 2.3. Elle s’applique notamment
dans le cas des tirages sans remise, comme dans l’exemple suivant.
\ Exemple 2.4 On tire deux cartes successivement et sans remise dans un jeu de 32
cartes (cf l’exemple 1.4). On cherche la probabilité d’obtenir un trèfle pour la seconde
carte, soit P(C2 ∈ ♣). Or, les évènements {C1 ∈ ♣} et {C1 6∈ ♣} forment une partition
2.4. RÈGLE DES PROBABILITÉS TOTALES 27
de Ω : en effet, la première carte est soit un trèfle, soit une autre carte, de façon exclusive.
On a donc, par la règle des probabilités totales
P(C2 ∈ ♣) = P(C2 ∈ ♣|C1 ∈ ♣)P(C1 ∈ ♣) + P(C2 ∈ ♣|C1 6∈ ♣)P(C1 6∈ ♣).
Lors du premier tirage, le paquet est complet et comprend 32 cartes, dont 8 sont des
trèfles. Par symétrie, on a donc clairement
8 1
P(C1 ∈ ♣) = = ,
32 4
et donc
1 3
P(C1 6∈ ♣) = 1 − = .
4 4
De plus, si {C1 ∈ ♣} est réalisé, le paquet de cartes restantes contient maintenant 31
cartes dont 7 sont des trèfles. On a donc
7
P(C2 ∈ ♣|C1 ∈ ♣) = .
31
Au contraire, si {C1 6∈ ♣} est réalisé, le paquet de cartes restantes contient maintenant 31
cartes dont 8 sont des trèfles. On a donc
8
P(C2 ∈ ♣|C1 6∈ ♣) = .
31
On obtient ainsi
7 1 8 3 1
P(C2 ∈ ♣) = × + × = .
31 4 31 4 4
L’analyse directe de ce problème se fait de la façon suivante. D’après l’exemple 1.14,
l’univers de l’expérience est
Ω = {(C1 , C2 ) ∈ P 2 | C1 6= C2 },
où P désigne le paquet de cartes. Il s’agit donc d’arrangements et on a |Ω| = A232 =

32×31 = 992. Par symétrie, il est naturel d’utiliser sur cet univers une probabilité uniforme.
Il nous faut donc calculer le cardinal de l’évènement {C2 ∈ ♣}. On peut décomposer cet
évènement en deux évènements disjoints (un peu de la même façon que dans l’analyse par
probabilités conditionnelles), en écrivant :
{C2 ∈ ♣} = {C2 ∈ ♣, C1 ∈ ♣} ∪ {C2 ∈ ♣, C1 6∈ ♣}.
Le premier sous-évènement correspond à un arrangement restreint aux cartes trèfles,

c’est-à-dire
{C2 ∈ ♣, C1 ∈ ♣} = {(C1 , C2 ) ∈ ♣2 |C1 6= C2 },
et on a donc clairement
|{C2 ∈ ♣, C1 ∈ ♣}| = A28 = 8 × 7 = 56.
Le second sous-évènement correspond à choisir une carte non trèfle parmi 24 possibilités,
puis une carte trèfle parmi 8 possibilité, ce qui donne
{C2 ∈ ♣, C1 6∈ ♣} = ♣ × (P \ ♣),
et donc
|{C2 ∈ ♣, C1 6∈ ♣}| = 24 × 8 = 192.
Finalement, on a donc
|{C2 ∈ ♣}| = 56 + 192 = 248.
Par uniformité de la probabilité, on obtient ainsi
248 1
P(C2 ∈ ♣) = = .
992 4
Bien entendu, les deux méthodes de résolution conduisent au même résultat. En pratique,
la première est souvent plus simple que la seconde, mais elle ne s’applique naturellement
que quand l’expérience est séquentielle. Les tirages simultanés, par exemple, ne peuvent
pas être étudiés facilement au moyen des probabilités conditionnelles. [
Notons que l’exemple précédent applique une version simple de la règle des probabilités
totales dans laquelle on étudie un évènement et son complémentaire. On l’énonce de façon
générale dans la proposition suivante.
Proposition 2.3 (Cas simple de la règle des probabilités totales) Soit une expé-
rience aléatoire décrite par l’univers Ω et la probabilité P. Pour tout évènement A tel que
1 > P(A) > 0, et tout évènement B, on a
P(B) = P(B|A)P(A) + P(B|A)P(A) (2.3)
Preuve Il s’agit simplement d’une application de la proposition 2.2 à {A, A} qui forme par
définition une partition de Ω. Notons que comme P(A) < 1, on a bien P(A) = 1 − P(A) > 0
ce qui permet l’application de la règle générale. On pourrait bien sûr considérer le cas
P(A) = 1, mais cela ne présente pas grand intérêt puisqu’on se retrouve alors avec
P(B|A) = P(B).
2.5 Règle de Bayes

Dans l’exemple 2.2, nous avons calculé des probabilités conditionnelles dans le sens
causal (l’évènement réalisé porte sur la première partie de l’expérience) et dans le sens
anti-causal (l’évènement réalisé porte sur la deuxième partie de l’expérience). Ce deuxième
sens est particulièrement utile pour faire du raisonnement « probabiliste » : on sait qu’un
évènement est réalisé et on se demande quelle peut en être la cause. On cherche alors
à établir les probabilités des différentes causes possibles, sachant la nature exacte de
l’évènement réalisé.
\ Exemple 2.5 Reprenons les résultats de l’exemple 2.2. L’évènement A consiste à

obtenir au premier tirage un jeton bleu. Par symétrie, on a vu que P(A) = 35 . Supposons
maintenant l’expérience réalisée, c’est-à-dire les deux tirages effectués.
Tant qu’aucune information sur le résultat n’est connue, on suppose toujours que
P(A) = 35 . Si on nous révèle le résultat du deuxième tirage, à savoir que l’évènement B «
obtenir un deuxième jeton bleu » est réalisé, il est clair que cette information apporte
2.5. RÈGLE DE BAYES 29
indirectement une information sur le résultat du premier tirage. En effet, si on a obtenu

en premier un jeton bleu, alors le nombre de jetons bleus a été diminué et il est donc
devenu moins probable d’en tirer un deuxième que dans la situation contraire. Comme
on a obtenu un jeton bleu, il semble naturel de supposer que le premier jeton était plus
probablement bleu que rouge. La probabilité conditionnelle P(A|B) traduit cette intuition
de façon mathématique. On a obtenu P(A|B) = 34 dans l’exemple 2.2, une valeur plus
grande que P(A) = 35 . Cette révision de nos attentes concernant A montre l’influence de
l’information certaine sur ces attentes. [
Pour faciliter ce raisonnement probabiliste, on s’appuie sur la règle de Bayes énoncée

ci-dessous.
Proposition 2.4 (Règle de Bayes) Soit une expérience aléatoire décrite par l’univers
Ω et la probabilité P. Soit A et B, deux évènements de probabilités non nulles (P(A) > 0
et P(B) > 0). On a
P(B|A)P(A)
P(A|B) = (2.4)
P(B)
Preuve La formule s’obtient en appliquant deux fois la définition des probabilités condi-
tionnelles. En effet :
P(A ∩ B)
P(A|B) = ,
P(B)
P(B|A)P(A)
= .
P(B)
\ Exemple 2.6 (Urne de Pòlya) Soit une urne contenant une bille blanche et une
bille noire. À chaque étape de l’expérience composée, on tire une bille dans l’urne.
L’évènement Bk correspond à obtenir une bille blanche à l’étape k, son complémentaire
Nk correspondant à l’obtention d’une bille noire à l’étape k. Après le tirage, on replace
dans l’urne la bille tirée et une autre de la même couleur.
Le premier tirage est très simple, on a de façon évidente P(B1 ) = P(N1 ) = 12 , par
symétrie. Pour étudier la deuxième étape, on applique le cas simple de la loi des probabilités
totales en conditionnant par le résultat du premier tirage. On a donc :
P(N2 ) = P(N2 |N1 )P(N1 ) + P(N2 |N1 )P(B1 ),
En utilisant B1 = N1 . Or, par symétrie, il est clair que
2
P(N2 |N1 ) = ,
3
1
P(N2 |B1 ) = .
3
et donc que
2 1 1 1
P(N2 ) = × + × ,
3 2 3 2
1
= .
2
On peut alors appliquer la règle de Bayes pour voir ce que révèle le résultat du deuxième
tirage sur le premier tirage. Comme dans l’exemple 2.2, on s’attend à ce que l’obtention
d’une bille noire (évènement N2 ) augmente probabilité (conditionnelle) de l’évènement
N1 . La règle de Bayes donne ici :
P(N2 |N1 )P(N1 )
P(N1 |N2 ) = ,
P(N2 )
2 1
3 × 2
= 1 ,
2
2
= .
3
Le résultat confirme ainsi l’intuition. [
2.6 Indépendance
Dans certaines situations, avoir une information sur une partie d’une expérience
aléatoire sous la forme d’un évènement réalisé n’entraîne pas de révision de la probabilité
d’un autre évènement, comme le montre l’exemple simple suivant.
\ Exemple 2.7 On lance deux dés à six faces non truqués, un dé rouge et un dé noir.
Soit l’évènement A « les deux dés donnent des résultats identiques » et l’évènement B «
le dé rouge donne 1 ». On étudie P(A) et P(A|B).
L’univers de l’expérience est clairement
Ω = { , , , , , } × { , , , , , },
avec comme convention que le premier résultat est celui du dé rouge. Par symétrie, on
prend sur Ω la probabilité uniforme. A est alors la diagonale de Ω, soit
A = {( , ), ( , ), ( , ), ( , ), ( , ), ( , )}.
et donc P(A) = |A| 6 1

|Ω| = 36 = 6 . On retrouve essentiellement l’analyse de l’exemple 1.18.
L’évènement B s’écrit simplement { } × { , , , , , }, ce qui montre que P(B) =
1 1
6 . Enfin, A ∩ B = {( , )} et donc P(A ∩ B) = 36 . En appliquant la définition des
probabilités conditionnelles, on a ainsi
P(A ∩ B)
P(A|B) = ,
P(B)
1 1
= ×6= .
36 6
On a donc P(A|B) = P(A) ce qui montre que savoir que B est réalisé n’apporte pas de
connaissance sur A. [
2.6. INDÉPENDANCE 31
Dans une telle situation, on parle d’indépendance entre les deux évènements, selon la
définition suivante.
Définition 2.2 Soit une expérience aléatoire décrite par l’univers Ω et la probabilité P.
Soit A et B deux évènements. On dit que A et B sont indépendants si et seulement
si :
P(A ∩ B) = P(A) × P(B). (2.5)
On note alors A ⊥
⊥ B.
Une conséquence élémentaire de l’indépendance est donnée par la propriété ci-dessous.
Propriété 2.1 Soit une expérience aléatoire décrite par l’univers Ω et la probabilité P.
Soit A et B deux évènements. Si P(A) > 0 alors A ⊥⊥ B si et seulement si :
P(B|A) = P(B), (2.6)
et de même si P(B) > 0 alors A ⊥

⊥ B si et seulement si :
P(A|B) = P(A). (2.7)
Preuve Pour passer de A ⊥ ⊥ B aux formules, on applique simplement la définition des

probabilités conditionnelles. Par exemple, on écrit P(B|A) = P(A∩B)
P(A) , puis la propriété
indépendance P(A ∩ B) = P(A) × P(B) et enfin, on simplifie par P(A). Pour l’autre
sens de la preuve, on applique exactement la même formule pour obtenir la condition
d’indépendance de la définition 2.2.
B Remarque 2.3 Attention, il est très important de ne pas confondre des évènements
incompatibles (cf la section 1.3) avec des évènements indépendants. En effet, si A et B
sont incompatibles, alors P(A ∩ B) = 0. Dans cette situation, l’indépendance n’est possible
que si un au moins des évènements est impossible. En effet, on doit avoir P(A) × P(B) =
P(A ∩ B) = 0. Cette situation se produit parfois, mais ce n’est généralement pas celle
qui nous intéresse. Au contraire, la notion d’indépendance prend tout son intérêt quand
P(A ∩ B) > 0 : on se trouve en effet confronté à des évènements compatibles (le résultat
de l’expérience aléatoire peut conduire à la réalisation de A et de B simultanément) mais
qui pourtant n’apportent pas d’information l’un sur l’autre, ce qui peut d’ailleurs sembler
paradoxal.
\ Exemple 2.8 Reprenons l’exemple de l’urne de Pòlya (exemple 2.6). D’après les calculs
effectués précédemment, N1 et N2 ne sont pas des évènements indépendants. En effet,
P(N2 |N1 ) = 23 alors que P(N2 ) = 21 (et P(N1 ) > 0).
Considérons maintenant une expérience plus simple dans laquelle on part toujours
d’une urne avec une bille blanche et une bille noire. On effectue ensuite une série de tirages
avec remise : le contenu de l’urne ne change donc jamais. L’évènement « obtenir une
bille noire au tirage k » est noté ici Sk . Comme pour l’urne de Pòlya, on a clairement
P(S1 ) = P(S1 ) = 12 . Comme le contenu de l’urne n’est jamais modifié, il est aussi
évident que P(Sk ) = P(Sk ) = 12 . Quand on considère un seul tirage, on a donc des
probabilités identiques pour l’urne classique et l’urne de Pòlya. En revanche, les tirages
sont indépendants dans l’urne classique.
Pour deux tirages, l’univers est en effet Ω = {Blanche, N oire}2 . Par symétrie, il est
clair qu’on doit prendre sur cet univers une probabilité uniforme. On a donc P(S1 et S2 ) =
|{(N oire,N oire)}|
|Ω| = 14 . On a donc bien P(S1 et S2 ) = P(S1 ) × P(S2 ) et donc S1 ⊥
⊥ S2 . Notons
que ce résultat peut être obtenu aussi en considérant l’expérience comme composée et en
appliquant les techniques vues précédemment.
On constate que c’est avant tout la probabilité sur l’univers qui détermine si ces
évènements sont indépendants, et non pas simplement leur description en français. [
La notion d’indépendance se généralise à plus de deux évènements.
Définition 2.3 Soit une expérience aléatoire décrite par l’univers Ω et la probabilité P.
Soit une famille d’évènements Ai indexés par un ensemble quelconque d’indices, I (par
exemple I = {1, 2, . . . , n} pour n évènements). On dit que les Ai sont indépendants
dans leur ensemble si et seulement si pour tout sous-ensemble fini d’indices J ⊂ I,
 
\ Y
P Aj  = P(Aj ). (2.8)
j∈J j∈J
Pour bien comprendre l’impact de cette définition, étudions le cas de trois évènements,
A1 , A2 et A3 , L’ensemble d’indices est I = {1, 2, 3} et on doit donc considérer tous les
sous-ensembles de I. Il est clair que le sous-ensemble vide et les sous-ensembles réduits à
un seul indice ne sont pas intéressants. Reste donc :
1. J = {1, 2} ce qui donne P(A1 ∩ A2 ) = P(A1 ) × P(A2 ) soit A1 ⊥
⊥ A2 ;
⊥ A3 ;
⊥ A3 ;
4. et enfin J = I ce qui donne
P(A1 ∩ A2 ∩ A3 ) = P(A1 ) × P(A2 ) × P(A3 ).
En résumé, trois évènements sont indépendants dans leur ensemble s’ils sont indépendants
deux à deux mais aussi s’ils vérifient la quatrième condition ci-dessus.
Ceci montre que l’indépendance d’un ensemble d’évènements est une condition beau-
coup plus forte que l’indépendance deux à deux de tous les évènements considérés.
L’exemple suivant illustre cette situation.
\ Exemple 2.9 Reprenons l’exemple 2.7 qui introduit la notion d’indépendance et

considérons l’évènement C « le dé noir donne 1 ». Il est clair par symétrie du problème
que C ⊥ ⊥ A (de la même façon que B ⊥ ⊥ A) et qu’on a P(C) = 16 . En outre, B ⊥ ⊥ C. En
1
effet, B ∩ C = {( , )} et donc par uniformité de la probabilité P(B ∩ C) = 36 qui est
bien égale à P(B) × P(C). Les trois évènements A, B et C sont donc bien indépendants
deux à deux. Cependant, l’évènement A ∩ B ∩ C est réduit à {( , )} = B ∩ C et est donc
1
lui aussi de probabilité 36 . Or P(A) × P(B) × P(C) = 613 = 216
1
6 36
= 1
. De ce fait, A, B et
C ne sont pas indépendants dans leur ensemble. [
2.7. INDÉPENDANCE CONDITIONNELLE 33
La notion d’indépendance est intéressante avant tout comme outil de modélisation,

situation dans laquelle son emploi est plus naturel et intuitif que pour une expérience fixée.
En effet, dans le langage courant, dire que deux objets sont indépendants signifie qu’ils
n’ont aucun lien. Comme le montrent les exemples précédents, la situation en probabilité
est beaucoup plus subtile puisque deux évènements qui sont logiquement liés (obtenir
un dé portant un 1 et obtenir deux dés portants des chiffres identiques) peuvent être
indépendants statistiquement. Cependant, quand on souhaite modéliser une situation
faisant intervenir de l’aléa, il peut être raisonnable de faire l’hypothèse que des objets
sans lien conduisent à des évènements indépendants, ce qui permettra de construire
une probabilité sur l’univers associé. Par exemple, si on lance deux dés distincts, il est
relativement raisonnable de supposer que le premier dé est indépendant du second, au
sens où tout évènement portant uniquement sur le premier dé est indépendant de tout
évènement portant sur le second dé. L’exemple suivant développe cette idée.
\ Exemple 2.10 Supposons donnés deux dés spéciaux. Le premier est un dé à 6 faces
truqué. La probabilité de chaque face est donnée par le tableau suivant :
x
1 1 1 1 1 3
P(D1 = x) 4 10 20 5 4 20
Dans ce tableau, on a noté D1 = x l’évènement « obtenir la face x en lançant le premier

dé ». On notera de la même façon D2 = y l’évènement « obtenir la face y en lançant le
deuxième dé »,
Le deuxième dé est un dé à 4 faces non truqué. On lance les deux dés simultanément
et on cherche la probabilité de l’évènement A « obtenir un total de 5 ».
Les deux dés étant distincts, il est naturel de supposer que les évènements qui les
concernent exclusivement sont indépendants. À tout tirage de la forme D1 = x et D2 = y,
cette hypothèse associe alors la probabilité P(D1 = x) × P(D2 = y), en vertu de {D1 =
x} ⊥⊥ {D2 = y}. Comme le dé à quatre faces n’est pas truqué, on a en outre P(D2 = y) = 14
pour tout y. Il ne reste alors plus qu’à exprimer A sous forme d’une union d’évènements
élémentaires, soit
A = {( , 4), ( , 3), ( , 2), ( , 1)} .
La probabilité de A est alors la somme des probabilités des paires, soit

1 1 1 1 1
P(A) = + + + ,
4 4 10 20 5
3
= .
20
[
2.7 Indépendance conditionnelle

La notion d’indépendance simple est parfois trop grossière : dans certaines situations,
la dépendance entre deux évènements A et B n’est pas « complète » au sens où il
existe un troisième évènement C dont la réalisation avérée rend les deux évènements
A et B indépendants, alors qu’ils ne le sont pas en général. La notion d’indépendance
conditionnelle permet de préciser cette idée intuitive que nous commençons par illustrer
par un exemple.
\ Exemple 2.11 On étudie le lancer simultané de trois dés, un rouge, un noir et un

blanc. L’univers du lancer est le suivant
Ω = { , , , , , } × { , , , , , } × { , , , , , }.
Les dés sont supposés non truqués et il est donc naturel de choisir sur Ω la probabilité
uniforme. On a |Ω| = 63 = 216.
On étudie les trois évènements suivants :
— A = « la somme du dé rouge et du dé noir est inférieure ou égale à 4 » ;
— B = « la somme du dé noir et du dé blanc est inférieure ou égale à 4 » ;
— C = « le dé noir vaut 1 ».
Montrons tout d’abord que A et B ne sont pas indépendants. On commence par expliciter
A qui est clairement donné par
A = {( , ), ( , ), ( , ), ( , ), ( , ), ( , )} × { , , , , , }.
De même, on a
B = { , , , , , } × {( , ), ( , ), ( , ), ( , ), ( , ), ( , )}.
36
On a donc |A| = |B| = 6 × 6 = 36, et P(A) = P(B) = 216 = 16 . On peut ensuite énumérer
le contenu de A ∩ B sous la forme du tableau suivant
14 7
On a donc |A × B| = 14, soit P(A ∩ B) = 216 = 108 et donc P(A ∩ B) 6= P(A) × P(B).
Étudions maintenant A ∩ C et B ∩ C. Il est clair qu’on a
A ∩ C = { , , } × { } × { , , , , , },
B ∩ C = { , , , , , } × { } × { , , }.
18 1
On a donc |A ∩ C| = |B ∩ C| = 18, P(A ∩ C) = P(B ∩ C) = 216 = 12 . De plus, il est évident
1
que |C| = 6 × 1 × 6 = 36 et donc que P(C) = 6 . Donc, par définition des probabilités
conditionnelles, P(A|C) = P(B|C) = 12 .
2.7. INDÉPENDANCE CONDITIONNELLE 35
Considérons maintenant l’évènement A ∩ B ∩ C. En étudiant le tableau qui donne

9 1
A ∩ B, on constate que |A ∩ B ∩ C| = 9, et donc que P(A ∩ B ∩ C) = 216 = 24 . On a donc
1
P(A ∩ B|C) = 4 . On remarque qu’on a donc finalement
P(A ∩ B|C) = P(A|C) × P(B|C).
Or, P(.|C) est une probabilité, et donc, au sens de cette probabilité, A et B sont indé-
pendants. Intuitivement, cela ne semble pas choquant. En effet, si on ne sait rien sur le
résultat de l’expérience, A et B ne peuvent pas être indépendants : si on apprend que A a
eu lieu, on en déduit quelque chose sur B. On s’attend effet à ce que B soit plus probable
puisque la réalisation de A implique que le dé noir a une valeur inférieur ou égale à trois,
ce qui réduit les chances d’obtenir un couple (noir, blanc) qui n’est pas compatible avec B.
En revanche, on sent bien que la dépendance entre A et B s’explique par le dé noir.
Donc si on connaît le résultat du dé noir (ce qui est le cas quand C est réalisé), on ne
s’attend plus à avoir une dépendance entre A et B. En d’autres termes, toute l’information
sur B disponible dans A est déjà disponible dans C. D’où cette indépendance entre A et
B quand C est connu. [
Formellement, l’indépendance conditionnelle se définit comme suit.
Définition 2.4 Soit une expérience aléatoire décrite par l’univers Ω et la probabilité P. Soit
A, B et C trois évènements, avec P(C) > 0. On dit que A et B sont conditionnellement
indépendants sachant C si et seulement si :
P(A ∩ B|C) = P(A|C) × P(B|C). (2.9)
On note alors (A ⊥
⊥ B) | C.
Comme pour l’indépendance, l’indépendance conditionnelle est très utile comme outil
de modélisation. C’est une hypothèse naturelle quand deux phénomènes sont liés à un
troisième. Si on observe les deux phénomènes sans connaître le troisième, on peut constater
une dépendance entre eux, mais la connaissance du troisième fait disparaître la dépendance.
L’exemple suivant illustre ce phénomène.
\ Exemple 2.12 On se donne deux urnes U1 et U2 contenant chacune une bille blanche
et une bille noire. On dispose de plus d’une bille blanche additionnelle. On procède à
l’expérience suivante : on lance une pièce équilibrée. Si on obtient face, on place la bille
blanche dans l’urne U1 , sinon on la place dans l’urne U2 . On tire ensuite une bille dans
chaque urne. On étudie les évènements
Ai = « on tire une bille blanche dans l’urne Ui ».
Intuitivement, A1 et A2 ne peuvent pas être indépendants. En effet, si on sait par

exemple que A1 est réalisé, on pense naturellement que A2 est moins probablement réalisé
car l’obtention d’une bille blanche plaide pour la présence de la bille blanche additionnelle
dans U1 . En revanche, si on connaît le résultat du lancer de la pièce, alors A1 et A2
semblent naturellement indépendants, car les tirages dans les urnes ne s’influencent pas
mutuellement.
Pour modéliser ce problème, commençons par déterminer son univers Ω. Le résultat

complet de l’expérience est un triplet précisant le résultat du lancer de la pièce pris dans
{P ile, F ace}, ainsi que les billes obtenues. Il est indispensable ici de faire le choix d’un
modèle discernable au niveau des billes. L’urne U1 contient ainsi les billes B1 et N1 , alors
que l’urne U2 contient les billes B2 et N2 . La bille supplémentaire est notée B3 . Ω est alors
{F ace} × {B1 , B3 , N1 } × {B2 , N2 } ∪ {P ile} × {B1 , N1 } × {B2 , B3 , N2 }.
Il semble assez naturel de choisir sur Ω une probabilité uniforme, vu le caractère totalement
symétrique du problème. On a |Ω| = 12.
L’évènement A1 s’écrit alors
A1 = {F ace} × {B1 , B3 } × {B2 , N2 } ∪ {P ile} × {B1 } × {B2 , B3 , N2 },
7
et donc |A1 | = 7. De la même façon, |A2 | = 7, et donc P(A1 ) = P(A2 ) = 12 . Or
A1 ∩ A2 = {F ace} × {B1 , B3 } × {B2 } ∪ {P ile} × {B1 } × {B2 , B3 },
soit |A1 ∩ A2 | = 4, et donc P(A1 ∩ A2 ) = 13 , ce qui montre que A1 et A2 , ne sont pas
indépendants, comme prévu (notons tout de même que 13 est numériquement très proche
49
de 144 ). On remarque en particulier, comme prévu, que P(A2 |A1 ) = 37 ce qui est plus
faible que P(A2 ).
Notre dernière intuition était l’indépendance entre A1 et A2 sachant le résultat de
la pièce. Techniquement, on pense donc avoir (A1 ⊥ ⊥ A2 ) | P et (A1 ⊥⊥ A2 ) | P où P est
l’évènement « la pièce donne Pile ». Or, il est clair que P(P ) = 12 . De plus, on a
A1 ∩ P = {P ile} × {B1 } × {B2 , B3 , N2 },
3
et donc P(A1 ∩ P ) = 12 , alors que
A2 ∩ P = {P ile} × {B1 , N1 } × {B2 , B3 },
4
soit donc P(A2 ∩ P ) = 12 . Finalement,
A1 ∩ A2 ∩ P = {P ile} × {B1 } × {B2 , B3 },
et donc P(A1 ∩ A2 ∩ P ) = 16 . On obtient donc finalement P(A1 |P ) = 12 , P(A2 |P ) = 23 et
P(A1 ∩ A2 |P ) = 13 , ce qui montre bien que (A1 ⊥ ⊥ A2 ) | P . Des calculs similaires montrent
que (A1 ⊥⊥ A2 ) | P .
Or tous ces résultats, parfaitement valides, pouvaient être obtenus en faisant un peu
plus explicitement les hypothèses induites par le choix de la probabilité uniforme sur Ω.
On peut d’abord appliquer le principe des expériences aléatoires composées et donc dire
que P(P ) = P(P ) = 12 car la pièce utilisée est équilibrée. Ensuite, on peut faire l’hypothèse
naturelle que les tirages dans les deux urnes sont indépendants sachant la composition
des urnes, c’est-à-dire sachant le résultat du lancer de la pièce. Cela signifie que pour tout
évènement Bi portant uniquement sur le résultat de l’urne i et pour tout évènement C
portant uniquement sur la pièce, on a (B1 ⊥ ⊥ B2 ) | C. Enfin, on peut appliquer le principe
du conditionnement classique des expériences composées, en calculant donc P(Bi | C) en
fonction de la composition de l’urne Ui induite par l’évènement C.
L’énorme avantage de cette deuxième façon de procéder est qu’elle s’applique tout
aussi facilement quand la pièce n’est pas équilibrée, quand les évènements secondaires
sont directement spécifiés sous la forme P(Bi | C), etc. Au contraire, le raisonnement par
dénombrement est limité au cas des expériences symétriques. [
Chapitre 3
Variables aléatoires
3.1 Introduction
Il est fréquent en pratique que le résultat d’une expérience aléatoire ne soit pas le point
intéressant dans un problème concret. On s’intéresse plutôt à un résultat dérivé de celui
de l’expérience aléatoire. C’est le cas notamment dans les jeux de hasard. Considérons,
par exemple, deux joueurs qui s’accordent sur les règles suivantes : le premier joueur lance
un dé ; si le résultat est pair, il donne 1 e au second joueur, sinon, le second joueur lui
donne 1 e. Du point de vue du premier joueur, le gain est donc soit 1 e, soit -1 e, et c’est
cette information qui importe. Or l’expérience aléatoire concerne simplement le lancer du
dé et pas dans le transfert d’argent entre joueurs. Celui-ci est de fait déterministe quand
le résultat du lancer est connu. Par déterministe, on entend que pour un résultat donné
de l’expérience aléatoire (ici le lancer du dé), le résultat final (ici le transfert d’argent) est
toujours le même.
La notion de variable aléatoire permet de formaliser ce type de situations. On dispose
d’une expérience aléatoire et on transforme de façon déterministe son résultat en un autre
résultat. Mathématiquement, on représente la partie aléatoire par une probabilité P sur
un univers Ω, et la partie déterministe par une fonction. La combinaison d’un élément
aléatoire avec un élément déterministe produit au final un résultat aléatoire, mais la
séparation des deux éléments simplifie en général l’analyse. Dans certaines situations, on
pourra en outre donner directement la combinaison des deux opérations, ce qui simplifiera
la modélisation de certains phénomènes.
3.2 Notions générales

Définition 3.1 Soit une expérience aléatoire d’univers Ω et de probabilité associée P. Soit
un ensemble quelconque W . Une variable aléatoire sur (Ω, P), X, est une fonction de
Ω dans W . X est dite à valeurs dans W .
\ Exemple 3.1 Reprenons plus formellement la situation de l’introduction : le premier

joueur lance un dé. L’expérience aléatoire est donc modélisée par Ω = { , , , , , }
muni de la probabilité uniforme (car, sans information spécifique, on suppose le dé non
truqué). Soit la fonction G de Ω dans W = {−1, 1} définie par G(ω) = 1 si ω est impair
37
38 CHAPITRE 3. VARIABLES ALÉATOIRES
et G(ω) = −1 sinon. On peut représenter G par le tableau suivant :
ω
G(ω) 1 −1 1 −1 1 −1
G représente clairement le gain du premier joueur en fonction du résultat de l’expérience

et est donc un cas typique de variable aléatoire. Comme ω, le résultat de l’expérience, est
aléatoire (ne peut pas être connu à l’avance), la valeur G(ω) est elle-même aléatoire, bien
que pour toute valeur de ω, G(ω) soit parfaitement déterminé. [
\ Exemple 3.2 On place dans une urne des billes numérotées de 1 à 3. L’urne contient
une bille portant le chiffre 1, deux portant le chiffre 2 et 3 portant le chiffre 3. L’expérience
consiste à tirer une bille au hasard dans l’urne. En considérant les billes discernables,
l’univers est
Ω = {B11 , B21 , B22 , B31 , B32 , B33 },
où la notation Bij désigne la j-ième bille portant le chiffre i. Par symétrie, on utilise pour
cette expérience la probabilité uniforme P.
La fonction X de Ω dans {1, 2, 3} définie par X(Bij ) = i est une variable aléatoire sur
(Ω, P) à valeurs dans {1, 2, 3}. En termes simples, la variable aléatoire donne le chiffre
porté par la bille choisie au hasard. [
Notons qu’il est fréquent de prendre pour W ensemble « trop grand ». Dans les deux
exemples précédents, on pourrait ainsi utiliser W = N ou W = R. X est bien une fonction
de Ω dans W , mais les valeurs réellement prises par X forment seulement un sous-ensemble
de W . On a alors la définition suivante :
Définition 3.2 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans W . On appelle
support de X l’ensemble image de Ω par X, noté X(Ω) et définit par
X(Ω) = {x ∈ W |∃ ω ∈ Ω, X(ω) = x} . (3.1)
Le support d’une variable aléatoire X est une caractéristique propre de cette variable : on
ne peut pas changer X(Ω) sans changer la variable elle-même. En revanche, on peut utiliser
un ensemble pratique pour W à partir du moment où celui-ci contient X(Ω). Cependant,
prendre un W vraiment « trop grand » peut poser quelques difficultés techniques décrites
dans la remarque suivante.
B Remarque 3.1 Comme indiqué à plusieurs reprises, si l’ensemble Ω n’est pas fini (ou
dénombrable), la probabilité P ne sera définie que sur un sous ensemble de P(Ω). Par
cohérence, il faudra définir un sous ensemble de P(W ) et on devra assurer que X est
compatible avec ces deux sous ensembles. La notion correspondante (la mesurabilité) n’est
pas au programme de ce cours. On acceptera donc ici toute fonction de Ω dans W comme
une variable aléatoire potentielle.
3.2. NOTIONS GÉNÉRALES 39
(Ω, P) (W, PX )
X
ω× × X(ω)
X(Ω)
X −1 (A) A
X −1
Figure 3.1: Représentation graphique de la définition de PX à partir de X et de P.
Définition 3.3 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans W . On définit
une probabilité sur W , la loi de X, notée PX , par
∀A ⊂ W, PX (A) = P X −1 (A) = P({ω ∈ Ω|X(ω) ∈ A}).

On note aussi
PX (A) = P(X ∈ A),
et pour tout x ∈ W ,
PX ({x}) = P(X = x).
La figure 3.1 représente graphiquement cette définition.
Preuve Pour assurer que cette définition est cohérente, il faut montrer que PX est bien
une probabilité en vérifiant que les deux propriétés de la définition 1.4 sont satisfaites.
Il est clair tout d’abord que PX (W ) = 1. En effet, X −1 (W ) = Ω car tout élément de
Ω a une image dans W , puisque X est une fonction de Ω dans W . Or comme P est une
probabilité P(Ω) = 1 ce qui permet de conclure.
Considérons maintenant une suite de sous ensembles de W , les (Ai )i≥0 , disjoints deux
à deux. D’après les propriétés de fonctions réciproques (cf la section B.4), on a
 
[ [
X −1  Ai  = X −1 (Ai ).
i≥0 i≥0
Notons Bi = X −1 (Ai ). Les Bi sont disjoints deux à deux. Prenons en effet i 6= j et

supposons par l’absurde que ω ∈ Bi ∩ Bj . Alors, par définition de X −1 , X(ω) ∈ Ai et
X(ω) ∈ Aj , et donc X(ω) ∈ Ai ∩ Aj . Or les Ai sont disjoints deux à deux, ce qui est
contradictoire.
Comme les Bi sont disjoints deux à deux et que P est une probabilité, la sigma
additivité implique que  
[ [
P  Bi  = P(Bi ).
i≥0 i≥0
Or, par définition, P(Bi ) = PX (Ai ) et donc en combinant les résultats, on obtient :
 
[ [
P X  Ai  = PX (Ai ),
i≥0 i≥0
ce qui montre que PX est sigma additive. C’est donc bien une probabilité.
\ Exemple 3.3 Dans l’exemple 3.1, les deux valeurs possibles pour le gain, −1 et 1, sont
clairement équiprobables, car nous avons supposé Ω muni de la probabilité uniforme. De
ce fait, on s’attend à ce que PG soit uniforme. On peut le vérifier en calculant PG (A) pour
tout A ⊂ {−1,1}, soit :
PG (∅) = P(∅) = 0,
PG ({−1,1}) = P(Ω) = 1,
|{ , , }| 1
PG ({−1}) = P({ , , }) = = ,
|Ω| 2
|{ , , }| 1
PG ({1}) = P({ , , }) = = .
|Ω| 2
[
\ Exemple 3.4 Reprenons l’exemple 3.2 et étudions la loi de X. Comme X est à valeurs
dans {1, 2, 3} qui est un ensemble fini, la proposition 1.1 indique qu’il suffit de connaître les
probabilités des évènements élémentaires pour connaître la probabilité PX complètement.
Or, on a
PX ({1}) = P({B11 }),

1
= ,
6
par équiprobabilité. De même
2 1
PX ({2}) = P({B21 , B22 }) = = ,
6 3
et
3 1
PX ({3}) = P({B31 , B32 , B33 }) =
= .
6 2
Dans ce type de situations simples, on résume en général la loi par un tableau comme
celui-ci :
x 1 2 3
[
1 1 1
PX ({x}) 6 3 2
Justification des notations

Les notations simplifiées de la forme P(X ∈ A) et P(X = x) facilitent en général les
raisonnements, notamment parce qu’elles autorisent les mêmes manipulations que dans le
cas d’une probabilité définie directement sur un univers Ω. Ceci est une conséquence de la
définition de la loi de X à partir de la fonction réciproque X −1 et des propriétés de cette
fonction (cf la section B.4), qui font de PX une probabilité. On peut donc traduire les
propriétés 1.1 de la façon suivante.
3.2. NOTIONS GÉNÉRALES 41
Propriétés 3.1 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans W . La loi PX
vérifie les propriétés suivantes :
1. pour tout A ⊂ W tel que A ∩ X(Ω) = ∅, P(X ∈ A) = 0 ;
2. pour tout A ⊂ W tel que X(Ω) ⊂ A, P(X ∈ A) = 1 ;
3. pour toute suite finie ou dénombrable de sous-ensembles de W deux à deux disjoints
(Ai )i≥1 ,  
[ X
P X ∈ Ai  = P(X ∈ Ai );
i≥1 i≥1
4. pour tout A ⊂ W , P(X 6∈ A) = 1 − P(X ∈ A) ;

5. pour tous sous-ensembles de W , A et B,
P(X ∈ A ∪ B) = P(X ∈ A) + P(X ∈ B) − P(X ∈ A ∩ B);
6. pour tous sous-ensembles de W , A et B, tels que A ⊂ B, P(X ∈ A) ≤ P(X ∈ B).
Notons que ces propriétés s’appliquent bien sûr aussi à la notation P(X = x). Par exemple,
si X prend ses valeurs dans W = R, on a
P(X ∈ [0,1]) = P(X = 0) + P(X ∈]0, 12 ]) + P(X ∈] 12 , 1[) + P(X = 1),
pour prendre un exemple parmi d’autres de décomposition de l’ensemble [0,1] en sous-

ensembles disjoints.
\ Exemple 3.5 Reprenons l’exemple 3.2 (cf le calcul de la loi PX dans l’exemple 3.4).
Cherchons la probabilité P(X ∈ {2, 3}). On peut calculer cette probabilité de trois façons
différentes :
1. une première solution consiste à traduire X ∈ {2, 3} directement en un évènement
de Ω. On constate en effet que pour obtenir 2 ou 3, il faut obtenir une des billes
portant le numéro 2 ou une des billes portant le numéro 3. Il y a 5 billes de ce type,
ce qui donne une probabilité de 56 (par uniformité) ;
2. une deuxième solution passe par le calcul de X −1 ({2, 3}) afin d’appliquer la définition
de PX . On trouve
X −1 ({2, 3}) = {B21 , B22 , B31 , B32 , B33 },
5
et donc de nouveau P(X ∈ {2, 3}) = 6 ;
3. enfin, on peut appliquer les propriétés 3.1, ce qui donne
P(X ∈ {2, 3}) = P(X = 2) + P(X = 3).
En utilisant la loi trouvée à l’exemple 3.4, on en déduit encore une fois que P(X ∈
{2, 3}) = 65 .
Notons que dans les trois approches, il aurait bien sûr été plus efficace de calculer P(X = 1)
comme complémentaire de P(X ∈ {2, 3}), toujours en s’appuyant sur les propriétés 3.1.[
3.3 Variable aléatoire numérique

Quand une variable aléatoire X est à valeurs dans W = R, on parle de variable
aléatoire réelle ou numérique. Le terme réelle est généralement utilisé même si le support
de X est constitué de nombres entiers, en vertu du fait que si X(Ω) est un sous-ensemble
de R, on peut toujours poser W = R.
Quand X est numérique, on peut introduire des notions supplémentaires qui carac-
térisent de différentes façons son comportement. Dans le présent chapitre, nous nous
contenterons de la notion de fonction de répartition, après avoir introduit de nouvelles
notations.
Définition 3.4 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans R. Pour tout
t ∈ R, on note
P(X ≤ t) = PX (] − ∞, t]),
P(X < t) = PX (] − ∞, t[),
P(X ≥ t) = PX ([t, +∞[),
P(X > t) = PX (]t, +∞[).
Fonction de répartition
Définition 3.5 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans R. On appelle
fonction de répartition de X la notion FX de R dans [0,1] définie par
∀t ∈ R, FX (t) = P(X ≤ t) = PX (] − ∞,t]). (3.2)
Le calcul de la fonction de répartition est en général assez mécanique, comme le montre

l’exemple suivant.
\ Exemple 3.6 On lance deux dés à quatre faces non truqués et on appelle S la variable
aléatoire donnant la somme des valeurs obtenues. On considère les deux dés comme
discernables, ce qui donne pour l’univers
Ω = {1, 2, 3, 4}2 .
Les dés n’étant pas truqués, on suppose que la probabilité P est uniforme.
On constate de plus que
S(Ω) = {2, 3, 4, 5, 6, 7, 8}.
En effet, les faces sont numérotés de 1 à 4 et la somme peut donc prendre toutes les valeurs
entre 2 au minimum et 8 au maximum. Ceci permet de calculer facilement FS (t) pour
certaines valeurs de t. En effet, comme la plus petite valeur de S est 2, on a clairement
∀t < 2, FS (t) = P(S ≤ t) = 0,

3.3. VARIABLE ALÉATOIRE NUMÉRIQUE 43
en appliquant la première propriété 3.1. De même, en appliquant la deuxième propriété,

on constate que
∀t ≥ 8, FS (t) = P(S ≤ t) = 1,
car la somme est toujours plus petite ou égale à 8.
Considérons enfin s ∈ S(Ω). En appliquant toujours les propriétés 3.1, on remarque
que
P(S ≤ s + u) = P(S ≤ s) + P(S ∈]s, s + u]).
Or, si u ∈ [0,1[, P(S ∈]s, s + u]) = 0 car S ne prend que des valeurs entières et que
s ∈ S(Ω). Comme s est entier et que u < 1, il n’y a aucun entier dans l’intervalle ]s,s + u],
ce qui donne cette probabilité nulle. Cette remarque montre qu’il suffit en fait de calculer
P(S ≤ s) = FS (s) pour tout s ∈ S(Ω) pour connaître la fonction FS dans son ensemble.
Pour ce faire, on commence par calculer la loi de S. Une façon simple de le faire est
d’expliciter par un tableau la définition de S. On construit le tableau suivant dans lequel
chaque ligne correspond à un résultat pour le premier dé, chaque colonne à un résultat
pour le second dé et chaque case à la valeur correspondante pour S :
D1 /D2 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
1 1
Par hypothèse, P est uniforme et donc chaque case à la même probabilité |Ω| = 16 . Donc
pour tout s ∈ S(Ω), P(S = s) est obtenue en comptant le nombre de cases contenant s et
1
en le multipliant par 16 . On obtient ainsi la loi de S :
s 2 3 4 5 6 7 8
1 2 3 4 3 2 1
P(S = s) 16 16 16 16 16 16 16
P
Pour obtenir les valeurs de P(S ≤ s), il suffit alors de réaliser la somme k∈S(Ω), k≤s P(S =
k), puisque que le seul moyen d’obtenir par exemple S ≤ 3 est d’obtenir S = 2 ou S = 3.
On obtient ainsi
s 2 3 4 5 6 7 8
1 3 6 10 13 15 16
P(S ≤ s) 16 16 16 16 16 16 16
En combinant ce résultat avec les remarques précédentes, on peut enfin donner FS grâce
au tableau suivant :
si t ∈ ] − ∞,2[ [2,3[ [3,4[ [4,5[ [5,6[ [6,7[ [7,8[ [8, + ∞[

[
1 3 6 10 13 15 16
FS (t) 0 16 16 16 16 16 16 16
Le graphe de FS est donné par la figure 3.2.
Les fonctions de répartition possèdent un ensemble de propriétés fondamentales détaillées

ci-dessous.
1
7
8
3
4
5
8 FS (t)
1
2
3
8
1
4
1
8
t
1 2 3 4 5 6 7 8 9
Figure 3.2: Graphe de la fonction de répartition FS de l’exemple 3.6. Les couples

cercle/disque indiquent les points de discontinuité de la fonction : le cercle est la limite
(ici à gauche) alors que le disque est la valeur prise par la fonction.
Propriétés 3.2 Soit X une variable aléatoire sur (Ω, P) à valeurs dans R et FX sa fonc-
tion de répartition. La fonction FX vérifie les quatre propriétés fondamentales suivantes :
1. limt→−∞ FX (t) = 0 ;
2. limt→+∞ FX (t) = 1 ;
3. FX est croissante :
s ≤ t ⇒ FX (s) ≤ FX (t);
4. FX est continue à droite en tout point :
∀t ∈ R, lim FX (t + h) = FX (t).
h→0+
Preuve Ces propriétés sont des conséquences de la définition de FX et des propriétés

fondamentales des probabilités 1.1. Le point clé est le lien entre la notion de limite
numérique et limite ensembliste. On constate tout d’abord que la croissance des probabilités
(propriété 5), se traduit naturellement en croissance de FX . En effet, si s ≤ t, ] − ∞, s] ⊂
] − ∞, t], et donc
FX (s) = PX (] − ∞, s]) ≤ PX (] − ∞, t]) = FX (t).
D’autre part, la propriété 7 des probabilités 1.1 permet de dire que
lim PX (] − ∞, −i]) = 0.
i→+∞
T
En effet, la suite des Ai =] − ∞, −i] est décroissante et on constate que i≥0 Ai = ∅, ce
qui permet de conclure. Par croissance de FX , on en déduit que limt→−∞ FX (t) = 0. De
la même façon,
lim PX (] − ∞, i]) = 1,
i→+∞
car la suite des Bi =] − ∞,i] est

S croissante et qu’on peut
S donc lui appliquer la propriété 6
des probabilités 1.1. Comme i≥0 Bi = R, on a PX ( Bi ) = 1.
Enfin, la continuité à droite se prouve de la même façon. Pour un tT∈ R, on construit

1
la suite des Ci =] − ∞, t + i+1 ] qui est décroissante. On constate que i≥0 Ci =] − ∞, t].
En appliquant la propriété 7, on a donc
1
lim PX (] − ∞, t + ]) = PX (] − ∞, t]),
i→+∞ i+1
soit
1
lim FX t+ = FX (t).
i→+∞ i+1
Par croissance de FX ceci suffit à garantir que limh→0+ FX (t + h) = FX (t).
Les fonctions de répartition vérifient d’autres propriétés très utiles en pratique.
Propriétés 3.3 Soit X une variable aléatoire sur (Ω, P) à valeurs dans R et FX sa
fonction de répartition. La fonction FX vérifie les propriétés suivantes :
1. P(X > x) = 1 − FX (x)
2. P(X ∈]a, b]) = FX (b) − FX (a)
3. P(X = t) = FX (t) − limh→0+ FX (t − h)
Preuve Les deux premières propriétés sont élémentaires et sont des conséquences immé-
diates de la définition de FX . Pour la première, on a P(X > x) = P(X ∈]x,∞[). Comme
R est l’union disjointe de ]x,∞[ et ] − ∞,x], les propriétés 3.1 donnent
1 = P(X ∈ R) = P(X ≤ x) + P(X > x).
On reconnaît FX (x) comme premier terme de cette somme ce qui permet de conclure.
De même ] − ∞, b] =] − ∞, a]∪]a, b] et cette union est disjointe. Donc d’après les
propriétés 3.1, on a
P(X ∈] − ∞, b]) = P(X ∈] − ∞, a]) + P(X ∈]a, b]),
soit donc, par définition de FX ,
FX (b) = FX (a) + P(X ∈]a, b]).
La troisième propriété se prouve en utilisant une limite ensembliste. Pour un t ∈ R fixé,

on a en effet :
\ 1

t− , t = {t},
i+1
i≥0
i i
1
et la suite des ensembles t − i+1 , t est décroissante. Donc d’après les propriétés 1.1

1
lim PX t− ,t = PX ({x}).
i→∞ i+1
Or on vient de montrer que

1 1
PX t− ,t = FX (t) − FX t − ,
i+1 i+1
ce qui permet de conclure que

1
lim FX t− = FX (t) − P(X = t).
i→∞ i+1
Comme FX est croissante, on peut en déduire que cette propriété est vraie en général
pour la limite à gauche, et donc que
lim FX (t − h) = FX (t) − P(X = t),

h→0+
ce qui permet de conclure.
B Remarque 3.2 En combinant les propriétés de FX , on peut calculer toutes sortes de

probabilités à partir simplement de cette fonction. Par exemple, en remarquant que l’union
disjointe [a,b[∪{b} est égale à l’union disjointe {a}∪]a,b], on obtient
P(X ∈ [a,b[) = P(X ∈]a,b]) − P(X = b) + P(X = a),

= FX (b) − FX (a) − FX (b) − lim FX (b − h)
h→0+

+ FX (a) − lim FX (a − h) ,
h→0+
= lim FX (b − h) − lim FX (a − h).

h→0+ h→0+
L’ensemble des résultats obtenus ci-dessus montrent que la fonction de répartition d’une
variable aléatoire X caractérise PX . Le théorème suivant précise ce résultat (sa preuve est
hors programme).
Théorème 3.1 Soit deux variables aléatoires réelles X et Y (donc à valeurs dans R). On
suppose que FX et FY sont identiques, c’est-à-dire que pour tout t ∈ R, FX (t) = FY (t).
Alors X et Y sont de même loi (PX = PY ), c’est-à-dire que pour toute partie de R, A
PX (A) = PY (A),
P(X ∈ A) = P(Y ∈ A).
B Remarque 3.3 Attention, il ne faut pas confondre PX = PY et X = Y . Il est clair

bien sûr que si X = Y , alors PX = PY . En revanche, on peut construire facilement deux
variables aléatoires de même loi mais distinctes, comme le montre l’exemple suivant.
\ Exemple 3.7 Reprenons l’exemple 3.1 et introduisons deux variables aléatoires. La

variable G, étudiée dans l’exemple 3.1, est le gain du premier joueur. La variable H est le
gain du second joueur. Les deux variables sont définies par le tableau suivant :
ω
G(ω) 1 −1 1 −1 1 −1
H(ω) −1 1 −1 1 −1 1
Il est clair que H 6= G, car, par exemple, H( ) = −G( ) (on a en général H = −G).
Nous avons obtenu la loi de G dans l’exemple 3.3. En appliquant le même raisonnement,
on constate ici que
|{ , , }| 1
PH ({1}) = P({ , , }) = = ,
|Ω| 2
et que
|{ , , }| 1
PH ({−1}) = P({ , , }) = = .
|Ω| 2
On constate ainsi que PH ({1}) = PG ({1}) et PH ({−1}) = PG ({−1}), puis plus générale-
ment que PH = PG . [
Théorème de la réciproque
Les propriétés 3.2 caractérisent totalement les fonctions de répartition. D’une part,
toutes les fonctions de répartition doivent les vérifier. D’autre part, comme l’indique
le théorème suivant, toute fonction qui vérifie ces quatre propriétés est la fonction de
répartition d’une certaine variable aléatoire.
Théorème 3.2 Soit F une fonction de R dans [0,1] vérifiant les quatre propriétés 3.2,
c’est-à-dire telle que :
1. limt→−∞ F (t) = 0 ;
2. limt→+∞ F (t) = 1 ;
3. F est croissante ;
4. F est continue à droite en tout point.
Alors il existe un univers Ω muni de la probabilité P et une variable aléatoire X sur
(Ω, P) et à valeurs dans R telle que F soit la fonction de répartition de X, soit donc
P(X ≤ t) = F (t) pour tout t ∈ R.
La preuve de ce théorème est (largement) hors programme. En revanche, le théorème

lui-même est très pratique pour construire des variables aléatoires, comme l’illustrent les
exemples suivants.
\ Exemple 3.8 Un exemple simple est donné par la fonction F de R dans [0,1] définie
par : 
 0 si x < 0,


F (x) = 1
 2 si x ∈ [0,1[,

 1 si x ≥ 1.
F vérifie clairement les propriétés du théorème 3.2 :

1. F (x) = 0 pour x < 0, donc limx→−∞ F (x) = 0 ;
2. F (x) = 1 pour x ≥ 1, donc limx→+∞ F (x) = 1 ;
1
3. F est croissante puisqu’elle vaut 0 sur ] − ∞,0[, puis 2 sur [0,1[ puis 1 sur [1,∞[ ;
4. et enfin F est continue à droite en tout point puisqu’elle est constante sur les
intervalles indiqués précédemment et que ces intervalles sont fermés à gauche.
Soit donc X une variable aléatoire de fonction de répartition F . D’après les propriétés 3.3,
P(X = 0) = 12 et P(X = 1) = 12 . En effet, comme F est nulle sur ]−∞,0[, limx→0+ F (−x) =
0 et donc P(X = 0) = F (0) − limx→0+ F (−x) = 12 . De même, limx→0+ F (1 − x) = 12 car
F est constante et égale à 1 sur [0,1[. En appliquant le même résultat avec la limite, on
obtient P(X = 1) = 12 .
Il est clair alors que pour tout A ⊂ R tel que 0 6∈ A et 1 6∈ A, P(X ∈ A) = 0. En effet,
P(X ∈ A) = 1 − P(X ∈ A). Mais {0, 1} ⊂ A et donc P(X ∈ A) ≥ P(X ∈ {0,1}) = P(X =
0) + P(X = 1). Or cette dernière somme vaut 1 et donc P(X ∈ A) = 1 puis P(X ∈ A) = 0.
En pratique, on peut donc considérer que la variable X ne prend que les valeurs 0 et
1. En outre ces valeurs sont équiprobables. Nous verrons dans le chapitre suivant que X
est une variable discrète. [
Le deuxième exemple suivant est beaucoup plus complexe et illustre la puissance du

théorème de la réciproque.
\ Exemple 3.9 Étudions la fonction F de R dans [0,1] définie par :




 0 si x < 0,

 1

si x = 0,
2
F (x) = x+1


 2 si x ∈]0,1[,

 1 si x ≥ 1,

et est représentée sur la figure 3.3. On constate que F vérifie bien les propriétés 1 et 2
du théorème 3.2 car F est constante en dehors de l’intervalle [0,1] et qu’elle vaut 0 sur
] − ∞,0[ et 1 sur [1,∞[.
1
2 F (x)
x
0 1
Figure 3.3: Graphe de la fonction F de l’exemple 3.9. On représente la discontinuité

comme dans la figure 3.2.
On constate aussi que F est continue à droite. En effet, sur chacun des intervalles
] − ∞,0[, ]0,1[ et [1,∞[, F est soit constante, soit affine et est donc continue. Comme [1,∞[
3.4. VARIABLE ALÉATOIRE FONCTION D’UNE AUTRE VARIABLE ALÉATOIRE
49
est fermé à gauche, F est continue à droite en 1. Il reste donc à étudier la situation en
0. Or, on constate que la limite à droite de x 7→ x+1 1
2 en 0 est 2 par continuité de cette
1
fonction (sur R tout entier). Comme F (0) = 2 , F est bien continue à droite en 0, et donc
finalement sur R tout entier. Notons que F n’est pas continue à gauche en 0 car la limite
à gauche en 0 est 0, par continuité de la fonction constante t 7→ 0.
F est aussi croissante sur les intervalles ] − ∞,0[, ]0,1[ et [1,∞[. En effet elle est
constante sur les intervalles infinis et sur l’intervalle ]0,1[, sa dérivée est 12 > 0. Soit
maintenant u et v tels que u < v. Si u et v sont dans le même intervalle, F (u) < F (v).
Supposons donc que cela ne soit pas le cas. Si u est dans ] − ∞,0] alors F (u) = 0 et donc
F (v) ≥ F (u) car F est toujours positive. Si u = 0, alors F (u) = 12 . Si v ∈]0,1[, F (v) > 12
par croissance (stricte) de F sur ]0,1[. Enfin si v ∈ [1,∞[, F (v) = 1 > F (u). Enfin, si
u ∈]0,1[, F (u) ≤ 1 = F (v) par croissance de F sur ]u,1[ et par continuité en 1. F est donc
croissante sur R tout entier.
L’application du théorème 3.2 permet donc de conclure à l’existence d’une variable
aléatoire X dont la fonction de répartition est F . En utilisant F , on peut caractériser X :
— on constate que P(X = 0) = 12 . On applique en effet les propriétés 3.3, en particulier
P(X = 0) = F (0) − lim F (−h).

h→0+
Or, on a vu que la limite à gauche en 0 de F est 0. Comme F (0) = 12 , on obtient

bien la conclusion voulue ;
— on remarque en outre que pour tout x ∈]0,1[, P(X = x) = 0. En effet, en appliquant
le même résultat, on doit calculer la différence entre F (x) et la limite à gauche de
F en x. Or sur ]0,1[, F est continue et donc sa limite à gauche en x est F (x), ce
qui permet de conclure ;
— on a aussi P(X ∈]0,1]) = 21 en appliquant de nouveau les propriétés 3.3 ;
— on en déduit que P(X ∈ [0,1]) = 1 et donc que si I est tel que I ∩ [0,1] = ∅,
P(X ∈ I) = 0.
Nous verrons dans les chapitres suivants que X est une variable mixte. Elle comporte une
partie discrète car elle a une probabilité non nulle de valoir exactement 0. Elle comporte
une partie continue (ou diffuse) répartie sur l’intervalle ]0,1[. Sur cet intervalle, aucune
valeur n’est obtenue exactement avec une probabilité non nulle. En revanche, l’intervalle
tout entier à une probabilité de 12 . [
3.4 Variable aléatoire fonction d’une autre variable

aléatoire
Il est assez fréquent en pratique de s’intéresser à un résultat dérivé d’un autre dans
une expérience aléatoire, comme le montre l’exemple suivant.
\ Exemple 3.10 Au jeu de la roulette, l’expérience aléatoire consiste à lancer une bille
dans une roue en rotation contenant des cases. Après une phase de rotation, la bille
s’arrête dans une case. Le résultat direct de l’expérience est le numéro de la case (entre 0
et 36 dans la roulette française). Il est naturel de considérer que l’univers Ω est l’ensemble
des entiers compris entre 0 et 36 (inclus) et que la probabilité est uniforme sur Ω.
Trois variables aléatoires importantes sont définies sur Ω : la couleur C, la parité O et

la hauteur H du résultat. Les deux dernières ont une définition simple. La parité O vaut
Pair si le résultat est pair et non nul, Impair si le résultat est impair, et Zéro dans le cas
particulier du tirage 0. La hauteur H vaut Manque si le résultat est entre 1 et 18, Passe
s’il est entre 19 et 36, et toujours Zéro pour le cas particulier du 0. La couleur C prend
trois valeurs, Vert (pour le 0), Rouge et Noir (il n’y a pas de définition simple, seule une
liste donne les valeurs).
À partir de ces trois variables (et du résultat de l’expérience), on peut définir de
nombreuses autres variables correspondant différents paris autorisés à la roulette. Un pari
classique est celui de « chance simple » : le joueur choisit une des valeurs des trois variables,
à l’exception du Zéro et de la couleur Vert (il peut donc choisir Passe, Manque, Pair,
Impair, Rouge ou Noir). Si la variable aléatoire correspondante prend la valeur choisie, le
joueur gagne 1 e, sinon il perd 1 e. Considérons par exemple la variable aléatoire M qui
donne le gain du joueur quand celui ci mise sur Manque. Les valeurs prises par M sont
par définition {−1, 1}. Le résultat est déduit de la valeur de la variable aléatoire H. Tout
l’enjeu est maintenant de donner un sens mathématique précis à cette « déduction ». [
Le mécanisme général de construction d’une variable à partir d’une autre est le suivant.
Définition 3.6 Soit (Ω, P) une expérience aléatoire et X une variable aléatoire sur (Ω, P)
à valeurs dans W . V un ensemble et φ une fonction de W dans V . La fonction Y de Ω
dans V définie par
∀ω ∈ Ω, Y (ω) = φ(X(ω)), (3.3)
est une variable aléatoire sur (Ω, P) à valeurs dans V . On dit que Y est une variable
aléatoire fonction de X. Pour simplifier la définition de Y , on note Y = φ(X). On
peut aussi écrire Y = φ ◦ X en utilisant la notation classique ◦ pour la composition des
fonctions.
B Remarque 3.4 Comme rappelé lors de la remarque 3.1, si Ω n’est pas dénombrable
(ou fini), on doit introduire une notion de mesurabilité dans la définition d’une variable
aléatoire. Cette notion devrait aussi être utilisée ici pour s’assurer que Y est bien une
variable aléatoire.
\ Exemple 3.11 Reprenons l’exemple 3.10 de façon un peu plus formelle. Nous avons no-
tamment introduit la variable aléatoire H de Ω = {0, . . . , 36} dans {Manque, Passe, Zéro}.
Nous souhaitons définir la variable aléatoire M , à valeurs dans {−1, 1} qui donne le
gain du joueur qui mise sur Manque. Il suffit pour cela de considérer la fonction φ de
{Manque, Passe, Zéro} dans {−1, 1} telle que φ(Manque) = 1 et φ(Passe) = φ(Zéro) = −1.
Alors d’après la définition ci-dessus, M donnée par M = φ(H) est bien une variable aléa-
toire. [
La loi d’une variable aléatoire Y obtenue à partir d’une variable aléatoire X est reliée
directement à la loi de X, comme le montre la proposition suivante.
3.4. VARIABLE ALÉATOIRE FONCTION D’UNE AUTRE VARIABLE ALÉATOIRE
51
Proposition 3.1 Soit (Ω, P) une expérience aléatoire et X une variable aléatoire sur
(Ω, P) à valeurs dans W . V un ensemble et φ une fonction de W dans V . La loi de
Y = φ(X) est donnée par
∀A ⊂ V, PY (A) = PX (φ−1 (A)). (3.4)
Preuve Soit donc A ⊂ V . Par définition PY (A) = P(Y −1 (A)). Or, Y = φ ◦ X, donc,
d’après les propriétés des fonctions réciproques,
Y −1 (A) = (φ ◦ X)−1 (A) = X −1 (φ−1 (A)),
et donc
PY (A) = P(X −1 (φ−1 (A))),

= PX (φ−1 (A)),
par définition de PX .
Le gros intérêt de cette proposition est qu’elle montre que si on peut définir directement
une variable aléatoire X (sans passer explicitement par un univers (Ω, P)), on peut alors
calculer la loi de toute variable obtenue à partir de X toujours sans passer par l’univers.
\ Exemple 3.12 Continuons l’exemple 3.10 (et 3.11). Il est facile de montrer que la loi
de H est donnée par
h Manque Passe Zéro
18 18 1
P(H = h) 37 37 37
Déterminons alors la loi de M = φ(H), avec φ définie dans l’exemple 3.11. Comme M est
à valeurs dans {−1, 1}, il suffit de calculer PM ({1}) et PM ({−1}). D’après la propriété
ci-dessus et la définition de φ, on a
PM ({1}) = PX (φ−1 ({1})) PM ({−1}) = PX (φ−1 ({−1})),

= PX ({Manque}) = PX ({Passe, Zéro}),
18 19
= = . [
37 37
Cas numérique
Quand une variable aléatoire X est à valeurs réelles, on peut réaliser toute sorte de
calculs sur les valeurs de X, ce qui revient à définir des variables aléatoires fonction de X.
La convention qui consiste à écrire Y = φ(X) devient dans ce contexte très expressive,
comme le montre l’exemple suivant.
\ Exemple 3.13 Reprenons l’exemple 3.6 du lancé de deux dés à quatre faces dans
lequel on définit la variable aléatoire S, somme des deux dés. Soit maintenant la fonction
φ de R dans R définie par φ(x) = x2 − 1 et Y la variable aléatoire Y = φ(S). Comme φ
est donnée par une formule explicite, on peut appliquer cette formule à la variable S, ce
qui revient à écrire
S
Y = − 1.
2
√
On peut définir ainsi d’autres variables comme Z = S 2 + 1, T = S, etc. [
Il faut cependant bien conserver à l’esprit que cette écriture est une convention qui masque
le fait que les objets concernés (par exemple X et Y ) sont des fonctions et que l’égalité
est à comprendre comme une égalité entre fonctions. Si on écrit par exemple Y = 2X + 1,
cela signifie en fait que pour tout ω ∈ Ω, Y (ω) = 2X(ω) + 1.
Un autre avantage des variables aléatoires numériques est qu’elles peuvent être données
par une fonction de répartition, en vertu du théorème de la réciproque 3.2. Dans certains
cas, on peut calculer la fonction de répartition d’une variable Y fonction d’une variable
X directement à partir de la fonction de répartition de X. C’est le cas dans l’exemple
suivant.
\ Exemple 3.14 Reprenons l’exemple 3.9 et une variable aléatoire X obtenue en appli-
quant le théorème de la réciproque. Soit maintenant Y = 2X + 1. On cherche à déterminer
FY . D’après la définition de FY et la proposition 3.1, on a
FY (t) = PY (] − ∞,t]) = PX (φ−1 (] − ∞,t])),
avec φ donnée par φ(x) = 2x + 1. Il est clair que

−1 (t − 1)
φ (] − ∞,t]) = −∞, ,
2
car φ est bijective et sa fonction inverse est donnée par φ−1 (t) = (t−1)
2 . On a donc

(t − 1) (t − 1)
FY (t) = PX −∞, = FX ,
2 2
ce qui permet de définir explicitement FY par




 0 si t < 1,

 1

si t = 1,
2
FY (t) = t+1


 4 si t ∈]1, 3[,

 1 si t ≥ 3.

[
Chapitre 4
Variables aléatoires discrètes
4.1 Définition
On étudie dans ce chapitre un cas particulier de variables aléatoires pour lesquelles
certains concepts et calculs sont plus faciles à définir et réaliser que dans le cas général.
Ces variables peuvent prendre un nombre « raisonnable » de valeurs, selon la définition
suivante :
Définition 4.1 Soit X une variable aléatoire sur (Ω, P) et à valeurs dans un ensemble
quelconque W . X est dite discrète si son support est fini ou dénombrable.
Quand X est discrète et |X(Ω)| = n, on note (xi )1≤i≤n les valeurs du support. Quand
X(Ω) est dénombrable, on note (xi )i≥i ces valeurs.
Le cas le plus simple est bien sur celui où |X(Ω)| < ∞ car le cas dénombrable est associé
à toutes les subtilités induites par le passage à l’infini. Le point important est cependant
la possibilité de numéroter les valeurs du support.
B Remarque 4.1 La définition 4.1 sépare l’ensemble W dans lequel la variable aléatoire
prend ses valeurs et le support X(Ω) de la variable. Ce point est très important car les
variables aléatoires numériques sont en général à valeurs dans R qui n’est pas un ensemble
dénombrable. Pourtant de nombreuses variables aléatoires numériques sont discrètes ce
qui montre que cette caractérisation n’est pas liée à l’ensemble « ambiant » mais bien aux
valeurs réellement prises par la variable aléatoire.
\ Exemple 4.1 Considérons le lancer d’un dé à six faces non truqué. On définit sur
Ω = { , , , , , } la variable aléatoire X qui indique la parité du résultat du lancer et
qui est donc à valeurs dans W = {pair, impair}. Comme W est fini, X est nécessairement
discrète. Ici on a X(Ω) = W , ce qui simplifie l’analyse. [
Une conséquence pratique importante du caractère discret d’une variable est qu’on peut
la spécifier directement par l’intermédiaire de sa loi plutôt que comme une fonction, en
s’appuyant sur la proposition 1.1. On a ainsi la proposition suivante.
53
54 CHAPITRE 4. VARIABLES ALÉATOIRES DISCRÈTES
Proposition 4.1 Soit W = {w1 , . . . , wn } un ensemble fini et n réels de [0,1], (pi )1≤i≤n
tels que ni=1 pi = 1. Alors il existe un univers Ω, une probabilité P sur Ω et une variable
P
aléatoire X sur (Ω, P) à valeurs dans W telle que
∀i, 1 ≤ i ≤ n, P(X = wi ) = pi .
Preuve Cette proposition est assez simple à prouver. Il suffit en effet d’évoquer la
proposition 1.1 qui garantit l’existence d’une probabilité P sur W telle que P({wi }) = pi
pour tout i. On pose alors Ω = W et on prend pour X la fonction identité de W dans lui-
même qui à tout w associe w (et donc X(w) = w). Il est clair que pour tout sous-ensemble
A de W , X −1 (A) = A et donc que PX (A) = P(A), ce qui permet de conclure.
B Remarque 4.2 La construction de la variable aléatoire dans la preuve est assez

artificielle. Cela s’explique par le caractère discret du problème. Dans cette situation, il y
a peu de différences entre une variable aléatoire et une probabilité.
4.2 Entropie et mode

Il semble assez clair que toutes les variables aléatoires ne correspondent pas toutes à
un même « niveau de hasard ». Précisons cette idée par un exemple.
\ Exemple 4.2 Considérons l’ensemble W = {a, b, c}. La proposition 4.1 permet de

construire deux variables aléatoires X et Y dont les lois sont
x a b c
1 1 1
P(X = x) 3 3 3
et
y a b c
5 1 1
P(Y = y) 6 12 12
On constate que X est « plus aléatoire » que Y dans le sens suivant : il est possible de
parier sur une valeur de W avec une probabilité de gagner bien plus grande dans le cas de
Y que dans le cas de X. Il suffit en effet de parier sur a. Dans ce cas, la probabilité de
gagner est P(Y = a) = 56 pour Y et P(X = a) = 13 . De plus, la probabilité de gagner dans
le cas de la variable X ne peut pas être plus grande que 13 quel que soit le choix de la
valeur. [
Plusieurs mesures ont été proposées pour quantifier le niveau d’aléa que présente une
variable aléatoire. La mesure la plus générale est l’entropie de Shannon décrite dans la
définition suivante.
Définition 4.2 Soit X une variable aléatoire discrète à valeurs dans W = {w1 , . . . , wn }.
Pour tout réel strictement positif b, l’entropie (de Shannon) de X en base b, Hb (X) est
la quantité
Xn
Hb (X) = − P(X = wi ) logb P(X = wi ), (4.1)
i=1
4.2. ENTROPIE ET MODE 55
où logb est la fonction logarithme en base b. Par convention, dès que P(X = wi ) = 0 on
remplace P(X = wi ) logb P(X = wi ) par la valeur 0 dans la somme ci-dessus.
On utilise en général b = 2 et on parle alors d’entropie, sans préciser la base. On note
ainsi H(X) = H2 (X).
L’entropie d’une variable aléatoire mesure sa dispersion, c’est-à-dire sa propension à être

le plus aléatoire possible.
\ Exemple 4.3 Reprenons les deux variables aléatoires de l’exemple 4.2. Un simple
calcul donne

1
H(X) = − log2 = log2 3 ' 1,585
3

5 5 1 1
H(Y ) = − log2 − log2 ' 0,8167.
6 6 6 12
L’entropie de X est de l’ordre du double de celle de Y . La mesure numérique de dispersion

est ainsi en accord avec l’analyse intuitive basée sur la probabilité de gagner un pari. [
Propriétés 4.1 L’entropie vérifie quelques propriétés intéressantes :

1. pour toute variable aléatoire discrète X et tout b > 0, Hb (X) ≥ 0 ;
2. si une variable aléatoire discrète X à valeurs dans W est telle que Hb (X) = 0 (pour
un b > 0) alors il existe w ∈ W tel que P(X = w) = 1 ;
3. pour toute variable aléatoire discrète X à valeurs dans W avec n = |W |, Hb (X) ≤
logb (n) ;
4. si une variable aléatoire discrète X à valeurs dans W est telle que Hb (X) = logb (n)
(pour un b > 0) alors pour tout w ∈ W , P(X = w) = n1 (en d’autres termes, PX est
uniforme sur W ).
La notion d’entropie peut être complétée par celle de mode.
Définition 4.3 Soit X une variable aléatoire discrète à valeurs dans W = {w1 , . . . , wn }.
On dit que w est le mode de X si et seulement si
∀w0 ∈ W, P(X = w0 ) < P(X = w).
En d’autres termes, le mode de X la valeur prise de façon la plus probable par X. Si le

mode existe, X est dite unimodale.
Alors que la notion d’entropie mesure la dispersion d’une variable aléatoire, celle de mode
formalise l’idée de tendance dominante. Notons notamment qu’une variable aléatoire
d’entropie maximale n’a pas de mode (sauf si elle est constante).
\ Exemple 4.4 Reprenons les deux variables aléatoires de l’exemple 4.2. On voit que
X n’a pas de mode car les trois valeurs a, b et c sont equiprobables. Aucune valeur n’est
donc dominante et la variable n’exhibe pas de tendance. Au contraire, elle a une entropie
maximale.
En revanche, Y est unimodale et son mode est a. La valeur a est en effet la plus
probable. Comme l’entropie de Y est faible, cela montre que Y a une forte tendance à
prendre la valeur a. [
4.3 Variable aléatoire discrète numérique

Comme nous l’avons vu dans la section 3.4, quand une variable aléatoire est à valeurs
réelles, un outil puissant est disponible, la fonction de répartition. Quand une variable
aléatoire numérique est discrète, la fonction de répartition possède une forme particulière.
Propriété 4.2 Soit X une variable aléatoire réelle et discrète sur (Ω, P), c’est-à-dire à
valeurs dans R et telle que X(Ω) soit fini ou dénombrable. Alors sa fonction de répartition
FX vérifie les propriétés suivantes (en plus des propriétés générales 3.2) :
1. pour tout x ∈ X(Ω) tel que P(X = x) > 0, FX est discontinue en x ;
2. réciproquement, si FX est discontinue en x, alors x ∈ X(Ω) et P(X = x) > 0 ;
3. en dehors de ses points de discontinuité, FX est constante (elle est dite constante
par morceaux).
Preuve La preuve de ces propriétés est assez simple car l’essentiel fourni par les propriétés
3.2 et 3.3.
1. Soit donc x ∈ X(Ω) avec P(X = x) > 0. Alors d’après la propriété 3.3
P(X = x) = FX (x) − lim FX (x − h) > 0.

h→0+
On voit donc que la limite à gauche de FX en x est différente de la valeur FX (x), ce

qui montre que la fonction est discontinue en x.
2. Soit maintenant la situation inverse, c’est-à-dire un x tel que FX soit discontinue en
x. Comme FX est une fonction de répartition, ceci n’est possible que parce que la
limite à gauche de FX en x est différente de la valeur FX (x) (car on a continuité à
droite en tout point). On a donc
FX (x) − lim FX (x − h) > 0,

h→0+
par croissance de FX . En utilisant de nouveau la propriété 3.3, on en déduit que

P(X = x) > 0, ce qui n’est possible que si x ∈ X(Ω).
3. Enfin, considérons s et t avec s < t et FX (s) < FX (t). Alors, par définition de FX ,
P(X ∈]s,t]) = FX (t) − FX (s) > 0. Or P(X ∈]s,t]) = P(X ∈]s,t] ∩ X(Ω)). Comme
X(Ω) est (auSplus) dénombrable, ]s,t] ∩ X(Ω) est (au plus) dénombrable et peut
donc s’écrire i≥1 {xi }. Alors par sigma additivité, on a
X
P(X ∈]s,t] ∩ X(Ω)) = P(X = xi ).
i≥1
4.4. MOMENTS 57
Comme cette grandeur est strictement positive, au moins un des xi est tel que
P(X = xi ) > 0. De ce fait, il y a donc au moins une discontinuité sur l’intervalle ]s,t].
Par contra-position, s’il n’y a pas de discontinuité sur ]s,t], c’est que FX (s) = FX (t)
et donc que FX est constante sur l’intervalle.
\ Exemple 4.5 L’exemple 3.6 et la figure 3.2 sont typiques du cas d’une fonction de
répartition pour une variable aléatoire discrète. On voit notamment très bien sur la figure
le caractère constant par morceaux de FX . [
4.4 Moments
Nous avons vu dans la section 4.2 deux façons de caractériser une variable aléatoire,
le mode pour la tendance centrale et l’entropie pour la dispersion. Dans le cas discret
numérique, d’autres mesures sont disponibles. Elles exploitent le caractère numérique de
la variable et viennent compléter le mode et l’entropie.
Espérance
Définition 4.4 Soit X une variable aléatoire réelle et discrète sur (Ω, P). On appelle
espérance (mathématique) de X, la valeur numérique notée E(X) définie par
X
E(X) = xP(X = x), (4.2)
x∈X(Ω)
quand elle existe.
B Remarque 4.3 La série qui apparaît à droite dans l’équation (4.2) est bien définie
car X(Ω) est au plus dénombrable. On peut toujours l’écrire sous la forme suivante :
∞
X
E(X) = xi P(X = xi ),
i=1
quand la suite (xi )i≥1 donne X(Ω).

Le problème est que cette série ne converge pas toujours et donc que l’espérance n’est
pas toujours définie, d’où l’expression « quand elle existe » utilisée à la fin de la définition.
Dans le présent cours, on travaille beaucoup dans le cas fini pour lequel l’espérance existe
toujours. Dans les exemples du cas dénombrable, on supposera toujours que l’espérance
existe.
\ Exemple 4.6 Considérons le lancer d’un dé à six faces non truqué. On définit sur
Ω = { , , , , , } la variable aléatoire X qui indique la valeur de la face. On a donc
1
X(Ω) = {1, 2, 3, 4, 5, 6}. Il est évident que P(X = x) = 6 pour tout x ∈ X(Ω). On a donc
6
X
E(X) = xP(X = x),
x=1
6
1 X 17×6
= x= ,
6 6 2
x=1
7
= . [
2
L’exemple précédent montre que l’espérance s’apparente à une valeur moyenne. Intuitive-
ment, dans cet exemple, on s’attend à avoir aussi souvent chaque valeur entre 1 et 6. La
valeur obtenue « en moyenne » correspond donc intuitivement à la moyenne de ces valeurs.
De façon plus générale, la formule (4.2) peut être interprétée comme une moyenne pondérée
des valeurs prises par la variable aléatoire, les poids étant les probabilités d’obtenir ces
valeurs. En ce sens, l’espérance mathématique est une version théorique de la notion de
moyenne. Elle caractérise une forme de « position » pour une variable aléatoire. Elle donne
aussi une idée de la valeur moyenne obtenue en prenant plusieurs valeurs de la variable
aléatoire (de façon indépendante entre chaque répétition) au sous où cette valeur moyenne
s’approche de plus en plus de l’espérance quand le nombre de répétitions augmente.
Il est intéressante de comparer la notion d’espérance et celle de mode (dans le cas
d’une variable aléatoire numérique). Dans certaines situations, l’espérance d’une variable
aléatoire unimodale peut être proche de son mode (voir égale au mode), mais rien ne
l’oblige, comme le montre l’exemple suivant.
\ Exemple 4.7 Soit la variable aléatoire X à valeurs dans {−1, 0, 1, 2} de loi
x −1 0 1 2
1 3 1 1
P(X = x) 6 6 6 6
Il est clair que X est unimodale et que son mode est 0. Son espérance est donnée par
X
E(X) = xP(X = x),
x∈{−1,0,1,2}
1 3 1 1
= −1 × +0× +1× +2× ,
6 6 6 6
1
= .
3
On constante ainsi que l’espérance et le mode ne sont pas identiques. Le mode correspond
à la valeur la plus fréquente alors que l’espérance tient compte aussi des autres valeurs.[
L’espérance a des propriétés intéressantes, notamment la suivante.
Propriété 4.3 Soit (Ω, P) une expérience aléatoire et soit X une variable aléatoire réelle
et discrète sur (Ω, P). Alors pour tous nombres réels a et b, on a
E(aX + b) = aE(X) + b. (4.3)

4.4. MOMENTS 59
Rappelons que dans l’équation (4.3), l’expression aX + b désigne la variable aléatoire

φ(X) obtenue grâce à la fonction φ donnée par φ(x) = ax + b. Quand φ est quelconque,
on dispose du théorème de transport (aussi appelé théorème de transfert).
Théorème 4.1 Soit X une variable aléatoire réelle et discrète sur (Ω, P) et soit φ une
fonction de R dans R. On a
X
E(φ(X)) = φ(x)P(X = x). (4.4)
x∈X(Ω)
L’aspect remarquable du théorème apparaît quand on applique la formule (4.2) à la

variable φ(X). On obtient en effet
X
E(φ(X)) = tP(φ(X) = t).
t∈φ(X(Ω))
Pour appliquer cette formule, il faut donc calculer la loi de φ(X) (par exemple en utilisant
la proposition 3.1, puis faire la somme pondérée des valeurs prises par φ(X). Le théorème
de transport montre qu’on peut se contenter de faire la somme pondérée des φ(x) pour
x ∈ X(Ω), en utilisant la loi de X. Tout se passe comme si φ n’intervenait que sur les
valeurs de X, pas sur sa loi. La preuve du théorème éclaire ce point mais est assez abstraite.
Nous proposons donc à la place un exemple qui illustre cette preuve.
\ Exemple 4.8 Reprenons l’exemple 4.6 et la variable aléatoire X qui donne la valeur
de la face du dé. Soit Y = |X − 3|, la variable aléatoire obtenue à partir de la fonction φ
donnée par φ(x) = |x − 3|. Calculons la loi de Y . Pour ce faire, considérons le tableau
suivant qui associe aux valeurs de X celles de Y :
X 1 2 3 4 5 6
Y 2 1 0 1 2 3
On constate par exemple que
PY (2) = PX (φ−1 (2))

= PX ({1,5})
1 1
= +
6 6
1
= .
3
En conduisant ce type de calculs pour les autres valeurs, on constate que Y (Ω) = {0, 1, 2, 3}
et que la loi de Y est donnée par
y 0 1 2 3
1 1 1 1
P(Y = y) 6 3 3 6
On peut alors calculer E(Y ) :

X
E(Y ) = yP(Y = y),
y∈Y (Ω)
1 1 1 1
=0× +1× +2× +3× ,
6 3 3 6
3
= .
2
Or, en appliquant le théorème de transport, on obtient
X
E(Y ) = φ(x)P(X = x),
x∈X(Ω)
1 1 1 1 1 1
= φ(1) × + φ(2) × + φ(3) × + φ(4) × + φ(5) × + φ(6) × .
6 6 6 6 6 6
On remarque que φ(1) = φ(3) et donc qu’on peut regrouper les termes correspondants.
De façon plus générale, si φ(a) = φ(b), on peut remplacer φ(a)P(X = a) + φ(b)P(X = b)
par φ(a)P(X ∈ {a, b}). Ici, on obtient

1 1 1 1 1 1
E(Y ) = 0 × + 1 × + +2× + +3×
6 6 6 6 6 6
1 1 1 1
=0× +1× +2× +3× ,
6 3 3 6
3
= .
2
Toute l’astuce pour voir l’égalité entre les deux formules (directe et par le théorème de
transport) réside donc dans le regroupement des valeurs de x ∈ X(Ω) qui donnent la
même valeur de φ(x). Or, on sait que
P(Y = y) = PX (φ−1 (y)),

X
= P(X = x),
x∈φ−1 (y)
en appliquant les propriétés élémentaires des probabilités. On constate donc que

X
yP(Y = y) = φ(x) P(X = x),
x∈φ−1 (y)
ce qui est l’étape principale de la preuve du théorème de transport. [
Variance
De la même façon que l’espérance complète le mode dans la détermination de la
tendance centrale d’une variable aléatoire, la variance complète l’entropie dans l’estimation
de sa dispersion.
4.4. MOMENTS 61
Définition 4.5 Soit X une variable aléatoire réelle et discrète sur (Ω, P) dont l’espérance
E(X) existe. On appelle variance de X, la valeur numérique notée V(X) définie par
V(X) = E (X − E(X))2 ,

(4.5)
quand elle existe. Il s’agit donc de l’espérance de la variable aléatoire Y définie par
Y = (X − E(X))2 .
Quand la variance de X, son écart type est donné par
p
σ(X) = V(X). (4.6)
B Remarque 4.4 Comme nous l’avons déjà indiqué dans la remarque 4.3, l’espérance
d’une variable aléatoire n’existe pas toujours. Il en est de même pour la variance, celle-ci
étant une espérance.
Comme l’entropie, la variance mesure la dispersion d’une variable aléatoire.
Propriétés 4.4 Soit X une variable aléatoire réelle et discrète dont l’espérance et la
variance sont bien définies. On a alors
1. V(X) = x∈X(ω) (x − E(X))2 P(X = x).
P
2. V(X) ≥ 0 et V(X) = 0 si et seulement si X est constante (c’est-à-dire qu’il existe

un unique x ∈ X(Ω) tel que P(X = x) = 1).
3. V(X) = E X 2 − (E(X))2 .

4. pour tous nombres réels a et b V(aX + b) = a2 V(X).
Preuve La première propriété correspond à l’application directe du théorème de transport

à la fonction φ définie par φ(x) = (x − E(X))2 .
Pour la deuxième propriété, on utilise la première. On constate ainsi que la variance
est une somme de termes tous positifs (car une probabilité est toujours positive et qu’un
carré aussi). Donc V(X) ≥ 0.
Supposons que V(X) = 0. Cela signifie que chaque terme de la somme est nul et
donc que pour tout x ∈ X(Ω), (x − E(X))2 P(X = x) = 0.P Considérons un x ∈ X(Ω), tel
que P(X = x) > 0. Il en existe au moins 1 puisque que x∈X(Ω) P(X = x) = 1. Alors
x = E(X). De ce fait, il existe un unique x tel que P(X = x) = 1.
Nous montrerons les deux autres propriétés après avoir introduit la notion d’ensemble
de variables aléatoires.
En pratique, le calcul de la variance d’une variable aléatoire se fait soit à partir du

théorème de transport (propriété 1 ci-dessus) soit à partir de la propriété 3 ci-dessus.
\ Exemple 4.9 Reprenons l’exemple 4.6 et la variable aléatoire X qui donne la valeur
de la face du dé. Nous avons vu que E(X) = 72 . Calculons V(X) par les trois méthodes
possibles : à partir de la variable aléatoire Y = (X − E(X))2 , en appliquant le théorème
de transport à cette variable, ou avec la formule V(X) = E X 2 − (E(X))2 .
Par la première méthode, on commence par calculer les valeurs possibles de Y en

fonction de X, ce qui donne le tableau suivant :
X 1 2 3 4 5 6
25 9 1 1 9 25
Y 4 4 4 4 4 4
1 9 25

On a donc Y (Ω) = 4 4 4 . Le calcul de la loi de Y est simple, on trouve
, ,
1 9 25
y 4 4 4
1 1 1
P(Y = y) 3 3 3
On calcule alors E(Y ) = V(X) par

X
V(X) = yP(Y = y),
y∈Y (Ω)

1 1 9 25
= × + + ,
3 4 4 4
35
= .
12
Le calcul par la deuxième méthode est plus direct mais correspond à une formule plus
longue, soit
X 7 2

V(X) = x− P(X = x),
2
x∈X(Ω)

1 25 9 1 1 9 25
= × + + + + + ,
6 4 4 4 4 4 4
35
= .
12
Pour la troisième méthode, on calcule d’abord par le théorème de transfert E(X 2 ), ce qui
donne
X
E(X 2 ) = x2 P(X = x),
x∈X(Ω)
1
= × (1 + 4 + 9 + 16 + 25 + 36),
6
91
= .
6
Puis on applique la formule V(X) = E X 2 − (E(X))2 , ce qui donne

91 49
V(X) = − ,
6 4
35
= . [
12
4.4. MOMENTS 63
Vocabulaire
L’espérance et la variance étant deux mesures très utiles pour résumer numériquement
le comportement d’une variable aléatoire, il existe un vocabulaire spécifique construit à
partir d’elles.
Définition 4.6 Soit X une variable aléatoire numérique discrète dont l’espérance et la
variance sont bien définies.
1. Si E(X) = 0, X est dite centrée.
2. La variable aléatoire X − E(X) est obtenue à partir de X par centrage et elle est
centrée.
3. Si V(X) = 1, X est dite réduite.
X
4. Si V(X) > 0, la variable aléatoire σ(X) est obtenue à partir de X par réduction et
elle est réduite.
5. Si E(X) = 0 et V(X) = 1, X est dite centrée-réduite.
6. Si V(X) > 0, la variable aléatoire X−E(X)
σ(X) est obtenue à partir de X par centrage
et réduction et elle est centrée-réduite.
X−E(X)
On parle aussi de versions de X pour les différentes opérations. Par exemple σ(X) est
la version centrée-réduite de X.
Autres moments
L’espérance et la variance d’une variable aléatoire sont des moments de cette variable.
On a plus généralement toute une collection de moments.
Définition 4.7 Soit X une variable aléatoire numérique discrète. Soit r un entier stric-
tement positif. Le moment (dit aussi moment ordinaire) d’ordre r de X est donné par
Mr (X) = E(X r ), (4.7)

quand cette quantité est bien définie. Dans ce cas, on a
X
Mr (X) = xr P(X = x). (4.8)
x∈X(Ω)
Le moment centré d’ordre r est donné par
µr (X) = E ((X − E(X))r ) , (4.9)
quand cette quantité est bien définie. Dans ce cas, on a

X
µr (X) = (x − E(X))r P(X = x). (4.10)
x∈X(Ω)
L’espérance est donc le moment ordinaire d’ordre 1 alors que la variance est le moment
centré d’ordre 2.
4.5 Lois classiques

Un des intérêts majeurs du concept de variable aléatoire est qu’il permet de définir
directement des variables aléatoires sans passer par une expérience aléatoire, comme nous
l’avons vu notamment à la proposition 4.1. En pratique, il existe toute une collection
de lois classiques pour les variables aléatoires discrètes, très utiles pour modéliser divers
phénomènes.
Loi uniforme discrète

Définition 4.8 Soit U un ensemble fini. On dit qu’une variable aléatoire X à valeurs
dans U suit la loi uniforme sur U et on note X ∼ U(U ), si et seulement si sa loi est
donnée par
1
P(X = x) = , (4.11)
|U |
pour tout élément x de U .
Propriétés 4.5 Soit X une variable aléatoire de loi uniforme sur l’ensemble {1, . . . , n}.
Alors
1
1. P(X = k) = n pour tout k ∈ {1, . . . , n} ;
n+1
2. E(X) = 2 ;
n2 −1
3. V(X) = 12 .
B Remarque 4.5 Il faut bien être attentif au fait que la loi uniforme est définie pour
tout ensemble U mais que les propriétés indiquées ci-dessus ne sont valables que dans le
cas particulier de U = {1, . . . , n}. Si U n’est pas numérique, les notions d’espérance et de
variances ne s’appliquent pas. Si U est numérique mais par exactement égal à {1, . . . , n},
les valeurs de ces moments ne sont pas les mêmes. Par exemple si U = {−2, −1, 0, 1, 2} et
que X ∼ U(U ), alors E(X) = 0.
Loi de Bernoulli
Définition 4.9 Toute variable aléatoire à valeurs dans {0, 1} est dite suivre une loi de
Bernoulli. La valeur 1 représente le succès alors que le 0 représente l’échec.
La notation X ∼ B(p) indique que X suit une loi de Bernoulli de paramètre p,
c’est-à-dire que X(Ω) = {0, 1} et que P(X = 1) = p.
B Remarque 4.6 Une expérience aléatoire d’univers Ω = {Échec, Succès} est souvent
appelée une épreuve de Bernoulli. La variable aléatoire de Bernoulli associée est définie
par X(Échec) = 0 et X(Succès) = 1.
Propriétés 4.6 Soit X une variable de Bernoulli de paramètre p (X ∼ B(p)). Alors

1. E(X) = p ;
2. V(X) = p(1 − p).
4.5. LOIS CLASSIQUES 65
Loi binomiale
Définition 4.10 Soit n un entier strictement positif et p ∈ [0,1]. On dit qu’une variable
aléatoire X à valeurs dans {0, 1, . . . , n} suit une loi binomiale de paramètres n et p, et
on note X ∼ B(n, p), si et seulement si sa loi est donnée par
P(X = k) = Cnk pk (1 − p)n−k , (4.12)
pour tout k ∈ {0, 1, . . . , n}.
Propriétés 4.7 Soit X une variable de loi binomiale de paramètres n et p (X ∼ B(n, p)).
Alors
1. E(X) = np ;
2. V(X) = np(1 − p).
La loi binomiale est fortement liée à la loi de Bernoulli comme le montre la proposition
suivante qui donne aussi un « manuel d’utilisation » de la loi binomiale.
Proposition 4.2 Soit une expérience aléatoire consistant en n épreuves de Bernoulli

indépendantes et de même paramètre p. Soit X la variable aléatoire comptant le
nombre de succès obtenu sur l’ensemble de ces n épreuves. Alors X suit une loi binomiale
de paramètres n et p.
B Remarque 4.7 La notion d’indépendance utilisée ici est celle des évènements indé-
pendants dans leur ensemble (cf définition 2.3). Plus précisément, on suppose que les n
évènements (Ai )1≤i≤n , s’ils sont tels que chaque Ai ne concerne que l’épreuve numéro i,
sont indépendants dans leur ensemble.
Loi géométrique
Définition 4.11 Soit p ∈]0,1[. On dit qu’une variable aléatoire X à valeurs dans N∗
(l’ensemble des entiers strictement positifs) suit une loi géométrique de paramètre p, et
on note X ∼ G(p), si et seulement si sa loi est donnée par
P(X = k) = p(1 − p)k−1 , (4.13)
pour tout k ∈ N∗ .
B Remarque 4.8 La loi géométrique a un support infini dénombrable (contrairement

aux lois de Bernoulli et binomiale qui ont des supports finis).
Propriétés 4.8 Soit X une variable de loi géométrique de paramètre p (X ∼ G(p)). Alors
1
1. E(X) = p;
1−p
2. V(X) = p2
;
3. pour tout k ∈ N∗ , FX (k) = 1 − (1 − p)k .
Comme la loi binomiale, la loi géométrique est fortement liée à la loi de Bernoulli.
Proposition 4.3 Soit l’expérience aléatoire suivante : on effectue une série d’épreuves
de Bernoulli indépendantes et de même paramètre p, et on s’arrête à l’obtention du
premier succès. On considère la variable aléatoire X donnant le nombre d’épreuves de
Bernoulli réalisées (si X = k, on a obtenu k − 1 échecs et 1 dernier succès). Alors X suit
une loi géométrique de paramètre p.
Loi de Poisson
Définition 4.12 Soit λ un nombre réel strictement positif. On dit qu’une variable aléatoire
X à valeurs dans N suit une loi de Poisson de paramètre λ, et on note X ∼ P(λ), si et
seulement si sa loi est donnée par
λk e−λ
P(X = k) = , (4.14)
k!
pour tout k ∈ N.
Propriétés 4.9 Soit X une variable de loi de Poisson de paramètre λ (X ∼ P(λ)). Alors
1. E(X) = λ ;
2. V(X) = λ.
L’un des intérêts pratique de la loi de Poisson est qu’elle est proche d’une loi binomiale
dans certaines circonstances, ce qui permet d’approcher la loi binomiale et de simplifier
les calculs associés.
Propriété 4.10 (Loi des évènements rares) Soit X une variable aléatoire suivant
une loi binomiale B(n, p). Alors la loi de X est approximativement égale à la loi d’une
variable aléatoire de Poisson P(λ) avec λ = np quand
approximation grossière : n ≥ 20 et p ≤ 0,05 ;
approximation fine : n ≥ 100 et np ≤ 10.
En pratique, cela veut dire que si X ∼ B(n, p) et si les conditions d’approximation sont
vérifiées, alors
(np)k e−np
P(X = k) ' .
k!
Annexes
67
Annexe A
Théorie des ensembles
La théorie des ensembles est à la base des mathématiques. Elle est utilisée pour
construire la plupart des concepts de plus haut niveau, comme par exemple les probabilités.
Il s’agit d’une partie des mathématiques très formelle dont la maîtrise est largement hors
du programme du présent cours. Il faut cependant connaître un minimum de notions qui
sont rappelées dans ce chapitre, en général de façon assez informelle.
A.1 Notations et opérations

De façon informelle, nous considérerons un ensemble comme une collection d’objets.
Ces objets sont les éléments de l’ensemble. Il n’y a pas de restriction sur le contenu
d’un ensemble. Il peut notamment contenir d’autres ensembles et des objets de natures
différentes.
Nous rappelons ci-dessous des notations et concepts important en théorie des ensembles.
1. la notation ∅ désigne l’ensemble vide, c’est-à-dire l’ensemble ne contenant aucun
élément.
2. un ensemble fini (cf la définition C.2) est souvent donné en extension, c’est-à-dire
sous la forme de la liste des ses éléments.
\ Exemple A.1
A = {1, 2, 3} B = {a, b, {0}, 4} [
Bien que cela soit rare, on désigne parfois l’ensemble vide par ∅ = {}.
3. la notation x ∈ A indique que l’objet x est élément de A (on dit aussi que x
appartient à A). On note x 6∈ A pour dire que l’objet x n’est pas élément de A.
\ Exemple A.2
1 ∈ {1, 2, 3} {a, b} ∈ {{u, v}, 2, {a, b}}

2 6∈ ∅ {1} 6∈ {1, 2, 3}. [
69
70 ANNEXE A. THÉORIE DES ENSEMBLES
4. un ensemble peut être défini en compréhension ce qui revient à sélectionner dans

un ensemble existant les éléments qui vérifient une propriété.
\ Exemple A.3 L’ensemble des es entiers pairs U est défini à partir de l’ensemble
des entiers naturels N par
U = {x ∈ N | x est divisible par 2}. [
La forme générale de la définition en compréhension est
B = {x ∈ A | P (x)},
où P (x) est une propriété. Les éléments de B sont ceux de A qui rendent la propriété
vraie.
\ Exemple A.4 Si A = {1, 2, 3, 4} et que B = {x ∈ A | x + 1 ≤ 3}, alors

B = {1, 2}. [
5. si A et B sont deux ensembles, la notation A ⊂ B indique que A

est un sous-ensemble de B, c’est-à-dire que tous les éléments
de A sont aussi éléments de B. Plus formellement
B
(A ⊂ B) ⇔ (x ∈ A ⇒ x ∈ B).
A
Quand A ⊂ B, on dit que A est une partie de B. Le diagramme
ci-contre, dit diagramme de Venn, illustre A ⊂ B.
\ Exemple A.5
{2, 3} ⊂ {1, 2, 3} {2, {a, b}} ⊂ {{u, v}, 2, {a, b}}

[
6. si A et B sont deux ensembles, on note A ∪ B l’ensemble union de A et B, c’est-

à-dire l’ensemble constitué des éléments de A et des éléments de B (et seulement
eux). En d’autres termes, ce sont les objets éléments de A ou de B. Le diagramme
de Venn ci-dessous représente A ∪ B par l’ensemble délimité par la ligne épaisse,
chaque disque correspondant à un des deux ensembles A et B.
A B
A.1. NOTATIONS ET OPÉRATIONS 71
S généralise à plus de deux ensembles : soit (Ai )i≥1 une suite d’ensembles,
L’union se
on note i≥1 Ai l’union des Ai , c’est-à-dire l’ensemble constitué des objets qui
appartiennent à au moins un des Ai .
Notons que l’union ne peut pas s’écrire rigoureusement en compréhension.
\ Exemple A.6
{a, 2, {0}} ∪ {b, ∅, 3} = {a, 2, {0}, b, ∅, 3}. [
7. si A et B sont deux ensembles, on note A ∩ B l’ensemble intersection de A et B,

c’est-à-dire l’ensemble constitué des éléments de A qui sont aussi éléments de B (et
seulement eux). De façon équivalente par symétrie, ce sont aussi les éléments de B
qui sont aussi éléments de A (ou encore, les objets éléments de A et de B).
On peut définir l’intersection en compréhension par
A ∩ B = {x ∈ A | x ∈ B} = {x ∈ B | x ∈ A}.
Dans le diagramme de Venn ci-dessous, l’intersection est représentée par la zone
colorée au centre.
A A∩B B
Quand A ∩ B = ∅, on dit que le ensembles A et B sont disjoints. De plus, on dit

que l’union A ∪ B est une union disjointe.
généralise à plus de deux ensembles : soit (Ai )i≥1 une suite d’en-
L’intersection se T
sembles, on note i≥1 Ai l’intersection des Ai , c’est-à-dire l’ensemble constitué des
objets qui appartiennent à tous les des Ai .
\ Exemple A.7
{2, 3, 4} ∩ {1, 2, 3} = {2, 3} {a, b} ∩ {{a}, {b}} = ∅ [
8. si A et B sont deux ensembles, on note A \ B le complémentaire de B dans A,

c’est-à-dire les éléments de A qui ne sont pas éléments de B.
La définition du complémentaire en compréhension est
A \ B = {x ∈ A | x 6∈ B}.
Le diagramme de Venn ci-dessous représente A \ B par la zone colorée.
A B
A\B
\ Exemple A.8
{2, 3, 4} \ {1, 2, 3} = {4}. [
Quand tous les ensembles considérés sont des sous-ensembles d’un ensemble fixé
Ω, on note plus simplement A = Ω \ A et on parle alors de complémentaire
sans préciser relativement à quel ensemble. On remarque que si A et B sont deux
sous-ensembles de Ω, on a
A \ B = A ∩ B,
où B désigne comme convenu le complémentaire de B dans Ω.
9. si A et B sont deux ensembles, on note A∆B la différence symétrique entre A
et B. Cet ensemble est constitué de l’union des éléments de A qui ne sont pas dans
B et des éléments de B qui ne sont pas dans A. Par définition, on a donc
A∆B = (A \ B) ∪ (B \ A).
Il est facile de voir qu’on a aussi
A∆B = (A ∪ B) \ (A ∩ B).
\ Exemple A.9
{2, 3, 4}∆{1, 2, 3} = {1, 4}. [
10. si A est un ensemble, la notation P(A) désigne l’ensemble des parties de A,

c’est-à-dire l’ensemble dont les éléments sont tous les sous-ensembles possibles de A
(ce qui inclut notamment ∅ et A).
L’ensemble des parties ne peut pas être défini rigoureusement en compréhension.
\ Exemple A.10
P({a, 2}) = {∅, {a}, {2}, {a, 2}},

P({1, {a, b}}) = {∅, {1}, {a, b}, {1, {a, b}}}. [
A.2 Propriétés des opérations ensemblistes

Les opérations décrites dans la section précédente possèdent de nombreuses propriétés
utiles :
commutativité l’union et l’intersection sont commutatives, c’est-à-dire que tous en-
sembles A et B :
A ∩ B = B ∩ A,
A ∪ B = B ∪ A.
A.2. PROPRIÉTÉS DES OPÉRATIONS ENSEMBLISTES 73
associativité l’union et l’intersection sont associatives, c’est-à-dire que l’ordre d’une

série d’opérations n’importe pas. Plus précisément pour tous ensembles A, B et C :
(A ∩ B) ∩ C = A ∩ (B ∩ C),
(A ∪ B) ∪ C = A ∪ (B ∪ C).
élément neutre l’ensemble vide est un élément neutre de l’union, c’est-à-dire que pour
tout ensemble A,
∅ ∪ A = A.
Tout un ensemble Ω est un élément neutre de l’intersection pour ses sous-ensembles,
c’est-à-dire que pour tout ensemble A ⊂ Ω,
Ω ∩ A = A.
involution dans un ensemble Ω fixé, l’opération de passage au complémentaire est
involutive, c’est-à-dire que pour tout ensemble A ⊂ Ω,
A = A.
distributivité l’union et l’intersection sont distributives l’une par rapport à l’autre,
c’est-à-dire que pour tous ensembles A, B et C :
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C),
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C).
dualité dans un ensemble Ω fixé, l’opération de passage au complémentaire satisfait
les lois de De Morgan (aussi appelées lois de dualité), c’est-à-dire que pour tous
ensembles A et B :
A ∪ B = A ∩ B,
A ∩ B = A ∪ B.
On peut se convaincre de la véracité de certaines de ces propriétés en utilisant des dia-
grammes de Venn. Par exemple, le diagramme ci-dessous représente en couleur l’ensemble
A ∪ B = Ω \ (A ∪ B).
A B
On constate qu’il s’agit bien de l’intersection de deux régions/ensembles représenté(e)s

ci-dessous :
Ω Ω
A B A B
A B
A.3 Produit cartésien

Définition A.1 Soit A et B deux ensembles, le produit cartésien de A et B (ou de A
par B), noté A × B est l’ensemble de tous les couples de la forme (a, b) avec a ∈ A et
b ∈ B.
Le carré cartésien A × A est noté A2 par analogie entre l’opération de multiplication
entre nombres réels et le produit d’ensembles.
\ Exemple A.11 Si A = {2, a}, alors

A2 = {(2, 2), (2, a), (a, 2), (a, a)}. [
La notion de produit cartésien se généralise de 2 à n ensembles.
Définition A.2 Soit A1 , . . . , An , n ensembles. On appelle n-uplet sur ces ensembles une
liste (a1 , . . . , an ) d’objets telle que ∀i, 1 ≤ i ≤ n, ai ∈ Ai . L’ensemble des Q n-uplets est le
produit cartésien de A1 , .Q . . , An , noté A1 × A2 × · · · × An , ou encore ni=1 Ai .
Le produit cartésien de ni=1 A est noté An .
Il est important de noter que dans un n-uplet, l’ordre des éléments est pris en compte.
Par exemple, si a et b sont deux éléments distincts de A, la paire (a, b) ∈ A2 est différente
de la paire (b, a).
A.4 Partition
Définition A.3 Soit A un ensemble et P = {C1 , C2 , . . . , Ck } un ensemble de k sous-
ensembles de A. On dit que P est une partition de A si et seulement si les propriétés
suivantes sont vérifiées :
1. aucun des Ci n’est vide : ∀i , 1 ≤ i ≤ k, Ci 6= ∅ ;
2. les Ci ne s’intersectent pas : ∀i, j, 1 ≤ i ≤ k, 1 ≤ j ≤ k, i 6= j ⇒ Ci ∩ Cj = ∅ ;
3. l’union des Ci forme A tout entier : A = ki=1 Ci .
S
\ Exemple A.12 Soit A = {1, a, z, {u, v}}. Une partition de A est donnée par les trois
ensembles suivants :
C1 = {1} C2 = {z, {u, v}},
C3 = {a}.
En revanche, les ensembles suivants ne forment pas une partition de A :
C1 = {1} C2 = {u, v},
C3 = {a, z}.
En effet, leur union vaut {1, a, z, u, v}, un ensemble distinct de A. [
En probabilité, on utilise très fréquemment des partitions car les propriétés fondamentales
des probabilités (cf propriétés 1.1) assurent que la probabilité d’un évènement A est égale
A.4. PARTITION 75
à la somme des probabilités des évènements formant une partition de A. On utilise en

particulier les propriétés suivantes :
Propriétés A.1 Soit A et B deux ensembles.

1. A ∪ B est l’union disjointe des trois ensembles P = {A \ B, A ∩ B, B \ A} ;
2. si A et B sont d’intersection non vide (A ∩ B 6= ∅) et si A 6= B, alors l’ensemble
P = {A \ B, A ∩ B, B \ A} est une partition de A ∪ B ;
3. si P 0 = {B1 , . . . , Bk } est une partition de B et que A ⊂ B, alors A est l’union
disjointe de k ensembles Ai = A ∩ Bi pour 1 ≤ i ≤ k.
A B
Figure A.1: Illustration de la décomposition de A ∪ B en l’union disjointe (A \ B) ∪ (A ∩

B) ∪ (B \ A) par un diagramme de Venn. A \ B est en rouge, B \ A en bleu et A ∩ B en
violet.
Annexe B
Fonctions
B.1 Définition
De façon informelle, une fonction est un moyen d’associer à chaque élément d’un
ensemble au plus élément d’un autre ensemble. Par exemple la fonction « valeur absolue »
associe à un nombre quelconque soit le nombre lui même s’il est positif, soit son opposé
s’il est négatif.
Pour définir une fonction, il faut donc un ensemble de départ, par exemple A, et un
ensemble d’arrivée, par exemple B. Il faut ensuite lister les associations entre certains
éléments de l’ensemble de départ et les éléments correspondants dans l’ensemble de départ.
Une association entre deux éléments peut être représentée comme une paire (x, y) avec
x ∈ A et y ∈ B. Mathématiquement, la fonction est alors un ensemble de ces paires. La
définition formelle est alors la suivante.
Définition B.1 Soit A et B deux ensembles. Une fonction f de A vers B est une partie
de A × B, telle que si (x, y) ∈ f et (x, y 0 ) ∈ f , alors y = y 0 .
Si (x, y) ∈ f , on note f (x) = y. On dit alors que y est l’image par f de x et que x est
un antécédent de y par f . L’ensemble des x ∈ A tels qu’il existe y ∈ B avec (x, y) ∈ f
est le domaine de définition de f .
Pour résumer les notations pour une fonction particulière, on note
f : A → B
(B.1)
x 7→ y = f (x)
On utilise souvent le concept d’image directe.
Définition B.2 Soit f une fonction de A dans B. Soit U un sous-ensemble de A. On

appelle image directe de U par f le sous-ensemble de B défini par
{y ∈ B|∃x ∈ U, f (x) = y}. (B.2)
B.2 Cas particuliers

Définition B.3 Soit f une fonction de A vers B. f est dite
77
78 ANNEXE B. FONCTIONS
injective si pour tout x et y dans le domaine de définition de f , x 6= y implique f (x) 6=

f (y).
surjective si pour tout y dans B, il existe au moins un x dans A tel que f (x) = y.
Une fonction à la fois injective et surjective est dite bijective. En pratique, chaque élément
de A est donc associé à un unique élément de B et vice versa.
B.3 Composition de fonctions

Définition B.4 Soit trois ensembles, A, B et C et deux fonctions, f de A dans B et g
de B dans C. On suppose que f (A) est inclus dans le domaine de définition de g. Alors
on peut composer les deux fonctions en une fonction h, notée h = g ◦ f , la fonction
composée de f et g. h est une fonction de A dans C avec le même domaine de définition
que f et donnée par
h(x) = g(f (x)), (B.3)
pour tout x dans le domaine de définition de f .
B.4 Fonction réciproque

Définition B.5 Soit A et B deux ensembles et f une fonction de A dans B. On appelle
fonction réciproque de f la fonction notée f −1 de P(B) dans P(A) définie par
∀U ⊂ B , f −1 (U ) = {a ∈ A|f (a) ∈ U }.
B Remarque B.1 La notion de fonction réciproque utilisée en probabilité ne coïncide

pas exactement avec la notion classique réservée aux fonctions bijectives car on travaille
ici sur une fonction ensembliste : f −1 associe un ensemble à un autre ensemble, plutôt
qu’un élément à un autre élément.
La fonction réciproque possède quelques propriétés intéressantes résumées ci-dessous.
Propriétés B.1 Soit A et B deux ensembles et f une fonction de A dans B. f −1 vérifie

les propriétés suivantes :
1. f −1 (B) = A.
2. pour toute suite de parties de B, les (Bi )i≥1 (suite finie ou non)
 
[ [
f −1  Bi  = f −1 (Bi ) ,
i≥1 i≥1
et  
\ \
f −1  Bi  = f −1 (Bi ) .
i≥1 i≥1
B.4. FONCTION RÉCIPROQUE 79
3. pour tout sous-ensemble U de B,
f −1 B = f −1 (B).

Soit A, B et C trois ensembles, f une fonction de A dans B et g une fonction de B dans

C, alors on a
(g ◦ f )−1 = f −1 ◦ g −1 ,

c’est-à-dire que pour tout U sous-ensemble de C, on a
(g ◦ f )−1 (U ) = f −1 g −1 (U ) .

Annexe C
Dénombrement
C.1 Ensembles finis et ensembles dénombrables

Définition C.1 Soit A et B deux ensembles. On dit que A est en bijection avec B s’il
existe une fonction f bijective de A vers B dont le domaine de définition est A tout entier.
Définition C.2 Soit A un ensemble. On dit que A est fini si A est vide ou s’il existe un
entier n > 0 tel que A soit en bijection avec {0, . . . , n − 1}. On appelle n le cardinal de
A qui est noté |A|, card(A) ou encore #A. C’est le nombre d’éléments de A. L’ensemble
vide est de cardinal nul.
Quand A est fini, on peut numéroter ces éléments et donc écrire
A = {a1 , a2 , . . . , an },
si n = |A|.
Définition C.3 Soit A un ensemble. On dit que A est dénombrable si A est en bijection
avec l’ensemble des entiers naturels N. En pratique, un ensemble dénombrable se décrit
comme une suite infinie d’éléments, sous la forme
A = {a0 , a1 , . . . , an , an+1 , . . .}.
C.2 Cardinaux et opérations ensemblistes

On peut parfois calculer le cardinal du résultat d’une opération ensembliste à partir
des cardinaux des ensembles impliquées, comme dans les cas suivants :
Union disjointe soient A et B deux ensembles finis disjoints, c’est-à-dire tels que A∩B =
∅. On a alors
|A ∪ B| = |A| + |B|.
Union soient plus généralement deux ensembles finis, on a
|A ∪ B| = |A| + |B| − |A ∩ B|.
81
82 ANNEXE C. DÉNOMBREMENT
Complémentaire soient A et B deux ensembles finis

|A \ B| + |A ∩ B| = |A|,
et donc en particulier si B ⊂ A, on a
|B| = |A| − |B|.
Attention, cette égalité n’est pas vérifiée si B n’est pas un sous-ensemble de A.
Ensemble des parties soit A un ensemble fini, on a
|P(A)| = 2|A| .
Produit cartésien soient A1 , . . . , An , n ensembles finis, on a

|A1 × A2 × · · · × An | = |A1 | × |A2 | × · · · × |An |.
C.3 Listes d’éléments

On considère un ensemble fini A de cardinal n et les produits cartésiens Ap (de
cardinaux np ). Comme rappelé plus haut, un élément d’un de ces produits cartésiens
est un p-uplet constitué d’éléments de A, aussi appelé une liste à p éléments ou une
p-liste. On s’intéresse ici aux cardinaux de certains sous-ensembles des Ap dans lesquels
les p-uplets ne contiennent pas de répétition.
Permutations
Définition C.4 Soit A un ensemble. On appelle permutation de A une fonction f
bijective de A dans lui même.
Si A est un ensemble fini de cardinal n toute permutation de A correspond à une

numérotation (ou un ordre) des éléments de A qu’on peut représenter par un n-uplet
particulier de An . D’après la définition d’un ensemble fini, A s’écrit sous la forme
A = {a1 , a2 , . . . , an },
ce qui définit une numérotation naturelle de ses éléments. Le n-uplet correspondant est
(a1 , a2 , . . . , an ).
Une permutation de A est alors un autre n-uplet contenant exactement une fois chaque
élément de A. Par exemple (a2 , a3 , . . . , an , a1 ) et (an , an−1 . . . , a2 , a1 ) sont des permuta-
tions de A. On assimile ainsi les permutations d’un ensemble A au sous-ensemble de An
constitué des n-uplets qui contiennent exactement une fois chaque élément de A.
Théorème C.1 Un ensemble fini A de cardinal n > 0 possède exactement n! permutations

distinctes, où
n! = 1 × 2 × · · · × (n − 1) × n,
est la factorielle de n.
Par convention, on pose 0! = 1 et on considère que l’ensemble vide admet une unique
permutation.
C.4. SOUS-ENSEMBLES 83
Ce résultat est assez clair intuitivement. En effet pour construire une liste de n éléments
distincts, il faut d’abord choisir le premier élément parmi les n éléments de l’ensemble.
Mais dès le deuxième élément, le choix se fait parmi seulement les n − 1 éléments restants,
etc. On donc n choix, puis n − 1 choix, n − 2 choix, et ainsi de suite jusqu’au dernier
choix qui est imposé (c’est l’élément restant). On retrouve ainsi la définition de n!.
Arrangements
Les permutations sont un cas particulier de listes à n éléments distincts choisis dans
un ensemble de n éléments. On peut en effet se contenter de choisir p < n éléments en
respectant toujours le principe de n’avoir que des éléments distincts.
Définition C.5 Soit A un ensemble fini de cardinal n et soit un entier 1 ≤ p ≤ n. On

appelle arrangement de p éléments de A une fonction injective de {1, . . . , p} dans A.
De façon équivalente un arrangement est une p-liste d’éléments distincts choisis parmi
les n éléments de A.
Théorème C.2 Un ensemble fini A de cardinal n possède exactement Apn arrangements

distincts (pour 1 ≤ p ≤ n) avec
n!
Apn = n × (n − 1) × · · · × (n − p + 1) = .
(n − p)!
C.4 Sous-ensembles
Dans certaines situations, on s’intéresse à des « listes » d’éléments distincts d’un
ensemble A dans lesquelles l’ordre n’est pas important. Il s’agit donc en fait de sous-
ensembles de cardinal fixé d’un ensemble A. On les dénombre grâce au théorème suivant.
Théorème C.3 Soit A un ensemble fini de cardinal n et soit un entier p, 0 ≤ p ≤ n.

L’ensemble A possède exactement Cnp sous-ensembles distincts de cardinal p, où
n! n × (n − 1) × · · · × (n − p + 1) Apn
Cnp = = = .
(n − p)!p! p! p!
Ces sous-ensembles sont appelés des combinaisons de p éléments parmi n.
B Remarque C.1 La notation Cnp est peu utilisée en dehors des zones francophones.
On lui préfère la notation np dans le reste du monde. Il faut bien noter l’inversion des

positions : le n est en indice dans Cnp alors qu’il est situé en haut dans np , mais il s’agit

bien de la même valeur.
La relation Cnp = Apn /p! s’explique assez bien intuitivement. Pour construire un sous-
ensemble à p éléments de A, on peut en effet utiliser une liste de p éléments distincts
de A et ne pas tenir compte de l’ordre de son contenu. Comme il y a p! ordres possibles
(permutations) pour p éléments, on voit qu’un ensemble correspond à p! listes différentes.
84 ANNEXE C. DÉNOMBREMENT
Pour obtenir le nombre d’ensembles, il faut donc diviser le nombre de listes Apn par le
nombre d’ordres possibles pour chaque liste p!.
C.5 Résultats complémentaires

Certaines opérations de dénombrement peuvent être réalisées en combinant des résul-
tats classiques énoncés dans les sections précédentes avec des transformations bijectives
d’ensembles. Cependant, ces techniques sont un peu laborieuse. Nous énonçons donc ici
des résultats qui pourraient être retrouvés avec ces techniques mais qu’il est intéressant
de connaître.
Théorème C.4 Soit un ensemble Ω et A1 , . . . , Ak , k sous-ensembles de Ω, deux à deux

disjoints. Soit k entiers n1 , . . . , nk tels que pour tout i, ni ≤ |Ai |. Alors
k
Y ni
|{B1 ∪ . . . ∪ Bk ⊂ Ω | ∀i Bi ⊂ Ai , |Bi | = ni }| = C|A i|
.
i=1
Il s’agit ici de choisir des sous-ensembles de Ω de tailles fixées (les ni ) de telle sorte que
chaque sous-ensemble Bi soit contenu dans une partie Ai de Ω. Comme les parties Ai sont
disjointes, le choix des Bi est essentiellement indépendant : chaque Bi est déterminé en
dehors des considérations sur les autres Bj . On obtient de ce fait un produit des nombres
de choix possibles pour chacun des Bi .
\ Exemple C.1 Soit Ω = {1, . . . ,9}. On cherche à dénombrer tous les sous-ensembles
de Ω contenant 4 valeurs distinctes, deux paires et deux impaires. Prenons pour A1 les
entiers impairs de Ω et pour A2 les entiers pairs. En fixant n1 = n2 = 2, on se retrouve
dans les conditions du théorème. Le nombre de sous-ensembles est donc
C52 C42 = 10 × 6 = 60. [

Évolutions de ce document
La dernière version de ce document se trouve sur la page http:

//apiacoa.org/teaching/statistics/index.fr.html.
29/01/2018 : version 0.5.3

— ajout de l’approximation de la loi binomiale par la loi de Poisson
— ajout d’un théorème classique de dénombrement
29/01/2017 : version 0.5.2
— correction d’une erreur de notation sur les partitions
05/01/2017 : version 0.5.1
— ajout d’exemples dans les rappels de théorie des ensembles
— modification des marges
24/02/2016 : version 0.5.0
— première version du chapitre 4 sur les variables aléatoires discrètes :
— définition
— notion d’entropie
— fonction de répartition dans le cas discret
— notion d’espérance
— notion de variance
— notion de moment
— lois discrètes classiques
— chapitre 3 : ajout de la notion de mode
23/02/2016 : version 0.4.4
— réorganisation des annexes
— ajout de la définition formelle d’une fonction et des propriétés importantes des
fonctions
20/02/2016 : version 0.4.3
— annexe A : ajout de la notion de différence symétrique
— chapitre 3 : ajout de la notion de variable aléatoire fonction d’une autre
26/01/2015 : version 0.4.2 corrections de fautes de frappe et clarification de certains
points.
20/01/2015 : version 0.4.1
— modifications du chapitre 3 :
— ajout de la notion de support
85
86 ÉVOLUTIONS DE CE DOCUMENT
— illustration graphique de la définition de la loi d’une variable aléatoire

— ajout de graphes de fonction de répartition
— ajout d’un exemple simple d’utilisation du théorème de la réciproque
— ajout de propriétés de la fonction de répartition
— ajout du théorème de caractérisation
— ajout d’un exemple montrant que l’égalité des lois n’implique pas l’égalité
des variables aléatoires
19/01/2015 : version 0.4.0
— utilisation de symboles pour les exemples avec des dés
— remarque sur les unions et intersections dénombrables
— précision sur la numérotation des suites
— exemples de probabilités arbitraires sur des ensembles finis
— discussion détaillée sur les problèmes liés aux résultats discernables ou non
— notion d’indépendance conditionnelle
— deux exemples complexes d’indépendance conditionnelle
— correction de fautes de frappe
— indexation
— introduction des notations de la forme P(X ≤ t)
— modifications des annexes :
— rappel de la notion de définitions en extension et compréhension d’un ensemble
— précision sur la notion d’union disjointe et de décomposition
— ajout de diagrammes de Venn
— calcul du cardinal d’un complémentaire
09/04/2014 : version 0.3.0
— début de la rédaction du chapitre 3 :
— introduction élémentaire aux variables aléatoires
— définition d’une variable aléatoire et de sa loi
— notations simplifiées pour la loi d’une variable aléatoire
— définition et propriété de la fonction de répartition
— théorème de la réciproque
— ajout de propriétés des probabilités (suite croissante ou décroissante d’ensembles)
10/02/2014 : version 0.2.3 fin de la rédaction du chapitre 2 :
— expériences aléatoires composées
— règle des probabilités totales
— règle de Bayes
— indépendance
08/03/2014 : version 0.2.2 ajout de la définition des fonctions réciproques (ensem-
blistes)
10/01/2014 : version 0.2.1 ajout de la notation internationale np et de la définition

des partitions
10/01/2013 : version 0.2.0 début de rédaction du chapitre 2 :
— introduction à la notion d’évènement réalisé
87
— définition des probabilités conditionnelles

10/01/2013 : version 0.1.1 utilisation de la virgule pour les nombres non entier
25/02/2012 : version 0.1 première version complète du chapitre 1
Index
Appartenance, 69 Épreuve aléatoire, voir Expérience aléa-

∈, 69 toire
Arrangement, 83 Équiprobabilité, 14
Associativité, 73 Espérance, 57
E, 57
Cardinal, 81 Espace des états, voir Univers
Carré cartésien, 74 Espace des possibles, voir Univers
Centrage, 63 Évènement, 4
Combinaison, 83 Évènement élémentaire, 4
Commutativité, 72 Évènement certain, 6
Complémentaire, 72 Évènement contraire, 6
, 72 Évènement impossible, 6
Complémentaire relatif, 71 Évènement réalisé, 22
\, 71 Évènements incompatibles, 6
Évènements indépendants, 31
Définition en compréhension, 70
Expérience aléatoire, 1
Définition en extension, 69
Expérience aléatoire composée, 24
Dénombrable, 81
Diagramme de Venn, 70 Factorielle, 82
Différence symétrique, 72 Fonction, 77
∆, 72 antécédent, 77
Distributivité, 73 bijective, 78
Dualité, 73 composition, 78
◦, 78
∈, 69
domaine de définition, 77
Élément, 69
ensemble d’arrivée, 77
Élément neutre, 73
ensemble de départ, 77
Ensemble dénombrable, 81
image, 77
Ensemble des parties, 72
image directe, 77
P, 72
injective, 78
Ensemble fini, 81
réciproque, 78
cardinal, 81
surjective, 78
Ensemble fondamental, voir Univers
Fonction de répartition, 42
Ensemble vide, 69
autres propriétés, 45
∅, 69
propriétés fondamentales, 44
Ensembles disjoints, 71
théorème de la réciproque, 47
Ensembles en bijection, 81
Entropie, 54 Inclusion, 70
89
90 INDEX
Incompatible, voir Évènements incompa- dualité, 73

tibles inclusion, 70
Indépendance, 31, 32 ⊂, 70
⊥
⊥, 31 intersection, 71
Indépendance conditionnelle, 35 ∩, 71
Intersection, 71 involution, 73
∩, 71 Lois de De Morgan, 73
Involution, 73 sous-ensemble, 70
union, 70
Loi classique discrète ∪, 70
Bernoulli, 64 union disjointe, 71
B(p), 64
binomiale, 65 PX , 39
B(n, p), 65 p-liste, 82
géométrique, 65 Partie, 70
G(p), 65 Partition, 74
Poisson, 66 Permutation, 82
P(λ), 66 Probabilité, 7
uniforme, 64 Probabilité conditionnelle, 21
U(U ), 64 Probabilité uniforme, 14
Loi d’une variable aléatoire, 39 Produit cartésien, 74
propriétés, 41 ×, 74
Loi de Poisson
Loi des évènements rares, 66 Réduction, 63
Loi des évènements rares, 66 Règle de Bayes, 29
Lois de De Morgan, 73 Règle des probabilités totales, 26
Mesure de probabilité, 7 Sigma additivité, 7

Moment, 63 Sous-ensemble, 70
centré, 63 ⊂, 70
ordinaire, 63 Support d’une variable aléatoire, 38
n-uplet, 74 Théorème de la réciproque, 47

Théorème de transfert
Ω, 1 cas discret, 59
Opérations ensemblistes
∆, 72 Union, 70
Opérations ensemblistes ∪, 70
élément, 69 Union disjointe, 71
∈, 69 Univers, 1
élément neutre, 73 fini, 12
associativité, 73
commutativité, 72 Variable aléatoire, 37
complémentaire, 72 centrée, 63
, 72 centrée-réduite, 63
complémentaire relatif, 71 centrage, 63
\, 71 centrage et réduction, 63
Différence symétrique, 72 discrète, 53
INDEX 91
Entropie, 54
Espérance, 57
E, 57
fonction d’une autre, 50
loi, 51
fonction de répartition, 42
loi, 39
PX , 39
moment, 63
moment centré, 63
moment ordinaire, 63
numérique, 42
réduction, 63
réduite, 63
réelle, 42
support, 38
X(Ω), 38
Variance, 61
V, 61
Variable aléatoire discrète, 53
Variance, 61
V, 61
X(Ω), 38

Cours

Transféré par

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Cours

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours

Transféré par

Droits d'auteur :

Formats disponibles

Probabilités et statistique

Université Paris 1 Panthéon-Sorbonne

Cours de deuxième année de licence de sciences économiques

Table des matières iii

1 Expérience aléatoire et probabilités 1

4 Variables aléatoires discrètes 53

A Théorie des ensembles 69

Expérience aléatoire et probabilités

1.1 Expérience aléatoire

\ Exemple 1.2 L’univers de l’expérience du lancer de dé de l’exemple 1.1 est l’ensemble

L’univers d’une expérience aléatoire étant un ensemble, sa description s’appuie sur

La nature de l’expérience peut conduire à des univers relativement complexes, comme

\ Exemple 1.6 Considérons une urne contenant 3 jetons numérotés de 1 à 3. On tire

l’univers, on introduit l’ensemble des résultats d’un seul dé, R = { , , , , , }. On

Mathématiquement, un évènement s’exprime sous forme d’un ensemble. On peut aussi le

Bien que parfaitement correcte mathématiquement, cette formulation ne renseigne pas

La traduction d’une formule logique en évènement dépend de la modélisation effectuée,

\ Exemple 1.12 On reprend l’exemple 1.8 et on considère l’évènement « obtenir un

\ Exemple 1.13 On considère l’expérience du lancer simultané de deux dés (exemple

Cette représentation exacerbe les différences entre les deux dés.

Ce résultat est parfaitement correct mathématiquement, mais il peut surprendre, ce qui

1.3 Vocabulaire probabiliste

Vocabulaire probabiliste Vocabulaire ensembliste Notation

A2 rois = ((Roi, c1 ), (Roi, c2 ))) | (c1 , c2 ) ∈ {♣, ♠, ♥, ♦}2 et c1 6= c2 .

On utilise une deuxième décomposition pour le premier évènement en s’appuyant sur le

un roi en premier ou obtenir exactement un roi en deuxième ». De nouveau, on doit donc

Apremier roi = ((Roi, c1 ), (r, c2 ))) | (c1 , c2 ) ∈ {♣, ♠, ♥, ♦}2 et r 6= Roi ,

Asecond roi = ((r, c1 ), (Roi, c2 ))) | (c1 , c2 ) ∈ {♣, ♠, ♥, ♦}2 et r 6= Roi .

Finalement, l’évènement « obtenir au moins un roi » s’écrit donc

Cette seconde propriété est la sigma additivité de la mesure de probabilité.

Classiquement, les probabilités s’interprètent comme des limites de fréquences. Considé-

P(Ω) = {∅, {pile}, {face}, {pile, face}} .

P({pile, face}) = P(Ω) = 1.

Si la pièce est parfaitement régulière, l’interprétation ci-dessus conduit à poser

P({pile}) = P({face}) = 0,5.

Comme l’évènement ∅ ne se produit jamais (l’expérience à toujours un résultat), il semble

P(A ∪ B) = P(A) + P(B) − P(A ∩ B),

et en particulier quand A ∩ B = ∅, P(A ∪ B) = P(A) + P(B) ;

la deuxième égalité S P(∅) = 0 que nous venons de démontrer. Comme en

P(Ω) = 1 = P (A) + P (A),

ce qui conduit donc à P(A) = 1 − P(A).

On appliquer alors la propriété 2, ce qui donne

7. La propriété 7 s’obtient simplement en passant au complémentaire. En effet, si la

ce qui permet de conclure car limn→+∞ P(An ) = 1 − limn→+∞ P(An ).

s’interprète de la façon suivante : il existe un indice k tel que pour tout i ≥ k, ω ∈ Ai .

1.5 Probabilités sur un univers fini

Preuve (hors programme) Soit donc Ω = {ω1 , . . . , ωn } et deux probabilités P1 et P2

On parle alors d’équiprobabilité pour l’expérience concernée.

B Remarque 1.5 Le choix d’utiliser la probabilité uniforme pour modéliser le hasard

On peut détailler le contenu de Ωu en recensant toutes les possibilités, ce qui donne

Les propriétés classiques des probabilités simplifient grandement le calcul de la probabilité

Le calcul de la probabilité d’un évènement dans le cas d’équiprobabilité se ramène donc

On en déduit que pour la probabilité uniforme, P(B) = 12 . [

Ω = {K ⊂ J | |K| = p} = {{j1 , . . . , jp } ⊂ J | ∀(k, l) k 6= l ⇒ jk 6= jl } .

D’après l’annexe C, Ω est donc l’ensemble des combinaisons de p éléments choisis

Ω = {K ⊂ {1, 2, . . . , 42} | |K| = 6} .

moins de 6 numéros : la situation se complique quand le tirage ne donne pas la com-

Ap = {K ⊂ {1, . . . , 42} | |K| = 6, |K ∩ T | = p} ,