Initiation Aux Probabilités

Initiation
aux probabilités
Traduction de la quatrième S h e l d o n M . ROSS
édition américaine
Traduit de l'américain par Christian Hofer et Frédéric Dorsaz
Presses polytechniques et universitaires romandes

DANS LA COLLECTION «ENSEIGNEMENT DES MATHÉMATIQUES»
DIRIGÉE PAR LE PROFESSEUR ROBERT C . DALANG
Calcul différentiel et intégral

Jacques Douchet et Bruno Zwahlen
1 Fonctions réelles d'une variable réelle
2 Fonctions réelles de plusieurs variables réelles - Exercices résolus
3 Fonctions réelles d'une variable réelle - Exercices résolus
4 Fonctions réelles de plusieurs variables réelles - Exercices résolus
Algèbre linéaire
Renzo Cairoli
Cours d'analyse, 3 volumes

Srishti-D. Chatterji
Algèbre linéaire
Robert C. Dalang, Amel Chaabouni
Recherche opérationnelle pour ingénieurs I

Dominique de Werra, Thomas M. Liebling, Jean-François Hêche
Recherche opérationnelle pour ingénieurs II

Jean-François Hêche, Thomas M. Liebling, Dominique de Werra
Analyse, Recueil d'exercices et aide-mémoire vol. 1 et 2

Jacques Douchet
Analyse avancée pour ingénieur

Bernard Dacorogna, Chiara Tanteri
Introduction à l'analyse numérique

Jacques Rappaz, Marco Picasso
Les Presses polytechniques et universitaires romandes sont une fondation

scientifique dont le but est principalement la diffusion des travaux de l'Ecole
polytechnique fédérale de Lausanne, d'autres universités francophones ainsi
que des écoles techniques supérieures. Le catalogue de leurs publications peut
être obtenu par courrier aux Presses polytechniques et universitaires romandes,
EPFL - Centre Midi, CH-1015 Lausanne, par E-Mail à ppur@epfl.ch,
par téléphone au (0)21 693 41 40, ou par fax au (0)21 693 40 27.
www.ppur.org
Version originale: A first course in probability

Copyright © 1994 (1976, 1984, 1988) Macmillan Publishing Company
Traduction de la quatrième édition américaine revue et augmentée

ISBN 2-88074-327-3
© 1987, 1990, 1995, 1996, 1999, 2002, 2004, Presses polytechniques et universitaires romandes,
CH-1015 Lausanne
Tous droits réservés.
Reproduction, même partielle, sous quelque forme ou sur quelque support
que ce soit, interdite sans l'accord écrit de l'éditeur.
Imprimé en Suisse
Avant-propos à l'édition française
Publié par Macmillan, New York, sous le titre «A first course in probability», cet
ouvrage a été écrit en anglais en 1976 par Sheldon M. Ross. Il fait partie de la
nouvelle génération de textes d'introduction au calcul des probabilités. Nouveau dans
le sens qu'il s'éloigne de l'ouvrage phare de Feller «An introduction to probability
theory and its applications», en mettant l'accent sur les notions de probabilité
conditionnelle, plutôt que sur les aspects combinatoires de la probabilité.
Dès sa parution, ce livre a connu un succès énorme auprès des universités et des
collèges américains. Le succès de la traduction française, publiée par les Presses
polytechniques romandes en 1987, n'en fut pas moins grand car l'ouvrage comblait
une lacune de la littérature traitant du calcul des probabilités en langue française. Il a
très vite été reconnu comme un texte excellemment adapté aux besoins des étudiants
qui cherchent une introduction au sujet à la fois directe et rigoureuse sans un appareil
mathématique trop lourd.
Cette troisième édition française, basée sur la quatrième version américaine de

1994, retient le même nombre de chapitres que la précédente, mais se distingue par
une nouvelle organisation de la matière. En particulier, les notions de l'espérance
mathématique et de la variance d'une variable aléatoire sont avancées au chapitre 4,
immédiatement après l'introduction des variables aléatoires discrètes. Cela entraîne
des changements dans les chapitres suivants et donne lieu à toute une classe de
problèmes nouveaux. Par conséquent, le nombre total des exercices théoriques et des
problèmes s'élève dans cette édition à presque 600. Le succès du texte de S. Ross
réside en premier lieu dans le choix excellent des exemples, exercices et problèmes
et cet ouvrage restera très attractif dans les années à venir, pour des cours d'initiation
aux probabilités au niveau universitaire.
Cette nouvelle version a été préparée par Monsieur F. Dorsaz. Je le remercie du

soin et de l'engagement manifestés pour cette tâche.
Peter Nüesch
Préface
«... On réalise en fin de compte que la théorie des probabilités n'est tout simple-
ment que le bon sens réduit à du calcul. Elle nous fait apprécier avec exactitude ce
que l'esprit bien fait sent déjà par une sorte d'instinct, souvent sans être capable d'en
rendre compte... Il est remarquable que cette science, qui a pris son origine dans
l'étude des jeux de chance, soit devenue l'objet le plus important de la connaissance
humaine. Les questions les plus importantes de la vie ne sont en réalité, pour
l'essentiel, que des problèmes de probabilité».
Ainsi pensait le «Newton» des Français, le célèbre mathématicien et astronome
Pierre Simon, marquis de Laplace. On est en droit de penser que l'illustre marquis
- qui fut d'ailleurs l'un des grands contributeurs à l'essor des probabilités - a un peu
exagéré. Il n'en est pas moins certain que la théorie des probabilités est devenue un
outil d'importance fondamentale pour un nombre considérable de scientifiques,
d'ingénieurs, de médecins, de juristes et d'industriels. En fait l'homme éclairé a appris
à ne plus demander «est-ce ainsi?» mais plutôt «quelle est la probabilité qu'il en soit
ainsi?».
Ce livre se veut une introduction élémentaire à la théorie mathématique des
probabilités pour les étudiants qui possèdent assez de connaissances préalables en
calcul différentiel et intégral, qu'ils travaillent en mathématiques, dans les sciences de
l'ingénieur et même dans n'importe quelle science en général (y compris les sciences
sociales et du management). Il essaie de présenter non seulement la partie mathémati-
que de la théorie des probabilités mais aussi, et à travers une foule d'exemples, les
nombreuses applications possibles de cette connaissance.
Dans le chapitre 1 sont présentés les principes de base de l'analyse combinatoire,
qui sont extrêmement utiles pour le calcul des probabilités.
Dans le chapitre 2 on considère les axiomes de la théorie des probabilités et on
montre comment ils peuvent être utilisés pour calculer les probabilités auxquelles on
s'intéresse. Ce chapitre inclut une preuve de l'importante (et malheureusement sou-
vent négligée) propriété de continuité des probabilités, qui est alors utilisée pour la
résolution d'un paradoxe.
Le chapitre 3 traite des très importantes notions de probabilité conditionnelle
et d'indépendance d'événements. Par une série d'exemples, nous illustrerons com-
ment les probabilités conditionnelles interviennent non seulement quand des informa-
tions partielles sont disponibles mais aussi comme outils pour nous permettre de
calculer des probabilités plus facilement, même si aucune information partielle n'est
présente. Cette technique qui permet efficacement d'obtenir des probabilités en
conditionnant réapparaît au chapitre 7, où nous l'utilisons avec la notion d'espérance
conditionnelle.
VIII Préface
Dans les chapitres 4, 5 et 6 est discuté le concept de variable aléatoire. Les variables
aléatoires discrètes sont traitées au chapitre 4, les variables continues au chapitre 5
et les variables conjointes au chapitre 6. Les importants concepts d'espérance et de
variance d'une variable aléatoire sont introduits dans les chapitres 4 et 5. Ces quan-
tités sont alors déterminées pour plusieurs types courants de variables aléatoires.
Des propriétés supplémentaires de l'espérance sont présentées dans le chapitre 7.
De nombreux exemples illustrant l'utilité du résultat «l'espérance d'une somme de
variables aléatoires est égale à la somme de leurs espérances» sont également donnés.
Ce chapitre comprend d'autre part une section sur l'espérance conditionnelle, incluant
son utilisation en vue de la prédiction, et une autre sur les fonctions génératrices des
moments. Enfin, la dernière section présente la distribution normale multivariée ainsi
qu'une preuve simple concernant la distribution conjointe de la moyenne et de la
variance d'un échantillon provenant d'une distribution normale.
Au chapitre 8 sont présentés les principaux résultats théoriques de la théorie des
probabilités. Nous démontrerons en particulier la loi forte des grands nombres et le
théorème central limite. Notre démonstration de la loi forte est relativement simple en
admettant que les variables aléatoires ont un quatrième moment fini, et celle du
théorème central limite repose sur le théorème de continuité de Levy. Des inégalités
sur les probabilités sont aussi présentées dans ce chapitre, telles que l'inégalité de
Markov, celle de Chebyshev et les bornes de Chernoff. La dernière section du chapitre
8 donne une borne pour l'erreur induite par l'approximation d'une probabilité
concernant la somme de variables aléatoires indépendantes de Bernoulli par la proba-
bilité correspondante d'une variable aléatoire de Poisson de même espérance.
Le chapitre 9 présente quelques thèmes choisis tels que les chaînes de Markov, le
processus de Poisson ainsi qu'une introduction à la théorie de l'information et du
codage.
Le chapitre 10 traite des aspects de la simulation de façon plus étoffée que dans
l'édition précédente.
De nombreux exemples sont traités tout au long du texte et le lecteur trouvera aussi
quantité d'exercices - où l'on a distingué des exercices théoriques et des problèmes -
proposés pour approfondissement. Un grand soin a été porté à la formulation de ces
exemples et problèmes. Une solution à la plupart des problèmes est indiquée à la fin
de l'ouvrage tandis que pour les enseignants un recueil de solutions est disponible.1
Nous aimerions remercier les correcteurs suivants: Thomas R. Fischer, Texas A & M
University; Jay Devore, California Politechnic University, San Luis Obispo; Robb
J. Muirhead, University of Michigan; David Heath, Cornell University; M. Samuels,
Purdue University; I.R. Savage, Yale University; R. Müller, Stanford University.
K. B. Athreya, Iowa State University; Phillip Beckwith, Michigan Tech; Howard
Bird, St. Cloud State University; Steven Chiappari, Santa Clara University; James
Clay, University of Arizona at Tucson; Francis Conlan, University of Santa Clara;
Fred Leysieffer, Florida State University; Ian McKeague, Florida State University;
Helmut Mayer, University of Georgia; N. U. Prabhu, Cornell University; Art
Schwartz, University of Michigan at Ann Arbor; Therese Shelton, Southwestern
University; and Allen Webster, Bradley University.
1
Seulement dans la version anglaise. Pour l'obtenir, s'adresser directement à Macmillan
Publishing Company 866 Third Avenue, New York, New York 10 022.
Table des matières
PRÉFACE VII
CHAPITRE 1 ANALYSE COMBINATOIRE

1.1 Introduction 1
1.2 Principe fondamental de dénombrement 2
1.3 Permutations 3
1.4 Combinaisons 6
1.5 Coefficients multinomiaux 10
1.6 Répartition de boules dans des urnes 12
1.7 Exercices théoriques 14
1.8 Problèmes 17
CHAPITRE 2 AXIOMES DES PROBABILITÉS

2.1 Introduction 23
2.2 Ensemble fondamental et événement 23
2.3 Axiomes des probabilités 28
2.4 Quelques théorèmes élémentaires 31
2.5 Ensembles fondamentaux à événements élémentaires
équiprobables 35
2.6 Théorème de passage à la limite 44
2.7 Probabilité en tant que mesure du crédit accordé à un
fait 48
2.9 Problèmes 53
CHAPITRE 3 PROBABILITÉ CONDITIONNELLE ET INDÉPENDANCE

3.1 Introduction 61
3.2 Probabilités conditionnelles 61
3.3 Formule de Bayes 66
X Initiation aux probabilités
3.4 Evénements indépendants 75

3.5 Fonction de probabilité conditionnelle 90
3.7 Problèmes 102
CHAPITRE 4 VARIABLES ALÉATOIRES

4.1 Variables aléatoires 115
4.2 Fonctions de répartition 120
4.3 Variables aléatoires discrètes 123
4.4 Espérance 126
4.5 Espérance d'une fonction d'une variable aléatoire 128
4.6 Variance 132
4.7 Variable de Bernoulli et variable binomiale 134
4.8 Variable aléatoire de Poisson 144
4.9 Autres lois discrètes 154
4.11 Problèmes .. 168
CHAPITRE 5 VARIABLES ALÉATOIRES CONTINUES

5.1 Introduction 183
5.2 Espérance et variance de variables aléatoires continues . . . 186
5.3 Variable aléatoire uniforme 191
5.4 Variables aléatoires normales 195
5.5 Variables aléatoires exponentielles 208
5.6 Autres distributions continues 216
5.7 Distribution d'une fonction de variable aléatoire 221
5.9 Problèmes 228
CHAPITRE 6 VARIABLES ALÉATOIRES SIMULTANÉES

6.1 Définition des distributions simultanées 235
6.2 Variables aléatoires indépendantes 245
6.3 Sommes de variables aléatoires indépendantes 255
6.4 Distributions conditionnelles 260
6.5 Statistiques d'ordre 265
6.6 Changement de variables multidimensionnelles 270
6.8 Problèmes 281
CHAPITRE 7 PROPRIÉTÉS DE L'ESPÉRANCE

7.2 Espérance d'une somme de variables aléatoires 290
7.3 Covariance, variance de sommes, corrélation 305
7.4 Espérance conditionnelle 316
7.5 Espérance conditionnelle et prédiction 328
7.6 Fonctions génératrices des moments 333
7.7 Autres propriétés des variables aléatoires normales 334
7.8 Définition générale de l'espérance mathématique 347
Table des matières XI

7.10 Problèmes 358
CHAPITRE 8 THÉORÈMES LIMITES

8.2 Loi faible des grands nombres 371
8.3 Théorème central limite 375
8.4 Loi forte des grands nombres 382
8.5 Autres inégalités 385
8.6 Bornes pour l'erreur de probabilité commise
en approximant une loi binomiale par une loi
de Poisson 391
8.8 Problèmes 396
CHAPITRE 9 THÈMES CHOISIS DE PROBABILITÉ

9.1 Processus de Poisson 401
9.2 Chaînes de Markov 404
9.3 Surprise, incertitude, entropie 410
9.4 Théorie du codage et entropie 414
9.5 Exercices théoriques et problèmes 420
9.6 Références 423
CHAPITRE 10 SIMULATION
10.2 Techniques générales pour la simulation de variables
aléatoires continues 428
10.3 Simulation de variables aléatoires discrètes 436
10.4 Techniques de la réduction de la variance 438
10.5 Problèmes 442
SOLUTIONS À QUELQUES PROBLÈMES CHOISIS 447
INDEX 453
CHAPITRE 1
Analyse combinatoire
1.1 INTRODUCTION
Examinons d'emblée un problème typique de ceux mettant en jeu la notion de
probabilité. Un système de communication est composé de n antennes identiques
alignées. Ce système ne pourra alors capter de signal incident - il sera alors qualifié
de fonctionnel - qu'aussi longtemps que deux antennes consécutives ne seront pas
défectueuses. Si on découvre qu'exactement m des n antennes sont défectueuses, quelle
est la probabilité que ce système reste fonctionnel?
Etudions par exemple le cas particulier où n = 4 et m = 2. Le système peut alors
se trouver dans l'une des 6 configurations suivantes:
0 1 1 0
0 1 0 1
1 0 1 0
0 0 1 1
1 0 0 1
1 1 0 0
où 1 signifie que l'antenne fonctionne et 0 qu'elle est défectueuse. Comme notre
système sera fonctionnel dans les trois premières configurations mais pas dans les trois
dernières, il semble raisonnable d'attribuer à la probabilité cherchée la valeur3/6=1/2
On pourrait de manière similaire calculer la probabilité que le système fonctionne
pour des valeurs quelconques de m et de n. Plus précisément il faudrait calculer le
nombre de configurations qui maintiennent le système fonctionnel et le diviser par
le nombre de toutes les configurations possibles.
Cet exemple permet de réaliser qu'il est souhaitable de disposer d'une méthode
efficace pour dénombrer les différentes situations pouvant se présenter lors d'une
expérience. En fait, bien des problèmes en théorie des probabilités peuvent être résolus
simplement en comptant le nombre de manières différentes selon lesquelles un certain
événement peut se réaliser. Par convention on appelle analyse combinatoire la théorie
mathématique du dénombrement.
2 Initiation aux probabilités
1.2 PRINCIPE FONDAMENTAL DE DÉNOMBREMENT
1.2.1 Version restreinte
Ce principe de dénombrement (ci-dessous théorème 1.1) sera essentiel par la suite.

Il établit en gros que si une expérience peut produire m résultats et une autre n, alors
il y a mn résultats possibles lorsqu'on considère ces deux expériences ensemble.
Théorème 1.1
Supposons qu'il faille réaliser deux expériences. Si l'expérience 1 peut produire l'un
quelconque de m résultats et si, pour chacun d'entre eux, il y a n résultats possibles
pour l'expérience 2, alors il existe mn résultats pour les deux expériences prises
ensemble.
DÉMONSTRATION. On peut obtenir la démonstration en énumérant tous les résultats

des deux expériences comme suit:
(1,1),(1,2) (1,n)
(2,l),(2,2),...,(2,n)
(m, 1), (m, 2 ) , . . . , (m, n)
Dans ce tableau un résultat a été noté (i,j) si l'expérience 1 a produit le /-ème de ses
résultats et si l'expérience 2 a produit le j-ème des siens. On voit que l'ensemble des
résultats possibles est composé de m lignes de n éléments chacune, ce qui démontre
le résultat annoncé. •
Exemple 1.1 Une petite communauté se compose de dix hommes et de leurs fils,
chaque homme ayant trois fils. Si un homme et l'un de ses fils doivent être désignés
«père et fils exemplaires», combien y a-t-il de choix différents possibles?
SOLUTION. En considérant le choix du père comme la première expérience et ensuite

le choix de l'un de ses fils comme la seconde, nous conclurons d'après le principe
fondamental qu'il y a 10-3 = 30 choix possibles. •
1.2.2 Principe fondamental généralisé
Lorsqu'il y a plus de deux expériences à réaliser, le principe fondamental peut être

généralisé comme suit:
Théorème 1.2
Si r expériences doivent être réalisées et sont telles que la première peut produire l'un
quelconque de n1 résultats, et si pour chacun d'entre eux il y a n2 résultats possibles
pour la 2e expérience, et si pour chaque résultat des deux premières expériences il
y en an3pour la3eexpérience, et ainsi de suite, il y aura alors au total n1 n2 .... -nr
résultats pour les r expériences prises ensemble.
Analyse combinatoire 3
1.2.3 Exemples d'applications du principe fondamental
Exemple 1.2 Le comité de planification d'un collège est constitué de 3 étudiants de

première année, 4 de deuxième, 5 de troisième et 2 de dernière année. Un sous-comité
de 4 étudiants comportant un représentant de chaque classe doit être choisi. Combien
peut-on former de sous-comités?
SOLUTION. Nous pouvons considérer le choix d'un sous-comité comme le résultat

combiné de 4 expériences distinctes, chacune consistant à choisir un unique représen-
tant dans l'une des classes. Par conséquent, en application de la version généralisée
du principe fondamental, il y a 3 • 4 • 5 • 2 = 120 sous-comités possibles. •
Exemple 1.3 Combien de plaques minéralogiques portant un matricule de 7 carac-

tères peut-on former si les 3 premiers caractères sont des lettres et les 4 derniers
des chiffres?
SOLUTION. En application de la version généralisée du principe de base, la réponse

est 26 • 26 • 26 • 10 • 10 • 10 • 10 = 175 760 000. •
Exemple 1.4 Combien de fonctions définies sur n points peut-on construire si ces
fonctions ne peuvent prendre pour valeur que 0 ou 1?
SOLUTION. Numérotons de 1 à M les points. Puisque f(i) ne peut prendre pour chaque
i = 1, 2,..., n que deux valeurs, il y a 2n de ces fonctions. •
Exemple 1.5 Dans l'exemple 1.3, combien de plaques minéralogiques pourrait-on

avoir si l'on excluait que les lettres ou les chiffres se répètent?
SOLUTION. Dans ce cas, il y aurait 26 • 25 • 24 • 10 • 9 • 8 • 7 = 78 624 000 plaques

possibles. •
1.3 PERMUTATIONS
1.3.1 Permutations d'objets distinguables
Combien existe-t-il d'arrangements ordonnés des lettres a, b et c? Par énumération

directe nous en trouvons 6, à savoir: abc, acb, bac, bca, cab et cba. Chaque arrange-
ment est par convention appelé permutation. Il y a ainsi 6 permutations possibles des
éléments d'un ensemble de 3 objets. Ce résultat aurait également pu être construit à
partir du principe fondamental; la première lettre de la permutation peut être
n'importe laquelle des 3, la deuxième lettre peut ensuite être choisie parmi les 2
restantes tandis que la troisième ne peut plus faire l'objet d'aucun choix. Ainsi, il y a
3-2-1 = 6 permutations possibles.
L'expression n!, dite n factorielle est définie par l'équation

n! = n(n-1)(n-2) ...3-2-1 (1.1)
Supposons maintenant que nous ayons n objets. Un raisonnement analogue à celui

que nous venons d'utiliser ci-dessus établit le théorème suivant:
Théorème 1.3
Le nombre de permutations de n objets est n! .
1.3.2 Exemples de permutations
Exemple 1.6 Combien d'ordres à la batte peut-on avoir pour une équipe de baseball
de 9 joueurs'?
SOLUTION. Il existe 9! = 362 880 ordres selon lesquels les joueurs peuvent se succéder
à la batte. •
Exemple 1.7 Un cours de théorie des probabilités est suivi par 6 hommes et 4 femmes.
Un examen a lieu, puis les étudiants sont classés selon leur note. On suppose exclu
que deux étudiants obtiennent la même note.
• Combien de classements peut-on avoir?
• Si les hommes sont classés entre eux uniquement et les femmes entre elles, combien
de classements globaux peut-on avoir?
SOLUTION.
• Comme chaque classement correspond à un certain arrangement ordonné de 10
personnes, on voit que la réponse à cette partie du problème est 10! = 3 628 800.
• Comme il y a 6! classements des hommes entre eux et 4! classements des femmes
entre elles, il résulte par application du principe fondamental qu'il y aura dans ce
cas (6!)(4!) = (720)(24) = 17 280 classements possibles. •
Exemple 1.8 M. Jones va disposer 10 livres sur un rayon de sa bibliothèque. Quatre

d'entre eux sont des livres de mathématiques, trois de chimie, deux d'histoire et un
de langue. Jones aimerait ranger ses livres de façon que tous les livres traitant du
même sujet restent groupés. Combien y a-t-il de dispositions possibles?
SOLUTION. Il y a 4! 3! 2! 1! dispositions telles que les livres de mathématiques se

présentent devant, derrière eux les livres de chimie, puis ceux d'histoire, enfin celui
de langue. Pour chaque autre ordre de présentation des sujets il y a de même 4! 3! 2! 1!
dispositions des livres. Par conséquent, comme ces ordres de présentation des sujets
sont au nombre de 4!, la réponse cherchée est 4! 4! 3! 2! 1! = 6 912. •
1.3.3 Permutations d'objets partiellement indistinguables
Nous allons maintenant nous attacher à déterminer le nombre de permutations

dans un ensemble de n objets quand certains de ces objets sont indistinguables les uns
des autres. Pour mieux saisir de quoi il s'agit, considérons l'exemple suivant:
Ndt: A tour de rôle, tous les joueurs doivent servir à la batte lors du jeu, sans répétition.
Exemple 1.9 Combien d'arrangements différents peut-on former avec les lettres
P E PPER ?
SOLUTION. On remarquera d'abord qu'il existe 6! permutations des lettres P1 E1 P2

P3 E2 R lorsque les trois P et les deux E sont distingués les uns des autres. Cependant,
considérons l'une quelconque de ces permutations - Pt P2 E1 P3 E2 R par exemple -.
Si nous permutons les P entre eux et les E entre eux, l'arrangement résultant sera
encore de la même forme P P E P E R. En fait, chacune des 3! 2! permutations
P, P2 E, P , E2 R F, P2 E2 P3 E1 R
P, P3 Et P2 E2 R P, P3 E2 P 2 E1 R
P2 P1 E1 P3 E2 R P2 P, E2 P3 E1 R
P2 P3 E1 Pi E2 R P2 P 3 E2 P1 E1 R
P3 P1 E1 P2 E2 R P 3 P, E2 P2 E1 R
P3 P2 E1 P1 E2 R P3 P2 E2 P1 E1 R
est de la forme P P E P E R. Par conséquent il y aura 6!/(3! 2!) = 60 arrangements

possibles des lettres P E P P E R. m
Plus généralement, grâce au même raisonnement que celui utilisé dans l'exemple
1.9, on établit le théorème suivant:
Théorème 1.4
Il y a
n,!n2!---n,! (1.2)
permutations différentes de n objets parmi lesquels n, sont indistinguables entre eux,
n2 autres entre eux également, ..., nr entre eux.
1.3.4 Exemples de permutations d'objets partiellement indistinguables
Exemple 1.10 Parmi les 10 participants à un tournoi d'échec, on compte 4 russes,

3 américains, 2 anglais et un brésilien. Si dans le classement du tournoi on ne peut
lire que la liste des nationalités des joueurs mais pas leur identité, à combien de
classements individuels différents une telle liste correspond-elle?
SOLUTION. Il y a
10!
4!3!2!1 = 12,600
classements possibles.
Exemple 1.11 On compose des signaux en alignant des drapeaux suspendus. Combien
de ces signaux peut-on former si parmi les drapeaux à disposition 4 sont blancs, 3 sont
rouges, 2 sont bleus et si tous les drapeaux d'une même couleur sont indistinguables?
SOLUTION. Il y a
9!
1260
4!3!2!
signaux différents. •
1.4 COMBINAISONS
1.4.1 Définitions
Nous serons souvent intéressés à déterminer le nombre de groupes de r objets qu'il

est possible de former sans répétition à partir d'un total de n objets. Par exemple,
combien de groupes de 3 objets peut-on construire en tirant parmi les 5 objets A, B,
C, D et El Pour y répondre, on peut raisonner comme suit: puisqu'il y a 5 façons de
choisir le premier objet, 4 de choisir ensuite le deuxième et 3 de choisir le dernier, il
y a donc 5 - 4 - 3 façons de composer des groupes de 3 objets en tenant compte de
l'ordre dans lequel ces objets sont choisis. Cependant, un triplet donné, par exemple
le triplet constitué des objets A, B et C, apparaîtra 6 fois. En effet, chacune des
permutations ABC, ACB, BAC, BCA, CAB et CBA sera distinguée lorsqu'on tient
compte de l'ordre. Il en résulte que le nombre total de groupes pouvant être formés
est
5-4-3
= 10
3-2-1
Plus généralement, n (N—1) ... (n — r+1) représente le nombre de manières de
choisir un groupe de r objets parmi n lorsqu'on tient compte de l'ordre. Comme
chaque groupe de r objets sera distingué r! fois dans ce dénombrement, le nombre de
groupes de r objets pris dans un ensemble de n sera
n(n-l)---(n-r+l)_ n!
r! (n-r)!r!
L'expression ("), pour r = n, est définie par l'équation2
(r) (n-r)!r!
Une combinaison de r objets pris parmi n est tout sous-ensemble de r objets choisis
sans répétition dans un ensemble en contenant n.
Théorème 1.5
(") est le nombre de combinaisons de r objets pris parmi n, ou encore le nombre de
groupes de taille r si, dans le choix, l'ordre n'est pas considéré comme significatif.
'' Par convention 0! a pour valeur 1. Donc (fj) = (") = 1. De plus ( " ) = 0 lorsque i < 0 ou i > n.
1.4.2 Exemples de calcul de combinaisons
Exemple 1.12 On veut former un comité comprenant 3 des 20 personnes d'un groupe.
Combien y a-t-il de ces comités?
SOLUTION. Il y a (23°) = 20 l 9 18
3'. 2 .'| = 1 140 comités possibles. •
Exemple 1.13 A partir d'un groupe de 5 hommes et de 7 femmes, combien de comités

différents composés de 2 hommes et de 3 femmes peut-on former? Qu'en est-il si 2 des
femmes s'entendent mal et refusent de siéger simultanément au comité?
SOLUTION. Comme il y a (|) groupes possibles de 2 hommes et (3) groupes possibles

de 3 femmes, il y a selon le principe fondamental (2) • (3) = | - | (~-^) = 350 comités
de 2 hommes et 3 femmes.
Considérons maintenant le cas où deux des femmes refusent de siéger ensemble
au comité. Comme il y aura (l)(l) groupes possibles de trois femmes ne contenant
aucune des deux ennemies en question et (2)(j) groupes contenant exactement l'une
des deux, il y aura par conséquent (0X3) + fyil) = 30 groupes de 3 femmes ne
contenant pas les deux ennemies à la fois. Puisqu'il y a (2) façons de choisir les
2 hommes, il sera possible au total de composer 30 • (2) = 300 comités différents. •
Exemple 1.14 Considérons un ensemble de n antennes alignées dont m sont défec-

tueuses et n — m en état de marche. Supposons que les antennes défectueuses soient
indiscernables entre elles et que celles qui marchent le soient également entre elles.
Combien de configurations peut-on trouver pour lesquelles deux antennes défectueu-
ses ne sont jamais voisines?
SOLUTION. Imaginons d'abord un alignement composé des seules n — m antennes

fonctionnelles. Si maintenant deux antennes défectueuses ne doivent jamais être
voisines, les espaces entre les antennes fonctionnelles ne peuvent contenir chacun
qu'au plus une antenne défectueuse. Considérons le schéma suivant:
oFoFoFo... oFoFo
où F désigne un emplacement d'antenne fonctionnelle et o un emplacement pour au
plus une antenne en panne. Parmi les n — m+ 1 positions du type o il faut en choisir
m où mettre effectivement les antennes défectueuses. Il y a par conséquent ("~™+l)
dispositions pour lesquelles on trouve toujours une antenne fonctionnelle au moins
entre deux antennes défectueuses. •
1.4.3 Identité remarquable

L'identité suivante entre grandeurs combinatoires est très utile:
Théorème 1.6
CK-XV) —
DÉMONSTRATION. L'équation (1.4) peut être démontrée analytiquement mais aussi

grâce à l'argument combinatoire suivant: considérons un groupe de n objets et fixons
notre attention sur l'un d'entre eux en particulier, appelons-le objet 1. Il y a alors (" ~,')
combinaisons de taille r qui contiennent l'objet 1 (puisque chaque combinaison de ce
genre est formée en choisissant r— 1 objets parmi les n— 1 restants). Il y a également
("71) combinaisons de taille r ne contenant pas l'objet 1. Comme il y a au total (")
combinaisons de taille r, (1.4) se trouve vérifiée. •
1.4.4 Théorème du binôme
Les nombres (") sont souvent appelés coefficients binomiauxen raison de leur rôle
dans le théorème du binôme.
Théorème 1.7
Nous allons exposer deux démonstrations du théorème du binôme. La première est

obtenue au moyen d'un raisonnement par induction, tandis que la seconde est basée
sur des considérations d'analyse combinatoire.
DÉMONSTRATION PAR INDUCTION. Pour n = 1, (1.5) se réduit à
*+y = (J)*v+(î)*v = x+y

Admettons que (1.5) soit vérifiée pour M— 1. Alors
(x + y)n= (x + y)(x + y) n - 1
-"•»Ê(VK-'
k=o\ k / k=o\ k /
En posant i = k + 1 dans la première somme et / = k dans la seconde on obtient
n , v i l i n—i . n
+ xy +y
-" l{i)
où l'avant-dernière transformation est obtenue grâce à (1.4). Ce théorème se trouve

donc démontré par induction.
DÉMONSTRATION PAR UN ARGUMENT D'ANALYSE COMBINATOIRE. Considérons le produit

suivant:
(xl + yi)(x2 + y2) ... (xn + yn)
En le développant on obtient une somme de 2" termes, chaque terme étant un produit
de n facteurs. Chacun des 2n termes de la somme contiendra à son tour soit le facteur
Xj, soit j>, et ceci pour tout i = 1, 2,..., n. Par exemple:
(xi + yi)(x 2 + y2) = xxx2 + xxy2 + y,x 2 + yxy2
Combien maintenant de ces 2" termes de la somme auront-ils k facteurs en x et (n — k)

en y! Comme chaque terme constitué par k des xi et (n — k) des j , correspond au choix
d'un groupe de k des n valeurs xu x2,..., xn, il y aura (£) de ces termes. Par conséquent,
en posant x, = x, yi = y pour i = 1,2, ..., n nous voyons que
1.4.5 Exemples d'application du théorème de binôme
Exemple 1.15 Développer (x+yf.
SOLUTION.
(,+,)'-QA'+(>V+(^+Q,V
= y3 + 3xy2 + 3x2y + x3 m
Exemple 1.16 Combien y a-t-il de sous-ensembles d'un ensemble à n éléments?
SOLUTION. Puisqu'il y a (£) sous-ensembles de taille k, la réponse est
.tC;)-"*1»"-2"
On pourrait aussi obtenir ce résultat en assignant à chaque élément de l'ensemble
soit le nombre 0 soit le nombre 1. A chaque assignation complète correspond de
manière biunivoque un sous-ensemble: celui constitué de tous les éléments auxquels
a été attribuée la valeur 1. Comme il y a 2" jeux d'assignations possibles, on obtient
bien le résultat précédent. Notons que nous avons admis comme sous-ensemble celui
ne contenant aucun élément (c'est-à-dire l'ensemble vide). Par conséquent, le nombre
de sous-ensembles non-vides est 2"— 1. •
1.5 COEFFICIENTS MULTINOMIAUX
1.5.1 Introduction
Nous traiterons dans cette section du problème suivant: un ensemble de n

objets distincts doit être divisé en r groupes de tailles respectives n,, n2, ..., nr, avec
r
£ « , = n. De combien de manières peut-on le faire?

Pour le savoir remarquons qu'il y a („") possibilités de choix pour le premier
groupe; pour chacun de ces choix il y a ("~"') possibilités de choix pour le deuxième
groupe; pour chaque choix des deux premiers groupes il y a ("~"J~"') possibilités pour
le troisième groupe et ainsi de suite. En utilisant alors la version généralisée du
principe fondamental de dénombrement il y aura
divisions possibles.
Soit r nombres n„ n2, ..., nr tels que n1+n2 + ... + nr = n. Le terme (n„ n2,..., nj
est défini par l'équation
(1.6)
Théorème 1.8
Le coefficient f „, „" „rJ représente le nombre de répartitions possibles de n objets en
r groupes distincts de tailles respectives «,, n2, .... nr.
1.5.2 Exemples d'application du théorème 1.8
Exemple 1.17 Le poste de police d'une petite ville compte 10 agents. Si l'organisation
de ce poste est d'avoir 5 agents en patrouille, 2 au poste travaillant activement et les
3 autres au poste également mais de réserve, à combien de répartitions de ces agents
en trois groupes ainsi définis peut-on procéder?
SOLUTION. Il y a —^ = 2520 répartitions. •

Exemple 1.18 II faut répartir 10fillesen deux équipes A et B de 5 personnes chacune.

L'équipe A sera placée dans une ligue et l'équipe B dans une autre. Combien y a-t-il
de répartitions possibles?
SOLUTION. Il y en a | | = 252. •
Exemple 1.19 Pour disputer un match de basketball, 10 garçons se répartissent en

deux équipes de 5. De combien de manières peuvent-ils procéder?
SOLUTION. Il faut remarquer que cet exemple est différent du précédent car ici l'ordre
des deux équipes n'a pas d'importance: plus précisément il n'y a pas d'équipe A se
distinguant d'une équipe B, mais seulement 2 groupes de 5 garçons. Par conséquent,
la solution est
1.5.3 Théorème multinomial
Ce théorème généralise le théorème binomial. Sa démonstration fera l'objet d'un

exercice.
Théorème 1.9
( x , + x 2 + - - - + x r )" = I ( " )xî>xï---x? (1.7)

(n, «r>: \ni,n2,... ,nr)
La somme est ici faite sur tous les vecteurs à composantes entières non négatives (nx,
n2, ..., nr) tels que n{ + n2 + ... + nr = n.
Les coefficients („_ „" „) sont appelés coefficients multinomiaux.
Exemple 1.20
+
(O,O>*KM>W*S
t
(,,».,)' 1 *- + (.,u)* !li
= x\ + xl + x\ + 2x,X2 + 2*1X3 + 2*2X3 •
1.6 RÉPARTITION DE BOULES DANS DES URNES
Il y a rn possibilités de répartir n boules discernables dans r urnes discernables

également. Cela provient du fait que chaque boule peut être mise dans l'une quelcon-
que des r urnes. Supposons maintenant que les n boules deviennent indiscernables.
Combien peut-on alors obtenir de répartitions?
Comme les boules sont indiscernables, le résultat de l'expérience qui consiste à
répartir les n boules dans nos r urnes est décrit par un vecteur (.v,, x2, ..., xr) où x,
représente le nombre de boules contenues dans la /-ème urne. Le problème revient
alors à trouver le nombre de vecteurs (x h x2, ••-, xr) à composantes entières non
négatives tels que
Xi + x2 + • • • + x, = n
Pour le calculer, commençons par considérer le nombre de solutions entières positives.
Pour cela, imaginons qu'il y a « objets indiscernables alignés et que nous voulons les
diviser en r groupes non vides. Ces objets peuvent être représentés comme suit:
0 0 0 0 - . . . 0 0 0
où les 0 représentent les n objets, les points de séparation symbolisant les « — 1 espaces
entre ces objets. Pour notre calcul, il suffit de désigner r— 1 des n — 1 espaces comme
points de division. Si par exemple n = 8 et r = 3 on peut choisir les deux séparations
comme suit:
ooo | ooo | oo
Le vecteur correspondant sera x] = 3, x2 = 3, x3 = 2. Comme il y a ("!,) choix

possibles nous venons de démontrer la proposition suivante:
Théorème 1.10
Il y a ("Z'i) vecteurs distincts à composantes entières et positives satisfaisant à la
relation
x1 + x2 + ... + xr = n, x, > 0, i = 1.. . , r
Pour obtenir le nombre des solutions non négatives (et non plus positives) il suffit
de remarquer que le nombre de solutions non négatives de xt + x2 + ... + xr = n
est le même que celui des solutions positives de yx + y2 + ... + y, = n + r (on le
voit en posant yi, = x,+ l, i = 1, ..., r). Ceci permet de démontrer la proposition
suivante, en utilisant la précédente:
Théorème 1.11
Il y a ("+rn~l) vecteurs distincts à composantes entières et non négatives satisfaisant
à la relation
Xi + x2 + - • • + xr = n (1.8)
Exemple 1.21 Combien l'équation x, + x2 = 3 a-t-elle de solutions entières et non

négatives?
SOLUTION. Il y en a (3 + ^ ' ) = 4. Nommément, (0,3), (1,2), (2,1), (3,0). •

Exemple 1.22 Une personne dispose de 20 000 dollars à investir sur quatre placements
potentiels. Chaque mise doit se monter à un nombre entier de milliers de dollars. Entre
combien de stratégies d'investissement cette personne a-t-elle le choix si elle décide
de risquer la totalité des 20 000 dollars? Qu'en est-il si on admet qu'elle puisse
n'investir qu'une partie seulement de la somme?
SOLUTION. Soit x, le nombre de milliers de dollars placés dans l'affaire i, i = 1, 2, 3,

4. Si la totalité de l'argent doit être investie, on aura
xt + x2 + x3 + x4 = 20 Xi > 0
Par suite il y a, en vertu du théorème 1.11, (233) = 1771 stratégies d'investissement

possibles. Si par contre on ne doit pas nécessairement investir tout l'argent, désignons
par xs le montant gardé en réserve. Une stratégie d'investissement pourra alors être
représentée par un vecteur à composantes non négatives (x1, x2, x3, x4, x5) tel que
Xi + x2 + x3 + x4 + x5 = 20
En vertu du théorème 1.11 il y a donc ici (244) = 10 626 stratégies possibles. •
Exemple 1.23 Combien le développement de (x, + x2 + ... + xr)ncompte-t-il de

termes?
SOLUTION.
(X1 + x2 + ... + xr)n= ( "

\nu...,nr
où la somme est prise sur tous les vecteurs (n1, ..., nr) à composantes non négatives
entières tels que «, + n2 + ... + nr = n. Selon le théorème 1.11 le nombre de ces
vecteurs, et par suite de termes dans la somme, est ("+Jj~'). •
Exemple 1.24 Reprenons l'exemple 1.14 dans lequel nous avions un ensemble de n
objets dont m étaient défectueux et indiscernables entre eux tandis que les n — m autres
étaient en bon état (et également indiscernables entre eux). Notre but est toujours de
déterminer le nombre de séquences dans lesquelles deux objets défectueux ne sont
jamais voisins. Pour cela, imaginons qu'on aligne d'abord les seuls objets défectueux
et qu'il va ensuite falloir placer les objets en état de marche. Désignons par xt le
nombre d'objets en bon état à gauche du premier objet endommagé, x2 le nombre
d'objets en bon état entre les deux premiers objets endommagés et ainsi de suite. On
peut construire un schéma:
xi 0 x2 0 ... xm 0 xm+l
Il y aura ainsi au moins un objet en bon état entre une paire d'objets défectueux si
xi > 0 pour ; = 2, ..., m. Le nombre de configurations acceptables sera donc égal
au nombre de vecteurs (x,, ..., xm+l) qui satisfont à x, + ... + xm+l = n-m et à
x, S* 0, xm+l S; 0, xi > 0 pour i = 2, ..., m.
Mais en posant y1 = x{ + 1, yt = xt pour i = 2, ..., m et ym+l = xm+x + 1 nous

voyons que ce nombre est aussi le nombre de vecteurs y{, ..., ym+l à composantes
positives satisfaisant l'équation
y\ + - + ym+1 = n-m + 2
En vertu du théorème 1.10 il existe ("~™+1) de ces configurations, ce qui corrobore

la solution de l'exemple 1.14.
Supposons maintenant que nous nous intéressions au nombre de configurations
dans lesquelles toute paire d'objets défectueux est coupée par au moins deux objets
en bon état. Selon le même raisonnement que celui mené ci-dessus, ce nombre est égal
au nombre de vecteurs satisfaisant
x, + • • • + xm+i = n- m x, > 0, xm+1 a 0, x,> 2, i = 2,..., m
En posant j , = *, + 1 , yi = x — 1 pour i = 2,..., m et y m + 1 = x m + 1 + 1 on constate
que ce nombre est encore égal à celui des solutions à valeurs positives de l'équation
n 3
yi + ... + ym+1 = - 2m +
Ce nombre de configurations est donc, selon le théorème 1.10, ("_ ™+ ) •
1.7 EXERCICES THÉORIQUES
1.7.1 Donner une preuve de la version généralisée du principe fondamental de

dénombrement.
1.7.2 On réalise deux expériences consécutivement. La première peut présenter m

résultats différents. Pour le j'-ème de ces résultats la seconde peut présenter «, résultats,
i= 1, ..., m. Quel est le nombre d'issues possibles lorsqu'on considère les deux
expériences comme faisant un tout?
1.7.3 De combien de manières peut-on choisir r objets parmi n si l'ordre de tirage est
significatif?
1.7.4 Donner un argument d'analyse combinatoire pour justifier l'égalité (") = („"r).
1.7.5 II y a (") permutations de n boules parmi lesquelles r sont noires et n — r

blanches. Expliquer ce résultat grâce à un argument d'analyse combinatoire.
1.7.6 Donner une démonstration analytique de l'équation (1.4).
1.7.7 Démontrer que
(rKXTMX-.)--- (:)(")
lorsque r =n, r = m.
On pourra considérer un groupe comprenant n hommes et m femmes puis déterminer

le nombre de sous-groupes de taille r.
1.7.8 Vérifier que pour n =4
(?)
Présenter ensuite un argument d'analyse combinatoire en faveur de cette équation.
Auparavant on considérera un groupe de n+1 objets desquels un est jugé spécial.
Montrer que les deux membres de l'identité ci-dessus représentent le nombre de
sous-groupes de taille 4. Pour l'expression de droite, supposer qu'on mette initiale-
ment de côté l'objet spécial et choisir alors deux des ( ) sous-groupes de taille 2 par-
mi les n objets restants. Si les deux sous-groupes choisis n'ont pas d'objet commun,
utiliser alors leur union comme sous-groupe de taille 4; s'ils ont un objet commun,
utiliser alors les 3 objets distincts de leur union plus l'objet spécial comme sous-
groupe de taille 4. En utilisant cette approche pour obtenir tous les sous-groupes de
taille 4, combien de fois apparaît chaque sous-groupe?
1.7.9 Fournir un argument d'analyse combinatoire pour expliquer que (") est égal
a
(r.n-r)-
1.7.10 Montrer que
1.7.11 Démontrer le théorème multinomial.
1.7.12 Montrer que pour n > 0
1.7.13
a) Démontrer l'identité suivante par induction:
b) Fournir un argument d'analyse combinatoire pour l'identité précédente en consi-

dérant un ensemble de n personnes et en déterminant de deux manières le nombre
de compositions possibles pour un comité assorti d'un président. On peut considé-
rer les étapes intermédiaires suivantes :
• Combien de comités de taille k avec son président peut-on composer?
• Combien y a-t-il de compositions possibles pour un président et les autres
membres du comité?
c) Vérifier l'identité suivante pour n = 1, 2, 3, 4 et 5:
2 2
fc?,(k)* - ""2"(l, + 1)
Pour une démonstration de cette égalité par l'analyse combinatoire, considérer un

ensemble de n personnes et soutenir que les deux membres en présence représentent
le nombre de comités assortis d'un président et d'un secrétaire, le cumul étant possible.
On peut considérer les quelques étapes intermédiaires suivantes:
• combien y a-t-il de comités comprenant k personnes exactement?
• Combien y a-t-il de choix pour lesquels on observe un cumul des fonctions?
(réponse : n 2"~'
• Combien de choix évitent-ils le cumul?
d) Prouver maintenant que
î (£)fc3 = 2-V(,i + 3)
1.7.14 De combien de manières peut-on répartir m boules indiscernables dans r urnes

de telle façon que la j'-ème urne contienne au moins w, boules? On admet que
r
n ^ S m,,
RÉPONSE. ( - £ & ; - ' ) .
1.7.15 Montrer que
n + r- 1\ _ " (n-i + r-2\

n ) j=o V n- i )
On pourra appliquer le théorème 1.11.
1.7.16 Montrer qu'il y a (^)(„1~ik) solutions à l'équation xl + ... + x2 = n pour

lesquelles k exactement des termes de la somme sont nuls.
1.7.17 On considère une fonction f(x1t ..., xn) de n variables. Combien de dérivées
partielles d'ordre r y a-t-il?
1.7.18 Utiliser l'exercice 1.7.7 pour démontrer que
(2;kt(;y
1.7.19
a) En utilisant un raisonnement par induction et l'identité suivante
montrer que
(r)=(r:;Mv)
b) Donner une seconde démonstration en montrant que chacun des deux membres de
l'égalité précédente est égal au nombre de solutions distinctes entières et non
négatives de l'inégalité
x
\ + x2 + ' " " + xr s n
Pour voir que (" r ) est égal au nombre de solutions non négatives, voir que le
nombre de solutions non négatives de x\ +...+ xr= n est le même que le nombre de
solutions non négatives de xx +...+ xr + xr+ 1 = n .
1.7.20 On veut choisir un comité dey' personnes dans un ensemble en comptant n. De

ce comité on veut aussi choisir un sous-comité de taille i, i = j .
a) Ecrire une identité d'analyse combinatoire en calculant de deux manières le nom-
bre de choix pour le comité et son sous-comité. On supposera dans un cas que le
comité est tiré d'abord puis son sous-comité et dans le second cas que c'est
l'inverse.
b) Utiliser le résultat de a) pour la démonstration de l'identité suivante:
c) Utiliser le résultat de a) et l'exercice 1.7.12 pour prouver que
Î(;)(0«-»-'-O. -
1.8 PROBLÈMES
1.8.1 Combien existe-t-il de plaques minéralogiques à 7 caractères

• si les deux premiers sont des lettres et les 5 autres des chiffres?
• Même question en supposant que les répétitions de lettres ou de chiffres sur la
même plaque sont exclues.
1.8.2 John, Jim, Jay et Jack ont formé un orchestre à 4 instruments. Si chacun des
garçons peut jouer des 4 instruments, combien d'arrangements peut-on concevoir?
Que se passe-t-il si John et Jim peuvent jouer des 4 instruments mais si Jay et Jack
ne savent jouer qu'au piano ou à la batterie?
1.8.3 Les indicatifs téléphoniques des Etats-Unis et du Canada sont composés de trois
chiffres. Le premier chiffre est un entier compris entre 2 et 9; le deuxième est soit 0
soit 1; le troisième est un entier compris entre 1 et 9. Combien y a-t-il d'indicatifs
possibles? Combien y a-t-il d'indicatifs commençant par 4?
1.8.4 Une célèbre chanson enfantine commence de la façon suivante :
En allant à St Ives
J'ai rencontré un homme avec 7 femmes.
Chaque femme avait 7 sacs.
Chaque sac contenait 7 chats.
Chaque chat avait 7 chatons.
Combien de chatons le voyageur a-t-il rencontrés?
1.8.5 On doit asseoir sur un rang 4 Américains, 3 Français et 3 Anglais. Les gens de
même nationalité doivent rester ensemble. Combien de dispositions peut-on imaginer?
1.8.6 De combien de manières peut-on asseoir en rang 3 garçons et 3 filles?

a) Même question si les garçons doivent rester ensemble et les filles aussi.
b) Même question si seuls les garçons doivent rester ensemble.
c) Même question si deux personnes du même sexe ne doivent jamais voisiner.
1.8.7 Combien d'arrangements différents peut-on faire avec les lettres des mots
suivants:
a) PINTE
b) PROPOSE
c) MISSISSIPPI
d) ARRANGE?
1.8.8 Un enfant possède 12 cahiers: 6 noirs, 4 rouges, 1 blanc et 1 bleu. S'il tient à
placer les noirs les uns derrière les autres, de combien de manières peut-il les ranger?
1.8.9 De combien de manières peut-on asseoir 8 personnes en rang si:

a) aucune restriction n'est mise;
b) les personnes A et B veulent être ensemble;
c) les hommes ne doivent avoir que des voisines et inversement, en supposant qu'il
y a 4 hommes et 4 femmes;
d) les hommes, qui sont au nombre de 5, doivent rester ensemble;
e) les personnes forment 4 couples de gens mariés et si chaque couple doit rester
réuni?
1.8.10 De combien de manières peut-on placer 3 romans, 2 livres de mathématiques

et 1 de chimie sur une étagère si:
a) aucune restriction n'est mise;
b) les livres de mathématiques doivent être rangés ensemble et les romans aussi;
c) seuls les romans doivent être rangés ensemble?
1.8.11 On veut choisir dans un club comptant 10 membres un président, un secrétaire

et un trésorier; le cumul est exclu. De combien de manières peut-on attribuer ces
charges si:
a) aucune restriction n'est imposée;
b) A et B refusent d'officier ensemble;
c) C et D officieront ensemble ou pas du tout;
d) E doit avoir une charge;
e) F n'accepte que la charge de président?
1.8.12 Cinq prix doivent être décernés à des étudiants méritants choisis dans une
classe de 30 personnes (par exemple «meilleure performance académique», «meilleur
leadership», etc). Combien de résultats peut-on avoir si:
a) le cumul des prix est admis;
b) le cumul n'est pas possible?
1.8.13 On considère un groupe de 20 personnes. Si chaque personne serre la main de

toutes les autres, combien y a-t-il de poignées de main?
1.8.14 Combien de mains de poker existe-t-il? Le jeu comprend 52 cartes, une main
en contient 5.
1.8.15 On veut former un comité de 7 personnes, dont 2 républicains, 2 démocrates

et 3 indépendants. On a le choix parmi 5 républicains, 6 démocrates et 4 indépendants.
De combien de manières peut-on procéder?
1.8.16 Un étudiant doit répondre à 7 des 10 questions d'un examen;

a) de combien de manières peut-il les choisir?
b) Même question s'il est obligé de choisir au moins 3 des 5 premières questions.
1.8.17 Dans un groupe de 8 femmes et 6 hommes, on doit former un comité de 3

hommes et 3 femmes. Combien de comités différents peut-on former si :
a) 2 des hommes refusent d'être ensemble dans le comité?
b) 2 des femmes refusent d'être ensemble dans le comité?
c) 1 homme et 1 femme refusent d'être ensemble dans le comité?
1.8.18 Une femme a 8 amies et décide d'en inviter 5 à prendre le thé.

a) De combien de manières peut-elle s'y prendre si deux d'entre elles sont en mauvais
termes et ne viendront en aucun cas ensemble?
b) Et si au contraire deux d'entre elles ne viendront que si l'autre est aussi invitée?
1.8.19 On considère le treillis de points ci-dessous. On suppose qu'en partant du

point A, on peut à chaque pas soit monter d'un cran, soit aller à droite. On continue à
avancer ainsi jusqu'à ce que le point B soit atteint. Combien de chemins différents
peut-on prendre pour aller de A à fi?
Noter que pour atteindre B à partir de A, il faut faire 4 pas à droite et 3 vers le haut.
1.8.20 Dans le problème 1.8.19, combien de chemins passant par le point encerclé ci-
dessous peut-on prendre pour aller de A à B?
1.8.21 Un laboratoire de recherches en psychologie du rêve dispose de 3 chambres

à deux lits. Trois paires de vrais jumeaux sont étudiées. On veut placer chaque paire
dans une chambre et assigner à chacun un lit bien déterminé. De combien de manières
peut-on organiser l'expérience?
1.8.22 Développer (3x2 + y)5.
1.8.23 Pour une partie de bridge chacun des 4 joueurs reçoit 13 cartes. Le jeu en
compte 52. Combien y a-t-il de donnes possibles?
1.8.24 Développer (x, + 2x2 + 3x3)4.
1.8.25 Si 12 personnes doivent être réparties en 3 comités comptant respectivement

3, 4 et 5 individus, de combien de manières peut-on s'y prendre?
1.8.26 Un homme veut offrir un total de 7 cadeaux à ses 3 enfants. L'aîné en recevra
3 et les autres 2. De combien de manières peut-il procéder?
1.8.27 Si 8 tableaux noirs doivent être affectés à 4 écoles, de combien de manières

peut-on les répartir? Qu'en est-il si chaque école doit recevoir au moins un tableau?
1.8.28 Huit nouveaux professeurs vont être envoyés dans 4 écoles.

a) Combien y a-t-il d'affectations possibles?
b) Qu'en est-il si l'on impose que chaque école recevra deux professeurs?
1.8.29 Un ascenseur quitte le rez-de-chaussée avec 8 personnes (groom non compris).

Lorsqu'il parvient au 6e étage, il est vide.
a) De combien de manières le groom a-t-il pu percevoir le départ des 8 personnes si
pour lui elles se ressemblent toutes?
b) Qu'en est-il s'il peut faire la différence entre un homme et une femme, l'ascenseur
contenant 5 hommes et 3 femmes au départ?
1.8.30 Lors d'une vente aux enchères, une collection de 4 Dali, 5 Van Gogh et
6 Picasso fait face à 5 collectionneurs. Toutes les oeuvres partent. La journaliste en
charge de couvrir l'événement n'a à noter que le nombre des Dali, Van Gogh et
Picasso acquis par chaque collectionneur. Combien de résultats sont-ils possibles dans
ces conditions?
1.8.31 Dix haltérophiles sont engagés dans une compétition par équipe. L'équipe
américaine compte 3 champions, l'équipe soviétique 4, l'équipe de Chine populaire
2 et le dernier homme est canadien. Le score publié n'indique que la nationalité des
haltérophiles, sans leur nom.
a) Dans ce cas, combien y a-t-il de listes de scores possibles?
b) Combien y en a-t-il si les Etats-Unis ont un concurrent placé dans les trois
meilleurs et deux dans les trois derniers?
1.8.32 Dix délégués de 10 pays - dont l'URSS, la France, la Grande-Bretagne et les

Etats-Unis - s'asseoient sur un rang. De combien de manières est-ce possible si le
français et l'anglais tiennent à être voisins tandis que l'américain et le soviétique
ne veulent pas l'être?
1.8.33 Une personne a 20000 dollars à placer sur 4 affaires potentielles. Chaque
investissement doit être un nombre entier de milliers de dollars et il existe un engage-
ment minimum pour chaque affaire que l'on retiendra. Ces minima sont respective-
ment 2, 2, 3 et 4 milliers de dollars. Combien de stratégies d'investissement y a-t-il
si:
a) un investissement doit être fait sur chaque affaire;
b) au moins 3 des 4 affaires doivent être couvertes?
1.8.34 Montrer que

CHAPITRE 2
Axiomes des probabilités
2.1 INTRODUCTION
Dans ce chapitre nous commencerons par une introduction au concept de probabi-

lité d'un événement puis nous montrerons comment ces probabilités peuvent être
calculées dans certaines situations. Nous aurons préalablement besoin, cependant, des
concepts d'ensemble fondamental et d'événement d'une expérience.
2.2 ENSEMBLE FONDAMENTAL ET ÉVÉNEMENT
2.2.1 Définitions
Considérons une expérience dont l'issue n'est pas prévisible. Bien que l'issue de
l'expérience ne soit pas connue d'avance, admettons cependant que l'ensemble des
issues possibles est connu, lui. Cet ensemble des issues possibles à l'expérience est
désigné comme l'ensemble fondamental de l'expérience et est noté S. Quelques exem-
ples suivent.
• Si le résultat de l'expérience équivaut à la détermination du sexe d'un nouveau-
né, alors
S = {g,f}
où le résultat g signifie que l'enfant est un garçon tandis que/désigne une fille.
• Si l'issue de l'expérience est l'ordre d'arrivée à une course entre 7 chevaux ayant
les positions de départ 1,2, 3, ..., 7, alors
S = {toutes les permutations de (1, 2, ..., 7)}
soit 7! au total.
• Si l'expérience consiste à jeter deux pièces, alors l'ensemble fondamental est
constitué des 4 points suivants:
S = {(P,P), (F,F), (F,F), F,F)}.

On note le résultat (P,P) si les deux pièces montrent pile,
(P,F) si la première pièce montre pile et la seconde face,
(F,P) si la première pièce montre face et l'autre pile,
(F,F) si les deux pièces montrent face.
• Si l'expérience consiste à jeter deux dés, alors l'ensemble fondamental com-
prend les 36 points suivants:
S = {(i,j) i, y = 1 , 2 , 3 , 4 , 5 , 6 }
où l'événement (i,j) est réputé survenir si le dé le plus à gauche montre / et

l'autre /
• Si l'expérience consiste à mesurer en heures la durée de vie d'un transistor, alors
l'ensemble fondamental est égal à l'ensemble des nombres réels non négatifs,
c'est-à-dire
S = {x: 0 < x < oo}
Tout sous-ensemble E de l'ensemble fondamental est appelé événement. Un événe-

ment est donc un ensemble correspondant à divers résultats possibles de l'expérience.
Si un résultat de l'expérience est compris dans E, on dit que E est réalisé. Voici
quelques exemples d'événements.
Dans le premier exemple ci-dessus, si E = {g}, alors F est l'événement que l'enfant
est un garçon. De même, si F = {f}, alors F est l'événement que l'enfant est une fille.
Dans le deuxième exemple, si
E = {tous les résultats dans S commençant par 3}
alors E est l'événement que le cheval N° 3 gagne la course.
Dans le troisième exemple, si E = {(P,P)(P,F)}, alors E est l'événement «la
première pièce montre pile».
Dans le quatrième exemple, si E = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}, E est
l'événement «la somme des dés est 7».
Dans le cinquième exemple, si E = {x: 0 < x < 5}, F est l'événement «le transistor
dure moins de 5 heures».
2.2.2 Opérations sur les événements
Première opération: union

Pour toute paire d'événements F et F d'un ensemble fondamental S, nous impose-
rons au nouvel événement E u F de contenir chaque point se trouvant dans E, dans
F ou dans les deux à la fois. En clair, l'événement E <J F sera réalisé si soit E soit F
l'est. Prenons le cas du premier exemple: si l'événement E est {g} et si F est {f}, alors
Eu F = {g,f}
ce qui revient d'ailleurs à dire que E u F est l'ensemble fondamental S tout entier.
Dans le cas du troisième exemple, on pourrait poser F = {(P,P), (F,P)} et F = {(P,F)}.
On aurait alors E u F = \(P,P), (P,F), (F,P)}. Ainsi F u F sera réalisé si l'une des
Axiomes des probabilités 25
pièces au moins montre pile. L'événement E u F est appelé Vunion de l'événement E

et de l'événement F.
Deuxième opération: intersection

De même pour toute paire d'événements £ et F on peut aussi définir le nouvel
événement EF, appelé intersection de E et F, comme l'ensemble des réalisations qui
sont à la fois dans E et dans F. Cela veut dire que l'événement EF ne sera réalisé
que si E et F le sont à la fois. On peut illustrer ceci grâce au troisième exemple: si
E = {(P,P), (P,F), (F,P)} est l'événement où au moins une pièce donne pile et si
F = {(P,F), (F,P), (F,F)} est celui où au moins une pièce donne face, alors
EF = {(F,F), (F,P)}
est l'événement «une pièce montre pile et l'autre face».
Evénement vide
Dans le quatrième exemple, si E = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} est
l'événement «la somme des dés est 7» et F = {(1,5), (2,4), (3,3), (4,2), (5,1)} est «la
somme des dés est 6», alors l'événement EF ne contient aucune réalisation et par
conséquent ne peut survenir. Puisqu'il faut donner un nom à un tel événement, on
l'appellera l'événement vide et on le notera 0 . ( 0 désigne donc l'événement ne
contenant aucun point). Si EF = 0 , alors E et F sont dits mutuellement exclusifs.
Extension des définitions

On définit l'union et l'intersection de plus de deux événements de la même manière:
ao
si F,, E2, ... sont des événements, leur union, notée U En est par définition l'événe-
ment qui contient chaque point qui se trouve dans En pour au moins une valeur de
00
n = 1, 2,.... De même l'intersection des événements En, notée D En, est par définition
n=1
l'événement comprenant tous les points qui sont dans tous les événements En à la fois,
n = 1,2, ....
Troisième opération: complémentation
Finalement, pour chaque événement E le nouvel événement Ee devra par définition
contenir tous les points de l'ensemble fondamental S qui ne sont pas dans E. Dans
le quatrième exemple, si l'événement E = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}, alors
Ec sera réalisé lorsque la somme des dés n'est pas égale à 7. On notera par ailleurs
que Sc = 0 puisqu'il faut bien que l'expérience débouche sur une réalisation.
2.2.3 Représentation graphique d'événements
Pour toute paire d'événements £ et F, si tous les points de F sont aussi dans F alors
on dit que E est contenu dans F et on écrit E <= F (ou, ce qui est équivalent, F 3 E).
Ainsi, si E a Fia réalisation de F entraîne automatiquement celle de F. Si E a F et
F c= F, nous dirons que E et F sont égaux et écrirons E = F.
Une représentation graphique très utile pour l'illustration des relations logiques
entre les événements est le diagramme de Venn. L'ensemble S est représenté par tous
les points d'un grand rectangle et les événements E, F, G ... sont représentés par tous
les points situés à l'intérieur de cercles inclus dans le rectangle. Des événements
d'intérêt particulier peuvent ensuite être mis en évidence en ombrant les aires appro-
priées du diagramme. Par exemple, dans les trois diagrammes de Venn montrés sur
la figure 2.1, les zones ombrées représentent respectivement les événements EVJ F, EF
et Ee. Le diagramme de Venn de la figure 2.2 indique que E a F.
(a) région en gris: E \J F. (b) région en gris: EF.

S
(c) région en gris: Ee

Fig. 2.1
2.2.4 Propriétés des opérations sur les événements
Les opérations d'union, d'intersection et de complémentation d'événements obéis-

sent à certaines règles rappelant celles de l'algèbre. En voici quelques-unes:
Commutativité EUF = F{JE EF = FE

Associativité {E\JF)\JG = E^J(F\JG) (EF)G = E(FG)
Distributivite (E*JF)G = EG{JFG EF\JG = (EVJG)(F\JG)
Ces relations sont démontrables en établissant que chaque résultat d'expérience
contenu dans l'événement situé à gauche du signe d'égalité est aussi contenu dans
l'événement de droite et inversement. Un moyen de le faire est d'utiliser les diagram-
mes de Venn. La distributivite par exemple peut être établie grâce à la séquence des
diagrammes de la figure 2.3.
(a) région en gris: EG. (b) région en gris: FG.
(c) région en gris: (E U F)G.

(EVF)G = EGUFG
Fig. 2.3
Les relations suivantes entre les trois opérations de base consistant à former des
unions, des intersections ou des complémentations, sont connues sous le nom de lois
de DeMorgan et sont très utilisées.
Pour démontrer la première de ces lois de DeMorgan, supposons d'abord que x soit
n n
un point de (U E;)e. Alors x n'est pas dans U E-„ ce qui signifie que x n'est contenu
dans aucun des événements E,, / = 1, 2,..., n. Ceci implique que x est contenu à son
n
tour dans E\ pour chaque i = 1,...,n et donc contenu dans D E\. Pour la réciproque,
n
supposons que x soit un point de D Ecr Alors x appartient à chaque E)', i = 1, 2,..., n.
1=1
Cela signifie que x n'est pas contenu dans U Eh ce qui entraîne enfin que x est
contenu dans (U E,Y- Ceci prouve la première des lois de DeMorgan. Pour prouver
la deuxième loi de DeMorgan, nous utilisons la première pour obtenir
\i=l / i=l
ce qui, du fait que (£')' = E, est équivalent à
{ÙEIJ =r\Ei
En prenant le complément des deux membres de l'équation ci-dessus, on obtient
précisément le résultat voulu:
2.3 AXIOMES DES PROBABILITÉS
2.3.1 Diverses approches
Un moyen de définir la probabilité d'un événement est de le faire en termes de

fréquence relative. Une telle définition est habituellement formulée ainsi: on suppose
qu'une expérience d'ensemble fondamental 5 est exécutée plusieurs fois sous les
mêmes conditions. Pour chaque événement E de S on définit n(E) comme le nombre
de fois où l'événement E survient lors des n premières répétitions de l'expérience.
Alors P(E), la probabilité de l'événement E, est définie par
P(E) = lim
Cela veut dire que P(E) est définie comme la limite du pourcentage du nombre de
fois où E survient par rapport au nombre total des répétitions. C'est donc la fréquence
limite de E.
Bien que la définition précédente soit intuitivement commode, et qu'elle doive
toujours rester à l'esprit du lecteur, elle possède un sérieux inconvénient. Nous ne
savons en fait pas si n(E) va converger vers une limite constante qui sera la même pour
chaque séquence de répétitions de l'expérience. Dans le cas du jet d'une pièce par
exemple, peut-on être sûr que la proportion de piles sur les n premiers jets va tendre
vers une limite donnée lorsque n grandit à l'infini? En plus, même si elle converge vers
une certaine valeur, peut-on être sûr que nous obtiendrons de nouveau la même
proportion limite de piles si l'expérience est entièrement répétée une deuxième fois?
Les partisans de la définition d'une probabilité en termes de fréquence relative

répondent d'habitude à cette objection en faisant remarquer que la convergence de
n(E) est une hypothèse, ou un axiome, du système. Cependant, admettre que n(E)/n
va nécessairement converger vers une certaine valeur fixe semble être une hypothèse
très complexe. Car, bien que nous puissions effectivement espérer qu'une telle fré-
quence limite constante existe, il ne semble pas évident du tout à priori que ce soit
nécessairement le cas.
2.3.2 Trois axiomes classiques
En fait, il semble plus raisonnable d'admettre pour les probabilités un ensemble

d'axiomes plus simples et intuitivement acceptables, pour ensuite essayer de démon-
trer qu'une telle fréquence limite existe dans un certain sens. Cette dernière approche
est celle de l'axiomatique moderne de la théorie des probabilités et nous l'adopterons.
En particulier, nous admettrons que pour chaque événement E de l'ensemble fonda-
mental S il existe une valeur P{E) appelée probabilité de E. Nous admettrons alors
que ces probabilités satisfont à un certain groupe d'axiomes qui sont, espérons que
le lecteur en conviendra, en accord avec notre notion intuitive des probabilités.
Considérons une expérience dont l'ensemble fondamental est S. Pour chaque
événement E de l'espace S nous admettons qu'un nombre P(E) existe et satisfait aux
trois axiomes suivants:
Axiome 2.1
0<P(£)< 1
Axiome 2.2
P(S) = 1
Axiome 2.3
Pour chaque séquence d'événements mutuellement exclusifs Ex, E2, ... (c'est-à-dire
d'événements pour lesquels EjEj = 0 si i 9E j),
F(U E,) = I />(£,)

i=i ;=i
P(E) est appelé la probabilité de l'événement E.
L'axiome 2.1 énonce ainsi «la probabilité que le résultat de l'expérience soit un
point de Zsest un certain nombre compris entre 0 et 1». L'axiome 2.2 énonce que le
résultat sera un point de S avec une probabilité de 1. L'axiome 2.3 énonce que pour
chaque séquence d'événements mutuellement exclusifs la probabilité qu'au moins l'un
de ces événements survienne est simplement la somme de leurs probabilités respec-
tives.
2.3.3 Quelques conséquences immédiates
Considérons une séquence d'événements E1, E2, ... où E1 = S, Ei = 0

pour ; > 1; comme ces événements sont mutuellement exclusifs et comme S = \J Ei,
i=i
nous aurons grâce à l'axiome 2.3:

OO OC
P(S) = P(Ei) = P(S) + I P(0)

i=1 i=2
ce qui implique
P(0)=O
Cela veut dire que l'événement vide ou toujours faux a pour probabilité 0.
Autre conséquence remarquable, il en découle également que pour toute suite finie
d'événements mutuellement exclusifs E1, E2, ..., En
I P{Ei) (2.1)
Ceci résulte de l'axiome 2.3 en posant Ej = 0 pour toutes les valeurs de i supérieures
à n. L'axiome 2.3 équivaut à l'équation (2.1) quand l'ensemble fondamental est fini
(expliquer pourquoi). Cependant, lorsque l'ensemble fondamental contient un nom-
bre infini de points, la formulation plus générale que donne l'axiome 2.3 devient
nécessaire.
Exemple 2.1 Notre expérience consiste à jeter une pièce. En admettant que pile a
autant de chances d'apparaître que face, les axiomes nous donnent
/'({pile}) = F({face}) = 1/2
Si par contre la pièce est biaisée et si nous estimons que pile a deux fois plus de chances
d'apparaître que face, on aura
P({pile}) = 2/3 P({face}) = 1/3 m
Exemple 2.2 En jetant un dé et en supposant que les six faces ont les mêmes chances
d'apparaître, on aura P({1}) = P({2}) = F({3}) = P({4}) = P({5}) = P({6}) =1/6.De
l'axiome 2.3 il résulte que la probabilité de tirer un nombre pair est
P({2, 4, 6}) = P({2}) + P({4}) + P({6}) = 1/2 m
L'admission de l'existence d'une fonction P d'ensembles (ndt: fonction dont les

arguments sont des ensembles et sous-ensembles), définie sur les événements d'un
ensemble fondamental S et satisfaisant les axiomes 2.1, 2.2 et 2.3 constitue l'approche
mathématique moderne de la théorie des probabilités. On peut espérer que le lecteur
accordera aux axiomes un caractère naturel et en accord avec le concept intuitif de
probabilité lié à la chance et au hasard. De plus, en utilisant ces axiomes nous serons
capables de prouver que si une expérience est répétée plusieurs fois, alors avec une
probabilité de 1 la proportion du nombre de fois où un événement spécifique E

survient sera égale à P(E). Ce résultat, connu sous le nom de loi forte des grands
nombres, sera présenté au chapitre 8. En addition nous présenterons, dans la section
2.7, une autre interprétation possible des probabilités: celle consistant à considérer
la probabilité comme une mesure du crédit apporté par une personne à une assertion.
Nous avons supposé que P(E) est définie pour tous les événements E de l'ensemble
fondamental S. En fait, lorsque S est infini non dénombrable, on ne définit P(E) que
sur des événements appelés mesurables. Cependant, nous ne nous soucierons pas de
cette restriction, tous les événements d'intérêt pratique étant mesurables.
2.4 QUELQUES THÉORÈMES ÉLÉMENTAIRES
Dans cette section nous allons démontrer quelques théorèmes simples concernant
les probabilités. Nous remarquons d'abord que E et Ee sont toujours mutuellement
exclusifs et puisque E u Ee = S, nous avons grâce aux axiomes 2.2 et 2.3:
1 = P(S) = P(EuEc) = P(E) + P(EC)
Ceci équivaut encore à l'énoncé du théorème 2.4 suivant:
Théorème 2.4
P(EC) = l-P(E)
On peut commenter ce théorème comme suit: la probabilité qu'un événement
n'arrive pas est 1 moins la probabilité qu'il survienne. Par exemple, si la proba-
bilité d'obtenir pile lors du lancer d'une pièce est jj, la probabilité d'obtenir face doit
être 5. •
Notre second théorème affirme que si l'événement F est contenu dans l'événement
F, alors la probabilité de E n'est pas plus grande que celle de E.
Théorème 2.5
Si E c F, alors P(E) = P(F).
PREUVE. DU fait que E <= F, on peut exprimer F ainsi:

F = EKJECF
E et EeF étant mutuellement exclusifs, on tire de l'axiome 2.3 que

P(F) = P(E) + P(ECF)
ce qui prouve le résultat puisque P(ECF) = 0. •
Le théorème 2.5 indique par exemple que la probabilité d'obtenir le nombre 1 avec
un dé est inférieure ou égale à celle de tirer une valeur impaire avec ce dé.
Le théorème suivant donne la relation entre la probabilité de la réunion de deux
événements d'une part, les probabilités individuelles et la probabilité de l'intersection
d'autre part.
Théorème 2.6
P(EKJF) = P(E) + P(F) - P(EF)
PREUVE. Pour obtenir une formule donnant P(E u F), remarquons d'abord que
E u F peut être écrit comme l'union de deux éléments disjoints E et ECF. Nous tirons
alors de l'axiome 2.3 que
P(£uF) = P(EuEcF)
= P(E) + P(ECF)
De plus, comme F = EF u EL'F, nous tirons de nouveau de cet axiome
P(F) = P(EF) + P(ECF)
ou encore
P(ECF) = P(F) - P(EF)
ce qui achève la démonstration. •
On aurait aussi pu démontrer le théorème 2.6 en faisant usage du diagramme de

Venn comme le démontre la figure 2.4.
Fig. 2.4
Divisons le diagramme en trois parties disjointes comme celles représentées sur la

figure 2.5.
Fig. 2.5
La section I représente tous les points de E qui ne sont pas dans F (c'est-à-dire EF1');
la section II représente tous ceux qui sont dans £et dans F (c'est-à-dire EF); la section
III représente tous ceux de F qui ne sont pas dans E (c'est-à-dire ECF).
Sur la figure 2.5 nous voyons que

E u F = IuIIuIII
E = IuII
F = IIuIII
Comme I, II et III sont disjoints, il résulte de l'axiome 2.3:
P{EKJF) = P(I) + P(II) + P(III)
P(E) = P(I) + P{ll)
P{F) = P(II) + P(III)
ce qui montre que
P ( F u F ) = P{E) + P(F) - P(ll)
et le théorème 2.6 est ainsi démontré, puisque II = EF. •
Exemple 2.3 Supposons que l'on jette deux pièces et que chacun des quatre points
de l'ensemble fondamental S = {(P,P), (P,F), (F,P), (F,F)} soit de même probabilité
i. Soient E = {(P,P), (P,F)} et F = {(P,P), (F,P)}, c'est-à-dire que £ est l'événement
«la première pièce tombe sur pile» et F l'événement «la deuxième pièce tombe sur
pile». Le théorème 2.6 nous donne la probabilité P(EvF) que soit la première soit la
deuxième pièce tombe sur pile
P(E u F) = P(E) + P(F) - P(EF)

= 1 + 1- P({(P, P)})
_ 3
4
Cette probabilité aurait bien évidemment pu être calculée directement puisque
P(E u F) = P({(P, P), (P, F), (F, P)}) = 3/4
Nous pouvons aussi calculer la probabilité que l'un quelconque des trois événe-
ments E, F ou G survienne:
P(£uFuG) = P[(£uF)uG]
qui vaut par le théorème 2.6:
P(EuF) + P(G) - F [ ( E u F ) G ]
A ce point, l'équivalence des événements (E u F)G et EG u FG résulte de la distribu-
tivité des opérations, ce qui permet d'écrire
F(FuFuG)
= P(E) + P(F) - P(EF) + P(G) - P ( F G u F G )
= P(E) + P(F) - P(EF) + P(G) - P(EG) - P(FG) + P(EGFG)
= P(E) + P(F) + P(G) - P(EF) - P{EG) - P(FG) + P(EFG)
En fait, on peut démontrer par induction la généralisation suivante:

Théorème 2.7
La somme P(EiEi ... Eir) est prise sur les (") sous-ensembles possibles
i\<i2 <...<ir
de taille r de l'ensemble {1, 2, .... n}.
En clair, le théorème 2.7 signifie que la probabilité de l'union de n événements est

égale à la somme des probabilités de ces événements pris un à un moins la somme
des probabilités de ces événements pris deux à deux plus la somme des probabilités
de ces événements pris trois à trois, et ainsi de suite.
REMARQUE. Pour donner un argument non inductif pour le théorème 2.7, notons d'a-
bord que si un point de l'ensemble fondamental S n'est membre d'aucun ensemble E„
alors sa probabilité ne contribue en rien aux deux membres de l'égalité. Au contraire,
supposons qu'un point appartienne à exactement m ensembles £,, où m > 0. Alors,
puisqu'il se trouve dans U E, sa probabilité est comptée une fois dans P(U £,); mais
comme ce point est contenu dans ( ^ ) sous-groupes du type E,, E-n ... Eik, sa
probabilité est comptée
fois dans le terme de droite du théorème 2.7.

Donc, pour m > 0, nous devons montrer que
Comme 1 , l'équation précédente est équivalente à
et la dernière équation provient du théorème du binôme :
0 = (-1 + l) m =
2.5 ENSEMBLES FONDAMENTAUX

À ÉVÉNEMENTS ÉLÉMENTAIRES ÉQUIPROBABLES
2.5.1 Méthode de calcul des probabilités
Pour de nombreuses expériences il est naturel d'admettre que chaque élément, ou

événement élémentaire, de l'ensemble fondamental a la même probabilité d'apparaître.
Plus précisément, considérons une expérience dont l'ensemble fondamental S est fini,
disons S = {\,2,...,N}. Il est alors souvent naturel de supposer que
P({1}) = P({2}) = ---=P({JV})
ce qui implique du fait des axiomes 2.2 et 2.3 (dire pourquoi) que
P({i))=jj i=l,2,...,N
De ceci et de l'axiome 2.3 il résulte que pour tout événement E
„ . „, nombre de points dans E
r(t) = .
nombre de points dans S
En clair, si nous admettons que toutes les issues d'une expérience ont la même proba-
bilité de survenir, la probabilité d'un événement E quelconque est égale à la propor-
tion dans l'ensemble de définition de points qui sont contenus dans E.
2.5.2 Exemples
Exemple 2.4 Si deux dés sont jetés, quelle est la probabilité que la somme des faces
soit 7?
SOLUTION. Nous résoudrons ce problème en faisant l'hypothèse que les 36 issues
possibles sont équiprobables. Puisqu'il y a 6 issues, à savoir (1,6), (2,5), (3,4), (4,3),
(5,2) et (6,1), qui donnent une somme de 7 pour les deux dés, la probabilité est
6/39 = 1/6. •
36 6
Exemple 2.5 Si deux boules sont tirées au hasard d'un bol en contenant 6 blanches
et 5 noires, quelle est la probabilité qu'une des boules tirées soit blanche et l'autre
noire?
SOLUTION. Si nous considérons l'ordre dans lequel les boules sont choisies comme
significatif, l'ensemble fondamental comprend 11 • 10 = 110 points. De plus, il y a
6 • 5 = 30 manières de tirer pour lesquelles la première boule est blanche et la seconde
noire. On compte de même 5 • 6 = 30 manières de tirer pour lesquelles la première
boule est noire et la seconde blanche. De ce fait, si tirer au hasard signifie que chacun
des 110 points de l'ensemble fondamental a la même probabilité de survenir, nous
voyons que la probabilité cherchée est
30 + 30 6
110 11
Ce problème aurait aussi pu être résolu en considérant que chaque résultat de

l'expérience est caractérisé par l'ensemble (non ordonné) des boules tirées. De ce point
de vue, il y aurait (y ) = 55 éléments dans l'ensemble fondamental. Il est facile de voir
que l'hypothèse «tous les événements sont equiprobables» quand l'ordre est jugé
significatif implique celle que les événements sont aussi equiprobables quand l'ordre
de tirage n'est plus considéré significatif (à prouver). En utilisant cette seconde
représentation de l'expérience, nous voyons donc que la probabilité cherchée est:
11
ce qui évidemment est en accord avec la réponse précédente. •
Exemple 2.6 Un comité de 5 personnes doit être choisi parmi les 6 hommes et 9
femmes d'un groupe. Si le choix est le résultat du hasard, quelle est la probabilité que
le comité soit composé de 3 hommes et 2 femmes?
SOLUTION. Admettons que «choix dû au hasard» signifie que chacune des ('55) combi-
naisons possibles a les mêmes chances d'apparaître. La probabilité cherchée sera donc
égale à:
1001
(1)
Exemple 2.7 Une main de poker comprend 5 cartes1. Si celles-ci ont des valeurs
consécutives et ne sont pas de la même couleur, nous dirons que la main est une suite.
Par exemple, une main comprenant le cinq, le six, le sept, le huit de pique et le neuf
de cœur est une suite. Quelle est la probabilité de se voir distribuer une suite?
SOLUTION. On commence par admettre que les (552) mains possibles au poker sont
toutes equiprobables. Pour déterminer le nombre de tirages qui sont des suites, on
va déterminer en premier lieu le nombre de tirages pour lesquels la main comprendra
un as, un deux, un trois, un quatre et un cinq (sans s'intéresser à la question de savoir
si l'on a une suite). Du fait que l'as peut être l'un des quatre as du jeu, qu'il en est
de même pour le deux, le trois, le quatre et le cinq, il découle qu'il y a 45 tirages livrant
exactement un as, un deux, un trois, un quatre et un cinq.
Donc, puisque dans 4 de ces tirages toutes les cartes seront de la même couleur (une
telle main est appelée suite royale), il résulte qu'il y a 45 - 4 mains qui sont des suites
1
Ndt: il s'agil ici d'un jeu de 52 cartes où l'on distingue 4 couleurs.
commençant à l'as. De même il y en a 45 - 4 qui contiennent un dix, un valet, une

dame, un roi et l'as. 11 y a donc 10(45 - 4) mains qui sont des suites. La probabilité
désirée est donc
10(45-4) n _
- .0039
Exemple 2.8 Une main de poker de 5 cartes est appelée main pleine si elle comprend
3 cartes de la même valeur et 2 autres, mais de même valeur entre elles également.
Une main pleine comprend donc trois cartes d'une sorte plus une paire. Quelle est
la probabilité de se voir distribuer une main pleine?
SOLUTION. De nouveau nous admettons que chacune des (552) mains possibles est de
même probabilité. Pour déterminer le nombre de mains pleines possibles, nous
noterons d'abord qu'il yaf*)- (3) combinaisons différentes de, disons, deux 10 et trois
valets. Comme il y a 13 choix différents pour le choix de la paire et après ce choix
12 autres possibilités pour la valeur des 3 cartes restantes, il résulte que la probabilité
d'une main pleine est
Exemple 2.9 Lors d'une partie de bridge, les 52 cartes du paquet sont réparties entre
les 4 joueurs.
a) Quelle est la probabilité qu'un joueur reçoive les 13 piques?
b) Quelle est la probabilité que chaque joueur reçoive un as?
52
SOLUTION,a) Il y a ( 13 13 13i )3 ) répartitions possibles des cartes entre les 4 joueurs.
Comme il y a (,, ^ ,,) répartitions possibles des cartes pour lesquelles un joueur
donné détient les 13 piques, il en résulte que la probabilité désirée est donnée par
b) Pour déterminer le nombre de tirages dans lesquels chaque joueur reçoit exacte-
ment un as, mettons les as de côté et notons qu'il y a ( 12,12,12,12) répartitions pos-
sibles des 48 cartes restantes lorsque chaque joueur en reçoit 12. Comme il y a 4!
manières de répartir les 4 as pour que chaque joueur en reçoive 1, nous voyons que le
nombre de tirages possibles où chaque joueur reçoit exactement 1 as est 4!(12,12,12,12)-
Donc la probabilité désirée est
48
4!,
12, 12, 12, 12
52
13, 13, 13, 13
L'exemple suivant illustre le fait que les résultats en probabilité peuvent être tout à
fait surprenants au premier abord.
Exemple 2.10 Si n personnes sont présentes dans une pièce, quelle est la probabilité
que leurs anniversaires tombent sur des jours tous différents? Quelle valeur faut-il
donner à n pour que cette probabilité descende en dessous de |?
SOLUTION. Comme chaque personne peut célébrer son anniversaire lors de n'importe
lequel des 365 jours de l'an, il y a au total (365)" situations possibles (on exclut le cas
des gens nés un 29 février). En admettant que chaque situation est équiprobable, on
voit que la probabilité cherchée est (365)(364)(363)...(365-n+l)/(365)". On sera
surpris d'apprendre que lorsque n vaut 23, cette probabilité est inférieure à i Cela veut
dire que si 23 personnes se trouvent dans une pièce, la probabilité qu'au moins deux
d'entre elles aient leur anniversaire le même jour dépasse j . Beaucoup de gens sont
surpris par un tel résultat. Peut-être encore plus surprenant cependant est que cette
probabilité augmente à 0,97 quand il y a 50 personnes dans la pièce. Et avec 100
personnes dans la pièce, les chances sont à plus de 3 000 000 contre 1 (ou encore: la
probabilité est supérieure à (3 x 106)/(3x 106 + 1)) pour qu'au moins 2 personnes
aient leur anniversaire le même jour. •
Exemple 2.11 Une équipe de football est composée de 20 joueurs attaquants et 20

joueurs defensifs. Les joueurs doivent être regroupés par paires pour qu'on puisse
composer des chambrées de deux. Si le regroupement est fait au hasard, quelle est la
probabilité qu'il n'y ait pas de paires mixtes de camarades de chambre? Quelle est la
probabilité qu'il y ait 2i paires mixtes, 1 = 1,2,...,10?
SOLUTION. Il y a
(40)!
manières de répartir les 40 joueurs en 20 paires ordonnées. Cela veut dire qu'il y a
(40)!/22° manières de répartir les joueurs en une paire numéro 1, une paire numéro
2 et ainsi de suite. De ce fait, il y a 40!/220(20)! manières de répartir les joueurs en
paires non ordonnées. De plus, puisqu'une répartition ne livrera pas de paire mixte
si les attaquants (resp. les défenseurs) sont appariés entre eux, il s'ensuit qu'il y a
[20!/210(10)!]2 répartitions de ce genre. De ce fait, la probabilité p0 de n'avoir aucune

paire mixte de camarades de chambre est donnée par
Po =
Pour déterminer P2i, la probabilité qu'il y ait 2J paires mixtes, remarquons d'abord
qu'il y a (2() manières de choisir les 2/ défenseurs et les 2i attaquants qui com-
poseront les paires mixtes. Les 4/ joueurs peuvent être appariés en (2i)! paires mixtes.
Ceci du fait que le premier attaquant peut être apparié avec n'importe lequel des 2i
défenseurs, le second attaquant avec n'importe lequel des 2i - 1 défenseurs restants, et
ainsi de suite. Comme les 20 - 2i défenseurs (resp. attaquants) restants doivent être
appariés entre eux, il s'ensuit qu'il y a
répartitions qui mènent à 2i paires mixtes. D'où
'(10-0!
Les P2i, i = 0,1,...,10 peuvent maintenant être calculées ou approximées en faisant

usage d'un résultat dû à Stirling, montrant que n n+U2e n V2n approche n\. On obtient
par exemple
Les trois prochains exemples illustrent l'utilité du théorème 2.7. Dans l'exemple 2.12,
l'introduction des probabilités nous permet d'obtenir une solution rapide à un
problème de dénombrement.
Exemple 2.12 36 membres d'un club jouent au tennis, 28 jouent au squash et 18

jouent au badminton. En outre, 22 membres jouent au tennis et au squash, 12
pratiquent le tennis et le badminton, 9 jouent au squash et au badminton et 4 pra-
tiquent les trois sports. Combien de membres de ce club pratiquent au moins un des
trois sports?
SOLUTION. Soit N le nombre de membres du club, et introduisons les probabilités en

admettant qu'un membre du club est sélectionné au hasard. Si pour chaque sous-
ensemble C de membres du club, on appelle P(C) la probabilité que le membre
sélectionné appartienne à C, alors
_ nombre de membres dans C
Maintenant, Tétant l'ensemble des membres qui jouent au tennis, S celui de ceux qui
pratiquent le squash et B celui de ceux qui jouent au badminton, le théorème 2.7
entraîne que
P(T u S u B) = P(T) + P(S) + P(B) - P(TS) - P(TB) - P(SB) + P(TSB)

_ 36 + 2 8 + 1 8 - 2 2 - 1 2 - 9 + 4
N
_ 43
N
D'où nous pouvons conclure que 43 membres pratiquent au moins un des sports.
L'exemple qui suit possède deux avantages: non seulement il donne lieu à un
résultat quelque peu étonnant, mais il est aussi d'intérêt théorique.
Exemple 2.13 Problème de rencontre

Une réception réunit N invités, tous des hommes. Chacun jette son chapeau au milieu
de la pièce. On mélange les chapeaux puis chacun en choisit un au hasard.
a) Quelle est la probabilité qu'aucun des hommes ne choisisse son propre chapeau?
b) Quelle est la probabilité que k des hommes exactement sélectionnent leur propre
chapeau?
SOLUTION, a) Nous répondrons à la première partie en calculant d'abord la probabilité

complémentaire qu'au moins un homme choisisse son propre chapeau. Désignons par
E,, i = 1,2,..., N l'événement «le /-ème homme choisit son propre chapeau». Alors
N
en vertu du théorème 2.7, la probabilité P(\J E,) qu'au moins un homme ait choisi
son propre chapeau est donnée par
P(Û E) = ï P(E,) - I P(EilEh) + ...

\' =1 / i=l M<i2
+ (-1)" + 1 P{EhEh ... EJ

ii<i 2 ---<i„
+ --- + (-l)N+1P(ElE2---EN)
Considérons le résultat de cette expérience comme un vecteur de A' nombres

où le i-ème élément est le numéro du chapeau choisi par le i-ème homme. Il y a
alors N! tirages possibles [le résultat (1,2,...,N) signifie, par exemple, que chaque
homme a choisi son propre chapeau]. De plus, Et ,£, ,...,Ein, , l'événement que
chacun des n hommes i\,i2,—,i„ choisisse son propre chapeau, peut survenir de
(N — n)[N - (n+ 1)] ... 3 • 2 • 1 = (N — «)! manières possibles; car, pour les N — «
hommes restants, le premier peut choisir n'importe lequel parmi N — n chapeaux,
le second peut choisir parmi N —(n+l) chapeaux et ainsi de suite. Ainsi, en admettant
que les N\ tirages possibles soient équiprobables, nous voyons que
{N n)]
P(F F r) ~
Aussi, nouspouvons écrire, puisqu'il y a O termes dans . . £ ^,- P(En>En>-->Eili'-
N\(N-n)\ _ 1
i,<i2-<i„ (N-n)\n\N\ n\
et par conséquent
Ainsi la probabilité qu'aucun des hommes ne choisisse son chapeau est
, , 1 1 (-1)"
1 1+ + +
- iï-3ï --- -^r
Cette probabilité est, pour N grand, approximativement égale à e-1 « 0,36788. En
d'autres termes, pour des grandes valeurs de N, la probabilité qu'aucun des hommes
ne sélectionne son propre chapeau est d'environ 0,37 (bien des lecteurs auront sans
doute plutôt pensé à tort que cette probabilité tendrait vers 1 lorsque N devient infini),
b) Pour obtenir la probabilité qu'exactement k des N hommes choisissent leur
propre chapeau, fixons dans un premier temps notre attention sur un groupe particulier
de k hommes. Le nombre de manières pour que ces k hommes et eux seulement choi-
sissent leur propre chapeau est égal au nombre de manières pour que les N - k autres
hommes choisissent parmi leurs chapeaux sans qu'aucun d'entre eux ne tombe sur le
sien. Mais comme
est la probabilité qu'aucun de ces N — k hommes tirant dans le groupe de leurs

chapeaux ne tombe sur le sien, il en résulte que le nombre de cas où nos k hommes
et eux seuls ont tiré leur propre chapeau est
De ce fait, puisqu'il y a (f) compositions possibles pour le groupe des k hommes, il

y aura
situations où exactement k hommes ont tiré leur propre chapeau. La probabilité

cherchée est donc
N!
, , 1 1 (-l)N~k
1 1+ + +
- 2!-5i --- ^^)!
fc!
qui, pour N grand, devient approximativement e */k\. Ces valeurs <•>""'/&!, À- = 0,1,...,
ont une importance théorique. Elles représentent en effet les valeurs associées à la
distribution de Poisson. Ce point sera développé au chapitre 4. ' •
Pour illustrer autrement encore l'utilité du théorème 2.7, on peut citer l'exemple
suivant.
Exemple2.14 Si 10 couples mariés sont assis au hasard autour d'une table, calculer
la probabilité qu'aucune femme ne soit assise à côté de son mari.
SOLUTION. Si nous désignons par Ei, i = 1,2,...,10 l'événement que le couple /est réuni,
10
il en résulte que la probabilité cherchée est 1 - P([J E). Mais en vertu du théorème
;=l
2.7
+ P(EIE2---E10)
Pour calculer P(Eil,Ei2,...,Ei), nous remarquerons d'abord qu'il y a 19! manières

d'asseoir 20 personnes autour d'une table ronde (pourquoi ?). Le nombre de configu-
rations qui aboutissent à ce qu'un ensemble déterminé de n hommes soient assis à côté
de leur femme peut être calculé de manière très simple. On se représente d'abord
chacun des n couples de gens mariés comme étant une entité en soi. Nous aurions dans
ce cas à disposer 20 —2« + n — 20 — n entités autour de la table et il y a clairement
(20-M-l)! de ces dispositions. Finalement, comme chacun des n couples de gens mariés
peut s'asseoir de deux manières différentes, il en résulte qu'il y a 2n(20 — n - 1 ) !
1
Voir l'exemple 3.30 pour une autre approche de ce problème.
dispositions qui aboutissent à ce qu'un groupe fixé de n hommes soient assis à côté
de leur femme. Donc
p{ r(19-n)l
1 2 ;
" (19)!
De ce fait, le théorème 2.7 livre que la probabilité de trouver au moins un couple réuni
est
/10\ (18)! _ / 1 0 \ 2 (17)! /10\ 3 (16)! /10\ 10 9! _

2 2 + 2 2
V1/ (19)! U J (19)! l 3 j (19)! lioj (19)! ~
et la probabilité cherchée est 0,3395. •
Exemple 2.15 Considérons une équipe d'athlétisme qui vient de terminer sa saison
avec un palmarès final de n victoires et m défaites. En examinant la séquence
des victoires et défaites nous espérons déterminer si l'équipe a eu des suites
d'épreuves pendant lesquelles elle avait une chance plus grande de gagner que pendant
les autres. Un moyen d'éclairer un peu cette question est de compter le nombre de
chaînes de victoires et de voir ensuite quelle probabilité aurait ce résultat en admet-
tant que les (n + m)\/(n\m\) séquences possibles comprenant n victoires et m défaites
sont équiprobables. Par «chaîne de victoires» nous entendons une séquence ininter-
rompue de victoires. Par exemple, si n = 10, m = 6 et si la séquence des résultats est
V V D D V V V D V D D D V V V V , alors il y a eu 4 chaînes de victoires - la première
de longueur 2, la seconde de 3, la troisième de 1 et la quatrième de 4.
Supposons maintenant qu'une équipe enregistre n victoires et m défaites. En
admettant que les (n + m)!/(n!m!) = (n+„m) séquences sont équiprobables, déterminons
la probabilité qu'il y ait exactement r chaînes de victoires. Pour l'obtenir, considérons
d'abord n'importe quel vecteur d'entiers positifs xl,x2,...,xr avec xl+x2+..-+xr = n,
et voyons combien de séquences comprennent r suites de victoires dans lesquelles la
z'-ème chaîne est de taille xit i = \,...,r. Pour toute telle séquence, si nous désignons
par yx le nombre de défaites avant la première chaîne de victoires, y2 celui avant la
deuxième chaîne de victoires, yr+l celui après la dernière chaîne de victoires, alors les
yt satisfont
y, + y2 + ... + y r+1 = m j i > 0 , y r+1 > 0, y, > 0, z = 2 , . . . , r
et la séquence peut être schématiquement représentée par
DD...D VV...V DD...D VV...V ... VV...V DD...D
x x x
y\ i yi z r yr+\
De ce fait, le nombre de séquences qui donnent lieu à r chaînes de victoires - la z'-ème

de longueur x„ i = l,...,r - est égal au nombre d'entiers y{,...,yr+l qui satisfont les
conditions ci-dessus ou, de manière équivalente, au nombre d'entiers positifs
9\ = yi + 1, y> = y,, / = 2 , . . . , r, y r+1 = y r+1 + 1

qui satisfont
y, + y2 + • • • + yr+1 = m + 2
En vertu du théorème 1.10, il y a (m^ ') séquences de ce genre. De ce fait le nombre

total de séquences donnant suite à r chaînes de victoires est ('"* ') multiplié par le
nombre de solutions entières positives à l'équation ,v, + ... + xr = n. Et donc, de
nouveau en vertu du théorème 1.10, il y a ("'+') ("l\) séquences livrant r chaînes de
victoires. Comme il y a ("+„"') séquences equiprobables, nous pouvons déduire que
P({r chaînes de victoires}) =

r ; ')(: :,') ,
,
r 2: 1
n
r; )
Par exemple, si n = 8, m = 6, alors la probabilité d'avoir 7 chaînes est (7) (l)l(^) = -^
si les ('84) résultats sont tous equiprobables. De ce fait, si la séquence était
V D V D V D V D V V D V D V , alors nous pourrions suspecter que la probabilité
pour l'équipe de gagner a été variable avec le temps. En particulier, la probabilité que
l'équipe gagne semble être très haute quand elle a perdu sa dernière épreuve et
particulièrement basse quand elle l'a gagnée. A l'extrême inverse, si la séquence avait
é t é V V V V V V V V D D D D D D , alors il n'y aurait eu qu'une chaîne de victoires.
Comme P({1 chaîne}) = (]) (o)/('84) = 455- il semble de nouveau improbable que la
probabilité de victoire de l'équipe soit restée invariable tout au long des 14 épreuves.
2.6 THEOREME DE PASSAGE A LA LIMITE
Une suite d'événements {En, n = 1} est dite suite croissante, si

Ex c E2 c • • • c En <= £„ + 1 c ...
alors qu'elle est dite décroissante si
Ex = E2 3 • • • 3 En => £ „ + 1 =>...
Si {£„, n ^ 1} est une suite croissante d'événements, alors nous définissons un nouvel
événement noté lim E„:
n-»oc
00
lim En = U Et
De même, si {£„, n = 1} est une suite décroissante d'événements, nous définissons

lim E„ par:
lim En = f i Ei,
Démontrons maintenant le théorème 2.8.

Théorème 2.8
Si {E„, n = 1) est une suite soit croissante, soit décroissante d'événements, alors
lim P(E„) = P ( l i m En)
PREUVE: Supposons d'abord que {E„, n = 1} est une suite croissante et définissons les
événements Fn, n > 1 par
F1=El
Fn = En({jE?J =EJEcn.i n>l
où nous avons utilisé le fait que U Ei = E t, puisque les événements sont emboîtés.
;=l
En d'autres termes, F„ comprend les points de E„ qui ne sont dans aucun des £, qui
le précèdent. Il est facile de voir que les Fn sont des événements s'excluant mutuelle-
ment et tels que
Ainsi
= £ P(Fi) ( Axiome 2.3 )

î
= lim i P{Fi)
= limp(ÛF()
{ÙE)
= lim P(En)
n-*oo
ce qui prouve le résultat lorsque {En, n ^ 1} est croissante.
Si {En,n > 1 ( est une suite décroissante, alors {E„c, n > 1} est croissante; de ce fait,
d'après les équations précédentes,
P(Ù Ef ) = lim P(E„')

X' X
Mais, comme U E,c = (H £,)', nous voyons que
i=l ;=1
^((ÔE,) ) = lim/'(£;)
ou, de manière équivalente,
1 - P[ H E) = lim [1 - P(£„)] = 1 - lim P{En)
P[ H E f ) = lim P(Ê„)
\ i / "^^
ce qui prouve le résultat.
Exemple 2.16 Probabilité et paradoxe

Supposons que nous ayons une urne infiniment grande et une collection infinie de
boules numérotées 1, 2,..., n,.... Considérons l'expérience réalisée comme il suit: à
minuit moins une, les boules 1 à 10 sont placées dans l'urne et la boule 10 est retirée
(on admet que le retrait est instantané). A minuit moins 30 secondes, les boules 11
à 20 sont placées dans l'urne et la boule 20 retirée. A minuit moins 15 secondes, les
boules 21 à 30 sont introduites et la boule 30 est retirée. A minuit moins 7 secondes
et demie, etc. La question intéressante est: combien y a-t-il de boules dans l'urne à
minuit?
La réponse à cette question est clairement qu'il y a une infinité de boules dans
l'urne à minuit puisque toute boule dont le numéro n'est pas de la forme l0n, « > 1,
aura été placée dans l'urne et n'aura pas été retirée avant minuit. Ainsi le problème
est résolu lorsque l'expérience est réalisée comme nous l'avons décrite.
Cependant, modifions l'expérience et supposons qu'à minuit moins une les boules
1 à 10 sont placées dans l'urne et la boule 1 est retirée. A minuit moins 30 secondes,
les boules 11 à 20 sont introduites et la boule 2 est retirée. A minuit moins 15 secondes,
les boules 21 à 30 sont introduites et la boule 3 retirée. A minuit moins 7 secondes
et demie, les boules 31 à 40 sont introduites et la boule 4 est retirée, et ainsi de suite.
Dans cette nouvelle expérience, combien y a-t-il de boules dans l'urne à minuit?
De manière assez surprenante, la réponse est maintenant que l'urne est vide à
minuit. En effet, dans le premier cas seules les boules numérotées lOn, n ^ 1, sont
retirées; alors que dans le second cas toutes les boules sont finalement retirées.
Supposons maintenant que dès qu'il faut retirer une boule, celle-ci est prise au
hasard parmi les boules déjà présentes dans l'urne. Cela veut dire qu'à minuit moins
1, les boules 1 à 10 sont placées dans l'urne et une boule est retirée au hasard, et ainsi
de suite. Dans ce cas, combien de boules y a-t-il dans l'urne à minuit?
SOLUTION. Nous montrerons qu'avec une probabilité 1 l'urne est vide à minuit.
Considérons d'abord la boule 1. Définissons par E„ l'événement «la boule 1 est encore
dans l'urne après que les n premiers retraits ont été effectués». Clairement,
9
P(E„) = -18-27-"-^
10 1 9 - 2 8 - - ( 9 n + l)
Pour comprendre cette équation, il suffit de voir que si la boule 1 est encore dans
l'urne après les n premiers retraits, la première boule retirée peut être choisie parmi
9, la seconde parmi 18 (il y a 19 boules dans l'urne au moment du deuxième retrait,

mais l'une d'elles est la boule 1) et ainsi de suite. Le dénominateur est obtenu de la
même manière.
GO
Or, l'événement «la boule 1 est dans l'urne à minuit» est précisément fi En. Comme
n- I
les événements E„, n = 1, forment une suite décroissante, il résulte du théorème 2.8
que:
P {la boule numéro 1 se trouve dans l'urne à minuit}
- p (.ô, £ -)
= lim P(En)
n-*oo
Nous allons maintenant montrer que

oo gn
n —— = 0
«l1, 9n + 1
Comme
cela revient à montrer
.Û.(,+s)-
Or, pour tout m^ 1
n(> + fUn(. + f)
„=i\ 9n/ „=i\ 9nJ
1 1 1 î
> - + — + — + ••• + —
9 18 27 9m
=1y i
9 ih i
Par conséquent, en faisant tendre m vers l'infini et en utilisant le fait que Z \ji = oo,
l=l
on obtient
oo
Donc, en notant F, l'événement «la boule i est dans l'urne à minuit», nous avons
montré que Pl^) = 0. On peut alors montrer que P(Fj) = 0 pour tout i (le même
00
raisonnement établit par exemple que P(Fj) = U [9n/(9n+ 1)] pour i = 11,12,...,20).
2
OO " =
Ainsi, la probabilité P(U Fj) que l'urne ne soit pas vide à minuit satisfait
/ oo \ oo
P\UFtJslP(Fi)=0
en vertu de l'inégalité de Boole (voir exercices 2.8.8 et 2.8.20). Aussi l'urne sera-t-elle
vide à minuit, avec une probabilité de 1. •
2.7 PROBABILITÉ EN TANT QUE MESURE DU CRÉDIT ACCORDÉ À UN

FAIT
Jusqu'à présent nous avons interprété la probabilité d'un événement d'une expé-
rience donnée comme étant une mesure de la fréquence d'apparition de l'événement
lorsque l'expérience est répétée sans fin. Cependant, il existe d'autres usages du terme
probabilité. Par exemple, nous avons tous entendu des déclarations du genre «il est
probable à 90% que Shakespeare ait écrit Hamlet», ou «la probabilité qu'Oswald ait
agi seul lors de l'assassinat de Kennedy est 0,8». Comment devons-nous interpréter
ces affirmations?
L'interprétation la plus simple et naturelle est que les probabilités citées sont des
mesures du crédit qu'un individu porte à la déclaration qu'il fait. En d'autres termes,
un individu prononçant les déclarations ci-dessus est assez certain qu'Oswald a agi
seul et plus certain encore que Shakespeare a écrit Hamlet. Cette interprétation des
probabilités comme mesure d'une croyance est qualifiée d'approche personnelle ou
subjective des probabilités.
Il semble logique de supposer qu'une telle mesure du crédit porté aux choses doive
satisfaire tous les axiomes des probabilités. Par exemple, si nous sommes certains à
70% que Shakespeare ait écrit Jules César et certains à 10% que l'auteur ait en fait
été Marlowe, alors il est logique de supposer que nous sommes certains à 80% que
l'auteur ait été soit Shakespeare soit Marlowe. Aussi, que nous interprétions les
probabilités comme mesure de croyance ou comme fréquence d'apparition à long
terme, leurs propriétés mathématiques sont inchangées.
Exemple 2.17 Supposons que dans une course disputée par 7 chevaux vous sentiez
que chacun des 2 premiers a 20% de chances de gagner, que les chevaux 3 et 4 ont
chacun 15% de chance et que les 3 derniers ont 10% de chance chacun. Avez-vous
avantage à parier à 1 contre 1 que le gagnant sera l'un des 3 premiers chevaux ou de
parier, à 1 contre 1 toujours, que le vainqueur sera l'un des chevaux 1, 5, 6, 7?
SOLUTION. Calculée d'après vos probabilités personnelles sur l'issue de la course, votre
probabilité de gagner le premier pari est 0,2 + 0,2 + 0,15 = 0,55 tandis qu'elle est
de 0,2 + 0,1 + 0 , 1 + 0 , 1 = 0,5 pour le second. La première mise est donc plus
intéressante. •
Il faut remarquer qu'en supposant que les probabilités subjectives relatives à un

individu sont cohérentes avec les axiomes de probabilité, nous parlons d'une personne
idéale plus que réelle. Par exemple, si nous devions demander à quelqu'un ce qu'il ou
elle pense des chances qu'il
• pleuve aujourd'hui
• pleuve demain
• pleuve aujourd'hui et demain
• pleuve aujourd'hui ou demain
il est bien possible qu'après quelques réflexions cette personne puisse donner respecti-
vement 30%, 40%, 20% et 60% comme réponses. Mais malheureusement de telles
réponses (ou de telles probabilités subjectives) ne sont pas cohérentes avec les axiomes
de probabilité (pourquoi ne le sont-elles pas?). Nous espérons bien naturellement
qu'après le lui avoir fait remarquer le répondeur finira par modifier ses réponses (une
possibilité acceptable est respectivement 30%, 40%,10% et 60%).
2.8.1 Démontrer les relations suivantes

• EF <= E a E U F
• Si E a F, alors Fc <= E c
• F=FE\JFEcetE[JF=E\JEcF
. (Û E,)F = H E,F et (0 E,) \J F = Û (Ei U F).
1 1 1 1
2.8.2 Pour toute suite d'événements E\,E2,.--, définir une nouvelle suite F,,F2,...
d'événements s'excluant mutuellement (c'est-à-dire tels que F,F; = 0 dès que / # j)
et tels que pour tout n > 1
UFi = \jEi
2.8.3 Soient E, F et G trois événements. Trouver des expressions pour les événements
suivants que l'on dira réalisés lorsque, de E, F et G,
• E seul l'est
• E et G le sont mais pas F
• au moins l'un des trois l'est
• au moins deux d'entre eux le sont
• les trois le sont
• aucun ne l'est
• au plus l'un des trois l'est
• au plus deux d'entre eux le sont
• exactement deux le sont
• au plus trois le sont.
2.8.4 Trouver une expression simple pour les événements suivants:
a) (EuF)(EuFc);
b) ( £ u F ) ( Ê c u F ) ( £ u F f ) ;
c) ( E u F ) ( F u G ) .
2.8.5 Soit S un ensemble donné. Si pour un certain k > 0, S,,S2,...,S£ sont des
k
sous-ensembles disjoints non vides de S tels que U S, = S, alors nous appelons
<= i
l'ensemble {St,...,Sk} une partition de S. Désignons par Tn le nombre de partitions
différentes de {1,2,...,«}. On aura T1 = 1 (puisque la seule partition est St = {1} et
T2= 2 (puisque les deux partitions possibles sont {{1,2}},{{ 1 },{2}}). Montrer que
r 3 = 5, T4 = 15 en exhibant toutes les partitions
T
»'",+.Ç,(*")7V
et appliquer ce résultat au calcul de Tl0.
Une façon de choisir une partition de n + 1 objets est de nommer un des objets
«spécial». Nous obtenons alors différentes partitions en choisissant tout d'abord k,
k = 0, 1,..., n , puis un sous-ensemble de taille n-k parmi les objets non spéciaux et
en choisissant ensuite n'importe quelle partition Tk des k objets non spéciaux restants.
En ajoutant l'objet spécial au sous-ensemble de taille n-k, nous obtenons une
partition des n + 1 objets.
2.8.6 On suppose qu'une expérience est répétée n fois. Pour chaque événement E de
l'ensemble fondamental, soit n(E) le nombre de fois où l'événement E survient; on
définit/(Zs) par f[E) = n(E)/n. Montrer que f( • ) satisfait aux axiomes 2.1, 2.2 et 2.3.
2.8.7 Prouver que
P ( E u F u G ) = P(E) + P(F) + P(G) - P(ECFG) - P(EFCG)

- P(EFGC) - 2P{EFG).
2.8.8 Prouver l'inégalité de Boole
2.8.9 Si P{E) = 0,9 et P(F) = 0,8, montrer que P(EF) > 0,7. De manière plus
générale, démontrer l'inégalité de Bonferroni, à savoir
P(EF) > P(E) + P(F) - 1
2.8.10 Montrer que la probabilité qu'un seul exactement des événements /: et F se

réalise est P(E) + P(F) - 2P(EF).
Initiation aux probabilités 51
2.8.11 Montrer que
P(EFC) = P(E) - P(EF).
2.8.12 Montrer que
P(ECFC) = 1 - P(E) - P(F) + P(EF).
2.8.13 Démontrer le théorème 2.7 par induction.
2.8.14 Une urne contient M boules blanches et N noires. Si un échantillon de taille

r est tiré au hasard, quelle est la probabilité qu'il contienne exactement k boules
blanches? Que dire du cas M = k = 1?
2.8.15 Généraliser l'inégalité de Bonferroni à n événements ce qui, explicitement,

revient à montrer que
P(E1E2 ... En) > P(E1) + ... + P(En) - (n - 1)
2.8.16 On considère le problème de rencontre (exemple 2.13) et on désigne par AN le

nombre de manières telles que chacun des N hommes n'ait pas tiré son propre
chapeau. Prouver que
AN = (N - l)(i4 N _, + A N _ 2 )
Cette formule, conjointement avec les conditions aux limites Ax = 0 et A2 = 1, peut

être utilisée pour le calcul de AN. Elle livre la probabilité voulue An/N!, probabilité
de n'avoir aucune rencontre. On sait qu'après que le premier homme ait choisi un
chapeau qui n'est pas le sien, il reste N — 1 hommes qui doivent choisir dans un
groupe de N — 1 chapeaux. De ce groupe manque d'ailleurs le chapeau de l'un de
ces hommes, précédemment tiré. Il y a ainsi un homme qui ne peut plus trouver son
propre chapeau et un chapeau qui n'a plus de propriétaire. Montrer qu'on peut
n'avoir aucune rencontre aussi bien si l'homme de trop sélectionne le chapeau de trop
que s'il en sélectionne un autre.
2.8.17 Désignons par/„ le nombre de manières de jeter une pièce n fois sans que deux
piles successifs n'apparaissent. Montrer que
fn = fn-1 + fn-2 n ≥ 2, OÙ f0 = 1, f1 = 2
Si Pn désigne la probabilité que des piles successifs n'apparaissent jamais lors de «jets,
trouver Pn (en fonction de fn lorsqu'on admet que toutes les séquences de «jets sont
équiprobables. Calculer Pi0.
10
RÉPONSE. Pm = 144/2 = 0,141.
2.8.18 On considère une expérience dont l'ensemble fondamental comprend une

infinité dénombrable de points. Montrer qu'il est impossible que chaque point ait la
52 Axiomes des probabilités
même probabilité. Est-ce que tous les points peuvent avoir une probabilité strictement
positive?
2.8.19 On considère l'exemple 2.15 qui traite du nombre de chaînes de victoires

obtenues lors d'une combinaison au hasard de n victoires et m défaites. On considère
maintenant le nombre total de chaînes, donc chaînes de victoires et chaînes de
défaites. Montrer que
2.8.20 A partir de l'inégalité de Boole pour un nombre fini d'événements, montrer que
pour toute suite infinie d'événements Eh i = 1,
P{C)EÎP(E,)
2.8.21 Montrer que si P(E,) = 1 pour tout / Js 1, alors P(f) £,) = 1.

i
2.8.22 Pour une suite d'événements Eh i > 1, on définit un nouvel événement, appelé
lim sup £,, comprenant tous les événements contenus dans un nombre infini de £,,
/ ^ 1. Montrer que
X X
lim sup E, = Pi U Ei
i n = ) i = n
2.8.23 Montrer que si S P(E,) < oo, alors P(lim sup E,) = 0.
;=1 '
x
Ceci est un résultat important qui énonce que si L P (E)<oo, alors la probabilité
qu'un nombre infini de E survienne est 0.
Pour ce calcul, utiliser l'inclusion
2.9 PROBLÈMES
Les problèmes 2.9.1 à 2.9.4 portent sur les sections 2.1 et 2.2.
2.9.1 Une boîte contient 3 jetons, un rouge, un vert et un bleu. On considère l'expé-
rience consistant à tirer au hasard un jeton dans la boîte, à l'y remettre puis à en tirer
un second. Décrire l'ensemble fondamental. Même question si le second jeton est tiré
sans qu'on ait remis le premier.
2.9.2 Un dé est jeté jusqu'à ce qu'un 6 sorte, ce qui marque la fin de l'expérience. Quel
est l'ensemble fondamental pour cette expérience? Notons par E l'événement ««jets
sont nécessaires pour obtenir le premier 6». Quels points de l'espace fondamental sont
contenus dans £„? Décrire (U £„)'•
2.9.3 On jette deux dés. On note par E l'événement «la somme des dés est impaire»,
par F l'événement «au moins l'un des dés montre 1», et par G «la somme des dés est
5». Décrire EF, EKJF, FG, EF1 et EFG.
2.9A Trois joueurs, A, fl et C, jettent une pièce à tour de rôle. Le premier qui obtient
pile a gagné. L'ensemble fondamental S de cette expérience peut être décrit comme
suit:
fl,01,001,0001,...,
loooo--
• Donner une interprétation des points de S.

• Décrire les événements suivants en termes de ces points:
premier événement: A = «A gagne»;
deuxième événement: B = «B gagne»;
troisième événement: {A U B)'.
On admettra que A joue d'abord, puis B et enfin C.
2.9.5 Une cafétéria propose un menu composé de trois plats. On choisit un plat prin-
cipal, un féculent et un dessert. Les choix possibles sont donnés ci-dessous.
Choix
Plat principal poulet ou rosbif
Féculent pâtes ou riz ou pommes de terre
Dessert glace ou gelée ou tarte aux pommes ou pêches
Une personne choisit un plat de chaque catégorie.

a) Combien de menus possibles y a-t-il dans l'ensemble fondamental?
b) Soit A l'événement: «on choisit la glace». Combien y a-t-il de menus possibles
dans A ?
c) Soit B l'événement: «on choisit le poulet». Combien y a-t-il de menus possibles
dans B?
d) Donner tous les menus possibles de l'événement AB.

e) Soit C l'événement: «on choisit le riz». Combien y a-t-il de menus possibles dans
C?
f) Donner tous les menus possibles de l'événement ABC.
Les problèmes 2.9.5 à 2.9.36 portent sur les sections 2.3 à 2.6.
2.9.6 Un magasin accepte les cartes de crédit American Express ou VISA. 24% de
ses clients possèdent une carte American Express, 61% une carte VISA et 11% pos-
sèdent les deux. Quel est le pourcentage de clients possédant une carte de crédit ac-
ceptée par le magasin?
2.9.7 60% des élèves d'une école ne portent ni bague ni collier. 20% portent une
bague et 30% ont un collier. Si un des élèves est choisi au hasard, quelle est la proba-
bilité qu'il porte
a) une bague ou un collier?
b) une bague et un collier?
2.9.8 Un client du rayon costumes d'un magasin achètera un costume avec une pro-
babilité .22, une chemise avec une probabilité .30 et une cravate avec une probabilité
.28. Le client achètera un costume et une chemise avec une probabilité .11, un cos-
tume et une cravate avec une probabilité .14 et une chemise et une cravate avec une
probabilité .10. Un client achètera les trois vêtements avec une probabilité .06. Quelle
est la probabilité qu'un client achète
a) aucun vêtement;
b) exactement un des vêtements?
2.9.9 Une école propose trois cours de langue : un en espagnol, un en français et un

en allemand. Ces cours sont ouverts aux 100 élèves de l'école. Il y a 28 étudiants en
espagnol, 26 en français et 16 en allemand. Il y a 12 étudiants qui suivent l'espagnol
et le français, 4 qui suivent l'espagnol et l'allemand et 6 qui étudient le français et
l'allemand. De plus, 2 élèves suivent les trois cours.
a) Si un élève est choisi au hasard, quelle est la probabilité qu'il ou elle ne fasse par-
tie d'aucun de ces cours?
b) Si un élève est choisi au hasard, quelle est la probabilité qu'il ou elle suive exacte-
ment un cours de langue?
c) Si 2 élèves sont choisis au hasard, quelle est la probabilité qu'au moins un des
deux suive un cours de langue?
2.9.10 Une ville de 100000 habitants compte trois journaux locaux: I, II et III. Les
proportions de lecteurs pour ces journaux sont:
I : 10% I et II : 8% I et II et III : 1%
II : 30% I et III : 2%
III : 5% II et III : 4%.
Ces proportions nous indiquent par exemple que 8 000 personnes lisent à la fois les
journaux I et II.
a) Trouver le nombre de personnes ne lisant qu'un journal.
b) Combien de personnes lisent au moins deux journaux?

c) II est un quotidien du soir, tandis que I et NI sortent le matin. Combien de
personnes lisent-elles au moins un journal du matin plus celui du soir?
d) Combien de personnes lisent-elles un journal du matin seulement et le journal du
soir?
e) Combien de personnes ne lisent aucun journal?
2.9.11 Les données suivantes ont été fournies par l'étude d'un groupe de 1000
abonnés d'un certain magazine. Concernant leur emploi, état civil et niveau d'éduca-
tion les réponses furent: 312 actifs, 470 personnes mariées, 525 bacheliers dont 42
actifs, 147 bacheliers mariés, 86 actifs mariés dont 25 bacheliers. Montrer que les ef-
fectifs compilés lors de cette étude sont inexacts. Pour cela, désigner par A, M et B
respectivement l'ensemble des gens actifs, celui des gens mariés et celui des bache-
liers. Supposer qu'une des 1 000 personnes est tirée au hasard et utiliser le théorème
2.7 pour montrer que si ces nombres sont corrects, alors P(A u Mu B) > 1.
2.9.12 On distribue les cartes d'un paquet en comptant 52. Quelle est la probabilité que
la 14ème carte distribuée soit un as? Quelle est la probabilité que le premier as
survienne à la 14ème carte?
52
2.9.13 On admet que les (5 ) mains possibles au poker sont équiprobables. Quelle est
la probabilité de recevoir:
a) une couleur? (Une main est appelée couleur lorsque les 5 cartes sont des piques
seulement, ou des trèfles, ou des cœurs, ou des carreaux)
b) Une paire? (C'est le cas lorsqu'on reçoit a, a, b, c, doit a, b, c et dsonX de différentes
valeurs)
c) Deux paires (correspondant à a, a, b, b, c)l
d) Un brelan (a, a, a, b, c)?
e) Un carré (a, a, a, a, b)?
2.9.14 On peut jouer au poker en jetant simultanément 5 dés '. Montrer que:
a) P{5 cartes différentes) = 0,0926
b) P{1 paire} = 0,4630
c) P{2 paires} = 0,2315
d) P{brelan} = 0,1543
e) P{main pleine: 3 + 2 } = 0,0386
0 Pjcarré} = 0,0193
g) P{poker de 5} = 0,0008
2.9.15 Huit tours sont disposées au hasard sur un jeu d'échec. Calculer la probabilité
qu'aucune ne puisse en prendre une autre, donc qu'aucune ligne ni colonne ne
contienne plus qu'une tour.
2.9.16 On tire d'un paquet de cartes normal (52 cartes) deux cartes au hasard. Quelle
est la probabilité qu'elles forment un black jack, ou autrement dit, que l'une soit un
as et l'autre un dix, un valet, une dame ou un roi?
Ndt : ces dés sont identiques entre eux et leurs six faces sont toutes différentes.
2.9.17 On jette deux dés. Quelle est la probabilité que la somme des points soit i?
Faire le calcul pour i = 2,3,. ..,11,12.
2.9.18 On jette deux dés jusqu'à ce qu'une somme de 5 ou 7 apparaisse. Trouver la

probabilité qu'on s'arrête sur une somme de 5. Pour cela, désigner par En l'événement
«une somme de 5 apparaît au n-ième double jet et sur les n-\ premiers jets ni la somme
de 5 ni celle de 7 n'apparaît». Calculer P(E„) et montrer que S P(E„) est la probabilité
cherchée. "=l
2.9.19 On joue au «craps» comme suit: un joueur lance deux dés. Si la somme
résultante est 2, 3 ou 12, le joueur a perdu. Si la somme est 7 ou 11, il gagne. Dans
les autres cas, le joueur continue à lancer les dés jusqu'à ce qu'il sorte soit le premier
résultat qu'il a tiré soit 7. Si c'est 7, il perd. Si c'est son résultat initial, il gagne.
Calculer la probabilité de gagner sur un jeu.
On pourra pour cela poser E{ = «le résultat initial est /' et le joueur finit par gagner».
12
La probabilité cherchée est £ ^(E,). Pour calculer P(E), poser Ein = «la somme
'=2 ' oc
initiale est / et le joueur gagne au n-ième coup». Montrer que P(E) = P(Ei„)-
2.9.20 Une urne contient trois boules rouges et sept noires. Les joueurs A et B tirent
une boule à tour de rôle jusqu'à ce qu'une rouge sorte, A commençant. Trouver la
probabilité que A tire la première boule rouge. On ne remet pas les boules tirées.
2.9.21 Une urne contient cinq boules rouges, six bleues et huit vertes. Si un groupe
de trois boules est tiré au hasard, quelle est la probabilité que celles-ci soient toutes
de la même couleur? Ou de couleurs différentes? Même question si chaque boule tirée
est remise après qu'on ait noté sa couleur (cette méthode s'appelle échantillonnage
avec remise).
2.9.22 Une urne A contient trois boules noires et trois rouges, alors que l'urne B en
contient six et quatre respectivement. On tire une boule dans chaque urne. Quelle est
la probabilité que les boules soient de la même couleur?
2.9.23 Une équipe de basket-ball réduite à trois joueurs comprend un arrière, un avant
et un centre. On choisit trois hommes dans autant d'équipes de cette composition à
raison d'un homme par équipe. Quelle est la probabilité d'obtenir une nouvelle équipe
complète? Et celle de tirer trois joueurs de la même spécialisation?
2.9.24 Un groupe est formé de g garçons et / filles. Tous sont alignés au hasard,
c'est-à-dire que chacune des (g + f)! permutations possibles est de même probabilité.
Quelle est la probabilité que la personne occupant la i-ème position soit une fille,
1 = i = g+f ?
2.9.25 Une forêt abrite vingt cerfs. Cinq sont capturés, marqués et relâchés. Un peu
plus tard, quatre sont de nouveau capturés. Quelle est la probabilité que deux d'entre
eux soient marqués? Quelles hypothèses faites-vous?
2.9.26 Dans une loterie, un joueur doit choisir 8 nombres entre 1 et 40. Le tirage sé-
lectionne 8 numéros parmi ces 40 nombres. En admettant que le tirage est équipro-
bable pour les ( ) combinaisons, quelle est la probabilité que le joueur ait
a) les 8 bons numéros;
b) 7 numéros parmi les 8 bons;
c) au moins 6 numéros parmi les 8 bons?
2.9.27 Le second Comte de Yarborough paria à 1000 contre 1 qu'une main de 13

cartes au bridge contiendrait au moins un 10 ou une carte de valeur supérieure (c'est-
à-dire un dix, un valet, une reine, un roi ou un as). Aujourd'hui, on appelle une main
qui n'a pas de carte supérieure à 9 une Yarborough. Quelle est la probabilité qu'au
bridge, une main sélectionnée au hasard soit une Yarborough?
2.9.28 30 psychiatres et 24 psychologues participent à une conférence. Trois per-

sonnes parmi ces 54 sont choisies pour présenter un exposé. Quelle est la probabilité
qu'au moins un psychologue soit choisi?
2.9.29 Deux cartes sont choisies aléatoirement parmi un jeu de 52 cartes. Quelle est
la probabilité
a) que ce soient 2 as;
b) qu'elles aient la même valeur?
2.9.30 Un professeur donne à sa classe 10 problèmes en expliquant que l'examen

final consistera à résoudre 5 de ces 10 problèmes, choisis aléatoirement. Si un étudiant
sait résoudre 7 des 10 problèmes, quelle est la probabilité qu'il ou elle réponde
correctement
a) aux 5 problèmes;
b) à au moins 4 des 5 problèmes?
2.9.31 Un tiroir contient n chaussettes dont 3 rouges. Quelle doit être la valeur de n
pour que, si on choisit 2 chaussettes aléatoirement, la probabilité qu'elles soient les
deux rouges soit 1/2?
2.9.32 Une ville compte cinq hôtels. Si lors d'une journée trois personnes louent une
chambre, quelle est la probabilité qu'elles le fassent dans trois hôtels différents?
Quelles hypothèses faites-vous?
2.9.33 II y a quatre réparateurs de télévision dans une ville. Quatre appareils tombent
en panne. Quelle est la probabilité que / exactement des réparateurs soient appelés?
Résoudre le problème pour / = 1, 2, 3, 4. Quelles hypothèses faites-vous?
2.9.34 Quelle est la probabilité de tirer au moins un 6 lorsqu'on jette un dé quatre

fois?
2.9.35 On répète n fois le lancer de deux dés. Calculer la probabilité que le six
apparaisse au moins une fois. Quelle valeur donner à n pour que cette probabilité
atteigne1/2?
2.9.36 a) On aligne N personnes, dont A et B. Quelle est la probabilité que A et B

soient voisins? b) Qu'en est-il si toutes les personnes sont disposées en cercle?
2.9.37 On tire un comité de quatre personnes au hasard d'une assemblée comprenant

trois étudiants de première année, quatre de deuxième, quatre de troisième et trois
de dernière. Trouver la probabilité que le comité tiré se compose:
a) d'une personne de chaque année;
b) de deux étudiants de deuxième et de troisième année;
c) seulement d'étudiants de deuxième et de troisième années.
2.9.38 Une personne possède n clés dont une seule ouvre sa porte, a) Si elle les essaie
au hasard en éliminant celles qui ne marchent pas, quelle est la probabilité que
la porte s'ouvre au &-ième essai? b) Qu'en est-il si elle n'élimine pas les clés essa-
yées?
2.9.39 Combien de personnes faut-il pour que la probabilité qu'au moins deux d'entre
elles aient leur anniversaire le même mois soit au moins 1/2? Admettre que tous les
mois sont équiprobables.
2.9.40 Si 12 personnes sont dans une même pièce, quelle est la probabilité qu'aucune
d'entre elles ne soit née le même mois?
2.9.41 On considère un groupe de 20 personnes. Quelle est la probabilité que, parmi

les 12 mois de l'année, il y ait 4 mois contenant chacun exactement 2 anniversaires et
4 mois contenant chacun exactement 3 anniversaires?
2.9.42 Un groupe de six hommes et six femmes est divisé au hasard en deux sous-
groupes de même taille. Quelle est la probabilité que chaque sous-groupe ait la même
composition?
2.9.43 Lors d'une donnée de bridge1, quelle est la probabilité que vous ayez cinq
piques et votre partenaire les huit autres?
2.9.44 Supposons que l'on distribue au hasard n boules dans N compartiments.

Trouver la probabilité que m boules tombent dans le premier compartiment. On
admettra que les N" répartitions sont équiprobables.
2.9.45 Un cabinet contient 10 paires de chaussures et on en tire 8 chaussures au

hasard. Quelle est la probabilité
a) qu'il n'y ait aucune paire;
b) qu'il y ait une paire exactement?
2.9.46 Une équipe de basket-ball compte 6 joueurs noirs et 4 blancs. Si les joueurs
sont répartis en chambrées de deux personnes, quelle est la probabilité qu'on trouve
deux chambrées mixtes?
Ndt: 52 cartes réparties entre quatre joueurs

2.9.47 On dispose sur un rang 4 couples mariés au hasard. Quelle est la probabilité
qu'aucun mari ne soit situé à côté de sa femme?
2.9.48 Calculer, en utilisant le théorème 2.7, la probabilité qu'une main de bridge soit
dépourvue d'au moins une des quatre couleurs. On remarquera que la probabilité
n'est pas
Pourquoi pas?
2.9.49 Calculer la probabilité qu'une main de 13 cartes (tirées parmi 52) contienne
a) l'as et le roi de l'une des quatre couleurs;
b) les quatre cartes de l'une des treize valeurs.
2.9.50 Deux personnes jouent au jeu suivant. Le joueur A choisit une des trois roues
ci-dessous et le joueur B choisit une des deux restantes. Les deux joueurs font tourner
leur roue et celui qui tombe sur le numéro le plus grand gagne. En admettant que les
trois régions de chaque roue sont équiprobables, préféreriez-vous être le joueur A ou
le joueur B? Expliquer votre réponse!
CHAPITRE 3
Probabilité conditionnelle et indépendance
3.1 INTRODUCTION
Nous allons présenter dans ce chapitre l'un des plus importants concepts de la
théorie des probabilités, celui de probabilité conditionnelle. L'importance de ce con-
cept est de deux ordres. En premier lieu on s'intéresse souvent à calculer des probabili-
tés lorsqu'une partie de l'information concernant le résultat de l'expérience est dispo-
nible; dans une telle situation les probabilités cherchées sont justement des probabili-
tés conditionnelles. Deuxièmement, même lorsqu'aucune information partielle n'est
disponible, il est souvent avantageux d'utiliser un détour par certaines probabilités
conditionnelles pour réussir le calcul des probabilités cherchées.
3.2 PROBABILITÉS CONDITIONNELLES
3.2.1 Présentation intuitive
Supposons que nous jetions deux dés et que chacun des 36 événements élémentai-
res ait la même probabilité de survenir, soit1/36.Supposons encore que nous puissions
observer le premier dé, qui donne un 3. Sur la base de cette information, quelle est
dès lors la probabilité que la somme des deux dés donne 8? Pour calculer cette
probabilité on peut procéder comme suit: le dé initial étant un 3, il ne peut plus y avoir
que 6 événements dans notre expérience, à savoir: (3,1), (3,2), (3,3), (3,4), (3,5) et (3,6).
Puisque chacun de ces événements a originellement la même probabilité d'apparaître,
ils auront encore des probabilités égales. Autrement dit, étant donné que le premier
dé est un 3, la probabilité (conditionnelle) de chacun des événements (3,1 ), (3,2), (3,3),
(3,4), (3,5) et (3,6) devient £, tandis que la probabilité (conditionnelle) des 30 autres
événements de l'ensemble fondamental devient 0. Aussi la probabilité cherchée est-elle
ici 1/6.
Si nous désignons respectivement par E et Fies événements «la somme des dés est
8» et «le premier dé donne 3», une probabilité comme celle calculée dans l'exemple
ci-dessus est appelée probabilité conditionnelle que E apparaisse sachant que F est
réalisé et est notée P(E\F).
3.2.2 Généralisation
On s'inspire de la même démarche pour dériver une formule générale donnant

P(E\ F) pour tout événement E et F: si F est réalisé, alors E apparaîtra chaque fois
qu'on aura affaire à un événement de £ et de F à la fois; en d'autres termes, ce sera
un événement de EF. Par ailleurs, comme nous savons que F est réalisé, cet ensemble
devient notre nouvel ensemble fondamental, d'ailleurs réduit; par conséquent la
probabilité conditionnelle de l'événement F sera donnée par comparaison de la
probabilité non conditionnelle de EF avec la probabilité non conditionnelle de F. On
débouche ainsi sur la définition suivante. Si P(F) > 0, la probabilité conditionnelle
de F sera
1
' ' P(F) (3.1)
Exemple 3.1 Une pièce de monnaie est lancée deux fois. Si nous supposons que les
quatre points de l'ensemble fondamental 5 = {(F,F),(F,F),(F,F),(F,F)} sont équipro-
bables, quelle est la probabilité conditionnelle que les deux jets amènent «face»
sachant que le premier est déjà un «face»?
SOLUTION.En désignant par F = {(F,F)} l'événement «les 2 jets amènent face» et par
F = {(F,F),(F,F)[ «le premier jet donne face», la probabilité voulue est donnée par
P({F, F})
F({(F, F), (F, P)})
Exemple 3.2 Une urne contient 10 billes blanches, 5 jaunes et 10 noires. Une bille est
tirée au hasard de l'urne et l'on constate qu'elle n'est pas noire. Quelle est la probabi-
lité qu'elle soit jaune?
SOLUTION. Soit J l'événement «la bille tirée est jaune» et soit N'' l'événement «elle n'est
pas noire». De (3.1) on tire
F ( W = ^
• P(N')
Probabilité conditionnelle et indépendance 63
Cependant, JN' = J puisque la bille sera à la fois jaune et non noire, si et seulement
si elle est jaune. Nous obtenons ainsi, en supposant que chacune des 25 billes a la
même chance d'être choisie:
h 1
P(J\N') = T; =
25
Il faut noter qu'on aurait aussi pu déduire cette probabilité en travaillant directement
avec l'ensemble fondamental réduit. Comme nous savons en effet que la bille choisie
n'est pas noire, le problème se réduit à calculer la probabilité qu'une bille soit jaune
lorsqu'elle est choisie au hasard dans une urne en contenant 10 blanches et 5 jaunes.
Cette probabilité est évidemment ^ = 1/3. •
Si on sait les événements équiprobables, il est souvent plus facile de calculer une
probabilité conditionnelle en considérant l'ensemble fondamental réduit qu'en invo-
quant (3.1).
Exemple 3.3 Dans un jeu de bridge chacun des quatre joueurs - appelés Est, Ouest,
Nord et Sud - reçoit 13 des 52 cartes. Si Nord et Sud ont un total de 8 piques entre
eux, quelle est la probabilité qu'Est ait 3 des 5 piques restants? •
SOLUTION. La méthode de calcul la plus rapide est probablement ici de travailler avec
l'ensemble fondamental réduit. Plus précisément, Nord et Sud ont un total de 8 piques
parmi leurs 26 cartes. Il reste donc 26 cartes dont 5 piques exactement à répartir entre
les mains d'Est et d'Ouest. Toutes les répartitions étant équiprobables, la probabilité
conditionnelle qu'Est ait exactement 3 piques parmi ses 13 cartes sera donc
m = .339
Exemple 3.4 L'entreprise pour laquelle travaille M. Jones organise un dîner pour ceux
de ses employés ayant au moins un fils. Chacun de ces employés est invité à se
présenter avec son aîné. On sait que Jones a deux enfants et il est invité au dîner.
Quelle est alors la probabilité que ses enfants soient tous deux des garçons? On
suppose que l'ensemble fondamental est S = {(g,g),(g/),(/',g),(/,/)} et que tous ces
événements sont équiprobables. [(gj) par exemple signifie que l'enfant le plus âgé est
un garçon et que l'autre est une fille.]
SOLUTION. Le fait de savoir que Jones a été invité au dîner est équivalent à savoir qu'il
a au moins un fils. Ainsi, en désignant par E l'événement «les deux enfants sont des
garçons» et par F l'événement «au moins l'un des deux enfants est un garçon», la
probabilité P(E\F) cherchée est
P(EF)
P(E\F) =
P(F)
P({(g, g)))
P({(g,g)Ag,A(f,g)\) 3/4 3
Bien des gens se trompent en évaluant cette probabilité à 'A; ils admettent dans
leur raisonnement que l'enfant non présent au dîner a autant de chances d'être un
garçon qu'une fille. L'hypothèse que ces deux probabilités sont identiques est fausse:
initialement en effet, il y avait quatre événements d'égale probabilité. Dès l'informa-
tion «au moins l'un des enfants est un garçon» connue, on sait que l'événement final
n'est pas (f,f). Il nous reste ainsi trois événements équiprobables (g,g), (f,g), (gf)-
Ceci montre que l'événement «l'enfant de Jones non présent au dîner est une fille»
est deux foix plus probable que son contraire. •
3.2.3 Applications
En multipliant les deux membres de (3.1) par P(F), nous obtenons
P(EF) = P(F)P(E\F) (3.2)
Cette équation signifie en clair: la probabilité que Zset F apparaissent à la fois est égale
à la probabilité que F apparaisse multipliée par la probabilité conditionnelle de E si
on sait que F est survenu. L'équation (3.2) est ainsi assez souvent utilisée pour calculer
des probabilités d'intersections.
Exemple 3.5 Céline hésite entre suivre un cours de français et en suivre un de chimie.
Bien qu'à vrai dire, elle préfère la chimie, elle estime à 'A la probabilité d'obtenir la
note A au cours de français contre2/3seulement pour la chimie. Céline décide de baser
sa décision sur le jet d'une pièce de monnaie équilibrée; quelle est la probabilité qu'elle
obtienne la note A en chimie?
SOLUTION. En désignant par C l'événement «Céline suit le cours de chimie» et par A

«elle obtient la note A dans le cours qu'elle choisit», la probabilité cherchée peut
s'écrire P(CA). On calcule cette dernière probabilité en utilisant (3.2) comme suit:
P(CA) = P(C)P{A\C)
= ( î ) ( ï ) = 1/3
Exemple 3.6 Une urne contient 8 boules rouges et 4 blanches. On tire sans remise
deux boules de l'urne et admet qu'à chaque étape tous les tirages possibles sont
équiprobables. Quelle est la probabilité que les deux boules tirées soient rouges?
SOLUTION. Appelons Ri et R2 respectivement les événements «la première boule tirée

est rouge» et «la seconde est rouge». Si la première boule sélectionnée est rouge,
il reste dès lors 7 boules rouges et 4 boules blanches. Donc P(R2\Rt) = 7/11;comme
P(R ,)vaut évidemment jz, la probabilité demandée est
P(RlR2) = P(Rl)P(R2\Rl)
On pourrait évidemment calculer cette probabilité ainsi:
3.2.4 La règle de multiplication
Une généralisation de l'équation (3.2), qui donne une expression pour la proba-
bilité de l'intersection d'un nombre arbitraire d'événements, est parfois appelée la
règle de multiplication.
La règle de multiplication :
P(£,£ 2 £j ...£„) = P{EX)P{E2 I £,)P(E 3 I ExE2)...P(En I £,...£„_,)
Pour démontrer la règle de multiplication, on applique la définition de la probabi-

lité conditionnelle au membre de droite. Cela donne
P(£,£,) P(£,£,£ 3 ) P(£,£,...£„)

P(E) ' 2 ' 2 3 ... l 2 n
— = P{ExE2...E„)
/»(£,) P(£,£ 2 ) P(ExE2...En_x)
Nous allons à présent employer la règle de multiplication pour résoudre selon une
seconde approche l'exemple 2.9 (question b) du chapitre 2.
Exemple 3.7 Un jeu ordinaire de 52 cartes est divisé aléatoirement en 4 piles de 13

cartes chacune. Calculer la probabilité que chaque pile contienne exactement 1 as.
SOLUTION. Définissons les événements E,•, i = 1, 2, 3, 4, de la manière suivante:

Ex = {L'as de pique est dans une des piles}
E2 = {L'as de pique et l'as de cœur sont dans des piles différentes}
E-$ - {Les as de pique, cœur et carreau sont dans des piles différentes}
£ 4 = {Les 4 as sont dans des piles différentes}
La probabilité cherchée est P(EX E2 £ 3 £ 4 ) et, par la règle de multiplication,
P(£,£ 2 £ 3 £ 4 ) = P(EX)P{E2 I £ 1 )P(£ 3 I £,£ 2 )P(£ 4 I £,£ 2 £ 3 )
Or P(EX) = 1 puisque Ex est l'ensemble fondamental S.

39
P(E2 !£,) = —
51
puisque la pile contenant l'as de pique recevra 12 des 51 cartes restantes.
P(E-, ! £ , £ , ) = —
50
puisque les piles contenant les as de pique et cœur recevront 24 des 50 cartes
restantes; et finalement
P(E4\E,E2E3) = —
49
De là, nous obtenons la probabilité que chaque pile possède exactement un as:
39 26 13
P(£,£',£,£,) = = .105
51-50-49
Ceci signifie qu'il y a environ 10.5% de chances que chaque pile contienne un as (le
problème 20 utilise la règle de multiplication d'une autre façon pour résoudre ce pro-
blème).
REMARQUE. Notre définition de P{E I F) correspond à l'interprétation des probabilités

comme étant la limite des fréquences relatives. Pour le voir, supposons qu'on réalise n
répétitions de l'expérience, avec n grand. Nous prétendons que si on considère
uniquement les expériences où F se produit, alors P(E I F) sera égale à la limite de la
proportion de celles où E se produit également. Pour vérifier ceci, on remarque que
puisque P(F) est la limite de la proportion des expériences où F se produit, cela
entraîne que lors de n répétitions de l'expérience, F se produira environ nP(F) fois. De
la même manière, £ et F se produiront toutes les deux approximativement lors de
nP(EF) expériences. Donc, dans les nP(F) expériences environ où F se produit, la
proportion de celles où E se produit aussi est à peu près égale à
nP(EF) P(EF)
nP(F) P(F)
Comme cette approximation s'améliore lorsque n croît, nous voyons que notre défini-
tion de P(E I F) est appropriée.
3.3 FORMULE DE BAYES
3.3.1 Présentation intuitive de la formule des probabilités totales
Soient E et F deux événements quelconques. Nous pouvons écrire E sous la forme

E = EF U EF'', car tout élément de F doit se trouver soit dans E et F à la fois, soit
dans E mais pas dans F (voir fig. 3.1). Comme évidemment EF et EFC s'excluent
mutuellement, on peut écrire en vertu de l'axiome 2.3:
P(E) = P(EF) + P(EFC)

= P(E\ F)P(F) + P(E | FC)P(FC)
= P(E | F)P(F) + P(E | F r ) [ l - P(F)]. (3.3)
Fig. 3.1
EF : zone en gris
EF' : zone hachurée
E = EF(J EFC
L'équation (3.3), appelée formule des probabilités totales, peut être interprétée de la
façon suivante: la probabilité de l'événement E est une moyenne pondérée de la
probabilité conditionnelle de E lorsque Fest apparu et de la probabilité conditionnelle
du même £ lorsque F n'est pas apparu, les poids étant les probabilités des événements
conditionnants.
Cette formule est extrêmement utile puisqu'elle nous permet dans bien des cas de
déterminer la probabilité d'un événement en commençant par le conditionner selon
l'apparition ou non d'un autre événement. En d'autres mots, il existe de nombreuses
situations où il est difficile de calculer directement la probabilité d'un événement mais
où il est par contre possible de la calculer connaissant ses probabilités conditionnelles
si certains événements sont réalisés. Quelques exemples illustrent cette démarche.
Exemple3.8 (l r e partie) Une compagnie d'assurance estime que les gens peuvent être
répartis en deux classes: ceux qui sont enclins aux accidents et ceux qui ne le sont pas.
Ses statistiques montrent qu'un individu enclin aux accidents a une probabilité de 0,4
d'en avoir un dans l'espace d'un an; cette probabilité tombe à 0,2 pour les gens à
risque modéré. On suppose que 30% de la population appartient à la classe à haut
risque. Quelle est alors la probabilité qu'un nouvel assuré soit victime d'un accident
durant l'année qui suit la signature de son contrat?
SOLUTION. Nous obtiendrons la probabilité de l'événement cité en le conditionnant

selon que le signataire de la police est ou n'est pas enclin aux accidents. On note par
At l'événement «le signataire aura un accident dans l'année qui suit l'établissement du
contrat» et par A «le signataire est enclin aux accidents». La probabilité P{A^) voulue
est alors donnée par
P(Ai) = P(Al\A)P{A) + P{At\ AC)P{AC)

= (.4)(.3) + (.2)(.7) = .26
Exemple3.8 (2 e partie) Un nouveau signataire a un accident dans l'année qui suit

la signature de son contrat. Quelle est la probabilité qu'il fasse partie de la classe à
haut risque?
SOLUTION. Cette probabilité est P(A\At), donnée par
P(AA,)
P(A\A1) =
P(AX)
P(A)P(A1\A)
P(A1)
(-3K.4) _ 6
.26 13
3.3.2 Introduction à la formule de Bayes
Formellement, la formule de Bayes est simplement dérivée de (3.1) et (3.3). L'ex-

pression générale de cette formule est donnée plus loin (formule (3.6)). Les exemples
suivants vont néanmoins servir à donner une idée intuitive du champ d'application
de cette formule importante.
Exemple3.9 Un étudiant répond à une question à choix multiple. De deux choses

l'une: soit il connaît la réponse, soit il la devine. Soit p la probabilité que l'étudiant
connaisse la réponse et donc 1 - p celle qu'il la devine. On admet que l'étudiant qui
devine répondra correctement avec probabilité \/m où m est le nombre de réponses
possibles. Quelle est la probabilité conditionnelle qu'un étudiant connaisse la réponse
à une question s'il y a répondu correctement?
SOLUTION. Soient C et K respectivement les événements «l'étudiant répond correcte-

ment à la question» et «il connaît vraiment la réponse». Alors
P ( / C | C )
" P(C)
P(C\K)P(K)
P(C\K)P(K) + P(C\KC)P(KC
P
p+ (l/m)(l-p)
_ mp
~ 1 +{m - \)p
En prenant par exemple»; = 5 et/; =1/2,la probabilité qu'un(e)étudiant(e) connaisse

la réponse à une question sachant qu'il ou elle a répondu correctement sera ainsi 5/6
Exemple 3.10 Un laboratoire d'analyses du sang assure avec une fiabilité de 95 % la

détection d'une certaine maladie lorsqu'elle est effectivement présente. Cependant, le
lest indique aussi un résultat faussement «positif» pour 1% des personnes réellement
saines à qui on l'applique (c'est-à-dire qu'une personne saine testée sera déclarée
malade une fois sur cent). Si 0,5% de la population porte effectivement la maladie,
quelle est la probabilité qu'une personne soit vraiment malade lorsqu'on la déclare
telle sur la base du test?
SOLUTION. Soit D l'événement «la personne soumise au test est porteuse de la maladie»
et E l'événement «le résultat du test est positif». La probabilité P{D\E) voulue est
donnée par
P(E\D)P(D)
~ P(E | D)P(D) + P(E | DC)P(DC)
(.95)(.005)
(.95)(.005) + (.01)(.995)
= ^-.323
294
Ainsi 32% seulement des personnes dont les résultats au test sont positifs ont vrai-
ment la maladie. Comme beaucoup d'étudiants sont surpris de ce résultat (ils s'atten-
dent souvent à une valeur beaucoup plus élevée puisque le test sanguin semble être
bon), il n'est pas inutile de donner un autre argument moins rigoureux que le
précédent mais plus parlant.
Puisque 0,5% de la population est réellement affectée par cette maladie, sur 200
personnes testées 1 en moyenne l'aura. Le test décèlera ce cas avec une probabilité
de 0,95. En moyenne donc, sur 200 personnes testées, on détectera correctement 0,95
cas. D'autre part, parmi les 199 personnes saines le test va à tort détecter (199)(0,01)
cas de maladie. Si l'on résume, à 0,95 cas de maladie correctement détectés s'ajoutent
en moyenne 1,99 cas faussement positifs (cas de personnes saines en réalité). Dès lors,
la proportion de résultats corrects quand le test est positif n'est que de
95 95
.95 + (199)(.01) 294= .323
L'équation (3.3) est également utile lorsqu'on cherche à réévaluer des probabilités
à la lumière d'informations supplémentaires. On peut illustrer cela au moyen des
exemples suivants.
Exemple 3.11 Considérons un médecin placé devant le dilemme suivant: «Lorsque je

suis certain, à au moins 80%, que mon patient est affecté d'une maladie bien précise,
je recommande toujours une intervention chirurgicale. Tandis que si j'en suis moins
certain, je prescris des tests complémentaires qui peuvent être chers et parfois pénibles.
Dans le cas de Jones, j'étais initialement certain à 60% seulement qu'il souffrait de
cette maladie, aussi ai-je prescrit un test A qui donne toujours un résultat positif
lorsque le patient est vraiment malade et presque jamais dans le cas contraire. Le
résultat de ce test étant positif, j'étais prêt à recommander une opération quand Jones
m'informa qu'il était diabétique, ce qu'il n'avait pas dit jusque-là. Cette indication
complique le diagnostic: bien que cela ne change en rien mon estimation originale de
maladie avec 60% de risques, cela affecte par contre l'interprétation du résultat du
test A. Ce test en effet, alors qu'il ne donne jamais de résultat positif si le patient est
sain, conduit malheureusement à un tel résultat - erroné - chez 30% des diabétiques
ne souffrant pas de la maladie. A partir de là, que faire? Encore des tests ou une
opération immédiate?»
SOLUTION. En vue de décider si oui ou non, il faut recourir à une opération chirurgi-
cale, le médecin doit premièrement calculer la nouvelle probabilité que Jones soit
malade dès lors qu'on sait le test A positif. Soit D l'événement «Jones a cette maladie»
et E «le résultat du test est positif». La probabilité conditionnelle P(D\E) cherchée
est calculable ainsi:
P (VD | £ ); = WË>
' P(E)
= P(D)P(E\D)
~ P(E | D)P(D) + P(E | DC)P(DC)
(-6)1
l(.6) + (.3)(.4)
= .833
Notons que nous avons calculé la probabilité d'avoir un résultat de test positif en
conditionnant par les événements que Jones a ou n'a pas la maladie et en utilisant
alors l'information que, Jones étant diabétique, sa probabilité conditionnelle P(E\DC)
de donner un résultat positif s'il n'est pas malade est 0,3. Ainsi, comme le médecin
estime à présent à plus de 80% les risques pour Jones d'être atteint, il recommandera
d'opérer. •
Exemple3.12 L'inspecteur chargé d'une enquête criminelle est à un certain stade

convaincu à 60% de la culpabilité d'un suspect donné. On découvre alors une nouvelle
pièce à conviction permettant d'affirmer que le criminel cherché possédait un certain
attribut (il était par exemple gaucher, ou alors chauve, ou aux cheveux bruns). Or
20% de la population possède ce même attribut. Comment l'inspecteur doit-il réap-
précier la culpabilité du suspect s'il se trouve que celui-ci a ce fameux attribut?
SOLUTION.Désignons par G l'événement «le suspect est coupable» et par C «il possède
le même attribut que le criminel». Nous aurons
P(G|C) = ^ >
P(C\G)P{G)
P(C\G)P(G) + P(C\ GC)P(GC]
K.6)
l(.6) + (.2)(.4)
.882
où nous avons supposé que la probabilité pour le suspect d'avoir l'attribut s'il est en
fait innocent est 0,2, la proportion normale dans la population. •
Exemple3.13 Lors du championnat du monde de bridge qui se déroula en mai 1965

à Buenos Aires, la fameuse équipe britannique Terrence Reese-Boris Schapiro fut
accusée de tricher au moyen d'un système de signaux de doigts qui pouvait indiquer
le nombre de cœurs détenus par les joueurs. Reese et Schapiro nièrent et finalement
une expertise fut menée par la British Bridge League. L'expertise fut organisée sous la
forme d'un procès avec partie plaignante et défense, chacune d'elles ayant le pouvoir
de faire comparaître tout témoin et de le soumettre à un interrogatoire contradictoire.
Au cours de ces débats, le représentant de la partie plaignante examina certaines
mains jouées par Reese et Schapiro puis affirma que leur manière de mener le jeu pour
ces mains corroborait l'hypothèse qu'ils étaient coupables d'avoir une information
malhonnête sur la répartition des cœurs. Au même moment, le représentant de la
défense releva que leur manière de jouer était en parfait accord avec leur tactique
habituelle. La partie plaignante soutint alors qu'aussi longtemps que leur jeu resterait
en ligne avec l'hypothèse de fraude, il faudrait retenir ce fait à l'appui de celle-ci. Que
pensez-vous de l'attitude de la partie plaignante?
SOLUTION. Le problème est fondamentalement ici de déterminer l'influence d'une

donnée supplémentaire (dans l'exemple traité, la tactique de jeu) sur la probabilité
d'une hypothèse donnée. Si nous désignons par //cette hypothèse (telle que la fraude
dans le cas de Reese et Schapiro) et par E la donnée supplémentaire, alors
P(HE)
rui\E)
P(H\E)- p{E)
P{E\H)P{H)
P(E\H)P(H) + P(E\HC)[1-P(H)] (3.4)
où P(H) est notre évaluation de la vraisemblance de l'hypothèse avant que la nouvelle

donnée ne soit connue. Celle-ci sera à l'appui de l'hypothèse si elle la rend plus vrai-
semblable, c'est-à-dire si P(H\E) ^ /"(//). D'après l'équation (3.4) ce sera le cas si
P(E | H) > P(E | H)P(H) + P(E | H c ) [ l - P(H)]
ou, de façon équivalente, si
P(E\H)>P(E\HC)
En d'autres mots, une donnée nouvelle ne peut être retenue en faveur d'une hypothèse
donnée que si elle est plus vraisemblable en supposant l'hypothèse vraie qu'en la
supposant fausse. En fait, la nouvelle probabilité dépend de l'ancienne et du rapport
de ces deux probabilités conditionnelles, puisque (3.4) donne
PiH\E)= W)
P(E\H)
De ce fait, dans le problème considéré, la tactique de jeu ne peut être retenue en

faveur de l'hypothèse de fraude que lorsqu'une telle tactique est plus probable si
l'équipe anglaise triche que dans le cas contraire. Comme la partie plaignante n'a
jamais cherché à le prétendre, son opinion que les faits sont de nature à établir la
fraude n'est pas valable. •
3.3.3 Formule des probabilités totales généralisée
L'équation (3.3) peut être généralisée de la manière suivante: supposons que F,,
F2,..., Fn soient des événements s'excluant mutuellement et tels que
ÙF^S
Cela revient à dire en d'autres termes qu'exactement un des événements F,, F2,..., F„
se produira. En écrivant
E = Û EFi
et en utilisant le fait que les événements EF",, i = 1,...,n s'excluent mutuellement, on

obtient:
(3.5)
L'équation (3.5) montre ainsi qu'étant donné un jeu d'événements F1, F2,...,
tionner selon les F;. Ou encore, l'équation (3.5) établit que P(E) est une moyenne
pondérée des F(FjF,), les poids valant la probabilité des événements sur lesquels on
conditionne.
3.3.4 Formule de Bayes généralisée
Supposons maintenant que F s'est réalisé et que nous cherchions à déterminer la

probabilité que l'un des F- se soit aussi réalisé. On déduit de l'équation (3.5) le
théorème suivant:
Théorème 3.1
n ll
' P(E)
P(E\Fj)P(Fj) (3.6)
L'équation (3.6) est appelée formule de Bayes, du nom du philosophe anglais Thomas
Bayes. Si nous traitons les événements Fj comme les hypothèses possibles sur une
question donnée, la formule de Bayes joue un rôle utile en nous montrant comment
les opinions a priori sur ces hypothèses [à savoir, P(Fj)] doivent être modifiées à la
lumière du résultat de l'expérience.
Exemple 3.14 Un avion est porté disparu. On pense que l'accident a pu arriver aussi
bien dans n'importe laquelle de trois régions données. Notons par 1 - a, la probabilité
qu'on découvre l'avion dans la région /' s'il y est effectivement. Les valeurs a, représen-
tent donc la probabilité de manquer l'avion lors des recherches. On peut l'attribuer
à diverses causes d'ordre géographique ou à la végétation propre à la région. Quelle
est la probabilité que l'avion se trouve dans la j'-ème région si les recherches dans la
région 1 n'ont rien donné, / = 1, 2, 3?
SOLUTION. Soient Ri, i = 1,2,3 les événements «l'avion est tombé dans la région ;'».
Soit aussi E l'événement «les recherches dans la région 1 sont restées infructueuses».
On tire de la formule de Bayes, pour i = 1 :
P{ERX)
P(Ri\E)
P(E)
P(E\Rl)P(Ri)
t P(E\R,)P(R,)
i=l
("l)§
(«,)! + (1)5 + (Dl
Pour j = 2, 3
P(Ri\E)
On remarquera que la probabilité a posteriori (c'est-à-dire conditionnelle) que

l'avion se trouve dans la région j une fois que l'on sait que la fouille de la région 1
n'a rien donné est plus grande poury' = 2 ou 3 que la probabilité a priori, tandis qu'elle
l'est moins pour la région 1. On s'attendait à ce résultat puisque la fouille infructueuse
dans la région 1 tend à faire diminuer la probabilité que l'avion s'y trouve, augmen-
tant par-là même les chances qu'il soit ailleurs. On remarque aussi que la probabilité
conditionnelle qu'il soit dans la région 1 si la recherche n'a rien donné est une fonction
74 initiation aux probabilités
croissante de la probabilité a, de l'y manquer, ce qui est généralement intuitivement

prévisible: plus a, est grande, plus il est raisonnable d'attribuer l'échec des recherches
à la «malchance» plutôt qu'au fait que l'avion n'y est pas. Inversement, P(Rj\E),
j ¥= 1 est une fonction décroissante de a,. •
L'exemple suivant a souvent été utilisé par de peu scrupuleux étudiants pour
abuser des camarades plus naïfs.
Exemple 3.15 On considère 3 cartes à jouer de même forme. Cependant, les deux faces
de la première carte ont été colorées en noir, les deux faces de la deuxième carte en
rouge tandis que la troisième porte une face noire et l'autre rouge. On mélange les
trois cartes au fond d'un chapeau puis une carte tirée au hasard en est extraite et
placée au sol. Si la face apparente est rouge, quelle est la probabilité que l'autre soit
noire?
SOLUTION. Soient RR, NN et RN respectivement les événements, «la carte choisie est
entièrement rouge», «entièrement noire» et «bicolore». Soit encore R l'événement, «la
face apparente de la carte tirée est rouge». On aura
P(RNnR)
P(RN\R) =
P(R)
_ P(R\RN)P(RN)
~ P(R\RR)P(RR) + P(R\RN)P(RN) + P{R\NN)P(NN)
(M) _ i
(D(5) + (5)(5) + 0rè) 3
Ainsi, la réponse est \. Certaines personnes pourtant estiment la réponse à lA, pensant
qu'à partir du moment où le côté rouge apparaît il reste 2 situations équiprobables:
soit la carte tirée est entièrement rouge, soit elle est bicolore. Leur erreur est ici
d'admettre cette hypothèse d'équiprobabilité. Il faut se souvenir en effet que chaque
carte possède deux faces que l'on distinguera pour la commodité. Il y a alors 6
événements élémentaires équiprobables pour cette expérience, que l'on appellera /?,,
R2, N{, N2, /?j, Ny L'événement /?, sera réalisé si c'est la première face de la carte
unicolore rouge qui est apparente. R2 le sera si c'est la seconde face de la même carte
qui est visible. R^ si c'est le côté rouge de la carte bicolore et ainsi de suite. La face
cachée de la carte tirée sera noire seulement si c'est /?_-, qui a lieu. La probabilité
cherchée est donc la probabilité conditionnelle de R3 sachant que /?,, R2 ou /?, a eu
lieu, laquelle est manifestement \. •
Exemple3.16 Les assistants sociaux travaillant pour une clinique psychiatrique sont
si occupés qu'en moyenne seuls 60% des patients prospectifs téléphonant pour la
première fois obtiendront une communication avec l'un de ces assistants. On demande
aux autres de laisser leur numéro de téléphone. Trois fois sur quatre un assistant
trouve le temps de rappeler encore le jour même, autrement le rappel a lieu le
lendemain. L'expérience a montré que dans cette clinique, la probabilité que le patient
prospectif demande une consultation est 0,8 s'il a pu parler immédiatement à un
assistant, tandis qu'elle tombe à 0,6 et 0,4 respectivement s'il y a eu rappel du patient
le jour même ou le lendemain, a) Quel pourcentage parmi les gens qui appellent de-
manderont-ils une consultation? b) Quel pourcentage des gens en consultation n'ont
pas eu à attendre qu'on les rappelle ?
SOLUTION. On définit les événements suivants:

C: «le patient demande une consultation» ;
/: «le patient obtient immédiatement un entretien téléphonique avec un assistant
social»;
M: «le patient est rappelé plus tard, le jour même»;
L: «le patient est rappelé plus tard, le lendemain».
Alors,
P(C) = P(C\I)P(I) + P(C\M)P(M) + P(C\L)P(L)
= (.8)(.6) + (.6)(.4)(.75) + (.4)(.4)(.25)
= .70
où nous avons utilisé le fait que P(M) = (0,4)(0,75) et que P(L) = (0,4)(0,25). Ceci
répond à la première question. Quant à la seconde, on remarquera que
m c ) = r(c\i)Pd)
P(C)
_ (-8)(.6)
.7
= .686
Ainsi, 69% environ des patients en consultation ont obtenu immédiatement un

entretien avec un assistant social. •
3.4 ÉVÉNEMENTS INDEPENDANTS
3.4.1 Indépendance de deux événements
Les exemples vus dans ce chapitre jusqu'à présent ont montré que la probabilité
conditionnelle de E sachant que F est réalisé n'est en général pas égale à P{E), la
probabilité non conditionnelle de E. En d'autres termes, le fait de savoir que F est
survenu influence la probabilité de E. Dans les cas où P(E\F) est bien égal à P(E),
l'événement E est dit indépendant de F. Plus précisément, E est indépendant de F si
le fait de savoir que F est survenu ne change pas la probabilité de E.
Du fait que P(E\ F) = P(EF)/P(F), on voit que l'indépendance de E et F équivaut
à
P{EF) = P(E)P(F) (3.7)
Comme cette équation est symétrique en E et F, il en résulte que lorsque E est

indépendant de F, F l'est aussi de E. On débouche ainsi sur la définition suivante:
Deux événements E et F sont dits indépendants si l'équation (3.7) est vérifiée. Deux
événements sont dépendants s'ils ne sont pas indépendants.
3.4.2 Exemples d'indépendance de deux événements
Exemple3.170n tire au hasard une carte d'un paquet de 52 cartes à jouer ordinaires.
Désignons par E l'événement «la carte tirée est un as» et par F «elle est un pique».
Alors F et F sont indépendants. En effet, P(EF) =1/52- d'une part, alors que d'autre
part P(E) = £ et P(F) = 13/52 •
Exemple 3.18 On jette deux pièces et suppose que les 4 résultats possibles sont
équiprobables. On désigne par A «la première pièce montre pile» et par B «la seconde
montre face». A et B sont indépendants puisque P(AB) = P({(P,F)}) = '- d'une part,
et P(A) = P({(P,Pl(P,F)}) =1/2,/>(B) = P({(P,F),(F,F)}) = ± d'autre part. •
Exemple3.19 On jette deux dés équilibrés. F, est l'événement «la somme des dés est
6» et F désigne «le premier dé donne 4». Dans ce cas
P(E,F) = P({(4,2)})=à
alors que
P ( £ , ) P ( F ) = (à)Û) = 5/216
F, et F ne sont donc pas indépendants. Intuitivement la raison en est claire: si l'on

espère obtenir une somme de 6 sur les deux dés, l'apparition d'un 4 sur le premier dé,
ou d'un 1, d'un 2, 3 ou d'un 5, laisse espérer d'atteindre ce résultat. Par contre si le
premier dé donne déjà 6, il n'y a plus aucune chance d'obtenir 6 au total. En d'autres
termes, la probabilité d'obtenir 6 sur deux dés dépend clairement du résultat apparu
sur le premier dé. F, et F ne peuvent donc être indépendants.
Désignons maintenant par E2 l'événement «la somme des dés est 7». E2 est-il
indépendant de F? La réponse est oui, cette fois-ci, car
P(E2F) = P({(4,3)})=à
alors que
P(E2)P(F) = (M) = 1/36
Nous laissons au lecteur le soin de découvrir un argument intuitif justifiant
l'indépendance entre «la somme des dés est 7» et le résultat donné par le premier dé.
•
Exemple3.20 Soit E l'événement «le prochain président des U.S.A. sera un Républi-
cain» et soit F «il y aura un tremblement de terre important d'ici un an». La plupart
des personnes accepteraient d'admettre qu'ici F et F sont indépendants. Par contre
il n'en serait pas nécessairement de même concernant E et G, où G est «un conflit
majeur éclatera dans les deux ans suivant l'élection de ce président». •
3.4.3 Indépendance par rapport au complémentaire
Nous allons maintenant montrer que si £est indépendant de F, il l'est aussi de F'.
Théorème 3.2
Si E et F sont indépendants, E et Fc le sont aussi.
DÉMONSTRATION. D'une part E = EF\J EF'\ d'autre part EFet EF' sont mutuelle-
ment exclusifs. On peut donc écrire
P(E) = P{EF) + P(EFC)

= P(E)P(F) + P(EFC)
ou, de façon équivalente,
P(EFC) = P(E)[l - P(F)]
= P(E)P(FC)
ce qui établit le résultat. •
Ainsi, lorsque E est indépendant de F, la probabilité que E survienne n'est

influencée ni par l'information que F est réalisé ni par celle que F ne l'est pas.
3.4.4 Indépendance entre plusieurs événements
Supposons maintenant que £ soit indépendant de F et aussi de G. Est-ce que E

le sera de FG1 Aussi surprenant que cela puisse paraître, la réponse est non, comme
le montre l'exemple suivant.
Exemple 3.21 On jette deux dés équilibrés. Soient E l'événement «la somme est 7»,
F l'événement «le premier dé montre 4» et G «le second dé donne 3». On a vu dans
l'exemple 3.18 que E et F sont indépendants, le même raisonnement permettant
d'affirmer que E et G le sont. Cependant E n'est manifestement pas indépendant de
FG puisque P{E\FG) = 1. •
3.4.5 Indépendance totale de trois événements
On comprend grâce à cet exemple qu'une bonne définition de l'indépendance de

trois événements ne peut pas se limiter à exiger que les événements soient indépen-
dants par paires dans les (2) combinaisons possibles. On est ainsi mené à la définition
suivante.
Trois événements E, F et G sont dits totalement indépendants si
P(EFG) = P(E)P{F)P(G)
P(EF) = P(E)P(F)
P(EG) = P(E)P(G)
P(FG) = P(F)P(G)
3.4.6 Conséquence
Il faut noter que lorsque E, F et G sont totalement indépendants, E sera indépen-

dant de tout événement formé à partir de F et G. On peut le montrer pour f l J G
par exemple:
P [ £ ( F u G ) ] = P(EFuEG)
= P(EF) + P(EG) - P(EFG)
= P(E)P(F) + P(E)P(G) - P(E)P(FG)
= P(E)[P(F) + P(G) - P(FG)]
= P(E)P(FvG)
3.4.7 Indépendance totale de n événements
Il est évidemment possible d'étendre la définition d'indépendance totale à plus de

trois événements: un ensemble d'événements E[,E2,...,En est dit totalement indépen-
dant si pour tout sous-ensemble Ev,E2-,...,Er-, r ^ n.
P(EVE2. ... E,-) = P{EV)P{E2.) ... P{Er.)
3.4.8 Indépendance totale d'une infinité d'événements
Enfin nous dirons que par définition un ensemble infini d'événements est totale-
ment indépendant si tout sous-ensemble fini d'entre eux est totalement indépendant.
3.4.9 Epreuves indépendantes
Il arrive parfois que l'expérience étudiée consiste à effectuer une suite d'expériences
partielles. Si par exemple l'expérience de base consiste à répéter le jet d'une pièce, on
peut considérer chaque jet comme l'une de ces expériences partielles. Comme dans
bien des cas il est raisonnable d'admettre que l'issue de tout groupe d'expériences
partielles n'a aucun effet sur celle des autres, on considérera que ces expériences
partielles sont totalement indépendantes. De ceci on peut donner une formulation
plus rigoureuse: considérons tout jeu d'événements El,E2,...,E„ tels que £, soit complè-
tement déterminé quant à sa réalisation par le résultat de la i-ème expérience partielle.
Si un tel ensemble est nécessairement totalement indépendant, alors les expériences
partielles sont dites ensemble totalement indépendant d'événements.
Si toutes ces expériences partielles sont identiques - c'est-à-dire si elles ont toutes
le même (sous-)ensemble fondamental et sont toutes affectées de la même fonction
de probabilité -, alors ces expériences partielles sont appelées épreuves.
3.4.10 Exemples d'épreuves indépendantes
Exemple3.22 On réalise une séquence infinie d'épreuves indépendantes. Chaque

épreuve donne soit un succès, soit un échec avec probabilitésp et 1 -p respectivement.
Quelle est la probabilité pour:

a) qu'il survienne au moins un succès parmi les n premières épreuves;
b) qu'il survienne exactement k succès parmi les n premières épreuves;
c) que toutes les épreuves donnent des succès.
SOLUTION. Dans le but de déterminer plus facilement la probabilité d'avoir au moins

1 succès parmi les n premières épreuves, on préférera calculer la probabilité de
l'événement complémentaire (aucun succès lors des n premières épreuves). Notons £",-
l'événement «la z'-ème épreuve donne un échec». En utilisant la propriété d'indépen-
dance totale, la probabilité de n'obtenir aucun succès est
P(E]E2 • • • £ „ ) = P(E1)P(E2) ... P(E„) = ( 1 - p ) n
Ainsi, la réponse au a) est 1 - (1 -pf.
Pour obtenir b), considérons une séquence de n événements qui comprenne k

succès et n - k échecs dans un ordre bien précis. Cette séquence apparaîtra - en sup-
posant l'indépendance totale des épreuves - avec une probabilité p\\ -p)"~k. Comme
il y a (1) de ces séquences (il y a n\lk\(n - k)\ combinaisons de k succès et
n - k échecs), le deuxième de nos résultats est
P {exactement k succès} = ( , ) pk(i ~ p)" k
Quant à c), par analogie avec a), on peut dans un premier temps écrire que la
probabilité de n'avoir que des succès lors des n premières épreuves sera
P(E\E\ ... Ecn)=pn
Aussi peut-on écrire en utilisant la propriété de continuité des probabilités (section

2.6) que la probabilité P(f\ £J) cherchée est
0 si /> < 1
1 si p = 1 •
Exemple 3.23 Un système comprenant n composants est appelé système en parallèle

s'il fonctionne dès qu'au moins l'un de ces composants fonctionne (voir fig. 3.2).
Dans le cas d'un tel système, si son i-ème composant fonctionne indépendamment de
tous les autres et avec une probabilité p„ i = l,2,...,n, quelle est la probabilité de son
fonctionnement?
Figure 3.2 Système en parallèle fonctionnant dès que le courant peut passer de A à B
SOLUTION. Soit At l'événement «le composant i fonctionne». Alors

P(«le système fonctionne») = 1 — P («le système ne fonctionne pas»)
= 1 — P («aucun composant ne fonctionne»)
= 1-P\
= 1 — Y\ (1 — Pi) grâce à l'indépendance
3.4.11 Un exemple important résolu
Exemple3.24 Une séquence d'épreuves indépendantes consiste à jeter plusieurs fois

une paire de dés réguliers. On appelle résultat la somme des chiffres apparents. Quelle
est la probabilité qu'on voie sortir un résultat valant 5 avant qu'un 7 n'apparaisse?
SOLUTION. Désignons par En l'événement que durant les n — 1 premières épreuves il

n'apparaisse ni 5 ni 7, et qu'à la «-ème épreuve un 5 sorte. On cherche la probabilité
P(En)
Par ailleurs, P (5 sort lors d'une épreuve quelconque) =4/36et P (7 sort lors d'une
épreuve quelconque) =6/36.Du fait de l'indépendance des épreuves, on obtient donc
et donc
5
On aurait aussi pu obtenir ce résultat en passant par des probabilités conditionnel-

les. Si E désigne l'événement étudié («5 apparaît avant 7»), P(E) peut être calculée
en conditionnant suivant le résultat de la première épreuve comme suit: notons par
F l'événement «la première épreuve donne 5», par G «elle donne 7» et par H «elle ne
donne ni 5 ni 7». En conditionnant sur l'événement qui se produit, on obtient
P(E) = P(E | F)P(F) + P(E | G)P{G) + P(E | H)P(H)

Cependant
P(E\F) = 1
P(E\G)=0
P(E\H) = P(E)
Ces deux premières probabilités sont évidentes. La troisième égalité résulte du fait que
si la première épreuve ne donne ni 5 ni 7, on se retrouve exactement dans la situation
de départ: l'expérimentateur va répéter le jet des deux dés jusqu'à ce qu'un 5 ou un
7 apparaisse. On peut également remarquer que du fait de l'indépendance des épreu-
ves le résultat de la première d'entre elles n'affecte pas celui des autres. Pour conclure,
comme P(F) = ^, P(G) = ~ et P(H) = | , il vient
P(E)=k + P(E)\î
ou
P(E) = 2/5
Le lecteur remarquera que cette réponse est conforme à l'intuition basée sur les
probabilités4/36pour un 5 et6/36pour un 7: on peut en effet penser que les chances sont
à 4 contre 6 pour le premier, ce qui donne bien une probabilité de 4/10.
Le même argument montre que si E et F sont des événements s'excluant mutuelle-
ment lors d'une expérience donnée, en répétant cette expérience pour réaliser une
séquence d'épreuves indépendantes, on aura pour probabilité que E survienne avant
F
P(E)
P(E) + P(F)
3.4.12 Problème des points
L'exemple suivant illustre un problème qui a pris une place d'honneur dans la
théorie des probabilités, le célèbre problème des points. En termes généraux, voici de
quoi il s'agit: deux joueurs engagent des mises et participent à un jeu quelconque; le
gagnant empochera les mises. Mais ils sont interrompus avant la fin du jeu, alors
qu'ils n'ont pour l'instant que des scores «intermédiaires» ou partiels. Comment
doit-on partager les mises?
Le problème a été soumis pour la première fois au mathématicien français Biaise
Pascal en 1654 par le Chevalier de Méré, alors joueur professionnel. Pour attaquer
le problème, Pascal introduisit une idée importante: celle que la proportion des mises
méritées par chaque concurrent doit dépendre de leurs probabilités respectives de

gagner à partir de là si le jeu était poursuivi. Pascal étudia quelques situations
spéciales, mais surtout établit alors une correspondance épistolaire avec le célèbre
Français Fermât dont la réputation de mathématicien brillant était immense.
L'échange de lettres qui en résulta mena non seulement à une solution complète du
problème des points, mais en même temps à celle de bien d'autres questions liées aux
jeux de chance. Cette correspondance dont on parla beaucoup et que certains considè-
rent comme la naissance de la théorie des probabilités eut également l'avantage de
stimuler l'intérêt porté aux probabilités par les mathématiciens européens car Pascal
et Fermât étaient considérés comme deux des meilleurs mathématiciens de l'époque.
Par exemple, le jeune génie néerlandais Huygens se déplaça à Paris peu après la
parution de leur correspondance pour discuter ces problèmes et leurs solutions.
L'intérêt et l'activité dans ce nouveau domaine s'étendit rapidement.
Exemple 3.25 Problème des points

On réalise des épreuves indépendantes, le succès ayant p pour probabilité et l'échec
1 — p. Quelle est la probabilité que n succès apparaissent avant qu'il n'en soit de même
pour m échecs? Nous admettrons que lors d'un succès, c'est un joueur A qui marque
un point, tandis qu'en cas d'échec, c'est B. La probabilité demandée nous ramène au
problème des points si A et B en sont au stade où A doit marquer n points de plus
pour gagner, contre m pour B.
Nous donnerons deux solutions. La première est due à Fermat, la seconde à
Pascal.
SOLUTION (de Fermat). Désignons par Pnm la probabilité que n succès apparaissent
avant que m échecs ne le fassent. En conditionnant sur le résultat de la première
épreuve, on obtient (expliquer pourquoi):
Pn.m = pPn-\.m + ( 1 ~ P)Pn.m-l H > 1, m > 1
Pour Pnm on peut résoudre cette équation grâce aux conditions limites évidentes
Pn.o = 0 et Pç>,m = 1. Mais plutôt que de s'enfoncer dans les détails ennuyeux de cette
solution, voyons celle proposée par Pascal.
SOLUTION (de Pascal). Celui-ci donna l'argument que pour obtenir n succès sans que
m échecs aient eu lieu, il est nécessaire et suffisant qu'il y ait eu au moins n succès
parmi les m + n — 1 premières épreuves. (On supposera que même si le jeu est terminé
avant le dernier de ces essais, on continue jusqu'à compléter la séquence.) Cet
argument est fondé. En effet, s'il y a eu au moins n succès lors des m + n — 1 premiers
essais, il y a également au plus m — 1 échecs et l'on obtient bien n succès avant m
échecs. Inversement, s'il y a moins de n succès lors des m + n — 1 premiers essais,
il y a nécessairement au moins m échecs. Dans ce cas on n'observera pas les n succès
voulus avant le m-ième échec.
La probabilité d'avoir k succès sur m + n — 1 essais est, d'après l'exemple 3.21,
{m + n l
k" )p\l-p) — .
Par conséquent, la probabilité voulue (n succès avant le m-ème échec) sera

m
tr' (m + n - \ \ k .m+„-i-k
Pn,m = E I k jP (1-P)
Une autre solution au problème des points est présentée dans l'exercice théorique
3.6.10.
Pour illustrer le problème des points, on supposera que lors d'un jeu chacun de
deux joueurs misera A francs et que chacun a la même probabilité d'emporter un essai
donné (p =1/2).On dira qu'un joueur a gagné s'il a n points. A un moment donné le
premier joueur a 1 point et l'autre 0. Celui-là a donc droit à
Maintenant,
m-2 /2n - 2 \ =
2n 2
~ ( 2n - 2 \
-,.IT;2)
où la dernière identité résulte de la substitution de / à 2n - 2 - k. Ainsi,
2 2 2
<l( T)-l( \ H;::)
- < > • » - • (2;:.2)
ce qui donne droit, pour le premier joueur, à
4-(rT;:>)
3.4.13 Problème de la ruine du joueur
L'exemple suivant traite du célèbre problème dit de la ruine du joueur.
Exemple 3.26 Deux joueurs A et B misent sur les résultats successifs du jet répété d'une
pièce. A chaque jet A reçoit une unité de la part de B si pile est sorti tandis qu'il paie
une unité à B dans le cas contraire. Ils poursuivent le jeu tant qu'aucun des deux n'est
ruiné. On suppose que les jets sont indépendants et que le côté pile de la pièce apparaît
avec une probabilité p. Soient encore i et N — / les fortunes initiales de A et B
respectivement. Quelle est la probabilité que A gagne?
SOLUTION. Désignons par E l'événement «A finit par tout gagner, étant parti avec i
unités alors que B en avait N — i». Pour marquer clairement l'influence de la fortune
initiale de A, on notera par Pi la probabilité de E. Nous allons obtenir une expression
de P(E) en conditionnant suivant le résultat du premier jet comme suit: soit H
l'événement «le premier jet donne pile». Alors,
P , = P(E) = P(E | H)P( H) + P(E | HC)P(HC)

= pP(E\H) + (1 - p)P{E\Hc)
Si le premier jet donne pile, la situation à l'issue du premier pari est: A possède
/ + 1 unités et B en a N — (i + 1). Du fait de l'indépendance de jets ayant tous la
même probabilité p de donner pile, la situation est du point de vue de A exactement
la même que si le jeu allait commencer avec comme conditions initiales ; 4- 1 unités
pour A et N - (i + 1) pour B. Donc
P(E\H) = Pl+l
et similairement
P(£|Hf) = iV,
Aussi obtient-on, en posant q = 1 — p
Pi = pPi+l + qP,-t i = 1,2,...,N-1 (3.8)
Utilisons les conditions limites évidentes P 0 = 0 et PN = 1 pour résoudre les

équations (3.8). Comme p + q — 1, ces équations équivalent à
pPi + qPi^pPi+t + qPi-t

ou
Pi+l-Pi=-(Pi-Pi-i) /=1,2,...,JV-1 (3.9)

P
Comme f0 = 0, on peut tirer de l'équation (3.9)
P2-P,=î(Pi-Po)=-Pl
p P
p3-p2 = 3.(P2-pl) = (£) p,
P \p/
Pi-pj.1=5(p._1-pj_2) = (^) P,
p \pl
- Pi (3.10)
PI
L'addition des / — 1 premières équations de (3.10) donne
P,-Pt
ou
Pi =
iP,
Utilisons alors le fait que PN = 1. On obtient
et ainsi
(3.11)
Soit Qi la probabilité que B finisse par tout gagner, étant parti avec N — i unités
tandis que A en possédait ;'. Par symétrie avec la situation traitée ci-dessus, mais en
remplaçant p par q et i par N — i on obtient
Maintenant, étant donné que q =1/2est équivalent à p =1/2,dans le cas où g 1/2 on

trouve
P.+Q.-I^SÙÙ**1—^''
Comme ce résultat reste valable lorsque p = q =1/2,on aura toujours
Pi + O, = 1
ce qui, en d'autres mots, établit que la probabilité qu'il y ait un gagnant est 1. Ou
encore que la probabilité que le jeu se poursuive indéfiniment, la fortune de A oscillant
constamment entre 1 et N — 1, est 0. (Le lecteur doit être attentif au fait qu'il existe
a priori trois issues à ce jeu: A gagne, B gagne, ni l'un ni l'autre ne l'emporte et le jeu
se poursuit indéfiniment. Nous venons de montrer que ce dernier événement est de
probabilité nulle).
A titre d'illustration numérique des résultats qui précèdent, si A partait avec 5
unités et B avec 10, il aurait une chance sur trois de l'emporter lorque p =1/2.La
probabilité qu'il gagne sauterait à
l-(§)15 " 87
si p valait 0,6. •
3.4.14 Problème de la durée du jeu
Un cas spécial du problème de la ruine du joueur, aussi connu sous le nom de

problème de la durée de jeu, fut proposé par le Français Fermât en 1657. Dans la
version qu'il proposait - et qui fut d'ailleurs résolue par Huygens -, A et B disposaient
chacun de 12 pièces. Pour gagner une pièce, ils devaient jouer avec trois dés comme
suit: chaque fois que 11 sort (en faisant la somme des trois dés, l'identité du lanceur
étant indifférente), A donne une pièce à B. Chaque fois que 14 sort, c'est B qui donne
une pièce à A. La première personne qui gagne toutes les pièces gagne le jeu. Comme
/'(tirer 11) = ^- et P(tirer 14) =15/216-,on réalise grâce à l'exemple 3.23 que du point
zlu *£ 1 u t ç
de vue de A il s'agit ici précisément du problème de la ruine du joueur avec p = 15/42,

i = 12 et N = 24. La solution à la formulation générale du problème de la ruine du
joueur fut donnée par le mathématicien Jacques Bernoulli dans une publication parue
huit ans après sa mort, en 1713.
3.4.15 Application à un test d'efficacité
Voici une application du même problème à un test de médicaments: admettons que

l'on vienne de développer deux nouveaux produits pour le traitement d'une maladie
donnée. Le médicament / a un taux d'efficacité Ph i = 1,2. On entend par là que tout
patient traité avec ce médicament a une probabilité Pi de guérir. Ces taux ne sont
pas connus cependant et nous cherchons une méthode pour décider si f, > P2 ou
P1>, < P2. Pour permettre le choix, on considère le test suivant: on traite des paires de
patients les unes après les autres. Un membre de la paire reçoit le produit 1 et l'autre
le produit 2. Après le traitement d'une paire on détermine le résultat puis on passe
au traitement de la paire suivante jusqu'à ce que le total des guérisons attribuées à
l'une des drogues dépasse le total de celles attribuées à l'autre d'un nombre déterminé
d'avance. On peut formaliser ceci ainsi:
si le patient de lay'-ème paire ayant reçu le médicament 1 est guéri

sinon
si le patient de la y-ème paire ayant reçu le médicament 2 est guéri

sinon.
Pour un entier positif M fixé d'avance, le test s'arrête à la paire N où N est la

première valeur de n telle que
X 1 + --- + X „ - ( Y , + - - - + Yn) = M
ou
X , + ••• + * „ - ( y, + - • • + Y„) = - M
Dans le premier cas, on décide que P, > P2 et dans le second, c'est l'inverse.
Pour déterminer si ce test est bon, nous aimerions connaître la probabilité qu'il
amène à une décision fausse. Plus précisément, />, et P2 étant fixés et Pt étant supérieur
à P2, quelle est la probabilité que le test fasse déclarer à tort que P2 > Px? Pour
déterminer cette probabilité, il faut d'abord remarquer qu'après chaque test portant
sur une paire la différence des succès cumulés de chaque médicament peut augmenter
de 1 avec probabilité Px(1 — P2), puisque telle est la probabilité que le médicament
1 amène une guérison sans que le médicament 2 en fasse autant. Cette différence peut
diminuer de 1 avec probabilité (1 — Pi)P2 ou encore rester inchangée avec probabilité
PtP2+ (1 — P1)(l — P2)- Négligeons ces dernières paires. Avec les autres la différence
augmentera de 1 avec une probabilité
P = F(elle augmente de l|elle augmente ou diminue de 1)
Pl{1-P2) + {1-P,)P2
et diminuera de 1 avec une probabilité
P1(1 - P2) + (1 - Pi)P2
Ainsi, la probabilité que le test fasse déclarer que P2 > P, est égale à celle qu'un joueur
pouvant gagner une unité avec probabilité P perde M de ces unités avant qu'il ait pu
en accumuler M de plus qu'au départ. Mais l'équation (3.11) donne cette probabilité,
avec ici i = M, N = 2M:
P(le test décide que P2 > P1)
"'-(s-r
1
1+ y
où
P
_Pi(l-P2)
P2(l-P.)
Par exemple, si P1= 0,6 et P 2 = 0,4, la probabilité de décision erronée est de 0,017
lorsqu'on fixe M à 5, diminuant à 0,0003 si l'on prend M = 10.
Supposons que nous ayons un ensemble d'éléments et que nous voulions déter-
miner si au moins un des éléments a une certaine propriété. Nous pouvons démarrer
ce problème de manière probabiliste en choisissant aléatoirement un élément de l'en-
semble de telle sorte que chaque élément ait une probabilité positive d'être choisi. On
peut répondre à la question en calculant la probabilité que l'élément sélectionné au
hasard ait la propriété voulue. Si cette probabilité est positive, nous avons alors établi
qu'au moins un des éléments de l'ensemble possède la propriété et si elle vaut zéro,
alors aucun des éléments ne l'a.
Le dernier exemple de la section illustre cette technique.
Exemple 3.27 Un graphe complet à n sommets est défini comme étant un ensemble
de n points (appelés sommets) dans le plan et de ( ) segments (appelés arêtes) reliant
chaque paire de sommets. La figure 3.3 montre un graphe complet à 3 sommets.
Supposons que chaque arête d'un graphe complet à n sommets doit être colorée soit
en rouge soit en bleu. Pour un entier k fixé, la question est de savoir s'il existe une
façon de colorier les arêtes de telle sorte qu'aucun ensemble de k sommets n'ait ses
( ) arêtes de la même couleur. On peut montrer, de manière probabiliste, que si n
n est pas trop grand la réponse est oui.
Figure 3.3
SOLUTION. Supposons que chaque arête peut, de manière indépendante, être coloriée
soit en rouge soit en bleu de manière équiprobable. Ainsi, chaque arête a une probabi-
lité 1/2 d'être rouge. On numérote les ( ) ensembles de k sommets et on définit les
événements Ei, i = 1,..., (n/k) de la façon suivante:
Ej = {Toutes les arêtes du i-ième ensemble de k sommets ont la même couleur}
Maintenant, puisque chacune des (k/2)arêtes d'un ensemble de k sommets a autant de
chance d'être bleue ou rouge, la probabilité.qu'elles soient toutes de la même couleur
est
. *(*-D
**,)«2(j
Par conséquent, puisque
P(\J Et, ) < I P(Et ) (inégalité de Boole)
i i
on obtient que P(\jEj), la probabilité qu'il y ait un ensemble de k sommets dont

toutes les arêtes sont de la même couleur, satisfait :
*(*-!)
Si | , I — I < 1 ou, de manière équivalente, si
\ k(k-l)
n » 2-1
alors la probabilité qu'au moins un des ( ) ensembles de k sommets ait toutes ses
arêtes de la même couleur est inférieure à 1. Par conséquent, sous la condition pré-
cédente sur n et k, il y a une probabilité positive qu'aucun ensemble de k sommets
n'ait toutes ses arêtes de la même couleur. Mais ceci implique qu'il y a au moins une
façon de colorier les arêtes de telle sorte qu'aucun ensemble de k sommets n'ait toutes
ses arêtes de la même couleur. •
REMARQUES, a) Bien que la discussion ci-dessus établisse une condition sur n et k qui
garantit l'existence d'une combinaison de couleurs satisfaisant la propriété désirée,
elle ne donne aucune information sur la façon d'obtenir une telle combinaison. (Une
possibilité serait tout simplement de choisir les couleurs au hasard, de voir si le
résultat satisfait la propriété et de recommencer jusqu'à ce que la propriété soit satis-
faite.)
b) La méthode utilisant les probabilités pour résoudre un problème à la base purement
déterministe est appelée la méthode probabiliste1.
D'autres exemples de cette méthode sont donnés dans l'exercice théorique 19 et dans
l'exemple 7.18 du chapitre 7.
1
Voir N. Alon, J. Spencer, and P. Erdos, The Probabilistic Method (New York: John Wiley & Sons, Inc.,
1992).
3.5 FONCTION DE PROBABILITE CONDITIONNELLE
3.5.1 P( • \F) est une fonction de probabilité
Les probabilités conditionnelles satisfont à toutes les propriétés des probabilités

ordinaires. Le théorème 3.3 le démontre, puisqu'il établit que P(E\F) satisfait aux
trois axiomes d'une probabilité.
Théorème 3.3
(a)0^P{E\F)s 1.
(b)P(S\F) = l.
(c) Si £,, ( = 1,2,...,n sont des événements qui s'excluent mutuellement, alors
DÉMONSTRATION. Pour démontrer la partie (a), nous devons établir que

0 ^ P(EF)/P(F) ^ 1. L'inégalité de gauche est évidente; celle de droite résulte du
fait que EF a F, ce qui implique P(EF) «S P(E),
La partie (b) est prouvée par
P ( 5 | F )
~ P(F) 'P(F)-1
La partie (c) l'est également car
P(F)
P(F)
où l'avant-dernière égalité est justifiée par le fait que EiEi = 0 entraîne que
EfFEjF = 0. m
Si nous posons Q(E) = P(E\F), Q{E) peut être considérée grâce au théorème 3.3
comme une fonction de probabilité sur les événements de S. Aussi toutes les proposi-
tions établies jusque-là pour des fonctions de probabilité s'appliquent à Q(E). Par
exemple,
0 ( £ , u £ 2 ) = Q(E.) + Q(E2) - 0(E1E2)


P(E1uE2\F) = P(E1\F) + P(E2\F) - P(ElE2\F)
Par ailleurs, on peut définir la probabilité conditionnelle Q(Ey \E2) = Q(E]E2)/Q(E2).

D'une application de l'équation (3.3) il résulte que
Q(EJ) = 0(Ei\E2)Q(E2) + Q(E1\Ec2)Q(Ec2) (3.12)

or,
° ( £ , | £ 2 ) - Q(E2)
_P(E1E2\F)
P(E2\F)
P(£.£2F)
P(F)
P(E2F)
P(F)
= P(El\E2F)
et dès lors, (3.12) permet d'écrire:
P(£,|F) = i>(£,|E 2 F)P(E 2 \F) + P(EX\EC2F)P(EC2 |F)
3.5.2 Exemples
Exemple3.8 Revenons à l'exemple 3.8 qui s'intéresse à une compagnie d'assurances

qui pense qu'on peut diviser les gens en deux classes distinctes: ceux qui sont enclins
aux accidents et les gens à faible risque. Sur une période d'un an une personne à haut
risque sera victime d'un accident avec probabilité 0,4 contre 0,2 pour une personne
à faible risque. Quelle est la probabilité conditionnelle pour un nouveau client d'avoir
un accident dans sa deuxième année de contrat s'il a eu un accident durant la première
année?
SOLUTION. Soit A l'événement «le client est à haut risque» et soient A-„ i = 1,2 «il a
eu un accident durant la z'-ème année». On peut calculer la probabilité P(A2\A[)
demandée en conditionnant sur le fait que le client est ou n'est pas à haut risque de
la manière suivante:
P{A2\AX) = P(A2\AAX)P(A\AX) + P(A2\AcA1)P(Ac\Al)

Maintenant
r(AU,-P(Â)_P(Al\A)P(A)
On avait supposé P(A) égal à |0 et montré que P{A\) = 0,26 (dans l'exemple3.8).
Donc
1
.26 13
et donc
P{Ac\Al) = l-P{A\Al)=&
c
Puisque P(A2\AAl) = A et P(A2\A Al) = .2, on voit que
P ( A 2 | A , ) = (.4)è + (.2) 1 7 3-.29
L'exemple qui suit traite de la théorie des chaînes de résultats.
Exemple3.29 On réalise une expérience composée d'épreuves indépendantes. La

probabilité de succès est p, d'échec q — 1 — p. Nous nous demandons la probabilité
qu'une chaîne de n succès consécutifs ait lieu avant que n'apparaisse une chaîne de
m échecs.
SOLUTION. Soit E l'événement étudié. Pour calculer P(E), nous commençons par
conditionner suivant l'issue de la première épreuve. On obtient alors, en posant que
H désigne l'événement «la première épreuve livre un succès»
P(E) =pP(E\H) + qP(E\Hc) (3.13)
Admettons que la première épreuve ait été un succès. A partir de là l'une des
possibilités d'obtenir n succès avant que n'apparaissent m échecs serait de n'avoir que
des succès sur les n — 1 épreuves suivantes. Aussi conditionnerons-nous sur le fait
que cela arrive ou n'arrive pas. Notons par F l'événement «les épreuves 2 à n sont
toutes des succès». On obtient
P(E\H) = P(E\FH)P(F\H) + P(E\FCH)P(FC\H) (3.14)
Or, P(E\FH) est clairement égal à 1, et d'autre part si F'H survient, c'est que la
première épreuve fut un succès mais l'une au moins des n — 1 suivantes fut un échec.
Mais lorsque cet échec se réalise, on se trouve dans la même situation que si on
commençait l'expérience avec un échec car la chaîne de succès est brisée. Donc
P(E\FCH) = P(E\HC)
Comme l'indépendance des épreuves entraîne celle de F et H et comme P(F) = p" ',
on tire de (3.14)
P(E\H) = p"1 + (l - p" l)P(E\Hc) (3.15)

On peut obtenir d'une manière très similaire une expression de P(E\HC). Plus
précisément soit G l'événement «les épreuves 2 à m sont toutes des échecs». Dans ce
cas
P(E \HC) = P(E | GHC)P{G\HC) + P(E \ GCHC)P(GC\HC) (3.16)
Or GH1 est l'événement «les m premières épreuves donnent toutes des échecs» et par
conséquent P(E\ GH') = 0. De plus si Gc H' se réalise, la première épreuve est un échec,
mais il y a au moins un succès parmi les m — 1 épreuves suivantes. Comme ce succès
brise la chaîne des échecs, on peut dire que
P{E\GCHC) = P(E\H)
Ainsi obtient-on, en utilisant P(G'\H') = P(G') = 1 — qm-l et aussi (3.16),
P(E\Hc) = (l-qm~1)P(E\H) (3.17)
Les solutions de (3.15) et (3.17) sont

ni
r\E \rl) — „-i _m-i n-i _m-i
et
et donc
(3.18)
On peut d'ailleurs noter que, du fait de la symétrie du problème, cette formule livre
la probabilité d'obtenir une chaîne de m échecs avant l'apparition d'une chaîne de n
succès. Il suffit d'intervertir dans (3.18) p et q d'une part, n et m de l'autre. Cette
probabilité serait donc
P(chaîne de m échecs avant une chaîne de n succès)
_ g (i - p )
~ m-\ \ n^l m-1 n-\ (3.19)
q +p -q p
De plus, comme on voit que la somme des probabilités données par (3.18) et (3.19)
est 1, il est certain qu'il finira par se produire soit une chaîne de n succès soit une autre
de m échecs.
A titre d'illustration de (3.18), on peut dire que lors du jet répété d'une pièce
équilibrée la probabilité de voir sortir une chaîne de 2 piles avant que n'apparaisse
une chaîne de 3 faces est ^ ; cette probabilité monte à | pour des chaînes de 2 piles
contre 4 faces. •
Dans l'exemple suivant nous allons reprendre le problème de rencontre de Mont-

mort (exemple 2.13). Nous lui donnerons cette fois-ci une solution en passant par des
probabilités conditionnelles.
Exemple 3.30 Lors d'une réunion de n hommes chacun enlève son chapeau. Les
chapeaux sont mélangés et chacun en tire un au hasard. On dira qu'il y a rencontre
lorsque quelqu'un a tiré son propre chapeau.
a) Quelle est la probabilité qu'il n'y ait pas de rencontre ?
b) Quelle est celle qu'il y ait exactement k rencontres ?
SOLUTION, a) Désignons par E l'événement «il n'y a aucune rencontre»; pour faire
clairement apparaître l'influence de n nous écrirons P„ = P(E). L'idée de départ est
de conditionner sur le fait que le premier homme a ou n'a pas tiré son propre chapeau,
événements que nous noterons R et Rc. Alors:
Pn = P(E) = P(E\R)P(R) + P(E\RC)P(RC)
Il est évident que P(E\R) = 0 et donc
~~ (3.20)
Ceci dit, P(E\RC) est la probabilité qu'il n'y ait pas de rencontre lorsque n — 1
hommes tirent chacun un chapeau d'un tas en comptant n — 1 mais ne comprenant
pas le chapeau de l'un de ces hommes (le chapeau tiré par le premier individu).
Lorsqu'il n'y a pas de rencontre, deux cas de figure peuvent se présenter: soit l'homme
«en trop» (son chapeau n'est pas dans le tas) ne tire pas le chapeau «en trop» (celui
du premier homme), soit il le tire. La probabilité d'absence de rencontre dans le
premier cas est simplement P„_{, on peut s'en convaincre en considérant que le
chapeau «appartient» à l'homme en trop. Comme la probabilité de l'alternative est
[l/(« — l)]Pn_2> nous avons maintenant
P(E\Rr) = PH_t +—^—Pn_2

n — 1
et donc en remplaçant dans (3.20)
P = — P +-P
n n
Pn ~ P„-i = - - ( P „ - , " P„-2) (3.21)
Par ailleurs, Pn est la probabilité de n'avoir aucune rencontre, donc
P\ = 0 P2 = 1/2
et par conséquent, l'équation (3.21) donne
l l 1
P P - i^zIA- P
P 4 -P 3= _i^) = l ou P4 = ±-± + L
4 4! 2! 3! 4!
On peut voir que la formule générale est
Pn=i-l+i-...+tir
2! 3! 4! n!
b) Pour obtenir la réponse à la question, à savoir la probabilité d'observer exacte-
ment k rencontres, considérons un groupe quelconque de k hommes. La probabilité
qu'eux et eux seulement choisissent leur propre chapeau est
i ^ L_p _(n-k)\
n n— 1 n — (k — 1) n!
où P„^k est la probabilité conditionnelle qu'aucun des n — k autres hommes ne tire

son propre chapeau. Mais il y a ("k) manières de déterminer le groupe initial des k
hommes qui tireront leur chapeau; par conséquent la probabilité demandée est
±_1 (-!)"""
+ +
Pn-k_2ï 3! "" (n-fc)!
k\ k\ m
3.5.3 Indépendance conditionnelle
Un concept important en théorie des probabilités est celui d'indépendance condi-

tionnelle entre événements. Deux événementsE1et E2 seront dits conditionnellement
indépendants selon F si la probabilité conditionnelle de E1, Fêtant réalisé, n'est pas
affectée par l'information que E2 est ou n'est pas survenu. On peut écrire plus
formellement que F, et E2 sont conditionnellement indépendants selon F si
P(El\E2F) = P(El\F) (3.22)
ou, de manière équivalente
P(EiE2\F) = P(El\F)P(E2\F) (3.23)
On peut facilement étendre cette notion d'indépendance conditionnelle à plus de

deux événements. Ce travail est laissé au lecteur à titre d'exercice.
On aura remarqué que ce concept a été employé implicitement dans l'exemple 3.26
où l'on a admis que les événements «le signataire du contrat d'assurances a un
accident durant la /-ème année de contrat» (;' = 1,2) étaient conditionnellement
indépendants selon que cet individu était à faible ou haut risque. [On avait utilisé cette
hypothèse pour pouvoir attribuer à P(A1\AA]) et P(A2\AcAl) respectivement les
valeurs 0,4 et 0,2]. L'exemple suivant illustre la notion d'indépendance conditionnelle.
On l'intitule parfois règle de succession de Laplace.
Exemple 3.31 Règle de succession de Laplace.

Une boîte contient k + 1 pièces. Pour la /-ème pièce, la probabilité de montrer pile
lors d'un jet est i/k, i = 0,\,...,k. On tire une pièce au hasard de la boîte pour la jeter
ensuite un grand nombre de fois. Quelle est la probabilité conditionnelle que le
(n + l)-ième jet donne pile sachant que les n premiers l'ont fait?
SOLUTION. Désignons par Ei l'événement «la pièce sélectionnée était la /-ème»,

/ = 0,\,...,k, par F„ l'événement «les n premiers jets donnent tous pile», enfin par F
«le (n + l)-ième jet donne pile». La probabilité P(F\F„) que l'on cherche peut être
calculée ainsi:
P(F\Fn)= I P(F|F n £ i )P(£ 1 -|F„)

;=o
Si l'on admet que c'est la /-ème pièce qui a été tirée, les issues des jets seront
conditionnellement indépendantes, pile apparaissant avec la probabilité i/k. Donc,
P{F\F„E,) = P(F\Ei)=j
k
Aussi
P(E,FH)
P(E,\Fn)=-
P(Fn)
P(F n |F,)P(E,)
I P(Fn\E,)P(Ej)
; = ()
(i/fc)"[l/(fc + l)]
l (;'//c)"[l/(/c + l)]
P(F|F„)=^
;=0
Lorsque k est grand on peut raisonnablement admettre les approximations intégrales

et ainsi pour k grand

n+1
P(F\FH)~
n+2
3.6 EXERCICES THEORIQUES
3.6.1 Une boule peut se trouver dans n'importe laquelle de n boîtes. Elle se trouve
dans la boîte / avec probabilité P,, Si elle se trouve dans la boîte i, elle ne sera détectée
au cours d'une fouille de cette boîte qu'avec la probabilité et,. Montrer que la
probabilité conditionnelle que la boule se trouve dans la boîtey, sachant qu'une fouille
de la boîte i n'a rien donné, est:
3.6.2 Pour chacune des assertions suivantes donner soit une preuve, soit un contre-
exemple:
a) si E est indépendant de F et G, il l'est de F U G;
b) si E est indépendant de F et G et si FG = 0 , E est indépendant de F \J G;
c) si E est indépendant de F et si F l'est de G et si en plus E l'est de FG, alors G est
indépendant de EF.
3.6.3 L'événement F est porteur d'une information négative sur E, ce que nous
écrirons F \ E, si
P(£|F)sP(E)
Pour chacune des assertions suivantes, donner soit une preuve soit un contre-exemple:
• si F \ E alors E \ F;
• si F \ E et E \ G, alors F \ G;
• si F \ E et G \ F, alors FG \ F.
Répondre aux mêmes questions lorsqu'on remplace \ par S, F S E signifiant
P{E\F) ^ P(E): autrement dit, F est porteur d'information positive sur E.
3.6.4 Soient {E„, n > 1} et {F„, n > 1} des suites croissantes d'événements ayant pour
limites E et F respectivement. Montrer que F est indépendant de F si, pour tout n,
En l'est de F„.
3.6.5 Montrer que si EuE2,...,En sont des événements totalement indépendants on

aura
n
P ( £ , u E 2 u •• - u E „ ) = 1 - I l [1 - P ( F , ) ]
(' = 1
3.6.6
a) Une urne contient n boules blanches et m noires. On retire les boules une à une,
jusqu'à ce que l'on soit sûr que toutes celles qui restent sont de la même couleur.
Montrer que la probabilité que cette couleur soit le blanc est «/(« + m). On imaginera
que l'expérience est poursuivie jusqu'à la dernière boule et on considérera la couleur
de celle-ci.
b) Un étang est peuplé de trois espèces de poissons, qu'on appellera poissons rouges,
bleus et verts. Les nombres des poissons de chaque espèce sont respectivement R, B
et V. On retire les poissons un à un, au hasard (ce qui signifie qu'à chaque étape tout
poisson restant a la même probabilité d'être tiré). Quelle est la probabilité que la
première espèce à disparaître de l'étang soit le poisson rouge?
On partira de l'égalité P{{R\) = P({RBV}) + P({RVB}), puis on calculera les
probabilités du membre de droite en conditionnant suivant la couleur de la dernière
espèce à disparaître.
3.6.7 On considère des nombres ait i = 1,2,... ; de plus 0 < a, < 1 V i. Montrer que
i U n d-fl>) + n u-aj) = i
i=l L ;'=1 J i=l
On peut pour cela imaginer qu'on lance un nombre infini de pièces et on considère
a, comme la probabilité que la i-ième pièce montre pile et considérer la première ap-
parition du pile.
3.6.8 Une pièce tombe sur face avec probabilité/?. Un joueur A commence à la lancer
et poursuit jusqu'à la première apparition de pile. A ce moment B la lance jusqu'à
ce que pile apparaisse pour la première fois, ce qui fait passer la pièce à A et ainsi de
suite. On note par Pnm la probabilité que A ait pu accumuler un total de n faces avant
que B en ait eu m. Montrer que
Pn,m = pPn-Un, + d - P)(l ~ Pm,n)
3.6.9 Vous jouez contre un adversaire infiniment riche, le jeu est divisé en parties.
A chaque partie, vous pouvez soit gagner soit perdre une unité avec pour probabilité
respectivement /? et 1 — p. Montrer que la probabilité que vous finissiez par vous
ruiner est
| 1 si p \où q = 1 - p
où / désigne votre fortune initiale.
3.6.10 On réalise des épreuves indépendantes jusqu'à obtenir r succès. La probabilité

d'un succès est /;. Montrer que la probabilité qu'il faille n épreuves est
Utiliser ce résultat pour résoudre le problème des points (exemple 3.25). On peut d'a-
bord se demander le nombre de succès qu'on doit avoir lors des n - 1 premiers essais
pour obtenir r succès en n épreuves.
3.6.11 On appelle épreuves de Bernoulli des épreuves indépendantes ayant p pour

probabilité de succès et 1 — /> pour probabilité d'échec. Appelons Pn la probabilité
que n épreuves de Bernoulli successives débouchent sur un nombre pair de succès; 0
est considéré pair. Montrer que
P„=p(l-/»„-,)+ (l-p)P„-i n>l
et utiliser ce résultat pour démontrer par induction que
D _ l + (l-2p)"
3.6.12 Soit Q„ la probabilité qu'il n'apparaisse aucune série de trois piles consécutifs
lors de l'expérience consistant à jeter n fois une pièce équilibrée. Montrer que
0„=|0„-,+ï0„-2+l0„-3
Oo = Oi = Q2 = 1
Calculer Q8. Pour cela, conditionner sur le premier face.
3.6.13 Le joueur À possède n + 1 pièces équilibrées, le joueur B en a n. Chacun lance

toutes ses pièces. Montrer que la probabilité pour A d'avoir plus souvent pile que B
est lA.
Pour cela, conditionner selon que A ou B a plus souvent pile que l'autre lorsque
les joueurs en sont au jet de leur K-ème pièce chacun (il y a trois éventualités).
3.6.14 Considérons le problème de la ruine du joueur à cela près que A et B décident

de ne pas jouer plus de n parties. On désigne par Pni la probabilité que A termine avec
tout l'argent alors qu'il possédait / unités au départ, contre N — i pour B. Exprimer
Pni en fonction de P„_]J+I et P„û_i et calculer P13 lorsque N = 5.
3.6.15 On considère deux urnes contenant chacune des boules blanches et des boules
noires. Les probabilités de tirer une boule blanche sont dep et//, respectivement pour
l'urne 1 et l'urne 2. On tire avec remplacement des boules, une à une, de la manière
suivante: on détermine d'abord l'urne de laquelle la première boule sera tirée; l'urne
1 est choisie avec probabilité a, l'autre avec 1 — a. Pour la suite, les tirages obéissent
à la règle suivante: lorsque la boule tirée est blanche, on la replace dans son urne, de
laquelle on tire également la boule suivante; lorsqu'elle est noire au contraire, le tirage
suivant est fait dans l'autre urne. Soit an la probabilité que la «-ème boule soit choisie
dans l'urne 1. Montrer que
a„+, = an{p + p'- l) + 1 - p' n>l

et utiliser ce résultat pour montrer que
2-p-p \ 2-p-p /
Soit P„ la probabilité que la n-ième boule tirée soit blanche.

Calculer Pn, lim a„ et lim Pn
3.6.16 Problème d'élection.

Lors d'une élection le candidat A reçoit n voix contre seulement m (m < n) au
candidat B. On admet que lors du dépouillement chacun des (n + m)\jn\m\ ordres
de dépouillement est de même probabilité. Pnm désigne la probabilité que A reste du
début à la fin en tête du scrutin.
a) Calculer P2 „ Px2, P4A, P 42 , P4J.
b) Trouver Pn,\, Pn,2,-
c) En s'appuyant sur ces résultats, formuler une conjecture pour l'expression de P„ „,.
d) Etablir une formule récursive donnant Pnm en fonction de P„_l<m et P„m_\ en
conditionnant selon que tel ou tel candidat a reçu la ....-ième voix (compléter
vous-même).
e) Utiliser ce dernier résultat pour démontrer votre conjecture faite en b) grâce à un
raisonnement par induction portant sur n + m.
3.6.17 On construit un modèle simplifié de prévision météorologique en disant que

le temps sera demain le même qu'aujourd'hui avec probabilité p. Le temps est sec (il
ne peut être que sec ou humide) le 1er janvier. Montrer que la probabilité Pn qu'il soit
sec n jours plus tard est donnée par
Pn = ( 2 p - l ) P „ - , + ( l - p ) nsl
P..= 1
Montrer que
Pn = i+l2(2p-l)H n>0
3.6.18 Un sac contient a boules blanches et b noires. On tire des boules du sac selon
le principe suivant:
a) une boule est tirée au hasard et mise de côté;
b) une seconde est également tirée au hasard. Si sa couleur diffère de celle de la
première, on la réintroduit dans le sac et on recommence le processus depuis le
début. Dans le cas contraire, on la met de côté et répète le point b).
En d'autres termes, les boules sont tirées et mises de côté jusqu'à ce qu'un changement
de couleur intervienne, à partir de quoi la dernière boule tirée est réintroduite dans
le sac et le processus réinitialisé. Désignons par Pllh la probabilité que la dernière boule
du sac soit blanche. Montrer que
Raisonner par induction sur k = a + b, le nombre de boules dans le sac aux différents
stades de l'expérience.
3.6.19 Un tournoi avec n participants se déroule de la manière suivante: chaque jou-

eur joue une fois contre chaque autre joueur (il y a ( ") paires de joueurs). Le résultat
de chaque match consiste en la victoire d'un joueur et la défaite de l'autre. Pour un en-
tier k fixé, k < n, est-il possible que le résultat du tournoi soit tel que pour tous les
ensembles de k joueurs, un joueur batte chaque membre de cet ensemble? Montrer
que si
n-k
n
] 1- <1
un tel résultat est possible.

Pour cela, supposer que les résultats des matchs sont indépendants et que chaque
match a la même probabilité d'être gagné par n'importe quel joueur. Numéroter les
( " ) ensembles de k joueurs et soit B, l'événement qu'aucun joueur ne batte les k jou-
eurs du i-ième ensemble. Utiliser alors l'inégalité de Boole pour borner P(\jBt).
i
3.6.20 Démontrer de manière directe que
P(E\F) = P(E\FG)P(G\F) + P(E\FGC)P(GC\F)
3.6.21 Etablir l'équivalence de (3.22) et de (3.23).
3.6.22 Généraliser la définition d'indépendance conditionnelle à plus de deux événe-

ments.
3.6.23 Démontrer ou infirmer par contre-exemple la proposition suivante: si E\ et E2

sont indépendants, £, \F et E2\F\e sont aussi.
3.6.24 On considère la loi de succession de Laplace (exemple 3.31). Montrer que si

les n premiers jets livrent tous pile, la probabilité conditionnelle que les m jets suivants
donnent également pile seulement est (n + \)j{n + m + 1).
3.6.25 Dans le cas de la loi de succession de Laplace, on suppose que les n premiers
jets ont donné r fois pile et n — r fois face au total. Montrer que la probabilité que
le (n + l)-ième jet livre pile est (r + !)/(« + 2). Pour ce faire, démontrer puis utiliser
'identité
y ( 1 - y ) dy=— ——
;o (n + m + 1)!
Pour démontrer cette identité, poser C(n,m) = fQ y"(\ — y)m dy et intégrer cette
quantité par parties pour obtenir
C(n, m) = C(n + 1, m - 1)
n +1
Démontrer l'identité proposée par induction sur m en partant de C(«,0) = \/(n + 1).
3.6.26 L'un de vos amis, d'esprit peu mathématicien mais plutôt philosophe, soutient
que la loi de succession de Laplace est infondée, car elle peut mener à ces conclusions
ridicules. «Par exemple», dit-il, «cette loi prétend qu'un enfant de 10 ans vivra une
onzième année avec une probabilité j | . La même loi appliquée au grand-père de cet
enfant et qui a déjà 80 ans lui donne 81 chances sur 82 de vivre un an de plus. Ce
résultat est ridicule, l'enfant ayant clairement plus de chances de vivre un an de plus
que son grand-père». Que répondriez-vous à votre ami?
3.7 PROBLÈMES
3.7.1 On jette deux dés équilibrés. Quelle est la probabilité qu'au moins l'un d'entre
eux montre 6, sachant que les deux résultats sont différents?
3.7.2 On jette deux dés équilibrés. Quelle est la probabilité que le premier montre 6,
sachant que la somme des deux est il Calculer le résultat pour toutes les valeurs de
/ comprises entre 2 et 12.
3.7.3 Utiliser l'équation (3.1) pour calculer la probabilité que, lors d'une partie de
bridge, Est ait 3 piques, sachant que Nord et Sud en possèdent 8.
3.7.4 On jette deux dés équilibrés. Quelle est la probabilité qu'au moins l'un d'entre
eux montre 6, sachant que la somme des deux est /', i = 2,3,..., 12?
3.7.5 Une urne contient 6 boules blanches et 9 noires. On en tire 4 sans remise et au
hasard. Quelle est la probabilité que les deux premières soient blanches et les deux
autres noires?
3.7.6 On considère une urne contenant 12 boules desquelles 8 sont blanches. On tire
un échantillon de 4 boules avec remise (respectivement sans remise). Quelle est dans
chaque cas la probabilité conditionnelle que la première et la troisième boule soient
blanches, sachant que l'échantillon contient exactement 3 boules blanches?
3.7.7 Le roi vient d'une famille de 2 enfants. Quelle est la probabilité que l'autre soit
une sœur?
3.7.8 Un couple a deux enfants. Quelle est la probabilité que les deux soient des filles
sachant que l'aînée en est une ?
3.7.9 On considère trois urnes. L'urne A contient 2 boules blanches et 4 rouges; l'urne
B, 8 blanches et 4 rouges; l'urne C, 1 blanche et 3 rouges. On tire une boule de chacune
des urnes. Quelle est la probabilité que la boule tirée de l'urne A soit blanche, si l'on
sait que le tirage a livré deux boules blanches exactement?
3.7.10 Lors d'une partie de bridge, Ouest n'a reçu aucun as. Quelle est la probabilité
que son partenaire
a) n'ait reçu aucun as non plus;
b) en ait reçu deux ou plus?
c) Quels seraient ces résultats si Ouest avait reçu 1 as lors de la donne?
3.7.11 On choisit trois cartes au hasard et sans remise dans un jeu ordinaire de 52
cartes. Calculer la probabilité que la première carte tirée soit un pique, sachant que
les deux dernières en sont?
3.7.12 Une grossesse ectopique a deux fois plus de chance de se développer lorsque
la femme enceinte fume que lorsqu'elle est non-fumeuse. Si 32% des femmes en âge
de maternité fument, quel pourcentage de femmes ayant une grossesse ectopique sont
fumeuses?
3.7.13 98% des bébés survivent à l'accouchement. Cependant, 15% des naissances
nécessitent une césarienne et lorsqu'une césarienne est pratiquée, les bébés survivent à
96%. Si une femme enceinte choisie aléatoirement ne fait pas de césarienne, quelle est
la probabilité que son bébé survive?
3.7.14 Dans une certaine ville, 36% des familles possèdent un chien et 22% de celles
qui ont un chien possèdent aussi un chat. De plus, 30% des familles ont un chat.
Quelle est
a) la probabilité qu'une famille sélectionnée au hasard possède un chien et un chat;
b) la probabilité conditionnelle qu'une famille choisie au hasard possède un chien
sachant qu'elle a un chat?
3.7.15 46% des électeurs d'une ville se déclarent indépendants alors que 30% se dé-
clarent libéraux et 24% conservateurs. Lors d'une récente élection locale, 35% des
indépendants, 62% des libéraux et 58% des conservateurs ont voté. Un électeur est
choisi au hasard. Sachant qu'il a voté lors de l'élection locale, quelle est la probabilité
qu'il soit
a) indépendant;
b) libéral;
c) conservateur?
d) Quelle fraction d'électeurs a participé à l'élection locale?
3.7.16 48% des femmes et 37% des hommes ayant suivi un programme pour arrêter
de fumer sont restés non-fumeurs pendant au moins un an après la fin du programme.
Ces personnes organisent une fête pour célébrer leur année sans fumer. Si 62% de
tous les gens ayant suivi le programme étaient des hommes,
a) quel pourcentage de femmes y aura-t-il à la fête?
b) quel pourcentage de gens ayant suivi le programme se rendront à la fête?
3.7.17 52% des élèves d'un collège sont des filles. 5% des élèves de ce collège sont
doués en informatique. 2% des élèves sont des filles douées en informatique. Si un
élève est choisi au hasard, trouver la probabilité conditionnelle que
a) cet élève soit une fille, sachant qu'il est doué en informatique;
b) cet élève soit doué en informatique, sachant que c'est une fille.
3.7.18 500 couples mariés actifs ont été sondés sur leur salaire annuel, donnant les
résultats suivants.
Mari
Femme Moins de $25 000 Plus de $25 000
Moins de $25 000 212 198
Plus de $25 000 36 54
Ainsi, par exemple, dans 36 de ces couples la femme gagne plus et le mari moins de
$25 000. Si un des couples est choisi au hasard, quelle est
a) la probabilité que le mari gagne moins de $25 000;
b) la probabilité conditionnelle que la femme gagne plus de $25 000 sachant que son
mari gagne plus que cette somme;
c) la probabilité conditionnelle que la femme gagne plus de $25 000 sachant que son
mari gagne moins que cette somme?
3.7.19 La probabilité que la batterie d'une voiture neuve fonctionne plus de 10 000
miles est .8, la probabilité qu'elle fonctionne plus de 20 000 miles est .4 et la probabi-
lité qu'elle fonctionne plus de 30 000 miles est .1. Si la batterie d'une voiture neuve
fonctionne toujours après 10 000 miles, quelle est la probabilité que
a) sa durée de vie dépasse 20 000 miles;
b) sa durée de vie supplémentaire dépasse 20 000 miles?
3.7.20 Supposons qu'on divise aléatoirement un jeu ordinaire de 52 cartes (contenant

4 as) en 4 mains de 13 cartes chacune. Nous voulons déterminer la probabilité p que
chaque main contienne un as. Soit £, l'événement que la Même main ait exactement
un as. Déterminer p = PiEÊ-sE^) en utilisant la règle de multiplication.
3.7.21 Une urne contient au départ 5 boules blanches et 7 noires. Chaque fois que
l'on tire une boule, on note sa couleur, puis on la réintroduit ainsi que deux nouvelles
boules de la même couleur qu'elle.
• Quelle est la probabilité que les deux premières boules tirées soient noires, puis les
deux suivantes blanches?
• Quelle est la probabilité que deux exactement des 4 premières boules tirées soient
noires?
3.7.22 Une urne I contient 2 boules blanches et 4 rouges, tandis qu'une urne II
contient une boule de chacune de ces couleurs. Une boule est tirée au hasard de l'urne
I et placée dans l'urne II, puis on tire une boule de cette dernière urne.
• Quelle est la probabilité que cette deuxième boule soit blanche?
• Quelle est la probabilité que la boule transférée soit blanche, sachant que la
dernière boule était blanche?
3.7.23 Comment placer 20 boules, dont 10 sont blanches et 10 noires, dans deux urnes
de manière à maximiser la probabilité de tirer une boule blanche dans l'expérience
suivante: on choisit d'abord une urne au hasard, puis une boule dans cette urne?
3.7.24 On peint deux boules, soit en noir soit en rouge, au hasard; chaque boule est
peinte indépendamment de l'autre, le noir ayant une chance sur deux d'être utilisé.
Les deux boules sont placées dans une urne.

a) On parvient à apprendre que la peinture rouge a été utilisée, donc qu'au moins
une des boules est rouge. Calculer la probabilité que dans ce cas les deux boules
soient rouges.
b) L'urne se renverse et une boule rouge en sort. Quelle est alors la probabilité que
les deux boules soient rouges? Expliquer ce résultat.
3.7.25 On a utilisé la méthode suivante pour estimer le nombre de personnes de plus

de 50 ans, dans une ville dont la population s'élève à 100 000 âmes. Elle consiste, pour
l'expérimentateur, à enregistrer le pourcentage des gens de plus de 50 ans, lors de ses
déplacements dans la rue. L'expérience s'étend sur quelques jours. Discuter cette
méthode.
A titre d'indication, soit p la vraie proportion des gens de plus de 50 ans dans la
ville considérée. De plus, a, désigne la proportion sur le temps total du temps qu'une
personne de 50 ans ou plus passe dans la rue, a2 étant cette proportion pour les moins
de 50 ans. Quelle est la grandeur que la méthode utilisée estime? Dans quelles
conditions l'estimation convient-elle pour pi
3.7.26 On admet que 5 % des hommes et 0,25 % des femmes sont daltoniens. On
sélectionne une personne daltonienne au hasard. Quelle est la probabilité qu'il s'agisse
d'un homme ? On admettra que les hommes sont aussi nombreux que les femmes. Si
au contraire il y en avait deux fois plus que de femmes, que deviendrait le résultat?
3.7.27 On considère deux boîtes, l'une contient une bille noire et une blanche, etl'autre
deux noires et une blanche. On désigne une boîte au hasard, de laquelle on tire une
bille. Quelle est la probabilité qu'elle soit noire? Si l'on sait que la bille est blanche,
quelle est la probabilité que ce soit la première boîte qui ait été désignée?
3.7.28 Les Anglais et les Américains orthographient le mot rigueur, respectivement,

rigour et rigor. Un homme ayant pris une chambre dans un hôtel parisien a écrit ce
mot sur un bout de papier. Une lettre est prise au hasard dans ce mot, c'est une
voyelle. Or 40% des anglophones de l'hôtel sont des Anglais et les 60% restants sont
Américains. Quelle est la probabilité que l'auteur du mot soit anglais?
3.7.29 Deux urnes A et B contiennent respectivement deux boules blanches plus une
noire et une blanche plus cinq noires. On tire au hasard une boule dans l'urne A et
on la place dans B. On tire alors une boule de B, elle est blanche. Quelle est la
probabilité que la boule transférée ait aussi été blanche?
3.7.30 Dans l'exemple 3.12, on doit admettre que le nouvel indice est sujet à diffé-
rentes interprétations et n'apporte qu'une certitude à 90 % que le criminel possède la
caractéristique mentionnée. Quelle est alors la probabilité que le suspect soit coupable
(on admettra comme dans l'exemple qu'il porte cette caractéristique)?
3.7.31 Une classe d'étudiants en probabilité comprend 30 étudiants, dont 15 sont

bons, 10 moyens et 5 mauvais. Une seconde classe de même effectif compte 5 bons
étudiants, 10 moyens et 15 mauvais. L'examinateur connaît cette situation, à la fin
de l'année, mais ignore à quelle classe il a affaire. Il interroge un étudiant pris au
hasard dans chaque classe et constate que l'étudiant de la classe A est moyen, tandis
que l'autre est mauvais. Quelle est la probabilité que la classe A soit la meilleure?
3.7.32 On compte respectivement 50, 75 et 100 employés dans trois entrepôts A, B et

C, les proportions de femmes étant respectivement également 50, 60 et 70 pour cent.
Une démission a autant de chance de se produire chez tous les employés, indépendam-
ment de leur sexe. Une employée donne sa démission. Quelle est la probabilité qu'elle
vienne de l'entrepôt Cl
3.7.33 Un joueur professionnel garde dans sa poche 2 pièces, l'une normale et l'autre
ayant ses deux faces identiques, disons deux fois pile. Il en prend une au hasard et
la lance; elle montre pile.
a) Quelle est la probabilité qu'il s'agisse de la pièce normale?
b) Il jette la même pièce une seconde fois, elle montre de nouveau pile. Que devient
la probabilité précédente?
c) Il la lance une 3ème fois, mais obtient face cette fois. Quelle est maintenant la
probabilité qu'il s'agisse de la pièce normale?
3.7.34 Une urne A contient 5 boules blanches et 7 noires. L'urne B en contient 3 et

12 respectivement. On jette par ailleurs une pièce de monnaie équilibrée. Dans le cas
où pile sort, on tire une boule de l'urne A, tandis qu'on en prend une dans l'urne B
si la pièce montre face. Or, une boule blanche est tirée. Quelle est la probabilité que
le jet qui a précédé le tirage de cette boule ait donné face?
3.7.35 Dans l'exemple 3.8, quelle est la probabilité qu'une personne ait un accident
durant la deuxième année, sachant qu'elle n'en a pas eu lors de la première?
3.7.36 On considère un échantillon de taille 3 tiré de la manière suivante: on dispose

au départ d'une urne contenant 5 boules blanches et 7 rouges. A chaque tirage, une
boule est tirée et sa couleur enregistrée. La boule est alors réintroduite dans l'urne
ainsi qu'une nouvelle boule de même couleur. Trouver la probabilité que l'échantillon
comprenne précisément
a) 0 boule blanche;
b) 1 boule blanche;
c) 3 boules blanches;
d) 2 boules blanches.
3.7.37 Une urne contient b boules blanches et r rouges. L'une de ces boules est tirée
au hasard. Quand on la remet dans l'urne, on l'accompagne de c nouvelles boules
de la même couleur qu'elle. On tire une deuxième boule. Montrer que la probabilité
pour la première boule tirée d'être blanche, sachant que la deuxième est rouge, est
b/(b + r + c).
3.7.38 On mélange bien un paquet de 52 cartes puis on le divise en deux parties égales.
On choisit une carte de l'une des moitiés, qui se trouve être un as. On place cet as dans
le second paquet qui est alors mélangé. On tire alors de ce paquet augmenté une carte.
Calculer la probabilité que cette carte soit un as.
Conditionner sur le fait que la carte qui a changé de paquet est ou n'est pas tirée.
3.7.39 Trois cuisiniers A, B et C sont chacun capables de préparer une spécialité de

gâteau. Ce gâteau doit être cuit et risque de ne pas monter avec des probabilités de
0,02, 0,03 et 0,05 selon les cuisiniers. Dans le restaurant où ils travaillent, A cuit 50%
de ces gâteaux, B 30% et C 20%. Quelle est la proportion des gâteaux ratés attribua-
bles à Al
3.7.40 Une boîte contient 3 pièces. La première est normale, la seconde porte deux
fois pile et la troisième est biaisée de telle manière que pile sorte trois fois sur 4. Une
pièce est tirée puis lancée et donne pile. Quelle est la probabilité qu'il s'agisse de celle
aux deux faces identiques?
3.7.41 Le geôlier informe trois prisonniers que l'un d'entre eux a été choisi au hasard
pour être exécuté, tandis que les deux autres seront libérés. Le prisonnier A lui
demande de lui dire discrètement lequel de ses camarades d'infortune sera libéré,
prétendant qu'il n'y a pas de mal à communiquer cette information puisqu'il sait déjà
qu'au moins l'un des deux sera libéré. Le geôlier refuse, argumentant que si A sait
lequel de ses camarades va être libéré, la probabilité que lui-même soit le condamné
augmentera de ^ à |, car il saura alors qu'il est parmi les deux personnes encore
menacées. Que pensez-vous du raisonnement du geôlier?
3.7.42 On dispose de lOpièces telles que, pour la i-ème d'entre elles, laprobabilité de
montrer pile lorsqu'on la lance est z'/lO, / = 1,2,...,10. Une pièce est tirée au hasard,
lancée, elle donne pile. Quelle est la probabilité qu'il s'agisse de la cinquième
pièce?
3.7.43 Une urne contient 5 boules blanches et 10 noires. Le chiffre donné par le jet
d'un dé équilibré indique le nombre de boules que l'on va tirer de l'urne. Quelle est
la probabilité que toutes les boules tirées soient blanches? Si toutes les boules sont
blanches, quelle la probabilité que le dé ait livré un 3?
3.7.44 Chacun de deux petits meubles identiques a deux tiroirs. Le meuble A contient
une pièce d'argent dans chaque tiroir, le meuble B ayant une pièce d'argent dans un
tiroir et une en or dans l'autre. On désigne l'un des petits meubles au hasard, ouvre
l'un de ses tiroirs et y trouve une pièce d'argent.
• Quelle est la probabilité qu'il y ait une pièce d'argent dans l'autre tiroir?
• Quelle est la probabilité que ce soit le meuble A qui ait été choisi?
3.7.45 On suppose qu'un test de dépistage de cancer est caractérisé par une fiabilité
de 95% aussi bien pour ceux qui portent que ceux qui n'ont pas cette maladie. Dans
la population, 0,4% des gens ont le cancer. Quelle est la probabilité qu'une personne
ait le cancer, sachant que son test l'indique?
3.7.46 Une compagnied'assurances répartit les gens en trois classes: personnes à bas
risque, risque moyen et haut risque. Ses statistiques indiquent que la probabilité que
des gens soient impliqués dans un accident sur une période d'un an est respectivement
0,05, 0,15 et 0,30. On estime que 20% de la population est à bas risque, 50% est à
risque moyen et 30% à haut risque. Quelle proportion des gens ont un accident ou
plus au cours d'une année donnée? Si l'assuré A n'a pas eu d'accident en 1972, quelle
est la probabilité qu'il fasse partie de la classe à bas risque (respectivement à moyen
risque)?
3.7.47 Si vous aviez à construire un modèle mathématique autour des événements E

et F suivants, les supposeriez-vous indépendants? Expliquer votre choix.
a) E est l'événement «une femme d'affaires a les yeux bleus» et F «sa secrétaire a les
yeux bleus»;
b) E est l'événement «un professeur possède une voiture» et F «il figure dans le bottin
du téléphone»;
c) E est «un homme mesure moins de 1,75 m» et F «il pèse plus de 100 kg»;
d) E est «une femme vit aux Etats-Unis» et F «elle vit dans l'hémisphère occidental»
(longitude 180°-360°);
e) E est «il pleuvra demain» et F «il pleuvra après-demain».
3.7.48 Une classe compte 4 garçons et 6 filles de première année, 6 garçons de seconde
année. Combien doit-il y avoir de filles de deuxième année si l'on veut que sexe et
année soient des facteurs indépendants lors du choix au hasard d'un étudiant?
3.7.49 Supposons qu'on collecte des coupons de m types différents. Supposons aussi
qu'à chaque fois qu'on obtient un nouveau coupon, il est de type i avec probabilité/?,,
i = 1,..., m. Supposons qu'on vienne de collecter le n-ième coupon. Quelle est la
probabilité qu'il soit d'un nouveau type? Pour cela, conditionner sur le type de ce
coupon.
3.7.50 Un modèle simplifié pour la variation du prix d'un stock suppose que chaque
jour, le prix du stock grimpe d'une unité avec probabilité p ou chute d'une unité avec
probabilité 1 - p. Les variations quotidiennes sont indépendantes.
a) Quelle est la probabilité qu'après 2 jours, le stock soit au prix original?
b) Quelle est la probabilité qu'après 3 jours, le prix du stock ait augmenté d'une
unité?
c) Sachant qu'après 3 jours le prix du stock a augmenté d'une unité, quelle est la pro-
babilité qu'il ait grimpé le premier jour?
3.7.51 La couleur des yeux d'une personne est déterminée par une unique paire de
gènes. Si les deux sont des gènes yeux bleus, la personne aura les yeux bleus; si les
deux sont des gènes yeux marrons, la personne aura les yeux marrons; si l'un est un
gène œil bleu et l'autre un gène œil marron, la personne aura les yeux marrons. (A
cause du fait que le gène œil marron est dominant par rapport au gène œil bleu.) Un
nouveau-né reçoit indépendamment un gène œil de chacun de ses parents et le gène
qu'il reçoit d'un de ses parents a autant de chances d'être l'un des deux gènes œil de
ce parent. Supposons que Smith et ses deux parents ont les yeux marrons, mais que la
sœur de Smith a les yeux bleus.
a) Quelle est la probabilité que Smith ait un gène œil bleu?
Supposons que la femme de Smith a les yeux bleus.
b) Quelle est la probabilité que leur premier enfant ait les yeux bleus?
c) Si leur premier enfant a les yeux marrons, quelle est la probabilité que leur pro-
chain enfant ait aussi les yeux marrons?
3.7.52 Barbara et Dianne vont faire du tir. Supposons que chaque tir de Barbara
touche la cible avec une probabilité p\ tandis que chaque tir de Dianne la touche avec
une probabilité pi- Supposons qu'elles tirent ensemble sur la même cible. Si la cible
est touchée, quelle est la probabilité que
a) les deux tirs l'aient touchée?
b) Barbara l'ait touchée?
Quelle hypothèse d'indépendance avez-vous faite?
3.7.53 A et fi se battent en duel. Les règles du duel sont les suivantes. Us ramassent
leur pistolet et se tirent dessus simultanément. Si l'un ou l'autre est touché, le duel est
fini. Si les deux tirs sont manques, ils répètent le processus. Supposons que les
résultats des tirs sont indépendants, que chaque tir de A touche B avec une probabilité
pA et que chaque tir de B touche A avec une probabilité pB. Quelle est
a) la probabilité que A ne soit pas touché;
b) la probabilité que les deux duellistes soient touchés;
c) la probabilité que le duel s'arrête après le n-ième tir;
d) la probabilité conditionnelle que le duel s'arrête après le n-ième tir sachant que A
n'est pas touché;
e) la probabilité conditionnelle que le duel s'arrête après le n-ième tir sachant que les
deux duellistes sont touchés?
3.7.54 Une question «vrai ou faux» est posée à un couple lors d'un jeu. Le mari et la
femme donneront, indépendamment, la bonne réponse avec une probabilité p. Parmi
les deux stratégies suivantes, quelle est la meilleure pour le couple?
a) Choisir l'un d'eux et le laisser répondre à la question; ou
b) Considérer la question tous les deux et alors soit donner la réponse commune s'ils
sont d'accord, soit, s'ils ne sont pas d'accord, lancer une pièce pour déterminer la
réponse à donner.
3.7.55 Dans le problème 54, si p = .6 et que le couple utilise la stratégie de la partie

b), quelle est la probabilité conditionnelle que le couple donne la bonne réponse s'ils
a) sont d'accord;
b) ne sont pas d'accord?
3.7.56 M. Jones a élaboré une stratégie pour gagner à la roulette: il ne mise que sur
rouge et seulement si les dix numéros sortis précédemment ont été noirs. Etant donné
la rareté des séquences de 11 numéros noirs, il pense que ses chances de gagner sont
grandes. Que pensez-vous de sa stratégie?
3.7.57 On dit qu'un système mécanique est un système k sur n s'il faut et suffit que
k des n composants du système soient fonctionnels pour que le système entier le soit.
On admettra que les composants travaillent indépendamment les uns des autres. On
désigne par Pt la probabilité que le ;'-ème composant soit opérationnel.
• Calculer la probabilité qu'un système 2 sur 4 fonctionne;
• même question pour un système 3 sur 5;
• même question pour un système k sur n où Z5, = p, Vi = l,2,...,n.
3.7.58 Dans les schémas qui suivent la probabilité que le relais i soit fermé est p„
i = 1, 2, 3,4, 5. Les relais fonctionnent indépendamment les uns des autres. Quel est,
dans ce cas, la probabilité que le courant passe entre A et B1
1 2
5
/
3 4
Conditionner sur le fait que le relais 3 est fermé ou non.
3.7.59 Un organisme possède 5 paires de gènes; dans chaque paire, les deux gènes sont
presque identiques, aussi les désigne-t-on les deux par la même lettre, prise parmi les
cinq premières de l'alphabet. Les deux formes possibles de chaque gène ne seront
distinguées que par le détail suivant: le gène dominant sera écrit en majuscule, le gène
récessif en minuscule. Un gène X est dit dominant si, lorsqu'un organisme possède
la paire xX, son apparence extérieure est commandée par X. Par exemple, si X
commande la couleur brune pour les yeux et x la couleur bleue, une personne ayant
XX ou Xx aura les yeux bruns, tandis que seule une personne portant xx aura les yeux
bleus. L'apparence extérieure est qualifiée de phénotype, tandis que la configuration
génétique est dite génotype. Ainsi deux organismes porteurs des génotypes a A, bB,
ce, dD, ee et A A, BB, ce, DD, ee sont pourtant du même phénotype.
Lors de l'accouplement de deux individus, chacun apporte, au hasard, un gène
d'un certain type parmi les deux qu'il possède. Les cinq contributions d'un organisme
du genre considéré sont indépendantes entre elles et indépendantes de celles de son
partenaire. Consécutivement à l'accouplement de deux organismes de génotypes a A,
bB, cC, dD, eE et aa, bB, ce, Dd, ee, quelle est la probabilité que leur progéniture soit
(1) phénotypiquement et (2) génotypiquement identique
• au premier parent;
• au second;
• à l'un des deux parents;
• à aucun des deux parents.
3.7.60 La reine porte le gène de l'hémophilie avec une probabilité de 0,5. Si elle est
porteuse, chaque prince aura une chance sur deux de souffrir de cette maladie. La
reine a eu trois fils non hémophiles. Quelle est la probabilité qu'elle soit porteuse du
gène? S'il naît un quatrième prince, avec quelle probabilité sera-t-il hémophile?
3.7.61 Le 30 septembre 1982 au matin, les scores des trois meilleures équipes de
baseball de la division occidentale de la Ligue Nationale des Etats-Unis étaient les
suivants:
Equipe Victoires Défaites
Atlanta Braves 87 72
San Francisco Giants 86 73
Los Angeles Dodgers 86 73
Chaque équipe doit encore disputer 3 parties. Les Giants doivent jouer leurs trois
parties contre les Dodgers, tandis que les Braves joueront les leurs contre les Padres
de San Diego. On admettra que les résultats de ces jeux sont indépendants et que
toutes les équipes ont la même probabilité de gagner. Quelle est la probabilité pour
chacune de ces trois équipes d'emporter la première place de la division? Si deux
équipes se retrouvent à égalité pour cette place, elles disputent une unique partie qui
les départagera, chacune ayant une chance sur deux de la gagner.
3.7.62 Le conseil municipal d'une ville, composé de 7 membres, comprend un comité

directeur de 3 membres. Un projet de loi est d'abord examiné par le comité directeur,
puis par le conseil complet si au moins deux des trois membres du comité l'ont
approuvé. Devant le conseil complet, le projet de loi doit être approuvé à la majorité
(au moins 4 voix) pour prendre force de loi. On considère un projet et admet que
chaque conseiller s'exprimera indépendamment des autres et en faveur du projet avec
une probabilité p. Quelle est la probabilité que le choix d'un membre du comité
directeur soit décisif, ce qui signifie que si ce membre change d'avis, le sort du projet
change aussi? Qu'en est-il pour le choix d'un conseiller ne siégeant pas au comité
directeur?
3.7.63 On admet que le sexe du dernier enfant d'un couple est indépendant de celui
des autres enfants de la famille et qu'il y a autant de chances d'être masculin que
féminin. Calculer, pour un couple ayant 5 enfants, les probabilités des événements
suivants:
a) tous les enfants sont du même sexe;
b) les trois aînés sont des garçons, les deux autres des filles;
c) il y a exactement 3 garçons;
d) les deux aînés sont des garçons;
e) il y a au moins une fille.
3.7.64 La probabilité de gagner lors du jet d'un seul dé est p. Le joueur A commence,
puis passe le dé à B s'il n'a pas gagné. B joue à son tour et rend le dé à A si lui non
plus n'a pas gagné. Les deux joueurs alternent ainsi tant qu'aucun n'a encore gagné.
Quelles sont leurs probabilités de victoire respectives? Que devient ce résultat
lorsqu'on admet k joueurs?
3.7.65 Mêmes questions que dans le problème 3.7.64 en admettant cependant que A
gagne avec probabilité P} tandis que cette probabilité est P2 pour B.
3.7.66 Chacun des trois joueurs lancent une pièce simultanément. La pièce lancée par
A, respectivement (B) et [C] montre pile avec probabilité P1,, (P2), [P3]. Si l'un des
joueurs obtient un résultat différent de celui commun aux deux autres, il est exclu.
Si personne n'est exclu, le jeu recommence jusqu'à ce qu'enfin quelqu'un le soit.
Quelle est la probabilité que ce soit A qui se voie exclure?
3.7.67 Dans une expérience donnée, les événements E et F sont mutuellement exclu-
sifs. Montrer que lors d'une suite d'épreuves indépendantes basée sur cette expérience,
£ apparaîtra avant F avec probabilité P(E)/[P(E) + P(F)].
3.7.68 Une ligne est tracée sur le sol et deux joueurs jettent leur pièce dans sa direc-
tion. Celui qui parvient le plus près gagne un sou de la part de l'autre. Le joueur A
débute avec 3 sous contre 7 au joueur B. Quelle est la probabilité que A finisse avec
tous les sous si aucun n'est plus habile que l'autre? Qu'en serait-il si A était un joueur
plus adroit gagnant 6 fois sur 10?
3.7.69 Quelle est la probabilité d'obtenir deux sommes de7 avant que n'apparaissent
6 nombres pairs lorsqu'on jette plusieurs fois une paire de dés équilibrés?
3.7.70 On considère 2" joueurs, tous de la même force, que l'on organise en paires
tirées au hasard. A l'issue du premier tour de jeu, on compose à nouveau des paires
au hasard avec les 2" _1 gagnants, et ainsi de suite, jusqu'à ce qu'il n'en reste qu'un.
Considérons deux participants donnés, A et B, ainsi que les événements ^,et £ définis
comme suit:
A,: «A joue exactement / fois», i = 1, 2,..., n,
E: «A et B ne jouent jamais l'un contre l'autre».
Trouver:
a) P(A), i = 1 n.
b) P(E).
c) On pose Pn = P(E). Montrer que
2
et utiliser ce dernier résultat pour vérifier la réponse donnée en b).
Pour ce faire, trouver P(E) en conditionnant sur l'événement A,, i = 1,..., n qui se
produit. Pour simplifier votre réponse, utiliser l'identité algébrique
"-i. ,_i \-nx +(n-l)x

Z.IX —•
/=i (l-*)2
Pour résoudre ce problème selon une autre approche, noter qu'il y a un total de 2" - l
matchs joués.
d) Expliquer pourquoi 2" - l matchs sont joués au total.
Numéroter ces matchs et soit fi, l'événement que A et B jouent l'un contre l'autre au i-
ième match, i = 1,..., 2" - 1.
e) Quelle est />(#,)?
f) Utiliser la question e) pour trouver P(E).
3.7.71 Un spéculateur travaillant sur le marché boursier possède des actions cotées
25. Il a décidé de vendre ses titres si la cote tombe à 10 ou monte au-delà de 40. Les
variations de prix de l'action sont de 1 point, avec probabilité 0,55 vers le haut et 0,45
vers le bas. Ces variations dans le temps sont indépendantes. Quelle est la probabilité
que cet investisseur fasse une bonne affaire?
3.7.72 Deux joueurs A et B jettent une pièce. A commence et continue jusqu'à

l'apparition d'un face. B prend alors la place de A et continue également jusqu'à
obtenir face, et ainsi de suite. Désignons par Px la probabilité d'obtenir pile pour A,
cette probabilité devenant P2 pour B. Le gagnant du jeu est, dans quatre versions
différentes, le premier qui obtiendra
a) deux piles de suite
b) un total de deux piles
c) trois piles de suite
d) un total de 3 piles.
Dans chaque version donner la probabilité que A soit le gagnant.
3.7.73 Un dé A a quatre faces rouges et deux blanches, tandis qu'un dé B en a deux

rouges et quatre blanches. Une pièce équilibrée est lancée une fois. Si pile sort, le jeu
continue avec le dé A, tandis que si c'est face, on utilise B.
a) Montrer que la probabilité qu'une face rouge apparaisse est ^.
b) Si les deux premiers jets de dé donnent rouge, quelle est la probabilité que le 3ème
en fasse autant?
c) Si les deux premiers jets donnent rouge, quelle est la probabilité que l'on soit en
train d'utiliser le dé Al
3.7.74 Dans une urne, on dispose 12 boules dont 4 sont blanches. Les trois joueurs
A, B, et C tirent dans l'ordre une boule chacun, puis A recommence et ainsi de suite.
Le gagnant est le premier à tirer une boule blanche. Trouver la probabilité pour
chaque joueur de gagner dans les deux cas suivants: avec remise, sans remise.
3.7.75 Refaire le problème 3.7.74 lorsqu'il y a trois urnes de 12 boules au lieu d'une,
chaque joueur tirant toujours dans la même.
3.7.76 Soit S = {1, 2,..., n} et supposer que A et B ont, indépendamment, autant de

chance d'être l'un des 2" sous-ensembles de S (comprenant l'ensemble vide et 5 lui-
même). Montrer que / 3Y
P{A C B} = -
V4/
Pour cela, soit N(B) le nombre d'éléments dans B. Utiliser
P{A <ZB}= ÎP{A C BI N(B) = i}p{N(B) = i}

1=0
3.7.77 On se place dans la situation de l'exemple 3.31. Quelle est la probabilité que
la f-ème pièce ait été choisie, sachant que les n premières épreuves ont toutes donné
pile?
3.7.78 Dans le cas de la loi de succession de Laplace, exemple 3.31, peut-on dire que
les résultats des différents jets sont indépendants? Expliquer votre réponse.
3.7.79 Un tribunal de 3 juges déclare un individu coupable lorsque deux au moins des
trois juges estiment que cette décision est fondée. On admettra que si l'accusé est
effectivement coupable, chaque juge se prononcera dans ce sens avec probabilité 0,7,
ceci indépendamment des 2 autres. Cette probabilité tombe à 0,2 dans le cas où
l'accusé est innocent. 70% des accusés sont coupables. Calculer la probabilité que le
juge n° 3 vote coupable dans chacune des situations suivantes:
• les juges 1 et 2 l'ont fait;
• les juges 1 et 2 sont partagés;
• les juges 1 et 2 votent tous deux non coupable.
On désigne par £,, i = 1, 2, 3 l'événement «le juge i vote coupable». Ces événements
sont-ils indépendants? Conditionnellement indépendants? Expliquer votre position.
CHAPITRE 4
Variables aléatoires
4.1 VARIABLES ALÉATOIRES
4.1.1 Définition
Après avoir réalisé une expérience, il arrive bien souvent qu'on s'intéresse plus à
une fonction du résultat qu'au résultat lui-même. Expliquons ceci au moyen des
exemples suivants: lorsqu'on joue aux dés, certains jeux accordent de l'importance à
la somme obtenue sur deux dés, 7 par exemple, plutôt qu'à la question de savoir si
c'est la paire (1,6) qui est apparue, ou (2,5), (3,4), (4,3), (5,2) ou plutôt (6,1). Dans
le cas du jet d'une pièce, il peut être plus intéressant de connaître le nombre de fois
où pile est apparu plutôt que la séquence détaillée des piles et faces. Ces grandeurs
auxquelles on s'intéresse sont en fait des fonctions réelles définies sur l'ensemble
fondamental et sont appelées variables aléatoires.
Du fait que la valeur d'une variable aléatoire est déterminée par le résultat de
l'expérience, il est possible d'attribuer une probabilité aux différentes valeurs que la
variable aléatoire peut prendre.
4.1.2 Exemples de variables aléatoires
Exemple 4.1 Notre expérience consiste à jeter trois pièces équilibrées. Si l'on désigne
le nombre de piles par Y, Y est une variable aléatoire et peut prendre les valeurs 0,
1, 2, 3 avec pour probabilité respectivement
P{ Y = 0} = P{(P, P, P)} = i
P{ Y = 1} = P{(P, P, F), (P, F, P), (F, P, P)} = 3/8
P{ Y = 2} = />{(/>, F, F), (F, P, F), (F, F, P)} = 3/8
P{ Y = 3} = P{(F, F,F)} = 3/8
Du fait que Y doit nécessairement prendre l'une des valeurs 0, 1, 2, 3 on aura
l=p(Ù{Y = i}) = l P{Y = i}
ce qui est évidemment confirmé par les probabilités calculées ci-dessus. •
Exemple 4.2 D'une urne contenant 20 boules numérotées de 1 à 20, on tire sans
remplacement 3 des boules. Quelqu'un parie qu'au moins une des boules tirées
portera un numéro égal ou supérieur à 17. Quelle est la probabilité qu'il gagne ?
SOLUTION. Disons que X représente le plus grand numéro tiré. X est une variable
aléatoire pouvant prendre les valeurs 3,4,..., 19 ou 20. En supposant que les (2°) tirages
sont tous équiprobables, on a:
L'équation (4.1) s'explique par le fait que l'événement \X = /} correspond au tirage

de la boule i et de deux des boules portant les numéros l à / — 1. Or il y a clairement
(JH'j1) de ces tirages, d'où le résultat. Grâce à cette équation on peut calculer
IJU
.134
.119
Or, \X ^ 17} est la réunion disjointe des événements {X — /[, / = 17, 18, 19, 20. La
probabilité de gagner le pari est donc
P{X> 17} = .105+ .119+ .134+ .150 = .508 •

Variables aléatoires 117
Exemple 4.3 On répète le jet d'une pièce jusqu'à ce que face apparaisse, mais au plus
n fois. Les jets sont indépendants et face apparaît avec probabilité p. X désigne le
nombre de jets réalisés jusqu'à l'arrêt de l'expérience. C'est donc une variable aléatoire
et elle prendra les valeurs 1, 2, 3,..., n avec les probabilités respectives suivantes:
P{X = 1} = P{F) = p
P{X = 2} = P{(P, F)} = (1 - p)p
P{X = 3} = P{(P, P, F)) = (1 - Pfp
P{X = n - 1} = P{(P,P,...,P, F)} = (1 - p ) " *p

n-2
P{X = n} = P{(P, P,..., P, P), (F, P , . . . , P, F)) = (1 - P)
A titre de vérification, ou remarquera que
=nip(i-p)''i+d-p)'"1
= i-(i-p)n-,+(i-p)n"1
= i
Exemple 4.4 D'une urne contenant 3 boules blanches, 3 rouges et 5 noires, on tire
3 boules. Supposons que l'on reçoive 1 franc pour chaque boule blanche tirée et que
l'on doive au contraire payer 1 franc pour toute boule rouge. On désigne le bénéfice
net laissé par le tirage par X. X est une variable aléatoire pouvant prendre les valeurs
0, + 1, ±2, ± 3 avec pour probabilités respectives
P{X = 0}=- (KXX) ; ; ; — - - I L
(V)
P{x=i}=p{x=-!>=-
CXKXD ~'/t1r '" = ^
(V)
(3)(5) 15
P{X = 2} = P{x = -2} = ^£r- = 165
\3 j
(3) ,
P{X = 3} = P{X = - 3 } =
165
Pour expliquer comment on obtient ces probabilités, prenons le cas X = 0. On

remarque qu'il faut pour cela tirer uniquement des boules noires ou autrement une
boule de chaque couleur. Pour X = 1 il faudra tirer 1 boule blanche et 2 noires ou
2 blanches et 1 rouge. A titre de vérification, on peut s'assurer que
i w r - i H - î JVC- -n . " + » + » + ' + » + " + ' . ,

i-o >=\ 165
La probabilité de gagner de l'argent est
iP{x = i}=M=j •
i= l
Exemple 4.5 On collectionne des coupons. Il y a N sortes de coupons et lorsqu'on

en obtient un, il a autant de chances d'être d'une sorte plutôt que d'une autre,
indépendamment de ceux qu'on a pu se procurer auparavant. La variable aléatoire
T qui nous intéresse est celle qui compte le nombre de coupons qu'il est nécessaire
de réunir pour obtenir une collection complète comprenant au moins un coupon de
chaque type. Mais plutôt que de calculer P{T = n} directement, commençons par
calculer la probabilité que T soit plus grand que n. Pour cela, on fixe n et on définit
les événements suivants: Aj est «le type j n'est pas représenté parmi les n premiers
coupons rassemblés», y = 1, 2,..., N. Alors,
P{T > n) = P^ÇjA^
= lP(Aj)-Zï.P(AhAh) + ---
+ (-Dk+1 I I I P{AhAk-• • Aik) • • •
+ (-l)N+lP(AiA2---A„)
Or, Aj ne se produira que si chacun des n coupons n'est pas du type/. Comme cette
probabilité est (N — \)/N pour chaque coupon, notre hypothèse d'indépendance sur
les types obtenus successivement nous permet d'écrire
Par ailleurs, l'événement AJlJ2 ne se produira que si aucun des n premiers coupons
n'est du type ji, ni du type j2. La même hypothèse d'indépendance permet d'écrire
Le même raisonnement donne
P(AhAl2---Aik) = (^J
et on voit que, pour m >0,
La probabilité que T soit égale à n peut maintenant être déduite de ce qui précède
du fait que
P{T > n - 1} = P{T =n} + P{T > n}

P{T = n} = P{T > n - 1} - P{T > n}
Une autre variable aléatoire qui nous intéresse est le nombre de types représentés
dans les n premiers coupons rassemblés. Appelons-la Dn. Pour calculer P{D„ = k},
considérons d'abord un jeu bien particulier de k types et déterminons la probabilité
que ce jeu soit celui des types représentés dans les n premiers coupons. Pour que cela
soit le cas, il est nécessaire et suffisant que ces coupons vérifient les deux conditions
suivantes:
A: chacun des coupons appartient à l'un des k types fixés
B: chacun de ces k types est représenté.
Or, un nouveau coupon sera de l'un de ces k types avec probabilité k/N et de ce fait
P(A) = (k/N)". Par ailleurs, si l'on sait qu'un coupon est de l'un de ces k types, il
est facile de voir qu'il a autant de chances d'être de n'importe lequel de ces k types.
Aussi la probabilité que B soit vrai, sachant que A l'est, est-elle simplement la
probabilité de l'événement suivant: «un groupe de n coupons contient un jeu complet
des k types», chaque coupon pouvant être de n'importe quel type avec la même
probabilité. Mais ceci n'est autre que la probabilité qu'il faille n coupons au moins
pour former un jeu complet de k types, calculée dans (4.2) à condition de substituer
k à N. Aussi avons-nous
,
«" A >- , -£0)( i i i )"<- i,w
Finalement, comme il y a (f) choix possibles du jeu de k types initialement considéré,
on obtient
P{Dn = k} = (Nk}p(AB)
4.2 FONCTIONS DE RÉPARTITION
4.2.1 Définition
La fonction de répartition F d'une variable aléatoire X est définie pour tout

nombre réel b, — oo < b < oo, par
F(b) «= P{X =£ b}
En d'autres termes, F(b) est la probabilité que la variable aléatoire X prenne une
valeur inférieure ou égale à b.
4.2.2 Propriétés des fonctions de répartition
Voici quelques propriétés de ces fonctions:

• F est une fonction non décroissante; autrement dit si a < b, alors F(a) < F(b),
• lim F(b) = 1,
b-*QO
• lim F(b) = 0,
/ > - » —OC
• F est continue à droite, c'est-à-dire que, quel que soit b et quelle que soit une suite
décroissante b„, n ^ 1 convergeant vers b, on a lim F(b„) = F(b).
n-»oc
La première propriété repose sur le fait que si a < b, l'événement {X ^ a} est inclus
dans {A' < b}; la probabilité du premier est donc nécessairement plus petite que celle
du second. Quant aux propriétés suivantes, elles résultent toutes de la propriété de
continuité des probabilités (section 2.6).
Pour démontrer la deuxième propriété, on remarquera que si b„ tend vers l'infini,

les événements {X < b„}, n ^ 1 sont croissants emboîtés et que leur union est
{X < ce}. Par conséquent, en application de la propriété de continuité mentionnée
lim P{X < M = P{X < 00} = 1

n-+oo
ce qui établit la deuxième propriété.

La démonstration de la troisième propriété étant similaire, elle est laissée en
exercice au lecteur. Quant à celle de la quatrième propriété, on part d'une suite {b„}
convergeant vers b et décroissante. {X„ < b„}, n ^ 1 est une suite emboîtée décrois-
sante d'événements dont l'intersection est {X ^ b}. Toujours par continuité
lim P{X < M = P{X < b}

n
ce qui établit la quatrième propriété.
4.2.3 Fonction de répartition et probabilités sur X
Tous les calculs de probabilité concernant X peuvent être traités en termes de

fonction de répartition. Par exemple,
P { a < A T < b} = F(b)-F(a) pour tout a < b (4.3)
On peut s'en rendre mieux compte en écrivant {X < b] comme union des deux
événements mutuellement exclusifs {A' < a} et {a < X < b}, soit
{X < b] = {X < a} u {a < X < b}

et ainsi
P{X < b} = P{X < a} + P{a < X < b}

ce qui établit (4.3).
Pour obtenir P{X < b} on peut écrire, en utilisant encore une fois la propriété de
continuité
P{X<*} = p ( l i m { x ^ - i
= lim P[x<b--)
= lim F(b--)
n^co \ n)
On remarquera que P{X < b] n'est pas nécessairement égal à F(b) puisque cette valeur
comprend également la probabilité P{X = b}.
4.2.4 Exemple de fonction de répartition
Exemple 4.6 La fonction de répartition de la variable aléatoire X est donnée par
0 x<0
x
0< x< 1
2
2
F(x) l<x<2
3
n_ 2<x<3
12
1 3<x
La figure 4.1 représente son graphe.
Fig. 4.1
Calculer a) P{X < 3} b) P{X = 1}

c) />{* > \) d) P{2 < X s; 4}.
SOLUTION.
a) P { X < 3 } = l i m p ( x < 3 - - [ =\imF(3--) = —

" l nj « \ n/ 12
b) P{X = 1} = P{X < 1} - P{X < 1}
/ 1\ 2 1 1
= F(l)-lirnF(l--) = - - - = -
0 r{*>i}-i-p{*«i}
d) P{2 < X < 4} = F(4) - F(2)
= J_
~12
4.3 VARIABLES ALÉATOIRES DISCRÈTES
4.3.1 Définition, loi de probabilité
Une variable aléatoire ne pouvant prendre qu'une quantité dénombrable de va-

leurs est dite discrète. Pour une telle variable aléatoire X, on définit sa loi de probabilité
ppar
p{a) = P{X = a]
Cette loi de probabilité ne peut être positive que pour un ensemble au plus dénombra-
ble d'arguments. En d'autres termes, si X peut prendre les valeurs x{, x2,..., alors
pU)>0 i=l,2,...
p(x) = 0 pour toutes les autres valeurs de x
Du fait que X doit bien prendre l'une de ces valeurs x,, on aura
ï p(xd = i
i= l
Il est souvent instructif de représenter la fonction de densité de probabilité sur un

graphique, en reportant p(x) sur l'axe des y et xt sur l'axe des x. A titre d'illustration,
la loi de probabilité suivante est représentée à la figure 4.2:
p(0) = ï p(l) = è P{2) = 1/4
La figure 4.3 représente le graphe de la loi de probabilité d'une variable aléatoire

comptant la somme des nombres obtenus lors du jet de deux dés équilibrés.
P(x)
0 1
Figure 4.2
V A)
6
36
5
36
4
36
-
3
36
1
36
Exemple 4.7 La loi de probabilité d'une variable aléatoire X est donnée par
p(i) = cX'/il, i = 0, 1, 2,..., où X, est un réel positif. Trouver
a) P{X = 0};
b) P{ X > 2}.
SOLUTION. Puisque p(i) = 1, nous avons que

i=0
ce qui implique, puisque ex = £ JC'/'!, que

i=0
ce = 1 ou c= e
Donc
(a) P{X = 0} = e " V / 0 ! = e~K
(b) P{X > 2} = 1 - P{X < 2} = 1 - P{X = 0} - P{X = 1} - P{X = 2}
4.3.2 Fonction de répartition d'une variable aléatoire discrète
On peut exprimer la fonction de répartition F d'une variable aléatoire discrète en

fonction des valeurs prises par sa loi de probabilité p:
F(a) = 2 p(x)
Dans le cas précis où les valeurs possibles de la variable aléatoire sont xx, x2, x3,...,
avec x, < JC2 < JC3 < ..., la fonction F de répartition est une fonction en escalier. Ses
valeurs seront constantes sur les intervalles [*,-_,, *,•) et elle aura un saut de taille p{x)
en Xj, i = 1, 2,... Dans le cas par exemple d'une variable aléatoire X dont la loi est
donnée par
p(\) = \ p{2)=\ p(3)=t P(4) = è
sa fonction de répartition sera

a< 1
l < a <2
F(a) 2<a <3
3< a <4
1 4< a
Le graphe de cette dernière est représenté à la figure 4.4.

Fia)
Figure 4.4
Le lecteur remarquera que la taille du saut aux abscisses 1, 2, 3 et 4 est égale à la

probabilité que X prenne ces valeurs.
4.4 ESPÉRANCE
4.4.1 Définition et interprétation
L'espérance d'une variable aléatoire est l'un des concepts les plus importants en
théorie des probabilités. Pour une variable aléatoire discrète X de loi de probabilité
p( . ), on définit Yespérance de X, notée E[X\, par l'expression
E[X] = xp(x)
En termes concrets, l'espérance de X est la moyenne pondérée des valeurs que X peut
prendre, les poids étant les probabilités que ces valeurs soient prises. Si, par exemple,
la loi de probabilité de X est
p(0) =1/2= />(D
alors
E[X] = 0(k) + l(i)=k
n'est autre que la simple moyenne des deux valeurs 0 et 1 que X peut prendre. Si, par
contre,
/KO) = i /Kl) = f
alors
£ [ X ] = 0(i) + l(f) = i
sera la moyenne pondérée des deux valeurs possibles 0 et 1, la valeur 1 recevant un

poids deux fois plus important que la valeur 0; ceci s'explique du fait que/Kl) = 2/>(0).
On peut trouver une autre origine de la définition de l'espérance dans l'interpréta-
tion des probabilités comme mesures de fréquences relatives. Aux termes de cette
interprétation (partiellement étayée par la loi forte des grands nombres qui sera
présentée au chapitre 8), la proportion du nombre d'apparitions d'un résultat E dans
une séquence infiniment longue d'expériences identiques est P{E). Imaginons mainte-
nant qu'une variable aléatoire X prenne les valeurs xx, x2,.-, xn avec probabilités
respectivesp(x\), p(x2),..., p(x„). On admettra que A'représente des gains nets lors d'un
jeu. Le joueur gagnera donc la somme xt avec probabilité p(xt), i = 1, 2,..., n. Selon
l'hypothèse de l'interprétation discutée ici, au bout d'un nombre infiniment grand de
parties, le joueur aura gagné xt sur une proportion p(xi) de l'ensemble des tirages. Ceci
étant vrai pour tout ;', i = 1, 2,..., n, le gain moyen par jeu sera
î xiP(Xi) = E[X]
i=l
4.4.2 Exemples d'espérances de variables discrètes
Exemple 4.8 On cherche l'espérance E[X] de la variable X, résultat du lancer d'un

dé équilibré.
SOLUTION. Comme p(ï) = p(2) = p(3) = p(A) = p(5) = p(6) = \, on aura
E[X] = 1(|) + 2(|) + 3(|) + 4(è) + 5(è) + 6(|) = \
Exemple 4.9 / est une variable indicatrice pour l'événement A si
[1 si A se produit
[0 si A se produit
Trouver E[I\.
SOLUTION. Puisquep(l) = P{A},p(0) = 1 - P{A], on a
E[I]=P{A}
Ceci signifie que l'espérance de la variable indicatrice pour l'événement À est égale à
la probabilité que A se produise.
Exemple 4.10 On pose deux questions au participant d'un jeu télévisé. Il peut choisir
l'ordre dans lequel il va répondre à ces questions, numérotées 1 et 2. S'il répond juste
à la première, il est autorisé à continuer avec la seconde, sinon il doit s'arrêter. Il
recevra Vt francs pour une bonne réponse à la question i, i = 1,2. Par exemple, s'il
répond aux deux questions, il gagnera V{ + V2 francs. Supposons qu'il connaisse la
probabilité Pt, i = 1,2, avec laquelle il répondra juste à la question i. A quelle
question doit-il répondre d'abord pour maximiser son gain prospectif? On admet que
les deux questions sont indépendantes.
SOLUTION. S'il commence par la question 1, ses gains seront

0 avec probabilité 1 — f,
Vx avec probabilité Px(l — P2)
Vx 4- V2 avec probabilité Pt P2.
Son gain moyen sera donc
V , P , ( 1 - P 2 ) + ( V I + V2)P1P2
Si, par contre, il commence avec la question 2, le gain moyen devient
V 2 P 2 ( 1 - P , ) + (.V 1 + V2)P1P2
Il est alors préférable de commencer par la question 1 si

VlPi(l-P2)*V2P2{l-Pl)
ce qui équivaut à
ViPx V2P2
1 - Pt \-P2
A titre d'illustration, prenons le cas où il a 60 chances sur 100 de répondre juste à

la question 1, qui lui rapporte 200 francs, contre 80 chances sur 100 pour la question
2 qui ne lui rapporte que 100 francs en cas de réponse correcte. Il doit ici répondre
d'abord à la question 2 car
<122M> = 300 < "00*-8> = 400 •
4.4.3 Analogie avec une notion de mécanique
Le concept d'espérance est à rapprocher de la notion de centre de gravité d'un

groupe de masses, au sens de la mécanique. Considérons en effet une variable X de
loi de probabilité P{x^, i ^ 1. On sait que si des masses P(Xj), i > 1 sont réparties
sur une barre sans poids aux abscisses x,, i > 1, le point sur lequel la barre pourra
être posée et rester en équilibre est appelé centre de gravité (figure 4.5). Il est facile
de voir, pour les lecteurs ayant quelques connaissances élémentaires en statique, que
l'abscisse du centre de gravité est E[X] '.
• • _* #
- 1 0 1 2
/>(-l) = .10, />«)) = .25, />(]) = .30, P(2) = .35
centre de gravité: 0.9
Figure 4.5
4.5 ESPÉRANCE D'UNE FONCTION D'UNE VARIABLE ALÉATOIRE
4.5.1 Première approche
Considérons une variable aléatoire discrète X et sa distribution; il arrive qu'on

cherche à calculer l'espérance d'une fonction de X, disons g(X). Comment peut-on s'y
prendre? Un moyen est de remarquer que g(X) étant une variable aléatoire discrète
Pour le montrer, il suffit d'établir que la somme des moments des forces gravitationnelles par
rapport au point d'abscisse E[X] est 0. En d'autres termes, il suffit de montrer que
0 = S (X; — E[X]) P(Xi), ce qui est immédiat.
elle aussi, elle doit avoir une distribution que l'on devrait pouvoir déduire de celle de
X. Si on a pu déterminer la distribution de g(X), il suffit d'appliquer la définition de
l'espérance pour obtenir E[g(X)].
Exemple 4.11 Soit X une variable aléatoire qui prend une des trois valeurs - 1 , 0 , 1
avec les probabilités respectives
P{X = -l} = .2, P{X = 0} = .5, P{X=1} = .3
Calculer E [ x 2 ] .
SOLUTION. Soit Y = X .La distribution de l'est donnée par
p{ Y = 1} = P{X = -1} + P{X = 1} = .5

p{Y = 0} = P{X = 0} = .5
Donc
E[X2] = E[Y] = l(.5) + 0(.5) = .5
Le lecteur remarquera que
.5 = E[X2]*(E[X])2=.01 •
4.5.2 Théorème de calcul
Bien que la procédure précédente permette toujours de calculer l'espérance de

n'importe quelle fonction de X si on connaît la distribution de X, il existe une autre
façon de voir E[g(X)]. En effet, en notant que g(X) vaut g(x) lorsque X vaut x, il est
raisonnable de penser que E[g(X)] puisse être la moyenne pondérée des valeurs g(x),
avec g(x) pondérée par la probabilité que X égale x. Donc, on obtient intuitivement le
résultat suivant:
Théorème 4.1
Si X est une variable aléatoire discrète pouvant prendre ses valeurs parmi les
valeurs xt, i > 1, avec des probabilités respectives pfxj, alors pour toute fonction
réelle g on aura
4s(*)] = Xs(*.M*;)
I
Avant de donner la démonstration de ce théorème, vérifions rapidement que son

application à l'exemple 4.11 confirme bien les résultats trouvés. L'application du
théorème à cet exemple donne
4 x 2 ] = (-l)2(.2) + 02(.5) + l2(.3)

= l(.2 + .3) + 0(.5)
= .5
ce qui correspond au résultat obtenu dans l'exemple 4.11.
DÉMONSTRATION. La preuve du théorème 4.1 s'effectue, comme dans la vérification

précédente, en groupant dans X #(*,)/>(*,) tous les termes ayant la même valeur de
g(Xj). Spécifiquement, supposons que y;-, j > 1, représente les différentes valeurs de
g(Xj), i > 1. Alors, en groupant tous les g(xù ayant la même valeur, on obtient
Xg(x,)/>(x,) = X I *(*,)/»(*,)
4.5.3 Exemple de calcul d'espérance de fonction de variable aléatoire
Exemple4.12 Un produit de saison rapporte un bénéfice net de b francs par unité

vendue mais, inversement, chaque unité invendue à la fin de la saison engendre une
perte de d francs. Le nombre X d'unités commandées auprès d'un certain magasin au
cours des saisons de vente successives suit une loi de probabilité p{ • ) à valeurs non
négatives. On admet que le magasin doit avoir constitué tout son stock avant la
saison. Quelle doit être la taille de ce stock si l'on veut maximiser le résultat net moyen
de l'opération?
SOLUTION. Désignons par s la taille du stock. Le résultat net sera noté P{s) et son
expression est
P{s) = bX-(s- X)d si X < s
= sb si X > s
Le résultat moyen de l'opération sera donc
E[P(s)]= I [bi - (s - i)d]p(i) + I sbp(i)

i=0 i-s+l
= (b + d)l ip(i) -sdl p(i) + sb\l- l p(i)

i=0 i=0 L 1=0
= (b+d) l ip(i)-(b+d)s I p(i) + sb

î=o ;=o
= sb + (b + d)Y. (i-s)p(i)
Pour déterminer la valeur optimale de s, voyons comment varie notre profit lorsque
5 augmente d'une unité. Par substitution, on obtient:
E[P(s + 1)] = b(s +l) + (b+d) I (i-s- l)p(i)

i=0
= b(s + l) + (b+d) i (i-s-l)p(i)

i=0
D'où
E[P(s + 1)] - E[P(s)] = b-(b+d)l p(i)
i=0
Il sera préférable de stocker s + 1 unités plutôt que s tant que
(4.4)
ipw<irh
i=o b +d
Comme le membre de gauche de (4.4) est croissant pour s tandis que celui de droite
est constant, l'inégalité (4.4) sera satisfaite pour toutes les valeurs de s inférieures ou
égales à s*, où s* est la plus grande des valeurs vérifiant encore (4.4). Ce qui donne
E[P(0)[ < ... < E[P(s*)] < E[P(s* + 1)] > E[P(s* +2)] > . . .
On constate que le stockage de s* + 1 unités conduira au résultat net moyen le plus

élevé. •
4.5.4 Linéarité de l'espérance
Le théorème suivant est une conséquence immédiate du théorème 4.1:
Théorème 4.2
Pour toute paire a, b de constantes, on peut écrire
E[aX + b] = aE[X] + b
DÉMONSTRATION.
E[aX + b]= I (ax + b)p(x)

x:p(x)>0
= a Y. xp(x) + b Y. P(x)
x:p(x)>0 x:pU)>0
= aE[X] + b
4.5.5 Autres moments à l'origine
L'espérance d'une variable X, notée E[X], est parfois nommée premier moment par
rapport à l'origine. La quantité E[Xn], n > 1 est de manière générale appelée n-ième
moment de X par rapport à l'origine. D'après le théorème 4.1, on peut calculer ainsi
ces moments:
E[Xn] = I x"p(x)
*:p(j[)>0
4.6 VARIANCE
4.6.1 Introduction et définition
Une variable A'et sa fonction F de répartition étant données, il serait pratique de

pouvoir résumer les propriétés de F en deux ou trois mesures bien choisies. L'espé-
rance E[X] est une telle mesure. Cependant, si E[X] nous donne une moyenne
pondérée des valeurs possibles de X, elle ne nous dit rien des variations de X autour
de l'espérance. On peut s'en rendre compte grâce aux exemples suivants. Soit les
variables
W = 0 avec probabilité 1
_ [—1 avec probabilité 1/2
| +1 avec probabilité 1/2
_ J— 100 avec probabilité ]-

[+ 100 avec probabilité ^
Si toutes ont la même espérance - à savoir 0 -, il y a de bien plus grands écarts entre
les différentes valeurs de Y qu'entre celle de W (qui est constante) et de plus grands
écarts entre celles de Z qu'entre celles de Y.
Comme on s'attend à voir toute variable X prendre ses valeurs autour de son
espérance E[X], il paraît raisonnable de mesurer les variations de X en considérant
l'écart moyen entre X et son espérance. Cela reviendrait à s'intéresser à la grandeur
E[ | X — u | ], où u = E[X\. Techniquement, cependant, il n'est pas facile de manipuler
cette quantité, aussi lui préfère-t-on d'habitude l'espérance du carré de l'écart entre
X et son espérance. On appelle variance de X, que l'on note Var(A"), la quantité
Var(X) = E [ ( X - M ) 2 ]
où u représente l'espérance de X.
On peut établir une autre formule pour le calcul de Var(A') en procédant ainsi:
Var(X) = E [ ( X - M ) 2 ]
= E [ X 2 - 2 M X + M2]
= E[X2]- E[2fiX] + E[fi2]
= E [ X 2 ] - 2 / x £ [ X ] + /t 2
= E[X2]-M2
ce qui revient à écrire
Var(X) = E[X2]-(E[X])2
ou à dire que la variance de X peut être calculée en soustrayant à l'espérance de X1

le carré de l'espérance de X. Dans la pratique, cette méthode de calcul est en général
plus commode.
4.6.2 Exemple de calcul de variance
Exemple 4.13 On cherche Var(A') où X est le nombre obtenu lors du jet d'un dé
équilibré.
SOLUTION. On a vu dans l'exemple 4.8 que E[X] = \. De plus
E[X2] = 12 + 22(1/6) + 32(1/6) + 42(1/6) + 52(1/6) + 62(1/6)

= (è)(91)
Et donc
Var(AT) = ^-(7/2)2 = 35/12 .
4.6.3 Propriété de la variance

Pour toute paire (a, b) de constantes, on peut établir l'identité suivante, fort utile:
Wzr{aX+b) = a2VM{X)
Pour démontrer ceci, on utilise le résultat du théorème 4.2, à savoir que

E[aX + b] = a E[X] + b. Donc
Var (aX + b) = E[(aX + b- (aE[X] + b))2]

= E[(aX - aE[X])2]
= E[a2(X - E[X])2]
= a2E[(X - E[X])2]
= a 2 Var(X)
4.6.4 Interprétation grâce à une analogie tirée de la mécanique
De même que l'espérance avait été comparée au centre de gravité d'un ensemble
de masses, la variance peut être rapprochée du concept mécanique de moment
d'inertie (par rapport à l'espérance).
4.6.5 Ecart-type
La racine carrée de Var(X) est appelée l'écart-type de X, qui se note a. On a

a = VVar(x)
Les variables aléatoires discrètes sont souvent réparties en catégories selon le type
de leur loi. Les sections suivantes présentent quelques-uns de ces types.
4.7 VARIABLE DE BERNOULLI ET VARIABLE BINOMIALE
4.7.1 Variable de Bernoulli
On réalise une expérience dont le résultat sera interprété soit comme un succès soit
comme un échec. On définit alors la variable aléatoire X en lui donnant la valeur 1
lors d'un succès et 0 lors d'un échec. La loi de probabilité de X est alors
p(0) = P{X = 0} = l-p

p{\) = P{X = 1} = p (4.5)
où p est la probabilité d'un succès, 0 < p < 1.

Une variable aléatoire X est dite de Bernoulli (du nom du mathématicien suisse
Jacques Bernoulli) s'il existe un nombre p e (0,1) tel que la loi de probabilité de X
soit donnée par (4.5).
4.7.2 Variables binomiales
Supposons qu'on exécute maintenant n épreuves indépendantes, chacune ayant p

pour probabilité de succès et 1 — p pour probabilité d'échec. La variable aléatoire
X qui compte le nombre de succès sur l'ensemble des n épreuves est dite variable
aléatoire binomiale de paramètres {n, p). Une variable de Bernoulli n'est donc qu'une
variable binomiale de paramètres (1, p).
La loi de probabilité d'une variable aléatoire binomiale de paramètres (n, p) est
donnée par
MO = (")p'U-/>)""' i = 0,l,...,n (4.6)
Pour établir (4.6) il faut tout d'abord remarquer que toute séquence donnée compor-
tant i succès et n — i échecs pour une longueur totale de n épreuves a pour probabilité
p'(\ — p)"~\ en vertu de l'indépendance de ces épreuves. Comme il y a (") de ces
séquences comptant i succès et n - i échecs, on aboutit bien à (4.6). On peut le voir
encore plus facilement si l'on remarque qu'il y a (") choix différents des / épreuves
donnant un succès. Plaçons-nous par exemple dans le cas où n = 4 et / = 2. Il y a
bien (2) = 6 manières d'obtenir deux succès parmi les 4 résultats, à savoir (s, s, e, e),
(s, e, s, e), (s, e, e, s), (e, s, s, e), (e, s, e, s) et (e, e, s, s). Par (s, s, e, e) on veut dire que
les deux premières épreuves ont donné des succès, au contraire des deux dernières.
Chacune de ces séquences ayant pour probabilité p2{\ — pf, la probabilité cherchée
est bien (ï) p2(l - p)2.
On remarquera qu'en application du théorème du binôme, la somme de tous les

p(i) est 1 :
ÎP(O= î (")p'(i-pr=[p+(i-p)r =i
4.7.3 Exemples de variables binomiales et de Bernoulli
Exemple 4.14 On jette cinq pièces équilibrées. Les résultats sont supposés indépen-
dants. Donner la loi de probabilité de la variable X qui compte le nombre de piles
obtenus.
SOLUTION. Soit X le nombre de piles (donc de succès) au total. X est une variable
aléatoire binomiale de paramètres (n = 5,p =1/2).Aussi a-t-on, en application de (4.6),
32
Exemple4.15 On sait que les vis fabriquées par une certaine société sont affectées d'un
défaut avec probabilité 0,01; l'état d'une vis est indépendant de celui des prédécentes
ou suivantes. Or, la société accepte de rembourser les paquets de 10 vis qu'elle vend
si plus d'une des vis présente un défaut. Quelle proportion des paquets vendus la
société s'expose-t-elle à devoir rembourser?
SOLUTION. Désignons par X le nombre de vis malformées d'un paquet donné. X est
une variable aléatoire binomiale de paramètres (10, 0,01). La probabilité qu'il faille
remplacer un paquet est
1 - P{X = 0} - P{X = 1} = 1 - ^ ( . O l A . o o ) 1 0 - (™ V . O l ) 1 ^ ) 9
x .004
Ainsi ne faudra-t-il remplacer que 0,4 pour cent seulement des paquets. •
Exemple4.16 Le jeu d'argent décrit ci-dessous est appelé «roue de la fortune» et est
très populaire lors de bien des carnavals et dans les casinos; un joueur parie et mise
sur un numéro compris entre 1 et 6 inclusivement. On jette ensuite trois dés. Si le
nombre choisi par le joueur apparaît i fois (i = 1, 2, 3), celui-ci gagne / unités. Dans
le cas où ce nombre n'apparaît pas, le joueur perd une unité. Ce jeu est-il honnête
vis-à-vis du joueur? (En fait, on joue en lançant une roue qui s'immobilise en laissant
apparaître un jeu de trois nombres compris entre 1 et 6, mais tout revient du point
de vue mathématique à jeter trois dés).
SOLUTION. Admettons que les dés sont équilibrés et que leurs résultats sont indépen-
dants les uns des autres. Le nombre de fois qu'apparaît le nombre sur lequel le joueur
a misé est une variable aléatoire binomiale de paramètres (3, ^). Désignons par X les
gains du joueur lors d'une partie. On aura
« ~ Mo)G)°(lM
Pour déterminer si le jeu est équilibré, déterminons E[X]. D'après les probabilités
précédentes, on obtient
-125 + 75 + 3 0 + 3
E[X]
216
-17
216
Ainsi, sur un nombre infini de parties, le joueur perdra 17 unités par groupe de 216
parties.
Dans l'exemple suivant nous allons étudier une version simple de la théorie de
l'hérédité développée par Gregor Mendel (1822-1884).
Exemple4.17 On admet qu'un trait physique (telle la couleur des yeux ou le fait d'être
gaucher) chez un homme est déterminé par une paire de gènes. On désignera par d
le gène de la paire qui est dominant, et par r celui qui est récessif. Une personne portant
dd sera ainsi à dominance pure, une autre portant rr sera à caractère récessif, alors
que rd entraînera une dominance hybride. Les dominances pure et hybride ne se
distinguent pas extérieurement. Un enfant recevra un gène de chacun de ses parents.
Si, par un trait particulier, les deux parents sont hybrides et s'ils ont 4 enfants, quelle
est la probabilité que 3 de ceux-ci manifestent extérieurement le trait dominant?
SOLUTION. Admettons que chaque enfant a autant de chances de recevoir chacun des
deux gènes de chacun de ses parents. Les probabilités que l'enfant de deux parents
hybrides porte les gènes dd, rr ou rd sont respectivement1/4,1/4et1/2.Comme un
descendant aura le trait dominant s'il porte les paires de gènes dd ou rd, le nombre
d'enfants ainsi conformés est réparti selon la loi binomiale avec pour paramètres
(4, ~) dans notre cas. La probabilité cherchée est donc
Exemple4.18 On considère un jugement pour lequel la condamnation doit être votée

par 8 des 12 membres du jury au moins pour devenir exécutoire. En admettant que
les jurés se déterminent indépendamment les uns des autres et que la probabilité de
décision correcte est 6 pour chacun d'entre eux, quelle est la probabilité que la décision
du jury entier soit correcte?
SOLUTION. Il est impossible de donner une solution au problème tel qu'il est énoncé
ci-dessus, par manque d'information. Si l'accusé est innocent par exemple, la probabi-
lité que le jury rende une sentence correcte est
ï^fje'd-e)12-'
alors que s'il est coupable cette probabilité devient
On pourra ainsi obtenir la probabilité que le jury se détermine correctement en

conditionnant selon que l'accusé est coupable ou innocent, a désignant la probabilité
qu'il soit coupable:
« I (12) e'(i - e)12-' + (i - «) ï (n) e\\ - 0)12-

1=8 \ ' / i=5 \ ' / •
Exemple 4.19 Un système de communication comporte n composants; chacun d'entre

eux fonctionnera, indépendamment des autres, avec une probabilité p. Le système
total pourra effectivement fonctionner si au moins la moitié de ses composants sont
opérationnels.
a) Pour quelles valeurs de p un système à 5 composants est-il plus souvent en état de
fonctionnement que celui à 3 composants?
b) De manière générale, dans quel cas un système à 2k + 1 composants est-il
préférable à un système à 2A: — 1 composants?
SOLUTION.
a) Comme le nombre de composants en bon état est une variable aléatoire binomiale
de paramètres (n, p), la probabilité qu'un système à 5 composants fonctionne est
5
p 3 (1 - p)2 + r ) p 4 (1 - p) + p$
3
tandis que la probabilité correspondante pour un système à 3 composants est
p2 (1 - p) + p\
Par conséquent, le système à 5 composants est préférable si
10/?3 (1 - p)2 + 5p4 (1 - p) + ps > 3p2 (1 - p) + p3
qui se réduit à
3(p - l) 2 (2p - 1) > 0
ou
P > 1/2.
b) En général, un système à 2k + 1 composants est préférable à un système à 2& - 1
composants si (et seulement si)/? > Vi. Pour le montrer, considérons un système
à 2k + 1 composants et notons X le nombre de ceux qui fonctionnent parmi les
2k — 1 premiers composants. Alors
P2*+i (le système fonctionne) = P{X S: k + 1} + P{X = k} (1 - (1 - p)2)

+ P{X = k - \}p2
car le système à 2k + 1 composants fonctionnera dans les cas suivants:
• X > k + 1,
• X = k et au moins l'un des 2 composants restants fonctionne ou
• X = k — 1 et tous les deux composants suivants fonctionnent.
Comme
Pu-i (le système fonctionne) = P{X a k}
= P{X = Jfc} + P{X > k + 1}
on obtient que
p
2k+i (le système fonctionne) - J ^ - i (le système fonctionne)
= P{X = k - \}p2 - (1 - p)2 P{X = k}
= (2* : î) /^-M - /»y - (i - P)2 (2* ; l ) AI - Pr

i
= ( 2 * ; ' ) tfi - P*P - (i - P>] puisque ( 2 ^ : ;) = (2< ; »)

4.7.4 Propriétés des variables aléatoires binomiales
Nous allons examiner à présent les propriétés d'une variable aléatoire binomiale
de paramètres n et p. Pour commencer, calculons son espérance et sa variance.
ix'hîfltyï-pr
En utilisant l'identité
on obtient
n-1-j
avec j = i - 1
= nPE[(Y + l)k-i]
où Y est une variable aléatoire binomiale de paramètres n - 1, p. En posant k = 1 dans

l'équation précédente, on obtient
E[X] = np
Autrement dit, le nombre espéré de succès lors de n épreuves indépendantes où

chacune a une probabilité p de succès est égal à np. En posant k = 2 dans cette même
équation et en utilisant la formule précédente pour l'espérance d'une variable aléatoire
binomiale, on obtient
E[x2] = npE{Y + l]
= np[(n-l)p + l]
Comme E[X] = np, on obtient
Var(x) = 4 x 2 ] - ( £ [ X ] ) 2
= np[(n-l)p + \]-(np)2
= np(\ - p)
En résumé, nous avons montré que:
Si X est une variable aléatoire binomiale de paramètres n et p, alors
E{X] = np
Var(x) = n p ( l - p )
La proposition suivante montre la façon dont la distribution binomiale croît d'abord

puis décroît.
Théorème 4.3
Soit X une variable aléatoire binomiale de paramètres (n, p) avec 0 < p < 1.
Lorsque k croît de 0 à n, P(X = k ) grandit d'abord de manière monotone, puis
décroît également de manière monotone, le pic étant atteint lorsque k est égal à la
partie entière de (n + l)p.
DÉMONSTRATION. On démontre ce théorème en considérant le rapport P{X = k)l

P{X = k - 1} et en étudiant les valeurs de k pour lesquelles il est plus grand ou plus
petit que 1. Or
Pk(l-p)"-k
P{X = k} (n-k)!fc!
P{X = k - 1} n\
Pk'l(l-PY
( n - k + l)!(fc-l)!
(n~k + \)p
fc(l-p)
Donc P{X = k} > P{X = k - 1} si et seulement si
(n-fc + l ) p > Jt(l-p)
1024 Xp(k)
252
210
120
45
10
1
0 1 2 3 4 5 6 7 8 9 10
Figure 4.6 Graphe de p(k) = O 4)'°

ou de façon équivalente, si et seulement si

k < (n + \)p
Le théorème est ainsi démontré. •
En illustration à ce théorème, on donne à la figure 4.6 le graphe de la loi d'une

variable aléatoire binomiale ayant pour paramètres (10, 'A).
4.7.5 Application de la loi binomiale
Exemple4.20 Lors d'une élection présidentielle américaine, le candidat qui recueille

le plus grand nombre de voix dans un Etat emporte la totalité de celles du collège
électoral allouées à cet Etat1. Ce nombre de voix est approximativement proportion-
nel à la population de cet Etat, ce qui revient à dire qu'un Etat de population n dispose
d'environ ne voix au collège électoral. (En fait, il dispose plutôt d'environ ne + 2 voix
puisqu'il reçoit une voix par député qu'il envoie à la Chambre des Représentants -
et le nombre de ces députés est proportionnel à la population de cet Etat - plus une
voix par sénateur - et chaque Etat dispose de 2 sénateurs -.) Nous allons déterminer
la puissance de vote moyenne d'un citoyen établi dans un Etat de population n lors
d'une élection présidentielle très disputée; par puissance de vote moyenne lors d'une
élection serrée, on entend le produit ncP, P étant la probabilité que l'électeur arbitre
le scrutin dans son Etat. Il arbitrera le scrutin si les n - 1 autres électeurs de l'Etat
ont attribué exactement (n - l)/2 voix à chacun des deux candidats. Ceci suppose que
le nombre total n d'électeurs dans cet Etat soit impair, mais le cas où n est pair peut
être traité de manière très similaire. Le fait que l'élection soit serrée se traduit par les
hypothèses que les n - 1 autres électeurs se déterminent indépendamment les uns des
autres, avec probabilité lA en faveur de chaque candidat. De ce fait, la probabilité
qu'un électeur établi dans un Etat de taille n = 2k + 1 puisse arbitrer le scrutin est
égale à la probabilité que lors d'une séquence de 2k jets d'une pièce équilibrée il sorte
aussi souvent pile que face, à savoir
P = /'{l'électeur soit arbitre dans un Etat de taille 2k + 1}
-m® (2fc)!
fc!fc!22k
On obtient une approximation de cette quantité grâce à la formule de Stirling qui

affirme que lorsque k est grand
ndt: l'élection présidentielle américaine est organisée sur un mode particulier de suffrage
indirect, avec en général deux candidats seulement.
où ak ~ bk signifie que le rapport ak/bk tend vers 1 lorsque k tend vers l'infini. De
ce fait
P = P{l'électeur soit arbitre dans un Etat de taille 2k + 1}
(2k)2k+l/2e-2kJ2Ï _ 1
~ k 2k+ V 2k (27r)2 2 '' Jklr
Comme cet électeur fait basculer ne votes du collège électoral s'il arbitre l'élection
dans son Etat, sa puissance moyenne de vote ncP est approximativement
ne
•Jnir/2
= cyJ2n/ir
Cette puissance moyenne de vote étant proportionnelle à la racine carrée de n,

l'exemple traité montre que les électeurs de grands Etats sont plus influents que ceux
des plus petits. •
NOTE HISTORIQUE
Les épreuves indépendantes ayant une probabilité p de succès ont été étudiées
pour la première fois par le mathématicien suisse Jacques Bernoulli (1654 - 1705).
Dans son livre «Ars Conjectandi» (l'Art de la Conjecture), publié en 1713 par son
neveu Nicholas huit ans après sa mort, Bernoulli montre que si on réalise un grand
nombre de telles épreuves, la proportion de celles où un succès se produit est proche
de p avec une probabilité proche de 1.
Jacques Bernoulli fait partie de la première génération de la famille de
mathématiciens la plus célèbre de tous les temps. Somme toute, entre huit et douze
Bernoulli, répartis sur trois générations, apportèrent des contributions fondamentales
aux probabilités, statistiques et mathématiques. Une difficulté pour connaître leur
nombre exact provient du fait que plusieurs d'entre eux portaient le même prénom.
(Par exemple, deux des fils de Jean, le frère de Jacques, s'appelaient Jacques et Jean.)
Une autre difficulté provient du fait que plusieurs Bernoulli étaient connus sous des
noms différents à des endroits différents. Notre Jacques (parfois écrit Jaques) était, par
exemple, aussi connu sous les noms de Jakob (parfois écrit Jacob) et de James
Bernoulli. Mais quel que soit leur nombre, leur influence et leur production sont
prodigieuses. Comme les Bach pour la musique, les Bernoulli resteront pour l'éternité
une grande famille pour les mathématiques!
4.7.6 Calcul de la fonction de répartition binomiale
Supposons que Zest une variable aléatoire binomiale de paramètres (n, p). L'idée
clé pour le calcul de sa fonction de répartition
P{X < 1} = ^ r] p\\ - p)"-k, i = 0, 1, . . . , n
consiste à utiliser la relation suivante entre P{X = k + 1} et P{X = k}, formule qui
a été établie lors de la démonstration du théorème 4.3:
P{X = k + 1} = -P—'L^P{X = k} (4.7)

1 - p K+ 1
Exemple 4.21 Soit X une variable aléatoire binomiale de paramètres n = 6, p = 0,4.

En partant de P{X = 0} = (0,6)6 et en utilisant l'équation (4.7) de façon récursive,
on obtient
On peut facilement écrire un programme qui utilise la formule de récurrence (4.7)

pour calculer la fonction de répartition binomiale. Pour trouver P[X< i], le
programme calcule d'abord P{X= i} puis utilise la récurrence pour calculer
successivement P[X= i- 1}, P{X= i - 2}, etc. Le calcul de
ifo-,i-n("-1)-"("-i+1V(i-i>r'
i!
peut s'effectuer en prenant d'abord les logarithmes pour obtenir

ïn(p{X = i})= î l n ( n + l - i t ) - î l n ( * ) + ; i m » + (« - z ' ) l n ( l - p)
*=i *=i
puis en prenant
P{X = i} = exp{ln(/>{X = i})}
Exemple 4.22
a) Déterminer P{X ^ 145} où X est une variable aléatoire binomiale de paramètres
(250, 0,5).
b) Déterminer P\X < 90} où X est une variable aléatoire binomiale de paramètres
(1000,0,1).
SOLUTION. Exécuter le programme de la distribution binomiale:
RUN
THE DISTRIBUTION FUNCTION OF A BINOMIAL(n,p) RANDOM VARIABLE
ENTER n
? 250
ENTER p
? .5
ENTER i
? 145
THE PROBABILITY IS .995255
Ok
RUN
THE DISTRIBUTION FUNCTION OF A BINOMIAL(n,p) RANDOM VARIABLE
ENTER n
? 1000
ENTER p
? .1
ENTER i
? 90
THE PROBABILITY IS .1582189
Ok •
4.8 VARIABLE ALÉATOIRE DE POISSON
4.8.1 Définition
Une variable aléatoire X pouvant prendre pour valeur 0, 1, 2,... est dite de Poisson
avec paramètre "k s'il existe un réel X > 0 tel que
p(i) = P{X = i} = e-K-^ i = 0,1,2,... (4.8)
L'équation (4.8) définit bien une loi de probabilité puisque
La distribution poissonienne fut introduite par Siméon Denis Poisson dans un ou-
vrage traitant des applications de la théorie des probabilités aux problèmes juridiques
tels que des procès, des jugements en matière criminelle, etc. Son livre, publié en 1837,
était intitulé Recherches sur la probabilité des jugements en matière criminelle et en
matière civile}
ndt: titre en français dans le texte anglais.

4.8.2 Approximation poissonienne de lois binomiales
Les variables aléatoires de Poisson ont un champ d'application fort vaste, en

particulier du fait qu'on peut les utiliser pour approximer des variables aléatoires
binomiales de paramètres (n,p) pour autant que n soit grand et p assez petit pour que
np soit d'ordre de grandeur moyen. Pour s'en convaincre, admettons que X soit une
variable aléatoire binomiale de paramètres (n, p) et posons X = np. On aura
(n-iy.i\\n)\ n)
n(n-l)-- • ( « - / + ! ) A'(l-A/n)"
n' i! (1 - À/n)'
Maintenant, pour n grand et X modéré
Donc, pour n grand et X modéré,
En d'autres termes, lorsqu'on réalise n épreuves indépendantes ayant p pour

probabilité de succès et si n est grand etp assez petit pour rendre np moyen, le nombre
de succès est une variable aléatoire de répartition approximativement poissonienne
avec paramètre X = np. La détermination de cette grandeur X sera en général
empirique. On montrera plus tard qu'elle représente d'ailleurs un nombre moyen de
succès.
4.8.3 Applications de la loi de Poisson
On cite ci-dessous quelques exemples de variables aléatoires qui obéissent en règle

générale à la loi de probabilité de Poisson (c'est-à-dire qui satisfont (4.8)):
1. le nombre de coquilles par page ou groupe de pages d'un livre
2. le nombre d'individus dépassant l'âge de 100 ans dans une communauté humaine
3. le nombre de faux numéros téléphoniques composés en un jour
4. le nombre de paquets de biscuits pour chien vendus dans un magasin donné en
l'espace d'un jour
5. le nombre de clients pénétrant dans un bureau de poste donné en l'espace d'un jour
6. le nombre de charges devenues vacantes à la Cour suprême en l'espace d'un an
7. le nombre de particules a émises par un matériau radioactif pendant un certain
laps de temps.
Dans chacun de ces exemples - et dans bien d'autres - la variable aléatoire est
toujours répartie de manière approximativement poissonienne pour la même raison:
parce qu'on approxime par là une variable binomiale. Dans le premier cas par
exemple, on peut supposer que chacun des caractères composant une page a une
probabilité p d'être mal rendu. Aussi le nombre de coquilles par page sera-t-il
distribué approximativement suivant la loi de Poisson avec paramètre X = np où n
est le nombre de caractères par page. De la même manière, on peut supposer que toute
personne dans une communauté a la même probabilité de devenir centenaire. On peut
aussi attribuer une probabilité d'acheter des biscuits pour chien à toute personne
entrant dans une épicerie, et ainsi de suite.
4.8.4 Exemples de variables aléatoires de Poisson
Exemple 4.23 Admettons que le nombre d'erreurs par page dans ce livre suive une
distribution de Poisson avec paramètre X = Vi. Calculer la probabilité qu'il y ait au
moins une erreur sur cette page.
SOLUTION. Désignons par X le nombre d'erreurs sur cette page. On aura
P{X > 1} = 1 - P{X = 0} = 1 - e~in = .393 a
Exemple 4.24 On admet que la probabilité de défaut pour un objet fabriqué à la

machine est 0,1. Trouver la probabilité qu'un lot de 10 objets comprenne au plus un
élément affecté d'un défaut.
SOLUTION. La probabilité cherchée est exactement

('oVClAO^) 10 + (^(O.lftO.Ç) 9 = 0,7361
alors que l'approximation donnée par la loi de Poisson mène à e 1
4- e" 1 * 0,7358.
Exemple 4.25 On considère l'expérience qui consiste à mesurer le nombre de particu-

les a émises dans l'espace d'une seconde par un gramme de matière radioactive. Des
expériences ont montré dans le passé qu'en moyenne le nombre de particules a émises
est 3,2. Donner une bonne approximation pour la probabilité qu'au plus deux
particules a seront enregistrées.
SOLUTION. Représentons-nous le gramme de matière radioactive comme une collection

de n atomes (n est grand). Chacun peut se désintégrer, ceci avec une probabilité de
3,2/M pour la durée de mesure, et donner une particule a. On peut alors dire que le
nombre de particules a émises sera approximativement une variable aléatoire de
Poisson de paramètre X = 3,2 et l'approximation est ici très bonne. La probabilité
cherchée sera ainsi
P{X < 2} = e~X2 + 3.2e~3 2 + ^ V 3

' 2
= .3799
4.8.5 Espérance et variance d'une variable aléatoire de Poisson
Avant de calculer l'espérance et la variance d'une variable aléatoire de Poisson de

paramètre X, rappelons que cette variable aléatoire est une approximation d'une
variable aléatoire binomiale de paramètres n et p lorsque n est grand, p est petit et
X = np. Puisqu'une variable aléatoire binomiale a pour espérance np = X et pour
variance np{\ - p) = X{\ -p) = X (comme p est petit), il semblerait que l'espérance et
la variance d'une variable aléatoire de Poisson soient toutes les deux égales au
paramètre X. Vérifions ce résultat:
en posant
=A puisque
Donc, l'espérance d'une variable aléatoire de Poisson est en effet égale au paramètre
X. Pour déterminer sa variance, calculons d'abord EIX2]:
en posant j = i — 1
je
=A
r-
= A(A +1)
L'égalité finale provient du fait que la première somme est l'espérance d'une variable
aléatoire de Poisson de paramètre X et que la seconde est la somme des probabilités de
cette variable aléatoire. Donc, puisque nous avons montré que E[X] = X, on obtient
VaHX) = EÏX^-CEtX]) 2
= A
L'espérance et la variance d'une variable aléatoire de Poisson sont donc toutes les
deux égales à son paramètre X.
4.8.6 Autres cas d'approximation poissonnienne
Nous avons montré que la loi de Poisson de paramètre np est une très bonne
approximation de la distribution du nombre de succès obtenus dans n épreuves
indépendantes, où chaque épreuve a la probabilité/? d'aboutir à un succès, à condition
que n soit grand et p petit. En fait, cette approximation reste valable même lorsque
les épreuves ne sont pas indépendantes, pourvu que leur dépendance soit «faible».
Exemple 4.26 Reprenons le problème de rencontre de l'exemple 2.13 du chapitre 2.

n hommes tirent au hasard chacun un chapeau dans l'ensemble de leurs chapeaux. Si
l'on s'intéresse au nombre d'hommes qui choisissent leur propre chapeau, on peut
considérer le tirage aléatoire comme le résultat des n épreuves telles que chaque
épreuve / est un succès si la personne / a tiré son propre chapeau, i = 1,...,«. En
définissant les événements .E„ i — 1,..., n par
E, = {l'épreuve i est un succès}
il est facile de voir que
/>{£,} = l/n et P{E, | £,} = l/(n - 1),; * i
Ainsi, bien que les événements E„ i = 1,..., n ne sont pas indépendants, on voit que,
pour « grand, leur dépendance est plutôt faible. De ce fait, on peut raisonnablement
espérer que le nombre de succès suive approximativement une loi de Poisson de
paramètre n x l/n = 1. L'exemple 2.13 du chapitre 2 le vérifie effectivement. •
Exemple 4.27 Pour une deuxième illustration de l'efficacité de l'approximation pois-

sonnienne lorsque les épreuves sont faiblement dépendantes, considérons de nouveau
le problème des anniversaires présenté dans l'exemple 2.10 du chapitre 2. Dans cet
exemple, nous avons supposé que chacune des n personnes a, de façon équiprobable,
l'un des 365 jours de l'année comme jour d'anniversaire. Le problème est de détermi-
ner la probabilité que, dans un ensemble de n personnes indépendantes, toutes ont
leurs jours d'anniversaire différents. Nous avons utilisé un argument combinatoire
pour évaluer cette probabilité et nous avons calculé que, lorsque n = 23, elle est
inférieure à Vi.
Nous pouvons estimer cette probabilité en utilisant l'approximation poissonnienne
de la manière suivante. Imaginons que l'on a une épreuve pour chacune des (") paires
d'individus / et j , i # j et disons que l'épreuve / — j est un succès si les personnes ; et
j ont le même jour d'anniversaire. Soit £,, l'événement «l'épreuve i — j est un succès».
Bien que les (") événements, 1 < / < j ^ n ne sont pas indépendants (voir l'exercice
théorique 4.10.21), leur dépendance est plutôt faible. (En fait, ces événements sont
même «indépendants deux à deux», dans le sens que toute paire d'événements En et
Eu sont indépendants - voir de nouveau l'exercice 4.10.21). Comme P(Ejj) = 1/365, il
est raisonnable de penser que le nombre de succès doit suivre approximativement une
loi de Poisson de paramètre
J / 3 6 5 = « ( « - l)/730.
Par conséquent,
P{2 personnes différentes n'ont pas le même jour d'anniversaire} = P{0 succès}
« exp{-n(n - l)/730}
Pour déterminer le plus petit entier n pour lequel cette probabilité est inférieure à Vi,
notons que l'inégalité
exp{-/i(/i - l)/730}==è
est équivalente à
exp{n(n - l)/730} a 2
ou, en prenant le logarithme dans les deux membres, à

n(n - 1) > 730 ln2
~ 505.997
ce qui donne la solution n = 23, en accord avec le résultat de l'exemple 2.10.
Supposons maintenant que l'on demande la probabilité qu'aucun groupe de
3 personnes parmi n n'ont leur anniversaire le même jour. Alors que l'on est mainte-
nant en présence d'un problème combinatoire difficile, une bonne approximation est
facile à obtenir. Pour commencer, faisons correspondre une épreuve à chacun des (J)
triplets i, j , k tels que 1 < i < j < k ^ n, et disons que l'épreuve i — j — k est un
succès si les personnes ijet k ont leur anniversaire le même jour. Comme auparavant,
nous pouvons conclure que le nombre de succès est approximativement une variable
aléatoire de Poisson de paramètre
G) P{i,j, k ont leur anniversaire le même jour} =
= n(n - l)(n - 2)
6 x (365)2
Par conséquent,
„[ 3 personnes différentes 1 . ~w.,™,,~x,

P\ > • i « • J, • r * exp{- n{n - l)(n - 2)/799350)}
[ n ont pas le même jour d anniversaire J ' " "
Cette probabilité sera inférieure à Vi lorsque n est tel que
n(n - l)(n - 2) > 7993501n2 « 554067.1
qui est équivalent à n ^ 84. Ainsi, la probabilité qu'au moins 3 personnes d'un groupe
de 84 personnes ou plus ont le même jour d'anniversaire dépasse Vi. •
4.8.7 Introduction au processus de Poisson
Les situations où un événement particulier se reproduit à intervalles réguliers au

cours du temps peuvent fournir des cas d'application de la loi de Poisson. On peut
citer comme exemple d'un tel événement un tremblement de terre, ou l'entrée d'une
personne dans un établissement donné (banque, poste, station d'essence, etc.), ou
encore l'apparition d'une guerre. Supposons que l'on ait affaire à de tels événements
et qu'en plus il existe une constante positive X pour laquelle les conditions suivantes
soient vérifiées:
• Condition 1: la probabilité qu'il advienne exactement 1 événement dans un inter-
valle de temps de durée h vaut X h + o{h), où o{h) désigne toute fonction/(A) telle
que lim f(h)/h = 0. (Par exemple f{h) = h2 est o(h), mais f(h) - h ne l'est pas.)
• Condition 2: la probabilité qu'il survienne deux événements ou plus dans un laps
de temps de durée h est o(h).
• Condition 3: soit des entiers quelconques H, y, ,—,j„ et un ensemble quelconque de
n intervalles sans intersection. Soient ZT, les événements «il survient exactement y,
événements durant l'intervalle i». Les événements Eu E2,..., E„ seront toujours
indépendants.
En termes approximatifs, les conditions 1 et 2 établissent que lorsque h est petit,
la probabilité d'observer exactement 1 événement durant un intervalle de longueur
h est Xh plus quelque chose de petit comparé à h, tandis que celle d'observer deux
événements ou plus est petite comparée à h. La condition 3 garantit que ce qui se passe
au cours d'un intervalle n'a pas d'influence sur ce qui arrive durant tout autre
intervalle disjoint du premier.
4.8.8 Processus de Poisson et variable aléatoire de Poisson
Nous allons montrer que sous les trois conditions précitées, le nombre d'événe-
ments survenant dans un laps de temps d'origine quelconque et de durée t est une
variable aléatoire de Poisson avec paramètre Xt. Pour plus de clarté, on notera
l'intervalle [0, t] et le nombre d'occurrences de l'événement N(t). Dans le but d'obtenir
une expression de P{N(t) = k] on va partitionner l'intervalle [0, t] en n intervalles
disjoints de longueur t/n chacun (cf. fig. 4.7).
M I 1^
(H-D- "
n
Figure 4.7
Or
P{N(t) = k) = P{k des n sous-intervalles contiennent exactement 1 événement et
les n — k autres 0}
+ P{N(t) = k et au moins un sous-intervalle contient 2 événe-
ments ou plus}. (4.9)
Ceci résulte du fait que les deux événements apparaissant dans le membre de droite
de (4.9) sont mutuellement exclusifs. Désignons-les par A et B respectivement. On
aura:
P{B) < P{au moins l'un des sous-intervalles contient 2 occurrences ou plus de
l'événement}
— P(U {le i-ème sous-intervalle contient 2 occurrences ou plus}
n
< Z P{le i-ème sous-intervalle contient 2 occurrences ou plus}
/=i
(en vertu de l'inégalité de Boole)
= Z o(-) (en vertu de la condition 2)
/= î
Or, pour tout t, t/n tend vers 0 lorsque n tend vers l'infini et donc o(t/n)/(t/n) tend
vers 0 lorsque n tend vers l'infini, par définition de o(h). Par conséquent
P(B) -* 0 lorsque n -* oo (4.10)
D'autre part, du fait qu'on peut écrire grâce aux conditions 1 et 2
P {il ne survient aucun élément dans un intervalle de durée h)

= 1 - [\h + o{h) + o(h)] = \ - \ h - o(h)1
on peut encore écrire en utilisant la condition 3 d'indépendance
P(A ) = P{k des sous-intervalles contiennent exactement 1 occurrence et les

n — k autres aucune}
-QMïï'-fô-fâ:
Cependant, puisque
•[r-fâ Xt quand n -» oo
Il en résulte l'équation suivante, en utilisant l'argument déjà connu qui établit que la
distribution binomiale peut être approximée par une distribution poissonienne:
1
La somme des deux fonctions o{h) est encore. o(h). Il en est ainsi du fait que si lim /[h)/h
= lim g(h)lh = 0. alors lim [/(/;) + g(h)]/h = 0.
Il M) /;-.()
(Af)
P ( A ) - » e ^-^rf- lorsquen -* oo (4.11)
En exploitant (4.9), (4.10) et (4.11) on obtient donc, lorsque n tend vers l'infini
P{N(t) = k} = e " A ' ^ - k = 0,1,... (4.12)
Ainsi le nombre d'occurrences d'événements est-il, sous les conditions 1, 2 et 3,

une variable aléatoire de Poisson de paramètre Xt; on dit alors que les événements se
réalisent selon un processus de Poisson de paramètre X. Cette grandeur doit être
déterminée de manière empirique et on peut montrer qu'elle représente le taux
d'occurrence d'événements par unité de temps.
Ce qui précède aide à comprendre pourquoi les variables aléatoires de Poisson
donnent généralement de bonnes approximations de phénomènes très divers tels que
par exemple
1. le nombre de tremblements de terre survenant pendant une période de longueur
donnée
2. le nombre de guerres se déclarant chaque année
3. le nombre d'électrons libérés par une cathode surchauffée durant une période de
longueur donnée
4. le nombre de décès parmi les assurés d'une compagnie d'assurance-vie, sur une
période de longueur donnée.
4.8.9 Exemple d'application du processus de Poisson
Exemple 4.28 Supposons que les secousses sismiques dans la moitié ouest des Etats-
Unis surviennent de manière telle que les conditions 1,2 et 3 soient satisfaites, X valant
2 et l'unité de temps étant la semaine. (Ceci revient à dire que des secousses se
produisent, en accord avec les trois conditions précitées, au rythme de 2 par semaine).
a) Trouver d'abord la probabilité qu'au moins 3 secousses aient lieu durant les 2 pro-
chaines semaines, b) Trouver ensuite la distribution de la durée entre maintenant et la
prochaine secousse.
SOLUTION, a) D'après (4.12) nous aurons

P{N(2) > 3} = 1 - P{N(2) = 0} - P{N(2) = 1} - P{N(2) = 2}
_4 _4 4 _4
= 1- e -4e -— e
2
= l-13e"4
b) Désignons par X la durée d'attente jusqu'à la prochaine secousse, mesurée en

semaines. Du fait que X sera supérieure à r si et seulement s'il ne survient aucune
secousse durant les t prochaines semaines, (4.12) donne
P{X > t} = P{N(t) = 0} = e"A'

et ainsi la fonction de répartition F de X sera
F(t) = P{X < t} = 1 - P{X >t}=l- e~Kt

= 1 - e'1'
4.8.10 Calcul de la fonction de répartition de Poisson
Si X est une variable aléatoire de Poisson de paramètre X, alors
P{X = i + l } _ e - x \ m / ( f + 1)! = X,
P{X = i} ~ e-k\'/il ~ i + f (4-13>
En commençant par P{X = 0} = e~x, nous pouvons utiliser la formule (4.13) pour
calculer successivement
P{X = 1} = \P{X = 0}
P{X = 2} = jP{X= 1}
P{X = i + 1} = j±-^ P{X = j}.
Un programme en langage Basic, qui utilise l'équation (4.13) pour calculer la

fonction de répartition de Poisson, est présenté à la fin de ce chapitre. Pour calculer
P{X < i), le programme calcule d'abord P{X = i] puis utilise la récurrence pour
calculer successivement P{X = i - 1}, P{X = i - 2}, etc. Le programme calcule
P{X = i} en évaluant d'abord
ln(p{X = i}) = -A + i In A - î In k
k=\
puis en utilisant l'égalité
P{X = i} = exp{ln(p{X = i})}.
Exemple 4.29
a) Déterminer P{X < 100} quand X est une variable aléatoire de Poisson de
moyenne 90.
b) Déterminer P{X ^ 1075} quand X est une variable aléatoire de Poisson de
moyenne 1000.
SOLUTION. Exécuter le programme suivant:

RUN
THIS PROGRAM COMPUTES THE PROBABILITY THAT A POISSON RANDOM VARIABLE
IS LESS THAN OR EQUAL TO i
ENTER THE MEAN OF THE RANDOM VARIABLE
? 100
ENTER THE DESIRED VALUE OF i
? 90
THE PROBABILITY THAT A POISSON RANDOM VARIABLE WITH MEAN 100
IS LESS THAN OR EQUAL TO 90 IS .1713914
Ok
RUN
THIS PROGRAM COMPUTES THE PROBABILITY THAT A POISSON RANDOM VARIABLE
IS LESS THAN OR EQUAL TO i
ENTER THE MEAN OF THE RANDOM VARIABLE
? 1000
ENTER THE DESIRED VALUE OF i
? 1075
THE PROBABILITY THAT A POISSON RANDOM VARIABLE WITH MEAN 1000
IS LESS THAN OR EQUAL TO 1075 IS .989354
Ok
4.9 AUTRES LOIS DISCRÈTES
4.9.1 Variables aléatoires géométriques
On exécute une série d'épreuves indépendantes ayant chacune la probabilité p

d'être un succès, 0 < p < 1, jusqu'à obtenir le premier succès. Si l'on désigne le
nombre d'épreuves nécessaires jusqu'à ce résultat par X on aura
P{X = n} = (l-p)nlp M = 1,2,... (4.14)
En effet, pour que X prenne n pour valeur, il faut et suffit que les n — 1 premières
épreuves soient des échecs tandis que la M-ième devra être un succès. (4.14) est alors
immédiate puisque les épreuves sont indépendantes.
Du fait que
I P{X = n} = p l (i-p)"-=—-L-=l
n=\ n=\ 1 - (1 - P)
il est établi qu'avec probabilité 1 un succès finira par se produire.

Les variables aléatoires dont la loi est donnée par (4.14) sont appelées variables
aléatoires géométriques de paramètres/?.
Exemple 4.30 Une urne contient N boules blanches et M noires. On tire des boules
une par une avec remise jusqu'à l'apparition d'une noire, a) Quelle est la probabilité
qu'il faille exactement n tirages? b) Quelle est la probabilité qu'il faille au moins A: ti-
rages?
SOLUTION. Désignons par X le nombre de tirages nécessaires jusqu'à l'apparition de

la première boule noire. X est régie par (4.14) avec p = M/(M + N). D'où les deux
résultats demandés:
k-l
On aurait bien sûr pu obtenir le deuxième directement puisque la probabilité qu'il

faille au moins k essais pour obtenir un premier succès est égale à celle de n'avoir que
des échecs sur les k — 1 premières épreuves. Cette probabilité est, pour une variable
géométrique
P{X>fe} = ( l - p ) k - 1 .
Exemple 4.31 Trouver l'espérance d'une variable aléatoire géométrique.
SOLUTION. En posant q = 1 -p, on a
n-l
En d'autres termes, si des épreuves indépendantes ayant une probabilité p d'obtenir un

succès sont réalisées jusqu'à ce que le premier succès se produise, le nombre espéré
d'essais nécessaires est égal à 1 / p. Par exemple, le nombre espéré de jets d'un dé
équilibré qu'il faut pour obtenir la valeur 1 est 6.
Exemple 4.32 Trouver la variance d'une variable aléatoire géométrique.
SOLUTION. Pour trouver Var(X), calculons d'abord £[X I. En posant q = 1 -p, on a
n=\
1 , 2(1-p)
=P
2 3
Donc, comme E[X] = 1 / p,
Var ( X) = ^
4.9.2 Variables aléatoires binomiales négatives
On exécute une série d'épreuves indépendantes ayant chacune une probabilité p

de donner un succès, 0 < p < 1, jusqu'à obtenir un total de r succès. Désignons par
X le nombre d'épreuves nécessaires pour atteindre ce résultat. On aura
P{X = „} = ^ _ j ) p'(\-p)n" n = r,r+l,... (4.15)
En effet, pour obtenir un r-ième succès lors de la n-ième épreuve il a fallu r — 1 succès
lors des n — 1 premières épreuves et il faut que la M-ième épreuve soit un succès. La
probabilité de la première condition est
et celle de la seconde est p. De ce fait (4.15) est établie puisque les épreuves sont
indépendantes.
On peut établir que la probabilité d'obtenir r succès est 1. Il existe une démonstra-
tion analytique de l'équation
00
°° In — 1 \
1 P{X = n } = I pr(l-p)-r=l (4.16)
n=r n=r \ ' 1 /
mais on peut donner l'argument probabiliste suivant: le nombre d'épreuves nécessai-
res à l'obtention de r succès peut être écrit F, + Y2 + ... + Yr, Yt étant le nombre
d'épreuves nécessaires jusqu'au premier succès, Y2 le nombre d'épreuves supplémen-
taires nécessaires pour obtenir un deuxième succès, Y3 celui menant au 3ème et ainsi
de suite. Les tirages étant indépendants et ayant toujours la même probabilité de
succès, chacune des variables Yx, Y2,..., Yr est géométrique. On a vu que chacune est
finie avec probabilité 1 et par conséquent leur somme X l'est aussi, ce qui établit (4.16).
Une variable aléatoire dont la loi est donnée par (4.15) est dite variable aléatoire
binomiale négative de paramètres (r, p). On remarquera qu'une variable géométrique
est binomiale négative de paramètre (1, p).
Dans l'exemple suivant, le problème des points trouve une autre solution grâce à
l'emploi d'une variable binomiale négative.
Exemple 4.33 On exécute une série d'épreuves indépendantes, chacune aboutissant

à un succès avec la même probabilité p. Quelle est la probabilité que r succès
apparaissent avant que le m-ième échec ne survienne?
SOLUTION. On parvient à cette solution en remarquant que r succès n'apparaissent

avant le m-ième échec que si le r-ième succès survient au plus tard à la
(r + m— 1 )-ième épreuve. En effet, si le r-ième succès a lieu avant cette (r + m— 1 )-ième
épreuve ou au plus tard lors même de celle-ci, elle intervient avant le m-ième échec
et l'implication inverse est vraie. On tire alors de (4.15) la probabilité voulue
r+m-l/n_l\
Exemple 4.34 Le problème des allumettes de Banach

Un mathématicien se trouve être également fumeur de pipe et il porte à tout moment
deux boîtes d'allumettes, une dans chacune de ses poches gauche et droite. Chaque
fois qu'il a besoin d'une allumette, il a une chance sur deux d'aller la chercher dans
sa poche gauche et autant pour l'autre. Il découvre subitement que la boîte tirée est
vide. Les deux boîtes contenaient au départ N allumettes chacune. Quelle est la
probabilité qu'il lui reste k allumettes dans l'autre boîte, k = 0, 1,..., N ?
SOLUTION. Désignons par E l'événement «le mathématicien découvre que sa boîte

droite est vide alors qu'il reste k allumettes dans l'autre». Cet événement n'aura lieu
que s'il choisit la boîte droite pour la (N +1 )-ième fois lors du N +1 + N -fc-ièmetirage.
Grâce à (4.15) on peut alors écrire, en prenant p =1/2,r = N + 1, n = 2N — k + 1,
Comme la probabilité est la même que ce soit la poche gauche qui se vide tandis qu'il
reste k allumettes dans la droite, la probabilité voulue est
2P(E)
Exemple 4.35 Calculer l'espérance et la variance d'une variable aléatoire binomiale

négative de paramètres r et p.
SOLUTION.
=— X n \pr+ (l - p)" r
comme n\ =r
pn=r \r) {r-lj {r
r
V ( ï\k-X(m~X\ "If. \m-(r+l)
en
= — 2, (m - U \P \}~ P) posant m = n +1
r
p m=r+l \ J
= LE[(r-itl]
où Y est une variable aléatoire binomiale négative de paramètres r + 1, p. En posant
fc = 1 dans l'équation précédente, on obtient
4*] = -
p
En posant k = 2 dans cette même équation et en utilisant la formule ci-dessus pour
l'espérance d'une variable aléatoire binomiale négative, on obtient
E[X2] = -E{Y-I]
P
Donc
\ f r .\
Var(x) = - 1
P\ P ./>/
r( 1 - P )
2
L'exemple 4.35 nous montre que si on réalise des épreuves indépendantes,

chacune ayant une probabilité p de succès, alors l'espérance et la variance du nombre
d'essais nécessaires pour obtenir r succès sont ri pet r(l - p)jp respectivement.
Puisqu'une variable aléatoire géométrique est une binomiale négative de

paramètre n = 1, l'exemple précédent entraîne que la variance d'une variable aléatoire
géométrique de paramètre p est égale à (l - p)/p , ce qui correspond au résultat de
l'exemple 4.32.
Exemple 4.36 Calculer l'espérance et la variance du nombre de jets d'un dé néces-

saires pour obtenir 4 fois la valeur 1.
SOLUTION. Puisque la variable aléatoire étudiée est une binomiale négative de

paramètres r = 4 et p = 1 / 6, on a
E[X] = 24
4.9.3 Variables aléatoires hypergéométriques
On tire sans remise un échantillon de n boules d'une urne en contenant N, dont m

sont blanches et N - m sont noires. Désignons par X le nombre de boules blanches
tirées. On aura
m\(N — m
V
P{X = i}= 'y)'V ' y, « = 0,1 n (4.17)
S'il existe certaines valeurs de n, N et m pour lesquelles la loi d'une variable aléatoire
vérifie (4.17), cette variable est dite variable aléatoire hypergéométrique.
REMARQUE. Bien que nous ayons écrit la distribution hypergéométrique avec i variant
de 0 à n,P{X = i} vaudra 0 à moins que i satisfasse les inégalités
n-(N-m) < i < min(n,m). Cependant, l'équation (4.17) est toujours valable à
cause de notre convention qui pose( J égal à 0 lorsque k < 0 ou r < k.
Exemple 4.37 Le nombre d'animaux d'une certaine espèce habitant un territoire

donné est N, inconnu. Pour obtenir une information sur la taille de cette population,
les ecologues ont souvent recours à l'expérience suivante: ils capturent en premier lieu
une certaine quantité de ces animaux, mettons m. Ils les marquent puis les relâchent
et leur laissent le temps de se disperser sur l'ensemble du territoire étudié. Dans un
deuxième temps, ils font un certain nombre n de nouvelles captures. Désignons par
X\e nombre d'animaux marqués figurant parmi ces nouvelles captures. On admet que
la population animale n'a pas changé entre les dates des deux séries de captures et
que lors de chaque capture tous les animaux restant à ce stade ont la même probabilité
d'être pris. X est alors une variable aléatoire hypergéométrique et
Supposons maintenant que la valeur observée de X soit i. Désignons par P,{N) la

probabilité que ceci arrive alors que la population totale est N. Une estimation
intuitivement raisonnable de N est donnée par la valeur pour laquelle P,(N) est
maximale. (Une telle estimation est dite estimation du maximum de vraisemblance. Les
exercices théoriques 4.10.8 et 4.10.13 sont d'autres exemples de ce type de procédé
d'estimation).
Le moyen le plus simple de trouver le maximum de P,{N) se base sur le calcul du
rapport
Pi(N) _ (N-m)(N-n)
P,(N-l) N(N-m-n + i)
Or, le rapport est supérieur à 1 si et seulement si
(N-m)(N-n) £ N(N-m-n + i)
ou, ce qui est équivalent, si et seulement si,
N<ULH
i
Ainsi, P,(N) est-elle d'abord croissante puis décroissante, prenant son maximum
pour la partie entière de mn/i. Cette valeur est donc l'estimation du maximum de
vraisemblance de N. Si par exemple la première campagne de capture a livré m = 50
animaux marqués puis relâchés et la 2ème campagne a permis de capturer n = 40
animaux dont / = 4 sont marqués, on estimera que la population de ces animaux se
chiffre à 500 sur le territoire étudié. (On aurait aussi pu obtenir cette estimation en
faisant l'hypothèse que la proportion i/n d'animaux marqués lors de la 2ème campa-
gne de captures est égale à celle des animaux marqués dans toute la population, soit
m/N). •
Exemple 4.38 Un électricien achète des composants par paquets de 10. Sa technique
de contrôle est de n'examiner que 3 des composants, tirés au hasard dans le paquet,
et de n'accepter le lot des 10 que si les 3 composants examinés sont sans défaut. Si
30% des paquets contiennent 4 composants à malfaçon tandis que les 70% restants
n'en contiennent qu'un, quelle proportion des paquets notre électricien rejettera-t-il?
SOLUTION. Désignons par A l'événement «l'électricien accepte un paquet». On sait que

P(A) = P(A | le paquet contient 4 mauvais composants) ^ +

P(A | le paquet contient 1 mauvais composant) ^
V0/V3//3\ VO/U// 7\
/10\ W /10\ \10J
_ 54
~100
46% des paquets seront donc refusés. •
Si n balles sont choisies au hasard sans remise dans un ensemble de N balles dont
la fraction p = m IN est blanche, alors le nombre de balles blanches choisies est
hypergéométrique. A présent, il semblerait que lorsque metN sont grands par rapport
à n, il ne devrait pas y avoir trop de différence entre les tirages avec et sans remise. Du
fait que les balles tirées précédemment n'ont pas une grosse importance, chaque
nouveau tirage, lorsque m et N sont grands, sera blanc avec une probabilité
approximativement égale à p. En d'autres termes, on sent intuitivement lorsque metN
sont grands par rapport à n, que la distribution de X doit approximativement être celle
d'une variable aléatoire binomiale de paramètres n et p. Pour vérifier cette intuition,
remarquons que si X est hypergéométrique, alors pour i < n,
p{x = ;} =
m]
(m-i)\i\(N — m — n + î)\(n-i)l NI
ri\m m-l m-i + \N-mN~m-\ N- m-(n-i-l)
i ) N N -1 "" N - i +1 N-i N - i -1 " ' N - i - (n - i -1)
p' (l - p) lorsque p = — et m et N sont

'V N
grands par rapport à n et i
Exemple 4.39 Déterminer l'espérance et la variance d'une variable aléatoire hyper-

géométrique X de paramètres n, N, m.
£:[**]= îikP{X = i}
En utilisant les identités
on obtient
N i=1 n-l
où F est une variable aléatoire hypergéométrique de paramètres n- l, N -l,m- 1.

Donc, en posant k = 1, on obtient
E[X] = nm
N
En d'autres termes, si n balles sont choisies aléatoirement parmi un ensemble de N
balles dont m sont blanches, le nombre espéré de balles blanches sélectionnées est
nm/ N.
En posant k = 2 dans l'équation de E\ X I, on obtient
+1
N-l
où l'égalité finale utilise le résultat précédent pour calculer l'espérance de la variable

aléatoire hypergéométrique Y. Comme E[X] =nm I N, on peut conclure que
(4.18)
Si p = m IN est la fraction de balles blanches, l'équation (4.18) donne, après un peu

d'algèbre
, . N-n , ,
Var(x) = — - n p ( l - p ) (4.19)
N -1
REMARQUE. Nous avons montré dans l'exemple 4.39 que si n balles sont sélectionnées
au hasard sans remise parmi un ensemble de N balles dont une fraction p est blanche,
le nombre espéré de balles blanches choisies est np. De plus, si N est grand par
rapport à n [et donc si (N - n) I (N- 1) est approximativement égal à 1], alors
Var(X) = np{\ - p)
En d'autres termes, E[X\ est la même que lorsque la sélection des balles se fait avec
remise (le nombre de balles blanches est alors binomial de paramètres n et p) et si le
nombre total de balles est grand, Var(X) est approximativement égale à ce qu'elle
vaudrait si la sélection était effectuée avec remise. Naturellement, ceci est exactement
ce que nous avions deviné à partir du résultat précédent, qui établissait que lorsque le
nombre de balles dans l'urne est grand, le nombre de balles blanches choisies suit
approximativement la distribution d'une variable aléatoire binomiale.
4.94 Variables aléatoires Zêta (ou de Zipf)
On dit qu'une variable aléatoire suit une distribution zêta (parfois aussi dite de
Zipf ) si sa loi de probabilité est
^{X = fc} = T & Ï , fc = l,2,...

k
où a > 0. Du fait que la somme de ces probabilités doit donner 1, on peut cal-
culer C:
mari'
La loi zêta doit son nom au fait que la fonction
«-••©••©••••••G)'--
est appelée par les mathématiciens fonction zêta de Riemann (du nom du mathématicien
allemand G.F.B. Riemann). Cette distribution zêta a été utilisée par le célèbre
économiste italien Pareto pour décrire la répartition des revenus familiaux à travers
un pays donné. Ce fut G.K. Zipf cependant qui popularisa leur usage en les appli-
quant à des domaines très variés.
4.10.1 II existe des coupons de N sortes. On les obtient à raison d'un à la fois et dans
chaque cas, le coupon reçu sera du type i avec probabilité Ph i= 1,2, ...,N
indépendamment du type des coupons reçus auparavant. Soit T le nombre de coupons
qu'il faut collectionner pour obtenir un assortiment complet comprenant un coupon de

chaque type au moins. Calculer P{T = n}.
On pourra utiliser un argument similaire à celui utilisé dans l'exemple 4.5.
4.10.2 Etablir la propriété 3 des fonctions de répartition.
4.10.3 Exprimer P{X > a] grâce à la fonction de répartition de X.
4.10.4 Démontrer ou infirmer au moyen d'un contre-exemple l'égalité suivante:
P{X<b}=limP{x<bn}
4.10.5 Soit F la fonction de répartition de X. Quelle est la fonction de répartition de

aX + p\ où a et (î sont des constantes, a * 0?
4.10.6 Pour une variable aléatoire N à valeurs entières non négatives, montrer que
E[N]=ÏP{N>i}
;—i
©o oo oo
Utiliser pour cela £ P{N > i} = I I P{N =k} en changeant l'ordre de sommation.
i'=l i=lk=i
4.10.7 Soit N une variable aléatoire entière non négative. Montrer que
I iP{N > i} = - f àN11 - E{N])

.=o 2v
Pour cela, utiliser
IiP{N >i}=li lP{N = k}

i=0 i'=0 k=i+\
puis changer l'ordre des sommations.
4.10.8 Soit X tel que

P{X = 1} = p = 1 - P{X = -1}
Trouver c * 1 tel que El c 1 = 1.

2
4.10.9 Soit X une variable aléatoire d'espérance \i et de variance a . Trouver l'espé-
rance et la variance de
X-n
Y= -
a
4.10.10 Soit X une variable aléatoire binomiale de paramètres n et p. Montrer que
i-(i-rf"'
(n + l)p
4.10.11 On exécute une série de n épreuves indépendantes ayant chacune une proba-
bilité p d'aboutir à un succès. Montrer que les n! / [k\(n -k)\] séquences contenant
exactement k succès sont toutes équiprobables.
4.10.12 On considère un alignement de n composants. Chacun d'entre eux fonctionne

avec probabilité p. Quelle est la probabilité de ne pas rencontrer dans cet alignement
des composants hors service voisins?
On pourra conditionner sur le nombre de composants défectueux et utiliser les
résultats de l'exemple 1.14 du chapitre 1.
4.10.13 On considère une variable aléatoire binomiale de X de paramètres (n, p). Pour
quelle valeur de p la probabilité P{X = k] est-elle maximale, dans le cas où k = 1,
2,..., ni Ce résultat est utilisé en statistique pour estimer/? lorsqu'on a observé que
X = k. Le paramètre n étant connu, cette valeur de p qui rend maximale P{X = k}
est appelée estimation de p par la méthode du maximum de vraisemblance.
4.10.14 On admet que la probabilité qu'une famille ait n enfants est apn, n > 1,
a < (1 - P)lp-
a) Quelle est la proportion parmi toutes les familles de celles qui n'auront aucun
enfant?
b) Les enfants ont autant de chances d'être des garçons que des filles, indépendam-
ment du sexe de leurs aînés. Quelle est la proportion parmi toutes les familles de
celles ayant exactement k filles, le nombre de garçons n'étant pas fixé?
4.10.15 On jette n fois une pièce, pile sortant avec probabilité p à chaque tirage
indépendamment de ce qui a précédé. Montrer que la probabilité d'obtenir un nombre
pair de piles est ^[1 + (q — /?)"], où q = 1 —p. Utiliser pour cela l'identité suivante,
après l'avoir démontrée:
[n/2] / „ \ „. „. 1
où [n/2] désigne la partie entière de n/2. Comparer cet exercice à l'exercice 3.6.11.
4.10.16 Soit X une variable aléatoire de Poisson avec paramètre X. Montrer que
P{X = i\ est une fonction monotone croissante puis décroissante de / prenant son
maximum lorsque / = [A.].
Etudier pour cela P{X = i}/P{X = i - \\.
4.10.17 Soit X une variable aléatoire de Poisson de paramètre X. a) Montrer que

P\Xesl paire} = \[l + e'21]
en utilisant les résultats du problème 4.10.15 et la relation entre les variables aléa-
toires poissonnienne et binomiale. b) Faire une vérification directe en s'aidant du
développement de e~x + ex.
4.10.18 Soit X une variable aléatoire de Poisson avec paramètre X. Quelle est la valeur
de À. qui maximise P',X = Al. k ^ 0?
4.10.19 Si X est une variable aléatoire de Poisson de paramètre X, montrer que
i{xn] = te[(x+i)n-1]
Utiliser ce résultat pour calculer E\X I.
4.10.20 Soit X une variable aléatoire de Poisson de paramètre X, où 0 < X < 1. Trou-
ver E[X\].
4.10.21 On considère un ensemble de n personnes choisies au hasard. Soit Ey l'événe-

ment «les personnes i et y ont leur anniversaire le même jour». On suppose que chaque
personne a son anniversaire qui tombe sur un des 365 jours de l'année, de façon
équiprobable. Trouver
a) P(E3A
b) />(£,, 3
c) P(£ 2 j 3
Que peut-on conclure sur l'indépendance des Q) événements £ /; ?
4.10.22 Une urne contient 2n boules, dont 2 sont numérotées 1, 2 numérotées 2, ..., 2
numérotées n. Des couples de boules sont tirées successivement sans remise. Soit T\e
premier tirage lors duquel les boules obtenues ont le même numéro (T vaut infini si
aucun couple de boules tirées n'ont le même numéro). Pour 0 < a < 1, on veut
montrer que
lim P{T > an} = e'"12
n
Pour le vérifier, posons Mk le nombre de paires obtenues dans les k premiers tirages,
k = !,...,«.
a) Justifier pourquoi, lorsque n est grand, Mk peut être associé au nombre de succès
dans k épreuves (approximativement) indépendantes.
b) Dans le cas où n est grand, approximer P{Mk = 0}.
c) Décrire l'événement «T > an» en fonction de la valeur prise par l'une des variables
Mk.
d) Vérifier la probabilité limite ci-dessus.
4.10.23 On admet que le nombre d'événements d'un certain type survenant pendant
un laps de temps donné est une variable aléatoire de paramètre X. Ces événements
sont enregistrés avec probabilité p (certains passent inaperçus), les enregistrements
étant indépendants les uns des autres. Montrer que le nombre d'événements enregis-
trés est une variable aléatoire de Poisson de paramètre Xp. Donner une explication
intuitive soutenant ce résultat.
En application de ce qui précède, on étudie une campagne de prospection pour
découvrir des gisements d'uranium supposés clairement séparés les uns des autres.
Dans une région donnée, le nombre de tels gisements distincts est une variable
aléatoire de Poisson avec paramètre X. = 10. Pendant la durée de la campagne la
probabilité qu'un gisement donné soit découvert est ^-. Trouver la probabilité que
a) exactement un gisement,
b) au moins un gisement,
c) au plus un gisement
soit découvert lors de cette campagne.
4.10.24 Démontrer l'égalité
î e~K- = ±-X e~*x"dx

.•=o i\ n!J À
en intégrant par parties.
4.10.25 Soit X une variable aléatoire géométrique. Montrer par un calcul analytique
que
P{X = n + k\X> n} = P{X = k}
Formuler un argument intuitif en faveur de cette équation en se basant sur le modèle

général auquel s'appliquent les variables géométriques.
4.10.26 Soit X une variable aléatoire binomiale négative de paramètres r et p et soit Y

une variable aléatoire binomiale de paramètres n et p. Montrer que
P{X>n}=P{Y<r}
On pourra tenter de démontrer analytiquement l'expression ci-dessus en montrant
l'identité suivante
£f;"iV(.-pr=i("V(.-pr
ou on pourra tenter une preuve utilisant l'interprétation probabiliste de ces variables
aléatoires. Autrement dit, dans ce dernier cas, on commencera par considérer une
séquence d'épreuves indépendantes ayant toutes une probabilité p de succès. Essayer
alors d'exprimer les événements {X> n} et [Y< r] en termes de résultats de cette
séquence.
4.10.27 Pour une variable aléatoire X hypergéométrique, déterminer

P{X = k+l}/P{X = k]
4.10.28 Une urne contient des boules numérotées de 1 à N. Supposons qu'on en tire
n, n < N, au hasard et sans remise. Y désigne le plus grand numéro tiré. Donner la
loi de Y.
4.10.29 Un bocal contient m + n jetons numérotés de 1 à n + m. On en tire n. X désigne

le nombre de jetons dont le numéro est supérieur à celui de tous les jetons restés dans
le bocal. Donner la loi de X.
4.10.30 Un bocal contient n jetons. Un garçon tire les jetons un à un avec remise jus-
qu'à ce qu'il obtienne un jeton déjà tiré. X désigne le nombre de tirages. Donner la loi
de probabilité de X.
4.10.31 Montrer que l'équation (4.19) découle de l'équation (4.18).
4.10.32 Partant d'un ensemble de n éléments, on choisit de manière aléatoire un sous-

ensemble non vide de manière que tous les sous-ensembles non vides aient la même
probabilité d'être choisis. Soit X le cardinal du sous-ensemble choisi. En utilisant les
identités données dans l'exercice théorique 1.7.13, montrer que
2
-(i)
, , n22n-2-n(n + l)2n-2
(2"-l)
Montrer aussi que lorsque n est grand, Var(X) est d'ordren/4en ce sens que le rapport
donnant la variance s'approche de 1 lorsque n tend vers l'infini. Comparer ce résultat
avec la forme limite que prend Var(J0 quand P{ Y= i} = 1 / n, i = 1,..., n.
4.11 PROBLÈMES
4.11.1 On choisit deux boules au hasard d'une urne en contenant 8 blanches, 4 noires
et 2 oranges. Supposons que l'on reçoive 2 $ pour chaque boule noire tirée et que l'on
perde 1 $ pour chaque boule blanche tirée. Désignons les gains nets par X. Quelles
sont les valeurs possibles pour Xet quelles sont les probabilités associées à ces valeurs?
4.11.2 On jette deux dés équilibrés et X désigne le produit des deux nombres obtenus.
Calculer P{X = /}, i = 1, 2,...
4.11.3 On jette 3 dés et on admet que les 6 3 = 216 résultats possibles sont tous
équiprobables. X désigne la somme des 3 nombres obtenus. Donner les probabilités
attachées aux différentes valeurs que X peut prendre.
4.11.4 On classe cinq hommes et cinq femmes selon leurs résultats lors d'un examen.
On fait l'hypothèse que tous les scores sont différents et que les 10! classements
possibles ont tous la même probabilité. On désigne le rang de la meilleure femme par
X (par exemple X vaudra 2 si le meilleur résultat a été obtenu par un homme et le
suivant par une femme). Trouver P{X = ;'}, / = 1, 2,..., 10.
4.11.5 Soit X la variable aléatoire comptant la différence entre les nombres de faces et
de piles lors d'une répétition de n jets d'une pièce. Quelles sont les valeurs que peut
prendre XI
411.6 En admettant que dans le problème 4.11.5 la pièce ait été équilibrée, quelles sont
les probabilités associées aux valeurs que X peut prendre lorsque n = 3?
4.11.7 On jette deux fois un dé. Quelles sont les valeurs que peuvent prendre les
variables aléatoires suivantes:
a) le plus grand des deux chiffres obtenus,
b) le plus petit des deux chiffres obtenus,
c) la somme des deux chiffres,
d) la différence entre le premier chiffre et le second?
4.11.8 Si le dé utilisé pour le problème 4.11.7 est biaisé, calculer les probabilités as-
sociées aux valeurs des quatre variables aléatoires citées à ce même exercice.
4.11.9 Traiter l'exemple 4.2 dans le cas où les boules sont tirées avec remise.
4.11.10 Reprendre l'exemple 4.4 et calculer la probabilité de gagner i francs sachant

que l'on gagne quelque chose; faire le calcul pour i = 1, 2, 3.
4.11.11
a) On choisit au hasard un nombre entier N entre 1 et 1 000. Quelle est la probabilité
que le nombre tiré soit divisible par 3? par 5? par 7? par 15? par 105? Que devient
la réponse lorsqu'on remplace 1 000 par 10* et que k devient de plus en plus grand?
b) La fonction U(M) de Môbius est importante en théorie des nombres. On peut
montrer que ses propriétés sont en relation avec le problème non résolu sans doute
le plus important en mathématiques, à savoir l'hypothèse de Riemann. Cette
fonction est définie comme suit sur l'ensemble des entiers positifs: pour tout tel
entier n, on considère sa décomposition en facteurs premiers. Si dans cette décom-
position un facteur se répète, comme dans 12 = 2 • 2 • 3 ou 49 = 7-7, U(M) est
déclaré nul. Si tous les facteurs sont distincts on affecte à \i(n) la valeur 1 dans le
cas où ces facteurs sont en nombre impair et -1 s'ils sont en nombre pair. Par
exemple u(6) = -1 car 6 = 2 • 3, mais u(30) = 1 car 30 = 2 • 3 • 5. Soit donc un
entier N choisi au hasard entre 1 et 10* où k est grand. Donner la loi de probabilité
de n(N) lorsque k tend vers l'infini.
Pour calculer P{\i(N) # 0} on peut utiliser l'identité
où Pj est le /-ème nombre premier en partant des plus petits, 1 n'étant pas considéré
comme un nombre premier.
4.11.12 Dans le jeu «pair - impair» les deux participants montrent chacun un ou deux
doigts et en même temps annoncent combien de doigts ils pensent que leur adversaire
va montrer. Si l'un seulement des joueurs devine juste il gagne un nombre de francs
égal au total des doigts montrés par lui et son concurrent. Si les deux devinent
correctement ou si les deux se trompent aucun argent n'est échangé. On considère l'un
des deux joueurs et désigne par X le montant qu'il gagnera lors d'une unique partie
de «pair - impair»,
a) Si les joueurs agissent indépendamment l'un de l'autre et si les 4 issues possibles
au jeu sont équiprobables, quelles valeurs X peut-elle prendre et quelles sont les
probabilités qui leur sont associées?
b) On admet toujours que les deux personnes jouent indépendamment l'une de

l'autre. Mais chaque joueur décide maintenant de lever autant de doigts qu'il pense
en voir apparaître chez l'autre. Chaque joueur a autant de chances de montrer
1 doigt que deux. Quelles sont les valeurs possibles de X et les probabilités qui
leur sont associées?
4.11.13 Un vendeur a fixé deux rendez-vous pour vendre des encyclopédies. Au pre-
mier rendez-vous, il vendra un livre avec une probabilité .3 alors qu'au second, il en
vendra un avec une probabilité .6. A chaque vente, il y a autant de chances de vendre
le modèle de luxe qui coûte 1 000 Frs que le modèle standard qui coûte 500 Frs. Dé-
terminer la distribution de X, la valeur totale en francs de toutes les ventes.
4.11.14 Cinq nombres distincts sont distribués aléatoirement à des joueurs numérotés
de 1 à 5. Lorsque deux joueurs comparent leur numéro, celui qui a le plus grand est
déclaré vainqueur. Au départ, les joueurs 1 et 2 comparent leur numéro; le vainqueur
compare le sien avec le joueur 3, etc. Soit X le nombre de fois où le joueur 1 gagne.
Trouver P{X = i}, i = 0, 1,2, 3, 4.
4.11.15 La loterie de la «National Basketball Association (NBA)» implique les 11

équipes ayant les plus mauvais rapports victoire / défaite de l'année. 66 balles sont
placées dans une urne. Sur chacune des balles est inscrit le nom d'une équipe; 11
possèdent le nom de l'équipe ayant le plus mauvais rapport, 10 possèdent le nom de
l'équipe ayant le deuxième plus mauvais rapport, 9 possèdent le nom de l'équipe
ayant le troisième plus mauvais rapport, etc. (1 balle ayant le nom de l'équipe au
onzième plus mauvais rapport). Une balle est choisie au hasard et l'équipe dont le
nom est sur la balle peut choisir en premier un joueur sur la liste de recrutement. Une
autre balle est tirée et si elle représente une équipe différente de celle choisie en
premier, alors l'équipe dont le nom est sur cette deuxième balle peut choisir à son tour
un joueur sur la liste de recrutement. (Si la balle représente l'équipe qui a eu le
premier choix, elle est mise de côté et on en choisit une autre; ceci continue jusqu'à ce
qu'une balle d'une autre équipe soit choisie.) Finalement, une autre balle est choisie et
l'équipe marquée sur la balle (à condition qu'elle soit différente des deux équipes
précédentes) peut choisir un joueur en troisième. Les joueurs 4 à 11 restant dans la
liste de recrutement sont attribués aux 8 équipes qui n'ont pas «gagné à la loterie»
selon l'ordre inverse de leurs résultats. Par exemple, si l'équipe au pire résultat ne fait
pas partie des 3 vainqueurs de la loterie, elle pourra choisir en quatrième. Soit X la
position du choix de l'équipe au plus mauvais résultat. Quelle est la distribution de X?
4.11.16 Dans le problème 4.11.15, soit l'équipe 1 celle ayant le plus mauvais score,
soit l'équipe 2 celle ayant le deuxième plus mauvais score, etc. Soit F, l'équipe qui
peut choisir en i-ième position. Donc 1^ = 3 si la première balle choisie représente
l'équipe 3. Trouver la distribution de
a)ri;
b)Y2;
c)Y3.
4.11.17 La fonction de répartition d'une variable X est la suivante:
0 b<0
b
0<fc<l
4
1 b-\
F(b) - + l<fc<2
2 4
11 2<b<3
12
3<b
a) Trouver P{X = i), i = 1, 2, 3. b) Trouver P{ j < X < j }.
4.11.18 On lance quatre fois une pièce équilibrée. X désigne le nombre de piles obte-
nus. Représenter graphiquement la loi de probabilité de X - 2.
4.11.19 La fonction de répartition de X est donnée par
b < 0
2 0 < b< 1
3
5 1<6<2
F(b) 4
5 2<ft<3
_9_
10 3<6<3.5
2>>3.5
Calculer la loi de probabilité de X.
4.11.20 Un livre de jeux recommande la «stratégie gagnante» suivante pour le jeu de

la roulette. Il recommande de miser 1 Fr sur le rouge. Si le rouge apparaît (ce qui a
une probabilité 18 / 38), le joueur doit prendre son profit de 1 Fr et arrêter. Si le
joueur perd (ce qui a une probabilité 20 / 38), il doit à nouveau miser 1 Fr sur le rouge
lors des deux prochains tours puis arrêter. Soit X le gain du joueur quand il s'arrête.
a) Trouver P{X>0}.
b) Etes-vous convaincus que cette stratégie est vraiment une stratégie «gagnante»?
Expliquer votre réponse!
c) Calculer E[X].
4.11.21 Quatre bus transportant 148 élèves de la même école arrivent à un stade de
football. Les bus transportent respectivement 40, 33, 25 et 50 élèves. Un des étudiants
est choisi au hasard. Soit X le nombre d'étudiants qui était dans le bus de cet élève
choisi aléatoirement. Un des quatre chauffeurs de bus est également choisi au hasard.
Soit Y le nombre d'élèves dans son bus.
a) Entre E[X] et E[Y], de laquelle diriez-vous qu'elle est la plus grande? Pourquoi?
b) Calculer E[X] et E[Y].
4.11.22 Supposer que deux équipes jouent une série de matchs qui se termine
lorsqu'une des deux a gagné i matchs. Supposer que chaque match joué est,
indépendamment, gagné par le joueur A avec probabilité p. Trouver l'espérance du
nombre de matchs joués lorsque
a) i = 2;
b) i = 3.
Montrer aussi dans les deux cas que ce nombre est maximisé lorsque p = 112.
4.11.23 On sait qu'une boîte de 5 composants électriques en comporte deux qui sont
défectueux. Les composants sont choisis au hasard et testés l'un après l'autre. Trouver
l'espérance du nombre de test qu'il faudra effectuer pour trouver les deux éléments
défectueux.
4.11.24 A et B jouent au jeu suivant: A écrit soit le nombre 1, soit le nombre 2 et fi

doit deviner lequel a été écrit. Si i est le nombre écrit par A et que B le devine
correctement, B reçoit / unités de la part de A. Si B se trompe, alors B paie - d'unité
à A. Si B prend sa décision de façon aléatoire mais en accordant à 1 le poids p et 2
le poids (1 — p), déterminer l'espérance de son gain dans les cas suivants:
a) A a écrit le nombre 1 ;
b) A a écrit le nombre 2.
Quelle est la valeur de p qui rend maximal le minimum des espérances de gain de
B et combien vaut ce maximum? (On remarquera que l'espérance du gain de B dépend
non seulement de p, mais aussi de ce que A fait).
Considérons maintenant le joueur A. Supposons que lui aussi prend sa décision
au hasard en écrivant le nombre 1 avec probabilité q. Quelle est l'espérance de perte
de A si
c) B choisit le nombre 1;
d) B choisit le nombre 2.
Quelle est la valeur de q rendant minimum le maximum des espérances de perte
de Al Montrer que le minimum du maximum des espérances de perte de A est égal
au maximum du minimum des espérances de perte de B. Ce résultat, connu sous le
nom de théorème du minimax, fut démontré dans toute sa généralité à l'origine par
le mathématicien John von Neumann. Il constitue le résultat fondamental de la
discipline mathématique qu'est la théorie des jeux. La valeur commune est appelée
valeur du jeu pour le joueur B.
4.11.25 On choisit au hasard un nombre compris entre 1 et 10. Vous devez deviner ce
nombre en posant des questions auxquelles il ne sera répondu que par oui ou non.
Calculer l'espérance du nombre de questions nécessaires dans les deux cas suivants:
a) votre i'-ème question est du type «Est-ce *'?», i' = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10;
b) avec chaque question, vous essayez d'éliminer à peu près la moitié des nombres
encore possibles.
4.11.26 Une compagnie d'assurance établit un contrat stipulant qu'une somme d'ar-
gent A doit être versée si un événement E se produit dans un intervalle d'un an. La
compagnie estime que la probabilité que E se produise en l'espace d'un an est p.
Comment calculer la prime d'assurance de façon que le bénéfice représente 10%
de/1?
4.11.27 Le type le plus répandu de machines à sous possède trois roues munies cha-
cune de 20 symboles (cerises, citrons, prunes, oranges, cloches et barres). Voici la
description d'un jeu typique de ces roues:
Roue 1 Roue 2 Roue 3
Cerises 7 7 0
Oranges 3 7 6
Citrons 3 0 4
Prunes 4 1 6
Cloches 2 2 3
Barres 1 3 1
20 20 20
Ce tableau indique que des 20 symboles de la roue n° 1, 7 sont des cerises, 3 des
oranges, etc.. Le gain ordinaire par pièce misée est indiqué dans le tableau suivant:
Roue 1 Roue 2 Roue 3 Gain

barre barre barre 60
cloche cloche cloche 20
cloche cloche barre 18
prune prune prune 14
orange orange orange 10
orange orange barre 8
cerise cerise n'importe quoi 4
cerise tout sauf cerise n'importe quoi 2
autres combinaisons -1
Calculer le gain que l'on peut espérer en jouant une partie avec une telle machine. On
admet que les roues se meuvent de manière indépendante.
4.11.28 Un échantillon de trois objets est choisi au hasard d'une boîte en contenant
20, dont 4 sont défectueux. Trouver l'espérance du nombre des objets défectueux dans
l'échantillon.
4.11.29 Une machine peut tomber en panne pour deux raisons. Le diagnostic de la
première cause coûte C, francs; s'il est positif, la réparation coûte alors /?, francs. De
façon analogue, la seconde cause de panne occasionne des coûts C2 et R2. Soient p
et (1 — p) respectivement les probabilités d'occurrence de la première et de la seconde
pannes. Quelles sont les conditions que doivent satisfaire/?, C„ Ri i = 1,2 pour qu'il
revienne en moyenne moins cher d'examiner la première cause de panne d'abord,
plutôt que de conduire l'examen de façon inverse? On admettra que si le premier
examen est négatif, le deuxième devra malgré tout être fait.
4.11.30 Un individu jette une pièce de monnaie équilibrée jusqu'à ce que pile appa-
raisse pour la première fois. Si pile apparaît au «-ième jet, l'individu gagne 2" francs.
Soit X, le gain du joueur. Montrer que E[X] = + oo. Ce problème porte le nom de
paradoxe de St-Petersbourg.
a) Seriez-vous disposé à payer 1 million pour jouer une fois à ce jeu?
b) Seriez-vous disposé à payer 1 million par partie en admettant que vous puissiez
jouer aussi longtemps que vous le désirez et que vous n'ayez à régler les comptes
qu'au moment de l'arrêt du jeu?
4.11.31 Chaque nuit, différents météorologues nous donnent la probabilité qu'il

pleuve le lendemain. Pour juger leurs prédictions, nous allons les noter de la manière
suivante: si un météorologue prévoit qu'il pleuvra avec probabilité p, il recevra une
note de
1 - (l - p) s'il pleut
(l - p) s'il ne pleut pas
Nous regarderons les notes sur un certain laps de temps et concluerons que le
météorologue ayant la meilleure moyenne est le meilleur prédicteur. Supposons à
présent qu'un météorologue donné est au courant de ce procédé et souhaite maximiser
l'espérance de son score. Si cette personne croit vraiment qu'il pleuvra demain avec
probabilité p*, quelle valeur de p doit-elle proposer pour maximiser l'espérance de
son score?
4.11.32 Cent personnes subissent une analyse de sang pour qu'on puisse déterminer
si oui ou non elles souffrent d'une certaine maladie. Cependant, plutôt que de tester
chaque personne individuellement, il a été décidé de former des groupes de dix
personnes. Les échantillons de sang des dix personnes de chaque groupe seront
mélangés et analysés ensemble. Si le test est négatif, un seul test suffira pour ces dix
personnes; cependant, si le test est positif, chacune des dix personnes sera examinée
individuellement et en tout, 11 tests seront effectués pour ce groupe. On suppose que
la probabilité qu'une personne soit atteinte de la maladie est 0.1 et que la maladie
frappe les gens indépendamment les uns des autres. Calculer l'espérance du nombre
de tests qu'il faudra faire sur les cent personnes. On admet ici que l'échantillon
commun de 10 personnes sera positif dès qu'au moins une de ces personnes est
malade.
4.11.33 Un vendeur de journaux achète ses journaux 10 centimes et les revend 15

centimes. Cependant, il ne peut pas se faire rembourser les exemplaires invendus. Si
la demande journalière est une variable aléatoire binomiale de paramètres n = 300 et
p = 1 / 3, quel est approximativement le nombre de journaux qu'il doit acheter afin de
maximiser l'espérance de son bénéfice?
4.11.34 Supposons que le grand magasin décrit dans l'exemple 4.12 encoure un coût
additionnel c pour chaque demande non satisfaite (ceci est fréquemment appelé un
coût en «goodwill» car le magasin perd un peu de la confiance des clients dont la
demande n'est pas satisfaite). Calculer l'espérance de profit si le stock est de s unités
et déterminer la valeur de s qui maximise ce profit.
4.11.35 Une boîte contient 5 billes rouges et 5 billes bleues. Deux billes sont tirées au
hasard. Si elles sont de la même couleur, vous gagnez 1.10 Frs; si elles sont de
couleurs différentes, vous perdez 1.00 Fr. Calculer
a) l'espérance du gain;
b) la variance du gain.
4.11.36 Considérer le problème 4.11.22 avec i = 2. Trouver la variance du nombre de

matchs joués et montrer que ce nombre est maximisé lorsque p = 1 / 2.
4.11.37 Trouver Var(X) et Var(K) pour X et Y donnés dans le problème 4.11.21.
4.11.38 Si E[X] = 1 et Var(X) = 5, trouver

a)E[(2 + X)2];
b) Var(4 + 3X).
4.11.39 On tire une boule d'une urne en contenant 3 blanches et 3 noires. On la replace
après tirage, pour recommencer indéfiniment cette séquence d'opérations. Quelle est
la probabilité de trouver exactement deux boules blanches parmi les quatre premières
boules tirées?
4.11.40 Un examen est administré sous forme d'un questionnaire de 5 questions à

3 choix multiples chacune. Quelle est la probabilité qu'un étudiant obtienne 4 bonnes
réponses ou plus en devinant?
4.11.41 Un homme prétend avoir des capacités de perception extrasensorielle. Le test

qu'on lui administre consiste à lui faire deviner les 10 résultats des 10 jets d'une pièce
équilibrée. Il donne 7 bonnes réponses. Quelle est la probabilité qu'il obtienne un
résultat aussi bon ou meilleur s'il n'a aucune capacité de perception extrasensorielle?
4.11.42 Les moteurs d'un avion ont une probabilité 1 - p de défaillance en cours de
vol, et ce indépendamment les uns des autres. Un avion a besoin d'une majorité de
ses moteurs pour pouvoir terminer son vol. Pour quelles valeurs de/7 un avion à cinq
moteurs est-il préférable à un trimoteur?
4.11.43 Un canal de transmission d'information ne peut traiter que des 0 et des 1. A

cause de perturbations dues à l'électricité statique chaque chiffre transmis l'est avec
une probabilité d'erreur de 0,2. Admettons que l'on veuille transmettre un message
important limité à 1 signal binaire. Pour éviter une erreur on transmettra 00000 au
lieu de 0 et 11111 au lieu de 1. Si le récepteur décode suivant la règle de majorité, quelle
est la probabilité que le message soit mal interprété? Quelles hypothèses d'indépen-
dance devez-vous faire?
4.11.44 Un système de communication par satellite se compose de n sous-systèmes et

fonctionne un jour donné si ce jour-là au moins k des sous-systèmes sont opération-
nels. Par temps pluvieux, chaque sous-système fonctionne avec probabilité p,, indé-
pendamment des autres. De même par temps sec, mais avec une probabilité p2- Si a
désigne la probabilité qu'il pleuve demain, quelle est la probabilité que le système total
fonctionne alors?
4.11.45 Un étudiant se prépare à passer un examen oral important. Il se préoccupe de

la question de savoir s'il sera en forme ou non. Son opinion est que s'il est en forme
chacun de ses examinateurs le jugera suffisant avec une probabilité de 0,8 et indépen-
damment des autres examinateurs. Dans le cas contraire, cette probabilité tombe à
0,4. L'étudiant est promu si une majorité de ses examinateurs le juge suffisant. Par
ailleurs, il pense avoir deux fois plus de chances d'être en méforme qu'en forme. A-t-il
plus intérêt à demander un contrôle par 3 ou 5 examinateurs?
4.11.46 Au moins 9 des 12 jurés réunis doivent estimer l'accusé coupable pour rendre
le jugement exécutoire. Supposons que la probabilité pour un juré d'estimer un
coupable innocent est 0,2 tandis qu'elle est de 0,1 de commettre l'erreur contraire. Les
jurés décident en toute indépendance et 65% des accusés sont coupables. Trouver la
probabilité que le jury rende une sentence correcte. Quel pourcentage des accusés sera
condamné?
4.11.47 Dans certains tribunaux militaires on désigne 9 juges pour une affaire. Cepen-
dant le procureur, autant que l'avocat de la défense, peuvent faire opposition à la
désignation de tout juge, auquel cas le juge écarté n'est pas remplacé. Un accusé est
déclaré coupable si la majorité des juges le déclarent coupable et est considéré comme
innocent sinon. On suppose que dans le cas d'un accusé réellement coupable chaque
juge votera la culpabilité (indépendamment des autres) avec probabilité 0,7; cette
probabilité n'est que 0,3 lorsque l'accusé est innocent.
a) Quelle est la probabilité qu'un accusé coupable soit jugé tel s'il y a 9 juges?
8 juges? 7 juges?
b) Qu'en est-il si l'accusé est innocent?
c) Dans un cas le procureur n'exerce pas son droit d'opposition. Par ailleurs l'avocat
de la défense est limité à 2 oppositions. Combien d'oppositions a-t-il intérêt à faire
s'il pense que son client a 60% de risques d'être coupable?
4.11.48 On sait que les disquettes produites par une certaine firme sont défectueuses
avec une probabilité de 0,01, indépendamment les unes des autres. La compagnie vend
les disquettes par lots de 10 et garantit contre remboursement qu'au plus 1 des 10
disquettes du lot est défectueuse. A l'achat de 3 lots, quelle est la probabilité qu'un
lot exactement doive être retourné?
4.11.49 On suppose que 10 % des puces produites par une usine de matériel d'ordina-
teurs sont défectueuses. Si l'on commande 100 puces, le nombre de puces défectueuses
suit-il une loi binomiale?
4.11.50 Supposer qu'on lance dix fois une pièce biaisée qui tombe sur face avec
probabilité p. Sachant qu'on a obtenu 6 faces, trouver la probabilité conditionnelle
que les 3 premiers tirages soient
a) F, P, P (signifiant que le premier tirage est face et que les deux autres sont pile);
b) P, F, P.
4.11.51 L'espérance du nombre d'erreurs typographiques sur une page d'un certain
magazine est .2. Quelle est la probabilité que la prochaine page lue contienne a) 0,
b) 2 ou plus d'erreurs typographiques? Expliquer votre raisonnement!
4.11.52 Le nombre moyen d'accidents d'avions commerciaux par mois dans le

monde est 3.5. Quelle est la probabilité qu'il y ait
a) au moins 2 accidents le mois prochain;
b) au plus 1 accident le mois prochain?
Expliquer votre raisonnement!
4.11.53 On a célébré environ 80 000 mariages l'an dernier dans l'état de New-York.
Estimer la probabilité que pour au moins un de ces couples
a) les deux époux soient nés le 30 avril;
b) les deux époux célèbrent leurs anniversaires le même jour de l'année.
Poser vos hypothèses.
4.11.54 Supposer que le nombre moyen de voitures abandonnées chaque semaine sur
une certaine autoroute est 2.2. Calculer la probabilité qu'il y ait
a) aucune voiture abandonnée la semaine prochaine;
b) au moins 2 voitures abandonnées la semaine prochaine.
4.11.55 Une agence de dactylographie emploie 2 dactylos. Le nombre d'erreurs par

article est 3 pour le premier dactylo et 4.2 pour le second. Si un article a autant de
chance d'être tapé par l'un ou l'autre dactylo, quelle est la probabilité qu'il ne
contienne pas d'erreur?
4.11.56 Combien de personnes faut-il pour que la probabilité qu'au moins une d'entre
elles soit née le même jour que vous soit supérieure à 1 / 2?
4.11.57 On admet que le nombre d'accidents survenant sur une autoroute quotidien-
nement est une variable aléatoire de Poisson de paramètre X = 3.
a) Quelle est la probabilité qu'il survienne 3 accidents ou plus lors d'un jour donné?
b) Même question si l'on sait qu'un accident au moins a eu lieu.
4.11.58 Comparer l'approximation poissonnienne aux probabilités exactes données

par la loi binomiale dans les cas suivants:
a) P{X = 2} lorsque n= 8,p = 0,l;
b) P{X = 9} lorsque n = 10, p = 0,95;
c) P{X = 0} lorsque n= 10, p = 0,1;
d) P{X = 4} lorsque n = 9, p = 0,2.
4.11.59 Vous participez à 50 tirages consécutifs d'une loterie. A chaque tirage la

probabilité que vous gagniez un prix est1/100.Quelle est la probabilité (approximative)
que vous gagniez un prix
a) au moins une fois;
b) exactement une fois;
c) au moins deux fois?
4.11.60 Le nombre de rhumes attrapés par un individu en l'espace d'un an est une
variable aléatoire de Poisson de paramètre X = 5. Admettons qu'un remède miracle
(basé sur l'effet de vitamine C à haute dose) ait été lancé sur le marché et qu'il abaisse
le paramètre X à 3 pour 75% de la population. Pour les 25 derniers pourcents de la
population le remède n'a pas d'effet appréciable. Un individu essaie ce médicament
pendant un an et attrape deux rhumes. Quelle est la probabilité que le remède ait un
effet sur lui?
4.11.61 Au poker, la probabilité de se voir distribuer une main pleine est approximati-
vement 0,0014. Calculer une approximation de la probabilité d'obtenir au moins deux
mains pleines sur 1 000 donnes.
4.11.62 Si l'on place n couples mariés autour d'une table, calculer la probabilité
approximative qu'aucune femme ne se trouve à côté de son mari. Lorsque n = 10
comparer le résultat avec la valeur exacte donnée dans l'exemple 2.14 du chapitre 2.
4.11.63 Les gens entrent dans un casino au rythme d'une personne toutes les deux
minutes.
a) Quelle est la probabilité qu'il n'entre personne entre 12 h et 12 h 05?
b) Quelle est la probabilité que 4 personnes au moins se présentent durant cette même
période?
4.11.64 Le taux de suicide pour un pays donné est de 1 personne pour 100000
habitants et par mois.
a) Quelle est la probabilité qu'il y ait 8 suicides ou plus en un mois dans une ville de
400 000 âmes?
b) Quelle est la probabilité qu'au cours d'une année le nombre de suicides mensuels
dépasse deux fois ou plus le niveau de 8?
c) Le mois en cours étant appelé mois 1, quelle est la probabilité que le premier mois
où l'on enregistre 8 suicides ou plus soit le mois /, / > 1?
Quelles hypothèses faites-vous?
4.11.65 Chacun des soldats d'une troupe de 500 hommes est porteur d'une certaine
maladie avec probabilité1/1000.Cette maladie est détectable à l'aide d'un test sanguin
et, pour faciliter les choses, on ne teste qu'un mélange du sang de chacun des 500 sol-
dats.
a) Quelle est la probabilité (approximative) que le test soit positif, indiquant par là
qu'au moins une des personnes est malade?
On suppose par la suite que le test a été positif.
b) Quelle est la probabilité que dans ce cas plus d'une personne soit malade?
c) L'une de ces 500 personnes s'appelle Jones, et Jones sait qu'il est porteur de la
maladie. Quelle doit être, de son point de vue, la probabilité qu'une autre personne
au moins soit porteuse de la maladie?
d) Le test étant positif, il est décidé que des tests individuels seront menés. Les / — 1
premiers de ces tests sont négatifs. Le i-ème est positif- c'est celui de Jones. Quelle
est la probabilité qu'une des personnes restantes au moins soit encore malade, en
fonction dei?
4.11.66 On considère une roue de roulette comprenant 38 cases numérotées 0, 00 et

de 1 à 36. Smith parie régulièrement sur la sortie des numéros 1 à 12. a) Quelle est la
probabilité qu'il perde ses 5 premiers paris? b) Quelle est la probabilité que son premier
gain survienne lors du quatrième tirage?
4.11.67 Deux équipes de sportifs disputent une série de matchs. La première équipe à
enregistrer 4 victoires est déclarée gagnante de la série. On admet que l'une d'elles est
plus forte que l'autre et remporte un match avec probabilité 0,6, indépendamment de
l'issue des autres parties. Trouver la probabilité que cette équipe remporte la série en
/jeux exactement. Calculer ce résultat pour i = 4, 5, 6, 7. Comparer ces résultats avec
celui obtenu sous l'hypothèse que l'équipe gagnante est la première à enregistrer
2 victoires seulement.
4.11.68 Supposer dans le problème 4.11.67 que les deux équipes sont de force égale
et que chacune a une probabilité 1 / 2 de gagner chaque match. Trouver l'espérance du
nombre de matchs joués.
4.11.69 Un journaliste se voit remettre une liste de personnes à interviewer. Il doit

interroger 5 personnes au moins. Les interviewés potentiels n'acceptent de parler
qu'avec une probabilité de |, indépendamment les uns des autres. Quelle est la
probabilité qu'il puisse réaliser ses 5 entretiens si la liste compte
a) 5 noms?
b) 8 noms?
Dans ce dernier cas quelle est la probabilité qu'il puisse parler à
c) 6 personnes exactement?
d) 7 exactement?
4.11.70 On jette une pièce de monnaie jusqu'à obtenir pile pour la deuxième fois. La
variable X compte le nombre d'apparitions de face. Quelle est la loi de XI
4.11.71 Résoudre le problème des allumettes de Banach (exemple 4.34) lorsque la

boîte de gauche contient initialement N1 allumettes contre N2 pour la boîte de droite.
4.11.72 Dans le problème des boîtes d'allumettes de Banach, trouver la probabilité que
lorsque la première boîte est vidée (plutôt que trouvée vide), l'autre boîte contienne
exactement k allumettes.
4.11.73 Une urne contient 4 boules blanches et 4 noires. On tire 4 boules au hasard.
Si deux sont blanches et deux sont noires on s'arrête. Sinon on remet les boules dans
l'urne et recommence le tirage, jusqu'à obtenir deux blanches et deux noires. Quelle
est la probabilité qu'il faille exactement n tirages avant de s'arrêter?
4.11.74 Dans le problème 4.11.67, trouver la probabilité conditionnelle que l'équipe

la plus forte
a) gagne la compétition sachant qu'elle a gagné le premier match;
b) gagne le premier match sachant qu'elle a gagné la compétition.
4.11.75 Keno est le nom d'un jeu populaire dans les maisons de jeux du Nevada. On
y joue comme suit: la banque choisit au hasard 20 nombres parmi l'ensemble des
nombres compris entre 1 et 80. Un joueur peut choisir entre 1 et 15 de ces 80 nombres.
Un gain survient lorsqu'une certaine fraction des nombres du joueur correspond à
certains de ceux choisis par la banque. Le montant du gain dépend du nombre
d'éléments dans le jeu du joueur et du nombre de correspondances. Par exemple, si
le joueur ne prend qu'un nombre il gagnera si ce nombre est dans le lot des 20 nombres
de la banque; le rapport sera dans ce cas 2,2 : 1, soit 2,20 dollars par dollar de mise.
(Comme la probabilité de gagner dans cette situation est |, le rapport juste serait
3 : 1 ) . Lorsqu'un joueur prend deux nombres, le rapport est 12 : 1 dans le cas où
les deux nombres sont gagnants.
a) Quel serait le juste rapport dans ce dernier cas?
On note par Pnk la probabilité que k exactement des n nombres pris par le joueur
soient gagnants.
b) Calculer Pnk.
c) La mise la plus courante au Keno consiste à prendre 10 nombres. Le tableau 4.7
indique les rapports payés par la banque. Construire la dernière colonne de ce
tableau.
Nombre de Rapport brut par Rapport équitable

concordances dollar de mise
0-4 -1
5 1
6 17
7 179
8 1,299
9 2,599
10 24,999
Tableau 4.8 Rapports au Keno pour des prises de 10 nombres
4.11.76 On considère la situation présentée dans l'exemple 4.38. Quel pourcentage de

lots à i composantes défectueuses sera-t-il rejeté par l'acheteur? Calculer le résultat
pouri' = 1,...,4. Si un lot est rejeté, quelle est la probabilité qu'il contienne 4 compo-
sants défectueux?
4.11.77 Un industriel achète les transistors par lots de 20. Sa stratégie consiste à tester
seulement 4 transistors par lot, pris au hasard, et à n'accepter le lot que si tous sont
en bon état. Si la probabilité pour un transistor isolé d'être malformé est 0,1, ceci
indépendamment de l'état des autres transistors, quelle proportion des lots sera
refusée par l'industriel?
Calcul de la fonction de répartition binomiale (voir section 4.7.6)
10 PRINT"THE DISTRIBUTION FUNCTION OF A BINOMIAL(n,p) RANDOM VARIABLE"

20 PRINT "ENTER n"
30 INPUT N
40 PRINT "ENTER p"
50 INPUT P
60 PRINT "ENTER i"
70 INPUT I
80 S=(1-P)AN
90 IF S=0 GOTO 180
100 A=P/(1-P)
110 T=S
120 IF 1=0 GOTO 390
130 FOR K=0 TO 1-1
140 S=S*A*(N-K)/(K+1)
150 T=T+S
160 NEXT K
170 GOTO 390
180 J=I
190 IF J>N*P THEN J=INT(N*P)
200 FOR K=l TO J
210 L=L+LOG(N+l-K)-LOG(J+l-K)
220 NEXT K
230 L=L+J*LOG(P)+(N-J)*L0G(l-P)
240 L=EXP(L)
250 B=(l-P)/P
260 F=l
270 FOR K=l TO J
280 F=F*B*(J + 1-K)/(N-J+K)
290 T=T+F
300 NEXT K
310 IF J=I GOTO 380
320 C=l/B
330 F=l
340 FOR K=l TO I-J
350 F=F*C*(N+1-J-K)/(J+K)
360 T=T+F
370 NEXT K
380 T=(T+1)*L
390 PRINT
Calcul de la "THE PROBABILITY
fonction de Poisson (voir section 4.8.10)
IS";T
de répartition
400 END
10 PRINT "THE PROBABILITY THAT A POISSON VARIABLE IS LESS THAN OR EQUAL TO i"
20 PRINT "ENTER THE MEAN OF THE RANDOM VARIABLE"
30 INPUT C
40 PRINT "ENTER THE DESIRED VALUE OF i"
50 INPUT I
60 S=EXP(-C)
70 IF S=0 GOTO 150
80 T=S
90 IF 1=0 GOTO 340
100 FOR K=0 TO 1-1
110 S=S*C/(K+1)
120 T=T+S
130 NEXT K
140 GOTO 340
150 J=I
160 IF J>C THEN J=INT(C)
170 FOR K=l TO J
180 FAC=FAC+LOG(K)
190 NEXT K
200 L=-C-FAC+J*LOG(C)
210 L=EXP(L)
220 F-l
230 FOR K=l TO J
240 F«F*(J+1-K)/C
250 T=T+F
260 NEXT K
270 IF J=I GOTO 330
280 F»l
290 FOR K=l TO I-J
300 F=F*C/(K+J)
310 T=T+F
320 NEXT K
330 T=(T+1)*L
340 PRINT "THE PROBABILITY IS";T
350 END
CHAPITRE 5
Variables aléatoires continues
5.1 INTRODUCTION
5.1.1 Définitions
Dans le chapitre 4 nous avons traité des variables aléatoires discrètes, c'est-à-dire
de variables dont l'ensemble des états est fini ou infini dénombrable. Il existe
cependant des variables dont l'ensemble des états possibles est infini non dé-
nombrable. On peut citer par exemple l'heure d'arrivée d'un train à une gare donnée
ou encore la durée de vie d'un transistor. Désignons par X une telle variable. On
qualifiera X de variable aléatoire continue1 s'il existe une fonction f non négative
définie pour tout x e R et vérifiant pour tout ensemble B de nombres réels la propriété:
P{XeB}= I f(x)dx (5.1)

JB
La fonction / est appelée densité de probabilité de la variable aléatoire X.

En d'autres termes, (5.1) signifie que la probabilité que X prenne une valeur de
B peut être obtenue en intégrant la densité de probabilité sur B. Du fait que X doit
bien prendre une valeur, il résulte la contrainte suivante pour/:
l = P { X e (-00,00)} = f(x)dx
Tous les problèmes de probabilité relatifs à X peuvent être traités grâce à / Par
exemple pour B = [a, b] on obtient grâce à (5.1):
On dit parfois absolument continue.

P{a < X < b} = f(x) dx (5.2)

Ja
Si l'on pose a = b dans (5.2), il résulte
P{X = a} = f(X) dx = 0
Ceci signifie en clair que la probabilité qu'une variable aléatoire continue prenne une
valeur isolée fixe est toujours nulle. Aussi peut-on écrire pour une telle variable
P{X < a} = P{X =s a} = F(a) = [ f(x) dx
5.1.2 Exemples de variables aléatoires continues
Exemple 5.1 Supposons que X soit une variable aléatoire continue dont la densité est
f C(4x - 2x2) 0< x <2

l 0 sinon
a) Quelle est la valeur de Cl b) Que vaut P{X> 1}?
SOLUTION, a) Du fait que/est une densité, elle vérifie la relation \+_^f(x)dx= l,ce
qui entraîne à son tour que
C
i (4x - 2xz) dx = 1
P{X > 1} = J ( f(x) dx = I 3/8 (4* - 2x2) dx = 1/2
Exemple 5.2 La durée de fonctionnement d'un ordinateur avant sa première panne

est une variable aléatoire continue de densité donnée par
/(X) =
10 x<0
Variables aléatoires continues 185
a) Quelle est la probabilité que cette durée de fonctionnement soit comprise entre 50
et 150 heures? b) Quelle est la probabilité que l'ordinateur fonctionne moins de 100
heures?
SOLUTION, a) Comme
-A/lOO
dx
on obtient
1 = - À ( 1 0 0 ) e -x/100 = 100A ou À =
100
Ainsi la probabilité que la durée de fonctionnement de l'ordinateur soit comprise
entre 50 et 150 heures est donnée par
•150
P{50 < X < 150} =1/100- ^ e-x/10° dx = -e-xno°
50
.383
b) De la même manière
P{X < 100}
En d'autres termes, l'ordinateur tombera en panne avant sa 100-ième heure de service

63,3 fois sur 100 en moyenne. •
Exemple 5.3 La durée de vie d'un certain type de diode de radio est une variable
aléatoire de densité donnée par
0 x<100
/(•OHlOO
x > 100
Quelle est la probabilité qu'exactement 2 des 5 diodes de ce type doivent être rempla-
cées lors des 150 premières heures de service de la radio? On admettra que les
événements E;. «la /'-ème diode doit être remplacée avant la 150-ième heure de
service», /' = 1, 2, 3, 4, 5, sont indépendants.
SOLUTION. On a
L'indépendance des Ei permet alors d'écrire la probabilité cherchée
5.1.3 Fonction de répartition d'une variable aléatoire continue
La relation entre la fonction de répartition F et la densité/d'une variable aléatoire

continue X est donnée par
F(a) = P{X 6 (-oo, a]} = f(x) dx
La dérivation des deux membres dans l'équation ci-dessus livre
Autrement dit, la densité d'une variable aléatoire continue est la dérivée de la fonction
de répartition.
5.1.4 Interprétation intuitive de la densité
On peut dériver de (5.2) une interprétation plus intuitive de la notion de densité.

En effet,
p | a - ^ < X < a + | } = J" ' /(*) dx « ef(a)
lorsque e est petit et s i / ( ) est continue en x = a. En d'autres termes, la probabilité

que X prenne une valeur dans un intervalle de longueur e centré en a est approximati-
vement sf(a). On en conclut que f{a) est une sorte de mesure de la probabilité que
X soit proche de a.
5.2 ESPÉRANCE ETVARIANCE DE VARIABLES ALÉATOIRES CONTINUES
5.2.1 Définition de l'espérance d'une variable aléatoire continue
Dans le chapitre 4, nous avons défini l'espérance d'une variable aléatoire discrète
Xpar
Ê[x] = ïxP{x = x}
X
Si X est une variable aléatoire continue ayant pour densité ./(je), alors comrhe
f(x)dx « P{x < X < x + dx} pour dx petit
il est facile de voir que la définition analogue de l'espérance de X est
E[x] = ]xf[x)dx
—oo
5.2.2 Exemples d'espérance de variables continues
Exemple 5.4 Trouver E[X] lorsque la densité de X est

r
2x si 0 < * < 1
f
^ 10 sinon
SOLUTION.
Exemple 5.5 La densité de X est donnée par
1 si 0 < x £ l
f
^ 10 sinon
Trouver fl e I.
y
SOLUTION.
SOLUTION.
Soit
Soit yY = e . Commençons par déterminer la fonction de distribution Fy de
F. Pour 1 < x < e.
FY(x) = P{Y<x}
= p{eX<x}
= />{x<log(*)}
log(*)
= lf(y)dy
0
= log(x)
En dérivant Fy(x), on obtient la densité de Y:

Donc
E[eX] = E[Y]=]xfY(x)dx
= ]dx
= e-l
5.2.3 Espérance d'une fonction d'une variable aléatoire continue
Bien que la méthode employée dans l'exemple 5.5 pour calculer l'espérance d'une
fonction de X soit toujours applicable, il existe, comme dans le cas discret, une autre
façon de procéder. Le théorème suivant est une analogie directe du théorème 4.1 du
chapitre 4.
Théorème 5.1
Si X est une variable aléatoire continue de densité f(x), alors pour toute fonction
réelle g on aura
4g{x)] = jg(x)f(x)dx
Une application du théorème 5.1 à l'exemple 5.5 donne
Ele = Je*dx comme/(x) = 1, 0 < x < 1

o
= e-l
ce qui correspond au résultat de l'exemple.

La preuve du théorème 5.1 est plus compliquée que dans le cas discret et nous en
présenterons une sous la condition que la variable aléatoire g(X) est non négative.
(Des indices pour la preuve générale sont donnés dans les exercices théoriques 5.8.2
et 5.8.3.) Pour la démonstration, nous aurons besoin du théorème suivant.
Théorème 5.2
Pour une variable aléatoire Y non négative,
E[Y] = ]p{Y>y}dy
o
DÉMONSTRATION. Nous présentons ici une preuve pour le cas où Y est une variable
aléatoire continue de densité/y. On a
]p{Y>y}dy = T\fy{x)dxdy
0 0v
où nous avons utilisé le fait que P{Y > y} = j fY(x)dx. En changeant l'ordre
d'intégration dans l'équation précédente, on a
DÉMONSTRATION DU THÉORÈME 5.1. Pour toute fonction g telle que g(x) > 0, on a d'après
le théorème 5.2 que
4g(x)] = ]p{g(x)>y}dy
ce qui termine la démonstration.
5.2.4 Exemple d'espérance d'une fonction d'une variable aléatoire continue
Exemple 5.6 Supposer que si vous arrivez s minutes en avance à un rendez-vous,

vous devez payer es, et que si vous arrivez s minutes en retard, vous devez payer ks.
Supposer que le temps de trajet du lieu où vous êtes au lieu de rendez-vous est une
variable aléatoire continue de fonction de densitéf.Déterminer le temps auquel vous
devez partir pour minimiser l'espérance de votre coût.
SOLUTION. Soit X le temps de trajet. Si vous partez t minutes avant votre rendez-vous,
alors votre coûtC,(x) est donné par
[c(t-X) si X<t
' [Jt(X-f) si X>t
Par conséquent,
= ct\f{x)dx - c\xf(x)dx + k]xf(x)dx - kt\f(x)dx

0 0 r t
La valeur de t qui minimise Zs[c,(x)] peut être obtenue par calcul. On obtient en
dérivant
4 E[C, (X)] = ctf (t) + cF(t) - ctf(t) - ktf{t) + ktf(t) - k[l - F(t)]
dt
= (k + c)F(t) - k
En égalant ceci à zéro, on voit que l'espérance minimale du coût est obtenue en
partant t* minutes avant le rendez-vous, où t* satisfait
k +c
5.2.5 Linéarité de l'espérance
Comme dans le chapitre 4, nous pouvons utiliser le théorème 5.1 pour montrer le
théorème suivant.
Théorème 5.3
Pour toute paire a,bde constantes, on a
E[aX + b} = aE[x] + b
La démonstration du théorème 5.3 pour une variable aléatoire continue X est la

même que celle donnée pour une variable aléatoire discrète. La seule modification est
le remplacement de la somme par une intégrale et de la fonction de répartition par la
densité.
5.2.6 Définition de la variance d'une variable aléatoire continue
La variance d'une variable aléatoire continue est définie exactement comme celle
d'une variable discrète. C'est à dire que si X est une variable aléatoire d'espérance |J.,
la variance de X est définie (pour tous les types de variables aléatoires) par
Var(X) = £[(X-^) 2 ]
L'autre formule
Var(X) = £[X2]-(£[X]) 2
est établie de la même manière que dans le cas discret.
5.2.7 Exemple de variance d'une variable aléatoire continue
Exemple 5.7 Trouver Var(X) pour X donnée dans l'exemple 5.4.
SOLUTION. Calculons d'abord EIX2].
E[x2]=]x2f(x)dx
= \2xidx
0
_ 1_
2
Donc, puisque £ f x ] = — , on obtient

3
On peut montrer, par une preuve imitant celle donnée pour les variables aléatoires
discrètes, que pour les constantes a et b
Var(aX + è) = a2Var(X)
En théorie des probabilités, il existe plusieurs classes importantes de variables

aléatoires continues. Les sections suivantes sont consacrées à l'étude de quelques-
unes de ces classes.
5.3 VARIABLE ALEATOIRE UNIFORME
5.3.1 Variable uniforme sur (0, 1)
Une variable aléatoire est dite uniformément distribuée sur l'intervalle (0, 1 ) si sa
densité est
,. , fl 0<x<l
/(X) =
l0 sinon <5.3>
On vérifie que (5.3) correspond bien à une densité puisque f(x) ^ 0 et

$+lc f(x) dx — j" 0 c/x = 1. Comme/(x) > 0 seulement lorsque x e (0, 1), on en déduit
que X ne prend des valeurs que dans cet intervalle. De plus, X a autant de chances
d'être près de n'importe quelle valeur de (0, 1) plutôt que de n'importe quelle autre
puisque/(x) est constante sur cet intervalle. On le vérifie en prenant deux nombres
a et h quelconques tels que 0 < a < b < 1 ; alors,
P{a < X < b) =

•r Ja
J a
f(x) dx = b-a
En d'autres termes, la probabilité que X prenne une valeur dans un sous-intervalle

de (0, 1) est égale à la longueur de ce sous-intervalle.
5.3.2 Variable uniforme quelconque
En généralisant, une variable aléatoire est uniforme sur l'intervalle (a, P) si sa

densité est
1
si a < x < /3
(5.4)
sinon
5.3.3 Fonction de répartition de variable aléatoire uniforme
A partir de F(a) = J" /(x) dx et de (5.4) on obtient la fonction de répartition

d'une variable aléatoire uniforme sur l'intervalle (a, P):
F{a) =
13- a
u
La figure 5.1 représente les graphes d e / e t F dans le cas général.
Ha)
Figure 5.1 Graphes de / (à gauche) et F (à droite) pour une variable aléatoire

uniforme sur (a, P).
5.314 Exemples de variables aléatoires uniformes

Exemple 5.8 Soit X uniformément distribuée sur (a, p). Trouver
a) E[X\;
b) Var(X).
SOLUTION a)
E{x]=°jxf(x)dx
En d'autres termes, l'espérance d'une variable aléatoire uniformément distribuée sur

un intervalle est égale au milieu de l'intervalle.
b) Pour trouver Var(X), calculons d'abord £jX I.
Donc
, v p2+ap + a2 (a + pf
l L
Var(x) = -i --
3 4
= {P-af_
12
Par conséquent, la variance d'une variable aléatoire uniformément distribuée sur un
intervalle est le carré de la longueur de l'intervalle divisé par 12. •
Exemple 5.9 Soit X une variable uniforme sur (0, 10). Calculer les probabilités
suivantes: a) P{X< 3}, b) P{X> 6}, c) P{3 <X<&}.
SOLUTION.
3
a) P{X < 3} = I1/10dx = 3
Jo
rio
b) P{X > 6} = I à <fc = T104
c) P{3 < X < 8} = xôdx = \
Exemple 5.10 A partir de 7 heures, les bus passent toutes les 15 minutes à un arrêt
donné. Ils passent donc à 7 h 00, 7 h 15, 7 h 30 et ainsi de suite. Un usager se présente
entre 7 h 00 et 7 h 30 à cet arrêt, l'heure exacte de son arrivée étant une variable
uniforme sur cette période, a) Trouver la probabilité qu'il doive attendre moins de 5
minutes, b) puis plus de 10 minutes.
SOLUTION, a) Désignons par X le nombre de minutes s'écoulant à partir de 7 h 00 jus-

qu'à l'arrivée de l'usager. X est une variable uniforme sur (0, 30), d'une part. D'autre
part, l'attente n'est inférieure à 5 minutes que si l'usager arrive entre 7 h 10 et 7 h 15
ou entre 7 h 25 et 7 h 30. La probabilité d'attendre moins de 5 minutes est ainsi
flS f30
P{10<X<15} + P{25<X<30} = Todx+\ àdx=j
JlO J25
b) De même, il n'attendra plus de 10 minutes que s'il arrive entre 7 h 00 et 7 h 05 ou

entre 7 h 15 et 7 h 20, ce qui livre la probabilité de cet événement:
P{0<X<5} + P{15<X<20}=1/3 •
L'exemple suivant fut étudié pour la première fois par le mathématicien français
L.F. Bertrand en 1889. Il est souvent appelé paradoxe de Bertrand. Il servira d'intro-
duction à la notion de probabilité géométrique.
Exemple 5.11 Choisissons au hasard une corde dans un cercle. Quelle est la probabi-
lité que la longueur de cette corde dépasse le côté du triangle équilatéral inscrit dans
le même cercle?
SOLUTION. Le problème tel qu'énoncé ne peut être résolu car l'expression «choisir une
corde au hasard» n'est pas claire. Pour qu'elle le devienne il faut reformuler le
problème, ce que nous ferons de deux manières différentes.
Voici la première: ce n'est pas la corde, mais la distance de la corde au centre du
cercle de rayon r qui est choisie au hasard. Si cette distance est inférieure à r/2, la corde
sera d'une longueur supérieure à celle du côté du triangle équilatéral inscrit dans le
cercle. Admettons maintenant que D, la distance de la corde au centre, soit une
variable uniformément distribuée entre 0 et r. La probabilité cherchée est
'Hl-f-i
Dans la seconde formulation du problème, c'est l'angle 9 entre la corde et la

tangente à l'une de ses extrémités qui est choisi au hasard, 9 variant de 0 à 180° (voir
figure 5.2). Dans ce cas, la longueur de la corde sera supérieure au côté du triangle
équilatéral inscrit si l'angle 9 est compris entre 60° et 120°. Si l'on admet que cet angle
est une variable uniforme entre 0° et 180°, la réponse correspondant à cette formula-
tion est
1
180 3
Figure 5.2
On remarquera qu'il est possible de construire des expériences aléatoires pour

lesquelles les probabilités résultantes sont alternativement1/2et1/3.Pour la première
formulation par exemple, l'expérience consisterait à lancer au hasard un disque de
rayon r sur une table portant des droites parallèles distantes de 2r les unes des autres.
Il y aura dans ce cas nécessairement une et une seule droite en intersection avec le
disque, ce qui définira une corde. Toutes les distances de cette corde au centre du
disque ont la même probabilité d'apparaître, ainsi la probabilité cherchée sera-t-elle
Y D'autre part, l'expérience peut consister à faire tourner au hasard une aiguille à
partir d'un point A du cercle (voir figure 5.2). Dans ce cas la réponse est i. •
5.4 VARIABLES ALEATOIRES NORMALES
5.4.1 Définition
Une variable aléatoire X est dite normale - ou parfois distribuée normalement -

avec paramètres u et a 2 si la densité de X est donnée par
2
f(x) = JL e-<*-M) /2«^ -oo < x < CXD
V27TO-
Le graphe de cette densité est une courbe en forme de cloche avec un axe de symétrie
vertical en u (voir figure 5.3).
La distribution normale fut introduite par le mathématicien français De Moivre
en 1733; celui-ci l'utilisa pour approximer les probabilités associées à toute variable
aléatoire binomiale, pourvu que le paramètre « de celle-ci soit assez grand. Ce résultat
399
Figure 5.3 Densité de variable normale

(a) avec u = 0, a = 1
(b) u etCT2quelconques
fut ensuite progressivement généralisé par Laplace et d'autres pour devenir le théo-
rème actuellement connu sous le nom de théorème central limite, qui sera discuté au
chapitre 8. Ce théorème, l'un des deux résultats les plus importants de la théorie des
probabilités ', sert de base théorique pour expliquer un fait empirique souvent relevé,
à savoir qu'en pratique de très nombreux phénomènes aléatoires suivent approximati-
vement une distribution normale. On peut citer à titre d'exemple de variables qui
illustrent ce comportement la taille d'un individu choisi au hasard, la vitesse en norme
d'une molécule de gaz ou encore l'erreur lors de la mesure d'une quantité physique.
5.4.2 Validation de la définition
Il faut, en fait, prouver que / est bien une densité de probabilité, c'est-à-dire
montrer que
72
En effectuant le changement de variable y = (x — u )/o, on obtient
"*2/2 dy
721
1 L'autre étant la loi forte des grands nombres.

et il reste donc à montrer que
Pour ce faire, posons
I=rê~^dy.
On aura
En passant à un système de coordonnées polaires, on peut évaluer cette intégrale

double. Il suffit de poser x = r cos 8, y = r sin 0, dy dx = r d% dr. Dès lors,
= —27TC
= 2TT
Ceci établit bien que / vaut v27u, et le résultat annoncé est ainsi démontré.
5.4.3 Espérance et variance d'une variable aléatoire normale
Nous allons montrer à présent que les paramètres \i et a 2 d'une variable aléatoire
normale représentent respectivement son espérance et sa variance.
Exemple 5.12 Si X est une variable aléatoire normale de paramètres <l et a 2 , trouver
a)£[X];
b) Var(X).
SOLUTION, a) , „ 2/
E{x] = -r^fxe'{x-,lU2a dx
•42na —
En écrivant A: comme Qt - n) + |J., on a
En posant y = x - \i dans la première intégrale, on obtient
1
I2na — -~
où f(x) est la densité normale. Par symétrie, la première intégrale est nulle, d'où
E[x] = n°jj{x)dx = »
b) Puisque E[X] = u., on a
Var(X) = £[(X-/<)2]
(5.5)
dx
En substituant y = (x- n)/o dans l'équation (5.5), on obtient
en intégrant par parties
= CT
5AA Propriété des variables aléatoires normales
Une propriété importante de la famille des variables normales est que si X est
normalement distribuée avec paramètres |i et a2, alors Y = aA' + p est normalement
distribuée avec paramètres au + P et a2a2. Ceci résulte du fait que FY ', la fonction
de répartition de la variable Y, est donnée par (lorsque a > 0):
Fy(a) = P { y < a }
= P{aX + /3 < a}
La fonction de répartition de Z sera notée F dès qu'il y aura plus d'une variable aléatoire
en considération. De même, la densité de Z sera notée fz.
lira
où l'équation (5.6) est obtenue grâce au changement de variables y = a.x + p\ Mais

comme Fz (a) = J _ /zOO dy, il résulte de (5.6) que/y, la densité de F, est donnée par
V277-ao- 2(«<r)
La variable aléatoire Y est donc bien distribuée normalement avec paramètres

au + P et (aa) 2 .
5.4.5 Variable normale centrée réduite
La conséquence importante du résultat précédent est que si X est une variable

normalement distribuée et de paramètres u et a2, la variable Z = (X — u)/o est
normalement distribuée de paramètres 0 et 1. Une variable normale ayant ces deux
paramètres est dite standard ou centrée réduite.
L'usage s'est établi de noter la fonction de répartition d'une variable normale
centrée réduite par le symbole O. En clair,
V27T J.»
Les valeurs <t>(x) pour des arguments x non négatifs sont données dans le tableau 5.4.
Pour les arguments x négatifs, on calcule O(x) grâce à l'équation
4>(-JC) = 1 - <$>(x) -oo < x < oo (5.7)
La démonstration de (5.7) est laissée en exercice. Elle résulte de la symétrie de la den-

sité normale standard. Grâce à (5.7) on peut encore écrire, pour une variable normale
Z centrée réduite:
P{Z < -x} = P{Z > x} -oo < x < oo

Tableau 5.4 Aire O(x) située sous la densité normale standard à gauche de x
.00 .01 .02 .03 .04 .05 .06 .07 .08 .09
.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 8413 .8438 .8461 .8485 .8508 .8531 .8554 .8557 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7' .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
Si l'on considère maintenant une variable normale X de paramètres u et a2 quel-

conques, la variable Z = (X — U)/CT sera normale centrée réduite. Par conséquent,
on peut exprimer la fonction de répartition de X de la manière suivante:
Fx(a) = P{Xâ}
5.4.6 Exemples d'application de variables normales
Exemple 5.13 Soit X une variable aléatoire de paramètres \i = 3 et a2 = 9. Calculer

a) P{2 < X < 5},
b) P{X > 0},
c) P{\X - 3| > 6}.
SOLUTION.
a)
b) P{X>0} = P i — — > — — f = P{Z>-1}
= l-*(-l)
= *(D
= .8413
c) P{\X - 3| > 6} = P{X > 9} + P{X < - 3 }

Exemple 5.14 II est courant d'admettre qu'un examen est bien construit (dans le sens
où il permet de construire une fourchette serrée et fiable pour la note d'un candidat)
si la répartition des scores obtenus par les participants se rapproche de la densité d'une
variable normale. En d'autres mots, cette répartition devrait affecter la forme en
cloche des densités normales. L'enseignant utilise alors les scores pour évaluer les
paramètres u et a 2 puis assigne souvent des notes selon le principe que voici: ceux dont
le score est supérieur à u + a reçoivent la note A; ceux dont le score est compris entre
u et u + a reçoivent B; ceux dont le score est entre u - a et u reçoivent C, tandis que
ceux qui tombent entre u - 2a et |x - a reçoivent D. En dessous de u - 2a la note est
F. Il s'agit d'une espèce d'évaluation «à échelle mobile» basée sur des divisions fixes
de la courbe de répartition. On aura:
P{X > fi + a} = p j ^ — - ^ > 11 = 1 - $(1) « .1587
P{/* < X (0) = .3413
Il en résulte que 16% des candidats recevront la note A, 34% recevront B, autant
auront C, 14% recevant D et 2% F. •
Exemple 5.15 Lors d'un procès en attribution de paternité, un expert témoigne que la
durée de la grossesse, en jours, c'est-à-dire le laps de temps entre la conception et la
naissance de l'enfant, est de distribution approximativement normale avec paramètres
u = 270 et a 2 = 100. L'un des pères putatifs est en mesure de prouver son absence
du pays pendant une période s'étendant entre le 290-ième et le 240-ième jour précé-
dant l'accouchement. Quelle est la probabilité que la conception de l'enfant ait eu lieu
plus de 290 jours avant sa naissance ou moins de 240 jours avant?
SOLUTION. Soit X la durée de la grossesse et admettons que le père putatif soit bien
le géniteur. La probabilité cherchée est alors
P{X > 290 ou X < 240} = P{X > 290} + P{X < 240}
fX-270
-{
Exemple 5.16 On désire envoyer un signal binaire - c'est-à-dire valant 0 ou 1 - par

câble électrique d'un point A à un point B. Cependant, la transmission est affectée
par des perturbations, dites bruit. Aussi émet-on un signal d'intensité 2 lorsqu'on veut
communiquer 1 et d'intensité -2 lorsqu'on veut indiquer 0. Si on désigne par x
(où x = + 2) la valeur émise en A et par R la valeur enregistrée en B, on aura
R = x + N où N représente l'erreur due au bruit du canal de transmission. Le
décodage du signal en B obéit à la règle suivante:
R > 0,5 est interprété comme signifiant 1
R < 0,5 est interprété comme signifiant 0.
Le bruit N du canal est souvent de distribution normale. On supposera ici que sa
répartition est normale centrée réduite.
Deux types d'erreurs peuvent survenir: un signal 1 peut être faussement compris
comme un 0, ou l'inverse. Le premier type d'erreur sera observé si le signal est 1 et
2 + N < 0,5. Le second le sera lorsque le signal est 0 et — 2 + N > 0,5. Ainsi,
P{erreur|le message est 1} = P{N < -1.5}

= 1-<D(1.5) =.0668
et
P{erreur|le message est 0} = P{N a 2.5}
= 1 - <D(2.5) « .0062
5A7 Approximation de <J>
L'inégalité suivante sur O(x) est de portée théorique:
-j== ( -) e-*1'2 0 (5.8)
V27r\x x3/ •Jlïr x
Pour démontrer (5.8), on partira de l'inégalité évidente:
(1 - 3y~4)e-y2/2 < e-y1'2 < (1 + y-2)e~y2/2
ce qui implique que
f" (1 - 3 y ~ V y V 2 dy < \°° e~y2'2 dy < f°° (1 + y " V y V 2 dy (5.9)
Or
-dy[ ( y - 1 - y - V y V 2 ] = - U - 3y~V y 2 / 2
-[y-V'1/2]«-(l + y-V,'a
dy
et ainsi, pour x > 0,

ou
ce qui établit (5.8).

Il résulte en plus de (5.8) la relation
x
pour de grandes valeurs de x [la notation a(x) ~ />(J<-) lorsque x est grand signifie
que lim a(x)lb(x) = 1].
5.4.8 Approximation normale d'une répartition binomiale
Le théorème présenté ci-dessous est connu sous le nom de théorème limite de

De Moivre-Laplace. De Moivre fut le premier à l'établir dans le cas particulier
p = I en 1733, tandis que Laplace a pu le généraliser pour toute valeur de p en 1812.
Ce théorème énonce que si «on standardise» une variable aléatoire binomiale de
paramètres n et p en soustrayant d'abord sa moyenne np puis en divisant le résultat
par son écart-type y np{\ - p), alors la variable aléatoire standardisée (de moyenne 0
et de variance 1) suivra approximativement, lorsque n est grand, une distribution
normale standard.
Théorème limite de De Moivre-Laplace

Soit S„ le nombre de succès lors de la réalisation de n épreuves indépendantes, la
probabilité de réussite pour chaque épreuve étant p. Alors, pour tout a < b on peut
écrire
'{• slnp{\ -p)
lorsque n -* oo .
Ce théorème ne constituant qu'un cas particulier du théorème central limite, lequel

sera présenté au chapitre 8, nous n'en donnerons pas de démonstration.
On remarquera qu'à ce stade deux approximations de la répartition binomiale ont
été proposées: l'approximation de Poisson, satisfaisante lorsque n est grand et lorsque
np n'est pas extrême; l'approximation normale, de laquelle on peut montrer qu'elle
est de bonne qualité lorsque np{\ -p) est grand (voir figure 5.5). [En règle générale,
cette approximation est tout à fait satisfaisante dès que np{\ -p) dépasse 10].
(10,0.7) (20,0.7)
0.30 0.20
0.25
0.15
0.20
0.15 0.10
0 10
0.05
0.05
0.0 0.0
10 0 10 15 20
(30,0.7)
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.0
10 15 20 25 30
Figure 5.5 La loi de probabilité d'une variable aléatoire binomiale (n, p) devient de
plus en plus «normale» à mesure que n augmente.
5.4.9 Exemples d'approximation normale de répartition binomiales
Exemple 5.17 Soit A'la variable aléatoire comptant le nombre d'occurrences de pile
lors d'une série de 40 jets. On veut calculer P{X = 20} par approximation normale
puis comparer le résultat à la valeur exacte.
SOLUTION. Comme X est une variable discrète tandis qu'une variable normale est
continue, la meilleure approximation de la probabilité cherchée sera
P{X = 20} = P{19.5 < X < 20.5}
10 10
Le résultat exact est
qui peut être évalué à 0,1254.

P{X = 20}
m
Exemple 5.18 La taille idéale pour une classe de première année dans un collège
donné est de 150 étudiants. La politique de ce collège est d'admettre 450 étudiants
et est basée sur la constatation expérimentale que 30% seulement des étudiants admis
suivront vraiment le cours. Quelle est la probabilité que le collège se retrouve avec
une première classe de plus de 150 étudiants lors d'une année donnée ?
SOLUTION. On désigne par X\e nombre d'étudiants qui suivent effectivement le cours.
Cette variable A*est donc binomiale de paramètres n — 450 et/? = 0,3. L'approxima-
tion normale livre
P{X * 150.5} = p f X - ( 4 5 ° ) ( - 3 ) , 150

- 5 - ( 4 5 0 X - 3 ) ) - 1 - *(1.59)
l >/450(.3)(.7) >/450(.3)(.7) J
» .0559
Ainsi, dans moins de 6% des cas seulement la première année aura un effectif
supérieur à l'optimum. (On remarque que ce calcul est basé sur une hypothèse
d'indépendance. Laquelle?). •
Exemple 5.19 On impose à 100 personnes un régime alimentaire thérapeutique pour

évaluer l'effet de ce régime sur la concentration en cholestérol du sang. Leur taux de
cholestérol est mesuré après une période suffisante d'application du régime. Le
spécialiste en nutrition qui réalise l'expérience a décidé de recommander ce régime si
65% au moins des sujets montrent une baisse du taux de cholestérol. Quelle est la
probabilité qu'il prenne une décision erronée et recommande le régime alors que
celui-ci est sans effet?
SOLUTION. Admettons que dans le cas où le régime est sans effet, une personne donnée
verra son taux de cholestérol baisser lors du régime sous le seul effet du hasard et avec
une probabilité de %. Désignons par X le nombre de personnes dont le taux s'est
abaissé. La probabilité de recommander un régime qui n'a en réalité pas d'effet du
tout est alors:
100
/100\/1\100
_ fX-(100)(i)
> 2.9
1 Vioo(M)
» 1 - <D(2.9)
= .0019
NOTES HISTORIQUES AU SUJET DE LA DISTRIBUTION NORMALE
La distribution normale a été introduite en 1733 par le mathématicien français

Abraham De Moivre, qui a utilisé cette distribution pour approximer les probabilités
du lancer d'une pièce et qui l'a appelée la courbe exponentielle en forme de cloche.
Son utilité n'est cependant apparue claire qu'en 1809, lorsque le fameux
mathématicien allemand K. F. Gauss l'a utilisée comme partie intégrante de son
approche pour prédire l'emplacement des entités atomiques. Il devint alors commun
d'appeler cette distribution la distribution Gaussienne.
Durant la deuxième partie du dix-neuvième siècle, de nombreux mathématiciens
crurent que la majorité des ensembles de données avait des histogrammes conformes à
la distribution Gaussienne en forme de cloche. En effet, on accepta qu'il était
«normal» que n'importe quel ensemble de données au bon comportement suive cette
courbe. Ainsi, suivant le statisticien britannique Karl Pearson, les gens commencèrent
à appeler la distribution Gaussienne la distribution normale. (Une explication partielle
du fait que tant d'ensembles de données sont conformes à la courbe normale est
donnée par le théorème central limite, présenté dans le chapitre 8.)
Abraham De Moivre (1667-1754)

Aujourd'hui, on ne manque pas de consultants en statistiques et la plupart d'entre
eux exercent leur métier dans des cadres très élégants. Cependant, le premier de leur
profession travaillait à Long Acres, à Londres, durant les premières années du dix-
huitième siècle, dans une maison de jeux sombre et sale connue sous le nom de
Slaughter's Coffee House. Il s'appelait Abraham De Moivre, était réfugié protestant
de la France catholique et, contre salaire, il calculait les probabilités pour parier à tous
les types de jeux de chance.
Bien que De Moivre, qui a découvert la courbe normale, vive dans ce café, il était
un mathématicien compétent reconnu. En effet, il était membre de la Royal Society et
un intime d'Isaac Newton. Karl Pearson a imaginé De Moivre au travail au
Slaughter's Coffee House: «J'imagine De Moivre travaillant sur une table sale dans le
café avec un joueur paumé derrière lui et Isaac Newton marchant dans la foule pour
aller chercher son ami. Cela ferait un beau tableau pour un artiste inspiré.»
Karl Friedrich Gauss (1777-1855)

Karl Friedrich Gauss, un des premiers utilisateurs de la courbe normale, est l'un
des plus grands mathématiciens de tous les temps. Voyons ce que l'historien des
mathématiques bien connu E. T. Bell écrit dans son livre Men of Mathematics en
1954. Dans un chapitre intitulé «Le Prince des Mathématiciens», il écrit: «Archi-
medes, Newton et Gauss; ces trois-là forment une classe parmi les grands mathémati-
ciens et ce n'est pas au commun des mortels d'essayer de les classer selon leurs
mérites. Tous les trois ont fait avancer de manière considérable les recherches en
mathématiques pures et appliquées. Archimedes estimait plus ses mathématiques
pures que leurs applications; Newton semble avoir trouvé la principale justification à
ses inventions mathématiques dans l'utilisation scientifique qu'il en faisait; Gauss
déclarait que ses recherches pures et appliquées ne faisaient qu'un.»
5.5 VARIABLES ALEATOIRES EXPONENTIELLES
5.5.1 Définition
Une variable aléatoire dont la densité est donnée par l'équation suivante, où X est
positif,
., , \\e~Kx si x > 0
/ W =
l0 six<0
est dite variable aléatoire exponentielle (ou plus simplement est dite de distribution
exponentielle) de paramètre "k. La fonction de répartition F d'une variable exponen-
tielle est donnée par
F{a) = P{X < a}
= I Àe~A* dx
Jo
= 1 - c"Aa a> 0
On remarquera que F(°°) =J 0 A.c_Ajr dx = 1 comme il se doit. Nous allons montrer à

présent que le paramètre X est égal à l'inverse de l'espérance de la variable.
Exemple 5.20 Soit X une variable aléatoire exponentielle de paramètre X. Calculer

a) £IJQ;
b) Var(X).
SOLUTION, a) Comme la densité de X est donnée par
[0 x<0
on obtient
£•[*] = Ixte'^dx
o
Une intégration par parties (Xe dx = dv , u = x) donne
E[x] = -xe-*JC\°° +°je~Àxdx

io 0
-A*
e
=0
A
b) Pour obtenir la variance de X, calculons d'abord E\ X I.
E{x2] = ]x2Xe-**dx
—Àx 2
Une intégration par parties (Xe dx = dv , u- x ) donne
Donc
Donc la moyenne d'une exponentielle est l'inverse de son paramètre X et la variance

est le carré de la moyenne.
Dans la pratique, on rencontre souvent la distribution exponentielle lorsqu'il s'agit

de représenter le temps d'attente avant l'arrivée d'un événement spécifié. Par exemple,
le temps qui nous sépare du prochain tremblement de terre, de la prochaine guerre
ou du prochain appel téléphonique mal aiguillé sont toutes des variables aléatoires
dont les distributions tendent à toutes fins utiles à se rapprocher de distributions
exponentielles. (Le lecteur trouvera une explication de nature théorique à ces faits à
la section 4.8, en particulier dans l'exemple 4.26).
Exemple 5.21 On suppose que la durée d'une conversation téléphonique, mesurée en

minutes, est une variable aléatoire exponentielle de paramètre X = j - . Vous arrivez
à une cabine téléphonique et quelqu'un passe juste devant vous. Avec quelle probabi-
lité devrez-vous attendre
a) plus de 10 minutes;
b) entre 10 et 20 minutes?
SOLUTION. X désignera la durée de la conversation de la personne qui vous a devancé.

Les probabilités cherchées seront respectivement:
20
x/10
5.5.2 Propriété d'absence de mémoire
On dira qu'une variable aléatoire non négative X est sans mémoire lorsque
P{X > s + t\X> t} = P{X > s} pour tous s, t > 0 (5.10)
Représentons-nous X comme la durée de vie d'un certain instrument. Dans ce cas (5.10)
signifie que la probabilité pour l'instrument de durer au moins s + t heures sachant
qu'il en a déjà vécu t est la même que la probabilité non conditionnelle qu'il dure 5
heures à partir de la mise en fonction initiale. En d'autres termes, si l'instrument
fonctionne encore après / heures de service, la distribution de sa durée de vie à partir
de là est la même que la distribution de la durée de vie de l'appareil neuf. On peut
dire que l'appareil fonctionne sans mémoire du temps d'usage déjà écoulé.
Or, (5.10) est équivalent à
P{X>s + t,X>t}_
X > s
P{X>t} -^ >
ou
P{X > s + t} = P{X > s}P{X > t} (5.11)
Comme (5.11) est vérifiée par toute variable exponentielle X (puisque e~ ( i + ' ' =
e e ) la classe des variables exponentielles est sans mémoire.
5.5.3 Exemples d'application de variables exponentielles
Exemple 5.22 Dans un bureau de poste, le service est assuré par deux employés.
Lorsque Smith y entre, l'un des employés sert Jones tandis que l'autre répond à
Brown. On admettra que Smith sera à son tour servi dès le départ de Jones ou de
Brown. Le temps passé par un employé de poste pour chaque client est distribué
exponentiellement avec paramètre X. Quelle est la probabilité que Smith soit le dernier
des trois clients à sortir de ce bureau de poste?
SOLUTION. On peut adopter l'approche suivante: au moment où Smith trouve un

postier libre, l'un des deux autres clients vient de partir tandis que l'autre est encore
au guichet. Mais ce dernier, en vertu de l'absence de mémoire des variables exponen-
tielles, va encore rester pendant un temps qui est toujours exponentiellement distribué
avec paramètre X. Tout se passe comme si ce client venait d'arriver au guichet. Par
conséquent Smith a une chance sur deux de sortir le dernier, du fait de la symétrie
des deux situations. •
Exemple5.23 Le nombre de miles couvert par une batterie de voiture avant défail-
lance est distribuée exponentiellement et sa valeur moyenne est de 10 000 miles. Une
personne souhaite se lancer dans un voyage de 5 000 miles. Avec quelle probabilité
terminera-t-elle son voyage sans avarie de batterie? Que devient cette probabilité si
la distribution n'est pas exponentielle?
SOLUTION. Du fait que les variables exponentielles sont sans mémoire, la durée de vie
résiduelle de la batterie sera distribuée exponentiellement avec paramètre X = -f- en
prenant comme unité le millier de miles. La probabilité voulue est donc
/'{durée de vie résiduelle > 5} = 1 - F(5) = e~5A = e~l/2 = .607
Si, par contre, la distribution de cette durée résiduelle n'est pas exponentielle, ce que
l'on cherche peut être écrit
1-F(t + S)
Ffduree résiduelle > t + 51 durée résiduelle > t}
1 - F(t)
où t est la durée de service de la batterie jusqu'au moment où le voyage commence.
Et l'on voit que dans ce cas une information supplémentaire (à savoir /) est nécessaire
au calcul de la réponse. •
5.5.4 Unicité de la classe des variables aléatoires sans mémoire

Non seulement les variables exponentielles n'ont pas de mémoire, elles sont de plus
la seule classe de variables à jouir de cette propriété. Pour la vérifier, supposons
qu'une variable X soit sans mémoire et posons F (x) = P{X > x}. De (5.11), on tire
F(s + t) = F(s)F(t)
Cela veut dire que F satisfait l'équation fonctionnelle
g(s + t) = g(s)g(t)
Cependant, la seule solution continue à droite et non triviale de cette équation

fonctionnelle est1
g(x) = e~kx (5.12)
1
On obtient (5.12) de la manière suivante: si g(s +1) = g(s) • g(t), alors
et par itération on obtient g(m/n) = jf(\ln). D'autre part,
S(D =g(- + - + •••+-) = g'(-) ou g(X- ) = (g(\)) l / n

\n n ni \nI \n
et par conséquent g(m/n) = (g(l))mln. Comme g est continue à droite, on peut écrire g(x) =
(g(l)Y. On peut encore poser A. = -ln(g(l)) puisque g(l) = g(l/2)) 2 ^ 0, ce qui laisse g(x) =
e-x.
La continuité à droite des solutions peut être supposée puisque toutes les fonctions
de répartition le sont. Il reste que
F(x) = <TAX ou F(x) = P{X < x} = 1 - e~
ce qui établit que X est nécessairement exponentielle.
5.5.5 Distribution de Laplace
La distribution de Laplace est une variante de la distribution exponentielle. Une

telle distribution est symétrique par rapport à l'origine et la valeur absolue d'une
variable laplacienne est exponentiellement distribuée2. Si le paramètre de cette
exponentielle est X > 0,X sera également le paramètre de la variable laplacienne. La
densité d'une telle variable est
oo
Sa fonction de répartition est donnée par
ke dx x<0
Exemple5.24 Revenons à l'exemple 5.16 qui traitait de l'émission d'un signal binaire
de A à B\ lorsque le signal valait 1 on émettait avec une intensité de + 2, tandis que
s'il valait 0 on émettait avec une intensité de — 2. On suppose cependant maintenant
que le bruit du canal de transmission est une variable aléatoire laplacienne de
paramètre X, = 1. Comme auparavant, R désigne le signal reçu en B et la convention
de décodage reste
R > 0,5: on admet que 1 a été émis

R < 0,5: on admet que 0 a été émis.
2
Pour cette raison, une variable laplacienne est parfois dite exponentielle double.
Dans le cas présent, où le bruit est laplacien de paramètre k = 1, les probabilités des
deux types d'erreurs sont respectivement
/"{erreur | message à transmettre = 1} = P{N 5 < -1.5}

—
- 1ie„ - ' -
= .1116
P{erreur|message à transmettre = 0} = P{N a 2.5}

1
„-2-
2«
.041
En comparant ces résultats avec ceux de l'exemple 5.16, on constate que les probabi-
lités d'erreur sont plus élevées si le bruit est laplacien de paramètre X. = 1, plutôt que
de distribution normale centrée réduite. •
5.5.6 Fonctions taux de panne
Considérons une variable aléatoire continue à valeurs positives qui puisse repré-
senter la durée de vie d'un certain composant, de fonction de répartition F et de
densité/. La fonction taux de panne \(t) de F est définie par l'équation
Pour obtenir une interprétation de X(/), supposons que notre composant ait déjà
/ heures de service et que l'on veuille calculer la probabilité de sa défaillance
dans l'espace de temps dt qui suit. En d'autres termes, on cherche à calculer
P{Xe(t, t + dt)\X > t}. Or,
t)
ce qui peut s'interpréter comme suit: X(t) représente un taux de panne conditionnel
instantané, la condition étant que le composant ait pu assurer déjà t heures de service.
Dans le cas d'une durée de vie exponentielle, l'absence de mémoire de cette
distribution signifie que la durée de vie résiduelle d'un composant conditionnellement
à une durée de service /jusque-là est de même distribution que la durée de vie initiale.
Aussi X devrait-elle être une fonction constante. Cela est confirmé par le calcul
suivant:
=A
Ainsi, le taux de panne d'une variable exponentielle est-il constant. C'est la raison
pour laquelle le paramètre X est souvent appelé le taux d'une telle distribution.
On peut par ailleurs établir que la fonction taux de panne X détermine de manière
univoque la fonction de répartition F des variables aléatoires obéissant à ce taux. En
effet, par définition
L'intégration des deux membres donne
ln(l-F(0) = - ( \(t)dt+k
Jo
ou
Or k = 0, ce que l'on voit en posant t = 0. Donc,
F(t) = 1 - e x p (5.13)
Par conséquent, la fonction de répartition d'une variable aléatoire continue à

valeurs positives est entièrement déterminée par la donnée d'une fonction taux de
panne. A titre d'exemple, si ce taux de panne est une fonction linéaire, donc du type
\(t) = a + bt
sa fonction de répartition sera
F(f) = 1 - e--b,2/2
et sa densité, par dérivation
f(t) = (a + bt)e-'a,+b'2/2\ t> 0
Pour a = 0 la densité ci-dessus porte le nom de densité de Rayleigh.

Exemple 5.25 On entend souvent dire que le taux de mortalité chez les fumeurs, à tout
âge, est le double de celui des non-fumeurs. Qu'est-ce que cela veut dire? Cela
signifie-t-il qu'un non-fumeur a une probabilité deux fois plus grande de survivre à
un nombre d'années donné qu'un fumeur du même âge?
SOLUTION. Soit Xf(t) le taux de mortalité pour un fumeur âgé de t années et Xn(t) celui
d'un non-fumeur du même âge. Alors l'affirmation ci-dessus équivaut à dire que
Xf(t) = 2Xn(t).
La probabilité qu'un non-fumeur âgé de A années survive à l'âge B, A B | la durée de vie des non-fumeurs > A)
1 - Fnon(A)
exp
grâce à (5.13)
alors que la probabilité correspondante pour un fumeur est, par le même raisonne-
ment,
P{un fumeur âgé de A atteigne l'âge B} = exp
exp
exp
En d'autres termes, si l'on a deux individus de même âge, dont l'un est fumeur et
l'autre pas, la probabilité que le fumeur survive à un âge donné est le carré (non la
moitié) de celle du non-fumeur. Par exemple, si X„(t) = i , 50 =% / < 60, alors la
probabilité qu'un non-fumeur âgé de 50 ans atteigne l'âge de 60 ans est e~'/j = 0,7165
alors que pour un fumeur elle vaut e~'A = 0,5134. •
5.6 AUTRES DISTRIBUTIONS CONTINUES
5.6.1 Distribution gamma
On dira qu'une variable aléatoire suit une loi gamma de paramètres (t, X),X>0
et t > 0 si sa densité est
,0 x<0
où r(f), appelée fonction gamma, est définie par
HO = [ e - y 1 dy
Jo
Une intégration par parties de l'intégrale donnant T(f) livre
+ e-y(t-l)y'-2dy
o Jo
/•oo
= (r-l) e-y~2dy
Jo
= (t-l)T(t-l) (5.14)
Pour des valeurs n entières de t, l'utilisation itérée de (5.14) donne
r(n) = ( n - l ) r ( n - l )
= (n-l)(n-2)r(n-2)
= (n-l)(«-2)---3-2r(l)
x
Comme T(l) = Ce~ dx = 1, on aura pour tout entier n
T(n) = ( « - ! ) !
Lorsque t prend des valeurs entières positives, disons t = n, la loi gamma de
paramètres (/, X) représente fréquemment la distribution du temps d'attente avant la
H-ième occurrence d'un certain type d'événements. Plus précisément, supposons que
des événements se répètent au hasard dans le temps et satisfassent aux trois conditions
exposées dans la section 4.8. Dans ce cas, le temps d'attente avant la n-ième occur-
rence suivra une répartition gamma de paramètres (n, X). Pour s'en assurer, notons
par Tn l'heure à laquelle le /j-ième événement se produit. On remarquera que Tn < t
si et seulement si le nombre d'occurrences enregistrées au temps t est de n au moins.
En posant que ce nombre d'événements dans l'intervalle [0, /] est N(t), on aura
P{T„ < t} = P{N(t) s n}
OO
= Z P{N(t) = /}
La dernière de ces équations résulte du fait que le nombre d'événements dans [0, /]
suit une loi de Poisson de paramètre Xt, et sa dérivation donne la densité/de Tn:
j-n ]• j=n ]'

1
= » Ag-ÂQ'- » Ae"*'(AQy
~A (;-l)! ;i ;!
_ Ae" A '(AQ""'
(n-D!
On constate bien que Tn suit une loi gamma de paramètres (n, X). (Dans la littérature
mathématique, cette loi est aussi fréquement appelée loi d'Erlang de paramètre n.)
On remarquera que pour n = 1 cette distribution n'est autre que l'exponentielle.
Une loi gamma de paramètres X =1/2| et t = n/2 (n étant ici entier positif) est aussi
appelée loi %l (lire chi-carré à n degrés de liberté). A titre d'exemple de variable de
loi x7n, on peut citer l'erreur commise lors d'un tir sur une cible à n dimensions lorsque
l'erreur dans chaque dimension est normalement distribuée. La loi %2„ sera étudiée au
chapitre 6 où son lien avec la loi normale sera expliqué.
Exemple 5.26 Soit X une variable aléatoire gamma de paramètres t et X. Calculer

a)£[X];
b) Var(X).
SOLUTION a)
\Xe-**{kc)'dx
XT{t) o
xr(t)
— selon l'équation (5.14)
A
b) En calculant tout d'abord EyX I, on peut montrer que
Les détails sont laissés en exercice.

5.6.2 Loi de Weibull
Cette loi possède de nombreuses applications en sciences de l'ingénieur. Originelle-

ment utilisée pour représenter les effets de l'usure de pièces, son usage s'est ensuite
beaucoup étendu. En biologie, en particulier, on l'utilise pour modéliser la durée de
vie d'un organisme, surtout lorsque la vie de cet organisme dépend de son «maillon
le plus faible». En d'autres termes, considérons un organisme constitué de plusieurs
composants et admettons que cet organisme meure dès la défaillance de n'importe
lequel de ses composants. Il a été établi (au niveau théorique autant qu'empirique)
que dans ce modèle la loi de Weibull donne une bonne approximation de la durée de
vie de l'organisme étudié.
La fonction de répartition d'une variable de Weibull est
F(x) = (5.15)
Une variable ayant une telle fonction de répartition est dite variable de Weibull avec
paramètres v, a et |3. Par dérivation on obtient sa densité:
0
/(*)
5.6.3 Loi de Cauchy
Une variable de Cauchy de paramètre 9, - o o < 0 < + o o , a pour densité:
1 1
axe des x
Figure 5.6
Exemple 5.27 Un projecteur à faisceau fin est mis en rotation autour de son axe,
lequel est situé à une unité de distance de l'axe des abscisses (figure 5.6). X représente
l'abscisse de l'intersection du faisceau avec l'axe Ox une fois que le projecteur s'est
arrêté de tourner. (Si le faisceau n'est pas dirigé vers l'axe, on recommence l'expé-
rience).
Comme on peut le constater sur la figure 5.6, X est déterminée par la valeur de
l'angle 0 entre le faisceau lumineux et l'axe Oy. On admettra l'hypothèse de nature
physique que 0 est uniformément distribuée entre -Jt/2 et 7t/2. La fonction de réparti-
tion de X sera alors
F(x) = P{X < x}
= /'{tg e < x]
= P{9 < Arc tg x}
1 1 A
= — I — Arc tg x
2 n
Cette dernière équation résulte de la suivante, valide en raison de l'uniformité de la
distribution de 9 entre — TI/2 et ;t/2:
„r a — ( —7r/2) 1 a 77 7T
P{6â} = * — =- +- , --<a<-
tt 2 IT 2 2
Aussi la densité de X est-elle
f(x)= — F(x)= 2 -co<x<co

dx 7r(l + x )
ce qui établit que X suit une loi de Cauchy de paramètre 0'. •
5.6.4 Loi bêta
On dit qu'une variable aléatoire suit une loi bêta si sa densité est
r, x 1 * , x"-\\-x)b-* 0<x<l
f(x) = J B(a, Lb)
10 sinon
ou
1
La relation d/dx Arc tg x = 1/(1 + x2) est établie comme suit: si y = Arc tg x, alors tg y = x
et par conséquent
1 = ±{tf,y) = ±{tf,y)dl = lL(É!UL\fty
dx dy dx dy 1 cos y I dx
(
cos2 y + sin2 y\ dy
cos2 y ) dx
OU
dy 2 cos2 y 1 1
— = cos y = = =
2 2
dx Sm y + cos y tg1 y + 1 x2 + \
La loi bêta s'applique à des phénomènes lors desquels la variable aléatoire peut
prendre les valeurs comprises dans un certain intervalle [c, d\. En déclarant que c
représente l'origine et en adoptant d — c comme unité, cela revient à s'intéresser à
l'intervalle [0, 1].
f(x)
Figure 5.7
Densités bêta lorsque les paramètres a et b sont égaux
Comme le montre la figure 5.7, les densités bêta sont symétriques autour de Vi
lorsque a = b et donnent de plus en plus de poids à cette région centrale au fur et
à mesure que a augmente. La figure 5.8 montre que lorsque b > a les densités sont
ramassées à gauche, ce qui signifie que les petites valeurs de la variable sont plus
probables. Lorsque a > b, les densités, inversement, sont ramassées à droite.
Figure 5.8
Densités bêta de paramètres (a, b) tels que
q 1
a + b ~ 20
On peut montrer qu'il existe la relation suivante entre
B{a,b) = )xa-\\-x)b~ldx
o
et la fonction gamma:
r(a)T(b)
B ab
\') = —, T (516>
r ( a + b)
En utilisant l'équation (5.14) avec l'identité ci-dessus, il est facile de montrer que si X
est une variable aléatoire bêta de paramètres a et b, alors
a
r n
E[X] = a + b
ab
Var(x) =
(a + b) (a + b + l)
REMARQUE. Une vérification de l'équation (5.16) est donnée dans l'exemple 6.29 du
chapitre 6.
5.7 DISTRIBUTION D'UNE FONCTION DE VARIABLE ALEATOIRE
5.7.1 Illustration du problème
Il arrive souvent que la distribution d'une variable aléatoire soit connue mais que
l'on s'intéresse plutôt à celle d'une fonction de cette variable. En d'autres termes, on
connaîtrait la distribution de X mais souhaiterait connaître celle de g(X). Pour y
parvenir, il faut exprimer l'événement g(X) < y sous forme d'une condition où X
appartient à un certain ensemble, comme l'illustrent les exemples suivants.
Exemple 5.28 Soit A'uniformément distribuée dans l'intervalle (0, 1). On obtiendra
la distribution de Y = X" de la manière suivante: pour 0 ^ y < 1,
Aussi peut-on donner à la densité de Y la forme suivante, par exemple:
fv(y)=.
0 sinon
Exemple5.29 Pour toute variable aléatoire continue X de densité fx, on obtient la

fonction de répartition de Y = X2 de la manière suivante: pour y > 0,
Fy(y) = P { Y < y }
= P{X2 < y}
= P{-J~y~ < X < Vy}
= Fx(Vy)-F x (-V7)
Une dérivation livre la densité
M y ) = -7=[/x(>/y)+/x(->/y)]
2Vy •
Exemple5.30 Soit X d e densité fx. La densité de F = \X\ peut être calculée ainsi:
pour y ^ 0
FY(y)=P{ysy}
= P{|X| ^ y}
= P{-y s X < y}
= -r7x(y)-Fx(-y)
et par dérivation de nouveau on obtient
/y(y)=/x(y)+/x(-y) yô •
5.72 Densité d'une fonction de variable aléatoire
La méthode utilisée pour traiter les exemples 5.28 à 5.30 peut servir de démonstra-
tion au théorème général suivant:
Théorème 5.4
Soit X une variable aléatoire continue de densité fx. Soit g une fonction stricte-
ment monotone (croissante ou décroissante) et dérivable, donc continue. La densité
de la variable aléatoire Y = g(X) est alors
-i a
-i
fx[g (y)] ~r g (y) si y = g(x) pour un x quelconque
dy
0 si y + g(x) pour tout x
°ù g' (y) est défini comme étant égal à x tel que g(x) = y.
La démonstration de ce théorème est laissée en exercice.
Exemple 5.31 Soit X une variable aléatoire continue non-négative de densité / et

soit Y = Xn. Trouver la densité fY de Y.
SOLUTION. Si g(x) = x" alors
8 W =y
et
dy n
Donc, d'après le théorème 5.4, on obtient
fï(y) = -y"'if{y1/n)
Si n = 2, cela donne
ce qui correspond (puisque X > 0) au résultat de l'exemple 5.29.
5.8 EXERCICES THEORIQUES
5.&1 La vitesse d'une molécule au sein d'un gaz homogène en état d'équilibre est une
variable aléatoire, dont la fonction de densité est donnée par
x<0
oùb = mllkTti k, T, m sont respectivement la constante de Boltzmann, la tempéra-
ture absolue et la masse de la molécule. Evaluer a en termes de b.
5.8.2 Montrer que
Pour cela, montrer que

5.8.3 Si X a pour densitéf,montrer que
E[g(x)]=~!g{x)f{x)dx
—oo
Utiliser pour cela l'exercice théorique 5.8.2 en commençant avec
E[8(X)] = ]p{g(x) > y}dy - JP{g(x) < -y}dy

o o
et procéder comme dans la preuve donnée dans le texte lorsque g(X) > 0.
5.8.4 Démontrer le théorème 5.3.
5.8.5 Utiliser le fait qu'une variable aléatoire non négative Y ait pour espérance
E[Y]= \P{Y>t)dt
o
pour montrer que pour une variable aléatoire non négative X
E\xn] = ]nxn~lP{X>x}dx
o
Commencer avec
n
E\x
1
\J = ]p{xn >t\dt
o
et effectuer le changement de variable t = x".
5.8.6 Donner un ensemble d'événements Ea , 0 < a < 1, ayant la propriété que
P[Ea} = 1 pour tout a mais que P< f]Ea t = 0.
Pour cela, prendre X uniforme sur (0, 1) et définir chaque Ea en fonction de X.
5.8.7 L'écart-type de X, noté a, est donné par
a = VVar(x)
Trouver l'écart-type de la transformation linéaire (aX + b) si X a pour variance à1.
5.8.8 Soit X une variable aléatoire prenant ses valeurs entre 0 et c, c'est à dire
P{0 < X < c) = 1. Montrer que
2
Var(x) < —
4
Une approche consiste tout d'abord à voir que
E[X2]<CE[X]
Utiliser ensuite cette inégalité pour montrer que
Var(x)<c2[a(l-a)] oùa = - L J
c
5.8.9 Si Z est une variable aléatoire normale standard, montrer que pour x > 0,
a)P{Z>x}=P{Z<-x};
b)P{\z\>x} = 2P{z>x};
c)P{\z\<x} = 2P{Z<x}-l.
5.8.10 Soit/(x) la densité d'une variable aléatoire normale de moyenne [i et de

variance a 2 . Montrer que |i - a et \i + a sont les points d'inflexion de cette fonction.
Autrement dit montrer que / " ( * ) = 0 quand x = \i-a o\xx = \i+ a.
5.8.11 Utiliser l'identité de l'exercice théorique 5.8.5 pour dériver E\x I lorsque X
est une variable aléatoire exponentielle de paramètre X.
5.8.12 La médiane d'une variable aléatoire continue ayant une fonction de répartition
F est la valeur m, telle que F(m) = ^ En d'autres termes une variable aléatoire a autant
de chances d'être plus grande ou plus petite que sa médiane. Trouver la médiane de
X si X est une variable:
a) uniformément distribuée sur (a, b);
b) normale de paramètres u, a2;
c) exponentielle de paramètre X.
5.8.13 Le mode d'une variable aléatoire continue ayant une densité/est la valeur x
pour laquelle/(x) atteint son maximum. Calculer le mode de X dans les cas a), b) et
c) de l'exercice théorique 5.8.12.
5.8.14 Si X est une variable aléatoire exponentielle de paramètre X, et c > 0, montrer

que cX est exponentielle de paramètre X/c.
5.8.15 Calculer le taux de panne de X quand X est uniformément distribuée sur

l'intervalle (0, a).
5.8.16 Si X a un taux de panne Xx(t), calculer le taux de panne de aX, où a est une
constante positive.
5.8.17 Vérifier que l'intégrale de la fonction de densité de la loi gamma donne 1.

5.8.18 Si X est une variable aléatoire de moyenne l/X, montrer que
r *l *!
4*1 =7 *=1.2,.-.
Utiliser la densité de gamma pour évaluer ceci.
. . t
5.8.19 Vérifier que Var(X) = — lorsque X est une variable aléatoire gamma de
paramètres t et X. *•
5.8.20 Montrer que r — = 4lt • Procéder de la façon suivante: on a
rW-jr-xi.
Effectuer alors le changement de variable y = -Jlx et relier l'expression obtenue à la
distribution normale.
5.8.21 Calculer la fonction taux de panne d'une variable aléatoire gamma de para-
mètre (/, X) et montrer qu'elle est croissante quand t > 1 et décroissante quand t ^ 1.
5.8.22 Calculer la fonction taux de panne d'une variable aléatoire de Weibull et

montrer qu'elle est croissante quand p ^ 1 et décroissante quand P < 1.
5.8.23 Montrer que le graphe de ln(ln ( 1 — F(x))~ ' ) en fonction de ln(jc) est une droite
de pente P quand F( . ) est une fonction de répartition de Weibull. Montrer également
qu'approximativement 63,2% de toutes les observations d'une telle distribution sont
inférieures à a. Supposer que v = 0.
5.8.24 Soit
Montrer que si X est une variable aléatoire de Weibull dont les paramètres sont v,
a, p, alors Kest une variable aléatoire exponentielle de paramètre X = 1 et vice versa.
5.8.25 Si X est une variable aléatoire bêta de paramètres a et b, montrer que
E[X) = , Var(;r)= 2
a+b (a + b) {a + b + \)
5.8.26 Si X est uniformément distribuée sur l'intervalle (a, b), quelle est la variable
aléatoire dépendant linéairement de X qui admet une distribution uniforme sur
l'intervalle (0, 1)?
5.827 On considère la distribution bêta de paramètres (a, b). Montrer que:

a) quand a > 1, b > 1, la densité est unimodale (c'est-à-dire qu'elle a un mode
unique) de mode égal à (a — l)/(a + b — 2);
b) quand a < \,b <, l, a + b < 2, la densité est soit unimodale, avec un mode en
0 ou en 1, soit en forme de U avec des modes à la fois en 0 et en 1;
c) quand a = 1 = b tous les points dans l'intervalle [0, 1] sont des modes.
5.8.28 Soit X une variable aléatoire continue ayant une fonction de répartition F. On
définit la variable aléatoire Y par Y = F(X). Montrer que Y est uniformément
distribuée sur l'intervalle (0, 1).
5.829 Soit X une variable aléatoire de densité de probabilité/^. Trouver la fonction

de densité de la variable aléatoire définie par Y = aX + b.
5.830 Trouver la fonction de densité de Y = ex quand X est distribuée selon une loi
normale de paramètres u et a2. La variable aléatoire Y suit une distribution dite
log-normale (puisque In y a une distribution normale) de paramètres u et a2.
5.831 Soit XetY des variables aléatoires indépendantes qui toutes deux ont la même
chance d'être égales à 1, 2,..., (10)^, où N est très grand. Appelons D le plus grand
commun diviseur de A' et Y et soit Qk = P{D = k}.
a) Montrer par un argument heuristique que Qk = l/k2 Qx. On peut remarquer que
pour que D soit égal à k, k doit diviser X et Y et X/k et Y/k doivent être premiers
entre eux (c'est-à-dire que leur plus grand commun diviseur doit être égal à 1).
b) Utiliser a) pour montrer que
Qx = P{X et Y soient premiers entre eux} =
î l/k2
x
En vertu d'une identité bien connue selon laquelle S l/k2 = n2/6, il s'ensuit que
e, = 6/n2.
(En théorie des nombres ceci est connu sous le nom de théorème de Legendre).
c) Maintenant établir que
où P, est le i-ème des nombres premiers rangés dans l'ordre de croissance, P, étant
2. A titre d'indication, on peut noter que A'et Y seront premiers entre eux s'ils n'ont
pas de facteurs premiers communs.
* P2 - 1 ,
Ainsi de b) on voit que n (—'•—-—) = 6/rc ; ce résultat a déjà été mentionné sans
/=i P2
explication dans le problème 4.11.11 (la relation entre ce problème et le problème
4.11.11 réside dans le fait que X et Y sont premiers entre eux si leur produit XY n'a pas
de facteur premier répété).
5.9 PROBLEMES
5.9.1 Soit X une variable aléatoire dont la fonction de probabilité est:
,, . \c(\~x2) -\<x<\
10 sinon
a) Quelle est la valeur de c?

b) Quelle est la fonction de répartition de XI
5.9.2 Pour fonctionner, un système utilise une cellule interchangeable. On dispose de

la pièce originale et d'une cellule de rechange. Si le système a une durée de vie aléatoire
X et que sa densité est donnée (en mois) par:
tf s {exe-* x>0
/ W =
l0 xÔ
quelle est la probabilité que le système fonctionne pendant au moins 5 mois?
5.9.3 On considère la fonction
c(2x -x3) 0< x < |

10 sinon
La fonction / représente-t-elle une fonction de densité? Si oui, déterminer c. Même

question avec/(x) donnée par
(c(2x-X2) 0<x<§
(.0 sinon
5.9.4 La fonction de densité de X, variable aléatoire représentant la durée de vie en

heures d'un certain composant électronique, est donnée par:
x> 10
x < 10
a) Trouver P{X > 20}.
b) Quelle est la fonction de répartition de XI
c) Quelle est la probabilité que parmi 6 composants au moins 3 d'entre eux fonction-
nent durant au moins 15 heures? Quelles hypothèses faites-vous?
5.9.5 Une station service est approvisionnée en essence une fois par semaine. Si son
volume de vente hebdomadaire, en milliers de litres, est une variable aléatoire de
fonction de densité:
„ . j5(l-x)4 0<*<1
10 sinon
quelle est la capacité que doit avoir le réservoir pour que la probabilité d'épuiser
l'approvisionnement d'une semaine soit égal à 0,01?
5.9.6 Calculer E[X] si X a comme densité
1 --i
— xe JC>0
»)/(*) =
4
0 sinon
[0 sinon
— x> 5
c)/(*) = <x
0 x<5
5.9.7 La densité de X est donnée par
| a + &c 0<JC<1
/(*) =
lo sinon
Si E\X\ = —, trouver a et fe.

5
5.9.8 La durée de vie en heures d'un tube électronique est une variable aléatoire ayant
pour densité
f{x) = xe~x x>0
Calculer l'espérance de la durée de vie d'un tel tube.
5.9.9 Considérer l'exemple 4.12 du chapitre 4 et supposer maintenant que la demande

saisonnière est une variable aléatoire continue de densité /. Montrer que la quantité
optimale à stocker est la valeur s* satisfaisant
où b est le profit net par unité vendue, l est la perte nette par unité invendue et F est la
fonction de distribution cumulative de la demande saisonnière.
5.9.10 Les trains à destination de A arrivent à la gare toutes les 15 min. à partir de
7 h. du matin, et les trains à destination de B arrivent toutes les 15 min. également,
mais à partir de 7 h 05 du matin. Un certain passager arrive à la gare à une
heure uniformément distribuée entre 7 h et 8 h du matin et prend le premier train

qui se présente, a) Dans quelle proportion des cas se rendra-t-il à la destination A?
b) Qu'en est-il si le passager arrive à une heure uniformément distribuée entre 7 h 10
et 8 h 10 du matin?
5.9.11 Un point est choisi au hasard sur un segment de longueur L. Interpréter cet
énoncé et trouver la probabilité que le rapport entre le plus petit et le plus grand
segment soit inférieure à \.
5.9.12 Un bus circule entre 2 villes A, B distantes de 100 miles. On admet que lorsque
le bus tombe en panne, la distance de l'endroit de la panne à la ville A a une
distribution uniforme sur l'intervalle (0, 100). Il y a une station de réparation en A,
une en B et une autre à mi-distance entre A et B. On suggère qu'il serait plus efficace
d'avoir les 3 stations localisées respectivement à 25, 50 et 75 miles de A. Etes-vous
de cet avis? Pourquoi?
5.9.13 Vous arrivez à un arrêt de bus à 10 h sachant que le bus arrivera à un certain
instant qui est distribué uniformément entre 10 h et 10 h 30. a) Quelle est la probabilité
que vous deviez attendre plus de 10 min.? b) Si à 10 h 15 le bus n'est pas encore arri-
vé, quelle est la probabilité que vous deviez attendre au moins 10 min. supplémen-
taires?
5.9.14 SoitX une variable aléatoire uniforme (0, 1). Calculer £ | x " I en utilisant le
théorème 5.1 et vérifier le résultat en utilisant la définition de l'espérance.
5.9.15 Si X est une variable aléatoire normale de paramètres u = 10 et a2 = 36,

calculer:
(a) P{X > 5}; (b) P{4 < X < 16}; (c) P{X < 8};
(d) P{X < 20}; (e) P{X > 16}.
5.9.16 La quantité annuelle de précipitations (en cm) dans une certaine région est
distribuée selon une loi normale avec u = 140 et a 2 = 16. Quelle est la probabilité
qu'à partir de cette année, il faille attendre plus de 10 ans avant d'obtenir une année
avec une quantité annuelle de pluie supérieure à 150 cm? Quelles hypothèses faites-
vous?
5.9.17 Un homme tirant sur une cible reçoit 10 points si son coup est à moins de 1 cm
du centre de la cible, 5 points s'il s'en éloigne de 1 à 3 cm et 3 points s'il s'en éloigne
de 3 à 5 cm. Trouver l'espérance du nombre de points si la distance du tir au centre de
la cible est uniformément distribuée entre 0 et 10.
5.9.18 Supposer que X est une variable aléatoire normale de moyenne 5. Si

P{X > 9} = .2, quelle est approximativement Var(X)?
5.9.19 Soit X une variable aléatoire normale de moyenne 12 et de variance 4. Trouver

la valeur de c telle que P{X>c] = .10.
5.9.20 Si 65% de la population d'une grande communauté est en faveur de

l'augmentation des taxes scolaires, estimer la probabilité qu'un échantillon aléatoire
de 100 personnes contienne
a) au moins 50 personnes en faveur de l'augmentation;
b) entre 60 et 70 personnes (inclus) en faveur de l'augmentation;
c) moins de 75 personnes en faveur de l'augmentation.
5.9.21 On suppose que la taille, en centimètres, d'un homme âgé de 25 ans est une
variable aléatoire normale de paramètres u = 175 et a2 = 36. Quel est le pourcentage
d'hommes de 25 ans ayant une taille supérieure à 185 cm? Parmi les hommes mesurant
plus de 180 cm, quel pourcentage d'entre eux dépassent 192 cm?
5.9.22 La largeur (en cm) d'une fente entaillée dans une pièce fabriquée en aluminium
est distribuée selon une loi normale de paramètres u = 2 et a = 0,007. Les limites
de tolérance sont données comme étant 2,0000 ± 0,0120. a) Quel sera le pourcentage
de pièces défectueuses? b) Quelle est la valeur maximale que peut prendre a afin que le
pourcentage de pièces défectueuses ne dépasse pas 1 %, si la largeur des fentes suit une
distribution normale de paramètres u = 2 et CT?
5.9.23 On considère 1000 jets indépendants d'un dé homogène. Calculer une approxi-
mation de la probabilité que la face 6 apparaisse entre 150 et 200 fois. Si la face 6
apparaît exactement 200 fois, trouver la probabilité que la face 5 apparaisse moins
de 150 fois.
5.9.24 La durée de vie des puces d'ordinateur interactif produites par un fabricant de
semi-conducteurs est distribuée normalement de paramètres u = 1,4 x 106 heures et
a = 3 x 105 heures. Quelle est la probabilité approximative qu'un lot de 100 puces
contienne au moins 20 puces dont la durée de vie ne dépasse pas 1,8 x 106?
5.9.25 Utiliser un programme pour calculer P{X < 25}, quand X est une variable
aléatoire binomiale de paramètres n = 300, p = 0,1. Comparer le résultat avec son
approximation
a) poissonienne et
b) normale.
En utilisant l'approximation normale, écrire la probabilité cherchée sous la forme
P[X < 25,5} afin d'introduire la correction de continuité. (Vous aurez besoin d'un
programme pour calculer l'approximation de Poisson.)
5.9.26 Deux types de pièces de monnaie sont produites dans une fabrique: des pièces
homogènes et des pièces biaisées, lesquelles montrent la face pile dans 55% des cas.
Supposons que nous possédions une pièce de cette fabrique et que nous ignorions si
elle est homogène ou biaisée. Pour pouvoir déterminer de quelle pièce il s'agit, nous
effectuons le test statistique suivant: la pièce est lancée 1000 fois; si l'on obtient pile
525 fois ou plus, alors on conclut que c'est une pièce biaisée, tandis que si l'on obtient
pile moins de 525 fois, alors on conclut que c'est une pièce homogène. Si la pièce est
réellement homogène, quelle est la probabilité que l'on aboutisse à une conclusion
fausse? Qu'en est-il si la pièce est biaisée?
5L9.27 Sur 10 000 jets indépendants, une pièce de monnaie donne 5800 fois pile. Est-il
raisonnable de présumer que la pièce n'est pas homogène? Expliquer pourquoi.
5.9.28 Une image est composée de 2 régions, l'une blanche et l'autre noire. Lors d'une
lecture digitale, un point choisi aléatoirement dans la zone blanche donnera une
valeur qui est distribuée selon une loi normale de paramètres (4, 4). Un point choisi
aléatoirement dans la partie noire aura une valeur distribuée selon la même loi, mais
de paramètres (6, 9). Considérons un point choisi aléatoirement sur l'image et qui
présente une valeur égale à 5. Désignons par a la fraction de l'image qui est noire.
Pour quelle valeur de a a-t-on la même probabilité de se tromper en concluant que
le point choisi provient de la zone noire ou le contraire?
5.9.29 a) Une caserne de pompiers doit être construite sur une route de longueur A,
A < «>. Si un incendie se déclare en des points uniformément distribués entre (0, A), où
doit être située la caserne pour minimiser l'espérance de la distance jusqu'au feu?
Autrement dit, trouver a tel que £[|X - a\\ soit minimisée lorsque X est distribué
uniformément sur (0, A).
b) Supposer à présent que la route soit de longueur infinie - partant du point 0 vers oo.
Si la distance d'un incendie au point 0 est distribuée selon une loi exponentielle de
paramètre X, où doit se trouver la caserne? Ici, on cherche à minimiser £[|X - a\\ où X
est exponentielle de paramètre X.
5.9.30 Le temps (en heures) nécessaire pour réparer une machine est une variable
aléatoire exponentiellement distribuée de paramètre X = i.
a) Quelle est la probabilité que le temps de réparation excède 2 heures?
b) Quelle est la probabilité conditionnelle qu'une réparation prenne au moins 10
heures, étant donné que sa durée a déjà dépassé 9 heures?
5.9.31 Le nombre d'années de fonctionnement d'une radio est distribué selon une loi
exponentielle de paramètre X = |. Si Jones achète une radio d'occasion, quelle est la
probabilité qu'elle fonctionne encore après 8 nouvelles années d'usage?
5.9.32 Jones estime que le nombre total de milliers de miles que peut parcourir une
voiture avant qu'elle ne soit mise à la ferraille est une variable aléatoire exponentielle
de paramètre X = ±. Smith a une voiture dont il prétend qu'elle n'a roulé que 10 000
miles. Si Jones achète la voiture, quelle est la probabilité qu'il puisse encore l'utiliser
pendant au moins 20 000 miles? Refaire le problème en considérant l'hypothèse que
la durée de vie de la voiture (exprimée en milliers de miles) suit une distribution
uniforme sur l'intervalle (0, 40) et non plus une loi exponentielle.
5.9.33 Le taux de cancer des poumons chez les fumeurs âgés de / années, X(t), est tel
que
MO = 027 + .00025(f - 40)2, t s 40
En supposant qu'un fumeur de 40 ans survive à toute autre maladie, quelle est la
probabilité qu'il survive à l'âge de
a) 50 ans,
b) 60 ans
sans contracter un cancer des poumons.
5.9.34 Supposons que la distribution de la durée de vie d'un élément a une fonction
taux de panne X(t) = t\ t > 0.
a) Quelle est la probabilité que l'élément survive à l'âge de 2 ans?
b) Quelle est la probabilité que la durée de vie de l'élément se situe entre 0,4 et 1,4?
c) Quelle est la probabilité qu'un élément âgé de 1 année survive à l'âge de 2 ans?
5.9.35 Si X est uniformément distribuée sur l'intervalle (—1, 1), trouver:

a) P{ I A-| > ! } ;
b) la densité de la variable aléatoire \X\.
519.36 Si Y est de distribution uniforme sur l'intervalle (0, 5), quelle est la probabilité
que les racines de l'équation Ax1 + 4xY + Y + 2 = 0 soient toutes deux réelles?
5.9.37 Si X est une variable aléatoire exponentielle de paramètre X = 1, calculer la

densité de la variable aléatoire Y définie par Y = In X.
5.9.38 Si X est uniformément distribuée sur l'intervalle (0,1), trouver la densité

de Y = ex.
5.9.39 Trouver la distribution de R = A sin 0, où A est une constante fixée et où 0

est uniformément distribuée sur l'intervalle ( — n/2, n/2). Une telle variable aléatoire
R apparaît en théorie de la balistique. Si un projectile est tiré de l'origine avec un angle
a par rapport à la terre et avec une vitesse V, alors son point de chute R peut
s'exprimer par R = (v2/g) sin 2a où g est la constante de gravitation égale à 9,81 m/s2.
CHAPITRE 6
Variables aléatoires simultanées
6.1 DÉFINITION DES DISTRIBUTIONS SIMULTANÉES
6.1.1 Fonction de répartition conjointe
Nous n'avons traité jusqu'ici que de distributions de variables isolées. Or, il est
souvent nécessaire de considérer des événements relatifs à deux variables simultané-
ment, ou même à plus de deux variables. On définit pour traiter de tels problèmes une
fonction F de répartition simultanée, ou conjointe, pour toute paire de variables
aléatoires X et Y:
F(a, b) = P{X <a,Y < 6} -oo < a, b < oo
6.1.2 Fonction de répartition marginale
La fonction de répartition de X peut être déduite de la fonction de répartition

conjointe de X et Y comme suit:
Fx{a)=P{X<a}
= P{X < a, Y < oo}
= P U i m { X < a , Y < b})
= lim P{X <a,Y<b}

fc-*oo
= lim F (a, b)
b-*oo
= Fia, oo)
Le lecteur remarquera qu'il a une fois de plus été fait usage, dans les équations
ci-dessus, de la propriété de continuité des fonctions de probabilité. On obtient par
ailleurs de manière similaire la fonction de répartition de Y:
Fy(b)=P{Ysb}
= lim F{a, b)
a-»oo
• F(œ, b)
Les fonctions de répartition Fx et Fv sont parfois dites/onctions de répartition margina-

les de X et Y.
6.1.3 Universalité des fonctions simultanées
La probabilité de tous les événements simultanément relatifs à X et Y peut

théoriquement être calculée grâce aux fonctions conjointes définies plus haut. Suppo-
sons par exemple que l'on veuille calculer la probabilité que simultanément X soit
supérieure à a et Y à b. On procédera par exemple comme suit:
P{X >a,Y>b}=l- P{{X >a,Y> b}c)

= l-P({X>a} u{Y>b}c)
c
= l-P({X<a}u{Y<6})
= 1 - [P{X < a} + P{Y < b} - P{X < a, y < b}]
= l-Fx(a)-FY(b) + F(a,b) (6.1)
Cette dernière formule est un cas particulier de (6.2) ci-dessous, dont la démonstration
est laissée en exercice.
P{a, < X s a 2 , f r , < Ysb2} ( 6 2)

= F(a2, b2) + F(a,, bx) - F{ax, b2) - F(a2, b,)
sous les conditions a,<a 2 , bx<b2-
6.1.4 Loi discrète conjointe
Dans le cas où A' et Y sont deux variables discrètes, il est commode de définir la
fonction p suivante, dite loi de probabilité simultanée ou conjointe de X et Y:
p(x, y) = P{X = x,Y = y}
La loi de probabilité marginale de X s'en déduit ainsi:
Px(x) = P{X = x}
I p(x, y)
y:p(x,y)>0
Variables aléatoires simultanées 237
De façon similaire
Pr(y) = I P(x, y)
x:p(x,y)>0
6.1.5 Exemples de variables aléatoires simultanées
Exemple 6.1 On tire au hasard 3 boules d'une urne en contenant 3 rouges, 4 blanches
et 5 bleues. X et Y désignent respectivement le nombre de boules rouges et celui de
boules blanches tirées. La loi de probabilité simultanée p(i, j) = P{X = ;', Y = j] de
X et Y est alors:
**»-G)/(32)-£
4
220
30
220
60
220
220
Il est commode d'exprimer ces probabilités à l'aide d'un tableau à deux entrées tel
que le tableau 6.1.
Tableau 6.1
Somme de
ligne
0 1 2 3 = P{X = i)
10 40 30 4 84
0
220 220 220 220 220
30 60 18 108
1 220 22Ô" 220 0 220
15 12 27
2 0 0
220 220 220
1 1
3 0 0 0
220 22Ô"
Somme de 56 112 48 4
colonne = P{Y = j} 220 220 220 220
Le lecteur remarquera que la loi marginale de X est calculée en faisant les totaux par
ligne, tandis que celle de Y l'est en faisant les totaux par colonne. C'est le fait que les
lois de X et Y individuellement puissent être lues dans les marges du tableau qui leur
vaut leur nom de lois marginales. •
Exemple 6.2 On sait que 15% des familles d'une certaine localité n'ont pas d'enfant,
20% d'entre elles en ont 1, 35% en ont 2 et 30% en ont 3. On sait de plus que pour
chaque famille un enfant a autant de chances d'être un garçon qu'une fille, indépen-
damment du sexe de ses frères et soeurs. La loi de probabilité conjointe de G, le
nombre de garçons d'une famille tirée au hasard, et de F, le nombre de filles dans cette
famille, est donnée dans le tableau 6.2.
Tableau 6.2
Somme de
ligne =
i ^\^^ 0 1 2 3
P{G = i
0 .15 .10 .0875 .0375 .3750
1 .10 .175 .1125 0 .3875
2 .0875 .1125 0 0 .2000
3 .0375 0 0 0 .0375
Somme de
colonne =
.375 .3875 .2000 .0375
P{F = j]
SOLUTION. On obtient ces probabilités de la manière suivante:

P{G = 0, F = 0} = P{n'avoir pas d'enfant} = 0,15

P{G = 0, F = 1} = Ravoir 1 fille et 1 enfant au total}
= /'{avoir 1 enfant} • Ravoir 1fille| on a 1 enfant}
= (0,20)(i)
P{G = 0, F = 2} = P{avoir 2 filles et un total de 2 enfants}
= /"{avoir 2 enfants} . P{avoir 2 filles | on a 2 enfants}
= (0,35)(1/2)2.
La vérification des autres résultats du tableau 6.2 est laissée au lecteur.
6.1.6 Densité conjointe
Les variables X et Y sont dites conjointement continues s'il existe une fonction f
de deux arguments réels ayant pour tout sous-ensemble C du plan la propriété
suivante:
P{(X,Y)eC} = M f(x,y)dxdy (6.3)

(x,y)eC
La fonction/est appelée densité conjointe ou simultanée de X et y. Notons par A

et fi deux ensembles de nombres réels. En définissant C = {(x,y): x e A, y e B}, on
obtient grâce à (6.3)
Comme
il suffît de dériver pour obtenir
pour autant que les dérivées partielles soient définies. Au-delà de cette propriété on
peut donner une interprétation intuitive à une densité conjointe en partant de (6.4)
et grâce au calcul suivant:
f b + db Ça + da
P{a<X<a + da, b< Y < b + db} = \ f(x,y)dxdy
J b Ja
- f(a, b) da db
à condition que da et db soient petits et que/soit continue au point (a,b). Aussi f(a,b)
est-elle une indication de la probabilité avec laquelle (X, Y) sera dans le voisinage du
point (a, b).
Enfin, si X et Y sont des variables aléatoires conjointement continues, alors elles
sont individuellement continues, également. On obtient leurs densités marginales
ainsi:
P{X eA} = P{X eA,Ye (-00,00)}
-Il f(x, y) dy dx
OU
Cette dernière fonction est clairement identifiable à la densité de X. On obtient de

même l'expression de la densité de Y:
6.1.7 Exemples d'applications des densités conjointes
Exemple 6.3 La densité conjointe de X et Y est donnée par
\2e~xe~2y 0<x<oo, 0<y<oo

y) =
^ \0
On veut calculer:
a) P{X > 1, Y < 1},
b) P{X < Y) et
c) P{X < a}.
SOLUTION.
a) P{X>\, Y<\}=\ f 2e-xe-2ydxdy
= e'1 | 2e~2ydy
Jo
= e-\\-e-2)
b) F{A:<y}=jj 2e~xe-2ydxdy
(x,y):x<y
Jo Jo
Exemple 6.4 On considère un cercle de rayon R et l'on y choisit un point au hasard,

ce qui signifie que toutes les régions de taille donnée incluses dans le cercle ont la
même probabilité de contenir ce point. En d'autres termes, la distribution de ce point
dans le cercle est uniforme. On admet que le centre du cercle est à l'origine des axes
de coordonnées. Les variables aléatoires A" et y représentent les coordonnées du point
choisi (figure 6.3). La répartition conjointe de A'et l'étant uniforme, il doit exister une
constante c telle que
On veut
a) trouver c,
b) trouver les densités marginales de X et Y et
c) calculer la probabilité que la distance du point choisi au centre soit inférieure ou
égale à a.
Figure 6.3 Densité conjointe

SOLUTION.
a) Du fait que
il suit que
Cette dernière intégrale peut être évaluée en passant à un système de coordonnées

polaires ou plus simplement en utilisant le fait qu'elle représente l'aire du cercle
de rayon R. Elle vaut donc TCR2 et par conséquent
b)
Lorsque x2 > R2, cette densité est nulle. La densité marginale de Y est donnée pour
des raisons de symétrie par
c) La fonction de répartition de Z = y/X2 + Y2, distance du point choisi à l'origine,

peut être calculée comme suit: pour 0 ^ a ^ R,
où il a de nouveau été fait usage de la formule de l'aire d'un cercle de rayon a pour
calculer la dernière intégrale. •
Exemple 6.5 La densité conjointe de X et F est
Hx+y)
0<x<oo,0<y<oo
(.0 sinon
On veut calculer la densité de la variable aléatoire X/ Y.
SOLUTION. Cherchons d'abord la fonction de répartition de X\ Y. Pour a > 0,

a +1
1
a +1
On obtient la densité de X/ Y par dérivation de ce dernier résultat, ce qui donne
X/Y '
6.1.8 Distribution conjointe de plusieurs variables
On peut définir les éléments de la distribution conjointe de n variables en suivant

la même démarche que celle utilisée dans le cas n = 2. Par exemple, la fonction de
répartition conjointe F de n variables X{, X2, ..., Xn a pour définition
F{ax ,a2,...,an) = P{Xt < a t , X2 < a2,..., Xn < an}
Par ailleurs, ces n variables seront dites conjointement continues, s'il existe une fonc-
t i o n / d e n arguments, appelée densité conjointe de ces variables, telle que pour tout
sous-ensemble C de l'espace à n dimensions
P{(X1,X2,... ,X)  C} - j j • • • j /(*•> • • . , * „ ) dxx dx2 • • • dxn

U, *„)eC
On pourra écrire en particulier que pour toute collection de n sous-ensembles A},

A2,..., An de l'ensemble des nombres réels
P{XleA1,X2eA2,...,XneAn}
dx„
Exemple 6.6 Distribution multinomiale

L'une des distributions conjointes les plus importantes est la distribution multino-
miale. Celle-ci modélise l'expérience consistant à répéter n fois indépendamment une
épreuve admettant r issues différentes, de probabilités respectivesphp2,...,pr telles que
r
S Pi = 1. Désignons par A", le nombre d'épreuves ayant abouti au résultat de type

/ dans la série complète des n réalisations. On aura
P{X, = nuX2 = n2,...,Xr = nr} = — — ~ :pVp? • • • p"' (6.5)
n i ! n 2 ! . . . nr\
pour tous les choix tels que X nt = n.

/=i
On peut vérifier (6.5) de la manière suivante: toute séquence de « résultats composée

de n, occurrences du type i, i = 1, 2,..., r, aura pour probabilité p"' p"2 ... p"r en raison
de l'indépendance des épreuves successives. Or il y a n\\n^.n£...n}. séquences de ce
genre puisque le total des n! permutations possibles doit être divisé par le nombre «,!
des permutations des occurrences du type 1, indistinguables entre elles, puis par n2\
pour les mêmes raisons et ainsi de suite. Ceci établit (6.5).
On appelle distribution multinomiale une distribution dont la loi de probabilité

conjointe est donnée par (6.5). Le lecteur constatera que, pour n = 2, cette distribu-
tion n'est autre que la distribution binomiale.
A titre d'application de cette distribution multinomiale, prenons le cas d'un dé

équilibré que l'on jette 9 fois. La probabilité que 1 apparaisse trois fois, que 2 et 3
apparaissent deux fois chacun, que 4 et 5 n'apparaissent qu'une fois et 6 jamais sera
3!2!2!1!1!0!\6/ W W W W W 3!2!2!\6/
6.2 VARIABLES ALÉATOIRES INDÉPENDANTES
6.2.1 Définition, critères d'indépendance
Deux variables aléatoires Xet Y sont dites indépendantes si, pour tout choix d'une
paire d'ensembles A et B de nombres réels, on a
P{X e A, Y e B] = P{X e A}P{ Y e B} (6.6)
En d'autres termes, X et Y sont indépendantes si, quels que soient A et B, les

événements EA = {X e A] et FB = {Y s B} sont indépendants.
On peut montrer, en s'appuyant sur les trois axiomes de la théorie des probabilités,
que (6.6) est vraie si et seulement si pour tout couple a,b de réels
P{X <a,Y-£b} = P{X < a}P{ Y < b}
ce qui revient à écrire que X et Y sont indépendantes si pour tout couple a, b
F(a,b) = Fx(a)FY(b)
Lorsque X et Y sont discrètes, la condition (6.6) est équivalente à
p(x, y) =px(x)pY(y) (6.7)
pour tout x et tout y. L'équivalence résulte d'une part du fait qu'en choisissant
A = {x\ et B = {>'} dans (6.6), on obtient (6.7); d'autre part du fait qu'en supposant
(6.7) vraie, on aura pour toute paire d'ensembles A et B
P{X e A, Y e B} = I I p(x, y)
yeB xeA
= 1 1 Px(x)pY(y)
yeB xeA
= I Pr(y) I Px(x)
yeB xeA
= P{Y  B}P{X e A}
ce qui établit que (6.6) est un critère d'indépendance.

Lorsque A' et y sont des variables conjointement continues, le critère d'indépen-
dance sera
f(x,y)=fx(x)fY(y)
pour tout x et tout y.

Intuitivement parlant, on pourra donc dire que X et F sont indépendantes si le fait
de connaître la valeur de l'une n'influe pas sur la distribution de l'autre. Des variables
qui ne sont pas indépendantes sont dites dépendantes.
6.2.2 Exemples de variables aléatoires indépendantes
Exemple 6.7 On réalise n + m épreuves indépendantes ayant chacunep pour probabi-

lité de succès. La variable X est le nombre de succès lors des n premières épreuves,
Y étant le nombre de succès lors des m dernières. X et Y sont alors indépendantes
puisque le fait de connaître le nombre de succès lors des n premières épreuves n'influe
en rien sur celui des succès lors des m dernières (c'est là la traduction de l'indépen-
dance des épreuves). On peut d'ailleurs écrire, pour toute paire d'entiers x et y
P{X = x, Y = y} = ( " ) p * ( l - P)"~X ( m ) p y ( l - P)""y, 0< x < n

0< y< m
= P{X = x}P{Y = y}
Par contre X et Z sont des variables dépendantes si Z représente le nombre total de

succès au cours des n + m épreuves (pourquoi cela?). •
Exemple 6.8 On admet que le nombre de clients d'un bureau de poste en l'espace d'un
jour est une variable aléatoire poissonienne de paramètre X. On note par/? la probabi-
lité qu'une personne pénétrant dans ce bureau de poste soit un homme. On veut
montrer que, dans ce cas, le nombre des hommes et celui des femmes parmi les clients
quotidiens sont des variables aléatoires poissoniennes de paramètres respectifs Xp et
X.(l — p) et qu'elles sont indépendantes.
SOLUTION. Désignons par A' et F respectivement le nombre de clients masculins et

féminins de ce bureau de poste. Ces variables A'et F seront indépendantes si (6.7) peut
être vérifiée. Pour obtenir une expression de P{X = i, Y = j], on peut conditionner
selon les valeurs prises par X + F de la manière suivante:
P{X = i, Y = /} = P{X = i,Y = j\X+Y = i + j}P{X + Y = i + j}

+ P{X = i,Y = j\X+Y*i + j}P{X +Y * i + j}
[Le lecteur remarquera que cette équation n'est qu'une illustration de la formule
P(E) = P(E\F) • P(F) + P{E\F') • P(F')]. Comme manifestement
P{X = i, Y = j\X + Y ï i + j] = 0, il reste
P{X = i, Y=j} = P{X = i, Y = j\X+Y = i + j}P{X + Y = i+j} (6.8)
Comme maintenant X + Y n'est autre que le nombre total des clients, on peut écrire
par hypothèse que
P{X+Y = i + j} = e*-^-- (6.9)
Par ailleurs, si l'on sait que / + j personnes sont venues au bureau de poste, la
probabilité que / d'entre elles soient des hommes et j des femmes n'est autre que la
probabilité binomiale (' "J" •') p' (1 — p) '. Donc,
P{X = i, Y = j\X + Y = i + j) = ['+/)p'(l ~ PY (6.10)
La substitution des membres appropriés de (6.9) et (6.10) dans (6.8) livre
+J
P{X = i, Y = ;} = ( ' t )p'(l ~p)'e
('+;•)!
-e-^W-p)y
_ e"Ap(Ap)' - x ( 1 - P ) [ A ( l - p ) ] y
(6.11)
i! ' j\
Donc
[A(1
P{X = «} = e->p(-^ Y e-Ml-p) " P ) ] , = e-»i±EÏ- (6.12)
i! j ;'! i!
et de façon analogue
P{Y=j} = e ^'"d^d-p)]' (613)
Finalement (6.11), (6.12) et (6.13) établissent les résultats attendus. •

Exemple 6.9 Un homme et une femme se donnent rendez-vous. L'heure d'arrivée de

chacune de ces deux personnes sur les lieux du rendez-vous est une variable aléatoire
uniforme entre midi et une heure. Ces deux variables sont indépendantes. Quelle est
la probabilité que la première arrivée doive attendre plus de 10 minutes?
SOLUTION. Désignons par X et Y respectivement l'écart (en minutes) entre midi et

l'arrivée de l'homme ou de la femme. X et Y sont alors des variables aléatoires
indépendantes et uniformément distribuées dans l'intervalle (0, 60). La probabilité
cherchée, à savoir P{X + 10 < Y) + P{Y + 10 < X], est par symétrie égale à
2P{X + 10 < Y}. On l'obtient ainsi:
2P{X + 10 < Y} = 2 • f(x, y) dx dy
L'exemple qui suit est le plus ancien des problèmes traitant de probabilité en
relation avec des modèles géométriques. Le naturaliste français Buffon fut le premier
au dix-huitième siècle à s'intéresser à ce problème et il lui donna une solution. Aussi
ce problème est-il dit «de l'aiguille de Buffon».
Exemple 6.10 Problème de l'aiguille de Buffon.

Sur une table on trace des lignes parallèles espacées d'un écart D les unes des autres.
On y jette une aiguille de longueur L, avec L ^ D. Quelle est la probabilité que
l'aiguille coupe une ligne (l'alternative étant que l'aiguille soit complètement située
dans une des bandes délimitées par les lignes)?
SOLUTION. On repérera la position de l'aiguille grâce à la distance X entre le milieu

de celle-ci et la parallèle la plus proche, et grâce à l'angle 0 entre l'aiguille et une
perpendiculaire aux lignes (voir figure 6.4). L'aiguille chevauchera une parallèle si
l'hypoténuse du triangle rectangle de la figure 6.4 est de longueur inférieure à LI2,
c'est-à-dire si
X L „ L
<— ou X < — cos 6
Figure 6.4
La variable X varie entre 0 et D/2 tandis que 0 varie entre 0 et n/2. Il est raisonnable
d'admettre que, dans ces limites, X et 0 sont de distributions indépendantes et
uniformes. Aussi aura-t-on
p{x<|cose}= JJ fx(x)fe(y)dxdy
x<L/2cosy
A Cv/2 rL/Zcosy
=^Jo Je ^
Exemple 6.11 Caractérisation d'une distribution normale.

Appelons X et Y l'écart horizontal, respectivement vertical, entre le point d'impact
d'une balle et le centre de la cible. On admettra que
• X et Y sont des variables indépendantes continues de densités dérivables
• la densité conjointe de X et Y, qui vérifie/(x, y) = fx (x) -fY (y) pour tout couple
(x, y), ne dépend des valeurs x et y qu'à travers la fonction V* 2 + y2-
En gros, la seconde hypothèse indique que la probabilité d'impact sur une zone
minuscule entourant un point donné de la cible ne dépend que de la distance entre
ce point et le centre de la cible mais pas de l'orientation de ce point. On peut encore
exprimer cette propriété en disant que la densité conjointe est invariante par rotation.
Ces deux hypothèses entraînent une conséquence tout à fait remarquable: X et Y
sont normalement distribuées. La démonstration s'appuie d'abord sur une consé-
quence directe des hypothèses, à savoir qu'il existe une fonction g telle que
f(x, y) = fx (x)fy(y) = g(x2 + y 2 ) (6.14)
La dérivation des deux membres de (6.14) par rapport à x livre
fx(x)fY(y) = 2xg'(x2 + y2) (6.15)

On divise ensuite (6.15) par (6.14) membre à membre
fx(x) 2xg'(x2 + y2)

fx(x) g(x2 + y2)
ou
ixW_ = gV±4) 16)
2xfx(x) g(x2 + y2)
Dans (6.16), le membre de gauche est constant car il ne dépend que de x, tandis que
celui de droite dépend de x2 + y2; ceci permet en effet d'écrire, en choisissant pour
tout couple x,, x2 deux valeurs yx, y2 telles que x] + y] = x\ + y\, et en utilisant
(6.16):
fx(xi) = g'Ui+ y]) _g'(xl + y\) ___ f'x{x2)
2xtfx(xi) g(x\ + y\) g(x22 + y22) 2x2fx(x2)
Ce membre de gauche étant constant, on peut écrire
f'x(x) d
, , , = c ou — (\nfx(x)) = ex
xfx(x) dx
ce qui donne, après intégration des deux membres,
ex2
lnfx(x) = a + — ou fx{x) = ke"!1
Par ailleurs,/^ vérifie \_^fx(x) dx = 1. La constante c sera donc nécessairement

négative et nous l'écrirons c = — 1/a2. Par conséquent
fx(x) = ke-*2/2°2
En conclusion, X est donc une variable aléatoire normale de paramètres u = 0 et a2.

Grâce à un raisonnement tout à fait similaire, on peut établir que
/ Y (y)=-=L- e -^ 2
v 2TTa
La seconde hypothèse du problème entraîne par ailleurs que o 2 = ô2. Les variables
Xtt Y sont donc identiquement distribuées, en plus d'être indépendantes et normales
de paramètres u = 0 et a2. m
6.2.3 Indépendance de plus de deux variables aléatoires
On peut évidemment étendre la notion d'indépendance de variables aléatoires à

plus de deux variables. Lesn variables Xt, X2,..., Xn seront dites indépendantes si, pour
tout choix de n ensembles de nombres réels A{, A2,..., An,
P{X,A 1,X2eA2,...,XneAn}= f[ P { X , e A }
i=1
On peut comme plus haut montrer que cette dernière égalité est équivalente à
P{Xi < ax, X2 < a2,..., Xn < a„}

n
= fi P{Xj s a,} pour tous ax, a2,..., a„
Une collection infinie de variables aléatoires est indépendante si tout sous-ensemble

fini que l'on puisse en tirer est composé de variables indépendantes.
6.2.4 Exemples d'indépendance de plusieurs variables
Exemple 6.12 Comment faire engendrer par un ordinateur un sous-ensemble de

composition aléatoire? La plupart des ordinateurs sont capables d'engendrer par
simulation des «nombres aléatoires» qui sont, avec un certain degré d'approximation,
de distribution uniforme dans (0, 1). Il est facile de construire à partir de là un
simulateur de variable aléatoire indicatrice, plus précisément, dans notre cas, un
générateur de variable de Bernoulli; supposons que I soit une variable aléatoire
indicatrice qui doive vérifier
P{I = 1} = p = 1 - P{I = 0}
L'ordinateur peut simuler / en tirant un nombre aléatoire U de distribution uniforme

dans (0, 1) puis en posant
si U ^ p
si U> p
Admettons maintenant que nous nous intéressions à la sélection aléatoire d'un

sous-ensemble de taille k,k < n, de l'ensemble {1, 2,..., n) de telle manière que chacun
des (l) résultats possibles soit équiprobable aux autres. La méthode qui est exposée
ci-après permet d'effectuer ce tirage. Pour ce, commençons par simuler le tirage
séquentiel de n variables indicatrices /,, I2,..-, I„ de telle manière qu'exactement k de
ces indicatrices aient 1 pour valeur. Les indices / pour lesquels /, = 1 seront les
éléments du sous-ensemble à construire.
Pour engendrer les variables aléatoires /,, /2,..., /„, commençons par simuler le
tirage de n variables indépendantes uniformes sur (0, 1), notées £/,, U2,—, Un. On
définit ensuite
sinon
et subséquemment on pose de manière récursive
J1 si Ui+i < :
4M H n-i
(0 sinon
En d'autres termes, on attribuera à / / + 1 la valeur 1 avec une probabilité égale au

nombre de places qu'il faut encore pourvoir dans le sous-ensemble à tirer (à savoir
k — I /•) divisé par le nombre restant n — i d'occasions qu'il reste de pourvoir ces
7=1
places. (On rappelle ici que si Ii+, = 1, le nombre / + 1 sera inclus dans le sous-ensem-
ble à tirer). La loi conjointe des variables /,, /2,..., /„ est donc donnée par
P{J,+ I = 1 | J , , . . . , / , } = '-^r- Ki<n

n - i
La preuve que les sous-ensembles ainsi choisis sont tous équiprobables peut être faite
par induction sur k + n. Elle est immédiate lorsque k + n = 2, donc lorsque
k = 1 et n = 1. Supposons donc qu'elle soit établie pour k + n 4 /• Montrons
qu'elle le sera pour k + n = l + 1. On considère un sous-ensemble de taille k
quelconque, /, < i2... ^ ik par exemple, et distingue les deux cas suivants:
• Cas 1: ;', = 1.
P{Ii = 4 = • • • = 4 = 1,1,: = 0 ailleurs}
= P{7, = \}P{Ih = ••• =Ilk = l,Ij = 0 ailleurs |7, = 1}
Etant donné que /, = 1, le reste des éléments du sous-ensemble sera choisi comme
s'il fallait tirer un sous-ensemble de taille k — 1 parmi n — 1 éléments, nommément
les nombres 2, 3,..., n. En vertu de l'hypothèse d'induction, la probabilité condition-
nelle d'obtenir un sous-ensemble bien déterminé de taille k — 1 sera \/("k Z ',)• Aussi
P{h = /i2 = • • • = 4 = 1, Ij = 0 ailleurs}

• Cas 2: /, # 1.
P{Ih = 4 = • • • = 4 = 1, /, = 0 ailleurs}
= P{Ih = • • • = 4 = 1, Ij = 0 ailleurs 14 = 0}F{4 = 0}
où nous avons fait usage de l'hypothèse d'induction lors de l'évaluation de la

probabilité conditionnelle que nous avons fait apparaître.
Aussi a-t-on l'assurance que tout sous-ensemble de taille k donné apparaîtra avec
probabilité 1/Q. •
REMARQUE. Cette méthode pour générer un sous-ensemble aléatoire nécessite une très
faible quantité de mémoire. Un algorithme plus rapide mais qui requiert plus de
mémoire est présenté dans la section 10.1.2 du chapitre 10. (Cette dernière méthode
utilise les k derniers éléments d'une permutation aléatoire de 1,2, ..., n.)
Exemple 6.13 Admettons que X, F et Z sont trois variables aléatoires indépendantes

et uniformément réparties sur (0, 1). On souhaite calculer P{X ^ YZ).
SOLUTION. On sait que
fx,y,Ax, y, z) = fx(x)fy(y)fz(z) = 1 0<x<l,0<y<l,0<z<l

on a
P{X > YZ} = J J J / x , y , z U .V, z) dx dy dz
= dxdydz
Jo Jo J yz
= I I (l-yz)dydz
Jo Jo
=I'H) dz
3
4
Exemple 6.14 Une interprétation probabiliste de la demi-vie.

Soit N(t) le nombre de noyaux contenus dans une masse radioactive d'un matériau,
au temps t. Le concept de demi-vie est souvent défini de manière déterministe; en effet,
c'est l'expérience qui a permis d'établir que pour une valeur h appelée la demi-vie
N(t) = 2-'/hN(0), f >0.
(Remarquer que N(h) = N(0)/2.) Puisque l'égalité ci-dessus implique que pour tous
5 et t non négatifs
N(t + s) = 2- (i+,) /"Af(0) = 2-'/hN(s)
il s'ensuit que, indépendamment du temps 5 écoulé, pendant un temps additionnel /,
le nombre de noyaux restants sera diminué d'un facteur 2~'lh.
Comme la relation déterministe précédente résulte d'observations de masses ra-
dioactives contenant une grande quantité de noyaux, elle pourrait bien être consis-
tante avec une interprétation probabiliste. La clé pour la déduction du modèle
probabiliste approprié pour la demi-vie réside dans l'observation empirique suivante:
la proportion de désintégration dans un intervalle de temps donné ne dépend ni du
nombre total de noyaux au début de l'intervalle ni de la location de cet intervalle (vu
que N(t + s)/N(s) ne dépend ni de N(s) ni de s). Par conséquent, il apparaît que
chaque noyau individuel réagit indépendamment des autres et selon une distribution
de durée de vie sans mémoire. Etant donné que l'unique distribution sans mémoire
est la distribution exponentielle et qu'exactement la moitié de la quantité de masse
donnée disparaît toutes les h unités de temps, on propose le modèle probabiliste
suivant pour la désintégration radioactive.
Interprétation probabiliste de la demi-vie h: Les durées de vie des noyaux individuels
sont des variables aléatoires indépendantes de distribution exponentielle dont la
médiane est égale à h. En d'autres termes, si L représente la durée de vie d'un noyau
donné, alors
P{L < t} = 1 -2~'/h
(Comme P{L < h} = Vi et que l'égalité précédente peut être écrite sous la forme
P{L < t} = 1 — expi — / >, on voit que L suit effectivement une distribution
exponentielle de médiane h.)
On notera qu'avec cette interprétation probabiliste de la demi-vie, si l'on compte
A'(O) noyaux au temps 0, alors N(t), le nombre de noyaux restants au temps t, suivra
une loi binomiale de paramètres n = N(0) et p = 2~"\ Des résultats du chapitre 8
montreront que cette interprétation de la demi-vie est consistante avec le modèle
déterministe lorsque l'on considère la proportion d'un grand nombre de noyaux qui
se désintègrent pendant un laps de temps donné. Cependant, la différence entre
l'interprétation déterministe et probabiliste devient apparente au moment où l'on
considère le nombre actuel de noyaux désintégrés. Nous allons maintenant mention-
ner ce fait par rapport à la question relative à la désintégration des protons.
Il y a une controverse sur la désintégration ou non des protons. Une théorie prévoit
la disparition des protons avec une demi-vie d'environ h = 1030 années. Une vérifica-
tion empirique consiste à suivre un grand nombre de protons pendant, disons, 1 ou
2 ans, et à déterminer s'il y a une diminution pendant cette période. (Il est clair qu'il
n'est pas possible de suivre une masse de protons pendant 1030 années pour vérifier si la
moitié d'entre eux disparaît.) Supposons que l'on puisse garder trace de 1030 protons
pendant c années. Le nombre de désintégration prédit par le modèle déterministe
serait donné par
N(0) - N(c) = h(\ - 2~c/h)

1 - 2-c/h
1/h
lim (1 - 2~cx)/x puisque 1/h = 1(T30 « 0
= lim (cl " ln2) d'après la règle de l'Hôpital

v-»0
Par exemple, le modèle déterministe prévoit 1,3863 disparus en 2 ans, et l'on

entre donc sérieusement en conflit avec l'hypothèse que les protons meurent avec une
demi-vie de 1030 années si aucune désintégration n'a été observée pendant ces 2 ans.
Comparons maintenant ces conclusions avec celles obtenues à partir du modèle
probabiliste. Supposons de nouveau que la demi-vie des protons est h = 1030 ans et
suivons h protons pendant c années. Comme il y a un grand nombre de protons
indépendants, chacun ayant une très petite probabilité de mourir pendant cette
période, cela implique que le nombre de désintégration aura (avec une très forte
approximation) une distribution de Poisson de paramètre égal à h(\ — 2~clh) » cln 2.
Ainsi
P{0 perte} = e~Anl

= e-|n(2,) = 1/2''
et, de façon générale,

P{n pertes} = 2~clc]n2T „>0
Ainsi, bien que le nombre moyen de disparitions sur 2 ans soit (selon le modèle
déterministe) 1,3863, il y a une chance sur 4 qu'aucun proton ne meure, indiquant par
là qu'un tel résultat ne peut en aucune façon valider l'hypothèse originale sur la
désintégration des protons. •
6.3 SOMMES DE VARIABLES ALEATOIRES INDEPENDANTES
6.3.1 Convolution
Il est très souvent nécessaire de déterminer la distribution de la somme X + Y de

deux variables aléatoires X et Y indépendantes en se basant sur leurs distributions
marginales. Supposons que ces distributions soient données par les densités fx etfY-
Le calcul suivant résout le problème
x+y-â
/•oo Ça —y
fx(x)fy(y)dxdy
J —OO J — OO
(6.17)
Çœ Ça-y
fx(x)dxfY{y)dy
J — OO J —OO
r oo
Fx(a-y)fY(y) dy
J — OO
La fonction obtenue dans (6.17), ici fonction de répartition de X + Y, est appelée

convolution des fonctions Fx et fY. La densité / j - + Y d'une somme est obtenue par
convolution également, tout comme sa fonction de répartition. Il suffit en effet de
dériver (6.17) pour obtenir fx + Y:
j r°o
/ x + y(a) = — J Fx(a-y)fY{y)dy
-j: — Fx(a-y)fY{y)dy (6.18)
-J: /x(a-y)/y(y) ^
qui est bien une convolution, celle defx etfY.
Exemple 6.15 Cas de la somme de deux variables aléatoires uniformes indépendantes.

Admettons que X et Y soient uniformes sur (0, 1) et indépendantes. Déterminons la
densité de X + Y.
SOLUTION. On a
< a< 1
sinon
En application de (6.18), on peut écrire
fx+Y(a) =
Pour 0 ^ a ^ 1, on obtient
tandis que pour 1 < a < 2, on aura
Ainsi
(a 0<a<l
fx+Y{a)=h- a \<a<2
(0 sinon •
6.3.2 Additivité de la loi Gamma
On se souvient que la densité d'une variable aléatoire suivant une loi gamma est
de la forme
où (k,t) est le couple des paramètres spécifiques à cette variable. La famille des
distributions gamma possède une importante propriété d'additivité lorsque X est
constant. Enoncé autrement, lorsque X est constant, la famille est stable pour la
convolution; ce qu'explicite le théorème suivant:
Théorème 6.1
Si X et Y sont deux variables indépendantes suivant des lois gamma de paramètres
respectifs (s, X.) et (t, X,), X + Y sera également une variable de loi gamma avec
paramètres (s + t, K).
DÉMONSTRATION. On utilise (6.18):
on pose alors x = y/a, ce qui donne
= Ce a
où la valeur de la constante C ne dépend pas de a. Cette dernière expression étant

une densité, son intégration devra donner 1, ce qui déterminera la valeur de C. On
trouve après calculs
, , , e (Afl)
/x+vU)= T{s + t)
ce qui établit le théorème. •

Il est à partir de là facile de démontrer par induction que si Xt, i = 1,..., n sont
des variables indépendantes suivant des lois gamma de paramètres respectifs (?,, X),
i = 1,..., n, alors £ Xl suivra aussi une loi gamma de paramètres (S f-, X). Ce travail
;=1 i=l
est laissé en exercice.
6.3.3 Première application: somme de variables exponentielles
On considère n variables aléatoires exponentielles indépendantes de même pa-

ramètre X. Une variable exponentielle de paramètre X étant en fait également une
variable de loi gamma (1, X), le théorème 6.1 permet de conclure que la somme
X^ + X2+ ... + Xn suit une loi gamma de paramètres (n, X).
6.3.4 Deuxième application: densité des lois y2
Soient n variables aléatoires Z,, Z2,..., Z„ normales centrées réduites et indépen-

dantes. La distribution de la variable Y = 1, Z~ est appelée distribution chi-carré à
;=i
n degrés de liberté, que l'on note parfois distribution xi •
Nous allons déterminer sa densité. Pour n = 1 et Y = Z\, la densité de Y a été
calculée à l'occasion de la résolution de l'exemple 5.29 où l'on avait trouvé
fz'(y) = -Wz(Vy) + fz(-^)]

2Vy
_|e-1/2y(|y)1/2-1
V 77
On reconnaîtra ici la densité de la loi gamma de paramètres (i ~). [En comparant

l'expression ci-dessus à la densité gamma mentionnée et en se souvenant que ces
deux fonctions sont des densités dont l'intégrale vaut nécessairement 1, on obtient
le résultat secondaire intéressant r(\) = ^fn et par suite l'identité annoncée].
Puisqu'alors Z2 suit pour tout / une loi gamma (j, |), en vertu du théorème 6.1 la
loi xl n'est rien d'autre que la loi gamma (M/2, |). Sa densité est donc
Lorsque n est un entier pair, on calcule r(w/2) en utilisant la relation

r(«/2) = [(n/2) — 1]!. Si n est impair, on utilise autant de fois que nécessaire la rela-
tion T(r) = (f — 1) T(t — 1) et le résultat précédemment obtenu T(j) = yfïi. [A titre
d'exemple, r $ = (§) T(f) = (f)(I) T(I) = (|) ^ ï ] .
Dans la pratique, on rencontre la distribution %2 comme étant la répartition du
carré de l'erreur obtenue lors d'un tir sur une cible à n dimensions, lorsque les erreurs
le long de chaque axe sont de répartition normale standard. Au-delà de cet exemple,
la distribution %2 joue également un rôle important dans le domaine de la statistique
inférentielle.
6.3.5 Additivité de la loi normale
On peut grâce à (6.18) établir également l'important résultat suivant concernant
des variables normales:
Théorème 6.2
Soient X{, X2,..., Xn des variables aléatoires indépendantes normales de paramètres
(\i.j,Oi ),i = 1,..., n. La variable S Xt est alors normale de paramètres Z \x et2. af.
La démonstration de ce théorème est laissée en exercice.
6.3.6 Additivité de lois discrètes: loi de Poisson, loi binomiale
Plutôt que d'essayer d'exhiber une formule générale donnant la distribution d'une
somme de variables discrètes, deux cas particuliers seront traités à travers des exem-
ples: celui de la somme de variables poissoniennes puis binomiales.
Exemple 6.16 Somme de deux variables aléatoires de Poisson indépendantes. On veut
ici déterminer la loi de probabilité de X + Y où X et Y suivent des lois de Poisson
de paramètres A., et X.2.
SOLUTION. L'événement {X + Y = n) est l'union disjointe des événements
{X = k, Y = n - k) pour k = 0, 1,..., n. Donc
P{X + Y = n} = £ P{X =k,Y = n-k}
En d'autres termes, X + Y suit une loi de Poisson de paramètre À,, + A.,.

Exemple 6.17 Somme de variables binomiales indépendantes.

On cherche toujours la loi de X + Y, les variables X et Y étant ici binomiales de
paramètres (n, p) et (m, p) respectivement.
SOLUTION. Sans faire le moindre calcul, on peut déterminer que X + Y suit une loi
binomiale de paramètre (n + m, p). Il suffit de revenir à l'interprétation qui présente
une variable binomiale X de loi notée b(n, p) comme le nombre de succès obtenus lors
de la répétition de n épreuves indépendantes ayant chacune une probabilité p de
succès. Si Y compte le nombre de succès de probabilité p lors d'une suite de m
épreuves, et si de plus X et Y sont indépendantes, alors X + Y peut représenter le
nombre de succès de probabilité p lors d'une suite de n + m épreuves. Il s'agit bien
là d'une variable de loi binomiale b(n + m, p). Mais on peut établir ce même résultat
de manière analytique:
P{X + Y = k} = l P{X = i,Y= k- i}
- £ P{X = i}P{Y = k - i}
1=0
où q = 1 — p et où (J) = 0 lorsque y > r. Donc
P{X+Y = k} = pkqn+m-k îo ( " ) ( ^ ,-)
et le résultat attendu apparaît après application de l'identité combinatoire
6.4 DISTRIBUTIONS CONDITIONNELLES
6.4.1 Cas discret
On se souvient que, pour toute paire d'événements E et F, la probabilité de E sous

condition que F soit réalisé est, pour autant que P(F) > 0,
P(EF)
P(E\F) = —
(
' ' P(F)
Il est naturel à partir de là de définir la loi de probabilité de X sous la condition
Y = y:
P{X = x,Y = y}
P{Y = y}
_ p(x, y)
Pviy)
pour tous les cas où pY(y) > 0. On définit également la fonction de répartition
conditionnelle de X, sachant que Y = y, pour autant que py(y) > 0 toujours:
FxlY(x\y) = P{Xsx\Y = y}
= I Px\Y(a]y)
On constate donc que les définitions sont exactement les mêmes que dans le cas où
il n'existe pas de condition. Simplement, les probabilités sont toutes modifiées par le
fait que l'on sache que Y = y.
Lorsque X et Y sont indépendantes, les lois conditionnelles et non conditionnelles
sont identiques. On peut se convaincre de cette évidence grâce au calcul suivant:
Pxiy{x\y)=P{X = x\Y = y}
P{X = x,Y = y}
P{Y = y}
P{X = x}P{Y = y}
P{Y = y}
= P{X = x}
6.4.2 Exemples de distributions conditionnelles discrètes
Exemple 6.18 La loi conjointe de probabilité p(x, y) de deux variables X et Y est

donnée ainsi:
p(0,0) = .4 p ( 0 , l ) = .2 p ( l , 0 ) = .l p ( l , l ) = .3
On veut trouver la loi conditionnelle de X lorsque Y = 1.
SOLUTION. On calcule d'abord
M D = I PU 1) = p(0,1) + p(l, 1) = .5
X
Ainsi
Pxiv(0|l) = — - — = -
PY(1) 5
et
PX|Y(1|1) = „ n , =7
PYW 5 •
Exemple 6.19 Soient deux variables poissoniennes X et Y indépendantes et de para-

mètres X,, et X2. On souhaite connaître la loi conditionnelle de X lorsqu'on sait que
X + Y = n.
SOLUTION. Cette loi sera obtenue ainsi:
P{X = k,Y = n-k)

P{X +Y = n}
P{X = k}P{Y = n-k}
P{X + Y = n)
où la dernière transformation se fonde sur l'indépendance de X et Y. La loi de la
somme X + Y ayant déjà été calculée (d'après l'exemple 6.16, il s'agit d'une loi de
Poisson de paramètres X,, + X2), l'expression précédente devient
—À. » k —À-, » n—k r
En d'autres termes, la variable X suit, sous la condition que X + Y = n, une loi

binomiale de paramètres n et XJ(Xi + X2). •
6.4.3 Cas continu
Soient A' et F des variables de densité conjointe J[x, y). On définit la densité
conditionnelle de X sous la condition Y = y, et lorsque fY(y) > 0 par la relation
/
^ (x|y) = 7^ô
On peut donner un fondement intuitif à cette définition en multipliant le membre de
gauche par dx et celui de droite par (dx dy)/dy pour obtenir
f(x,y)dxdy
M*\y)dx= fY{y)dy
P{x < X < x + <jjç y < Y s y + dy}
P{y < F < y + dy}
= F { x < A ' < x + rfx!y< Y < y + dy}
En d'autres termes, lorsque dx et dy sont assez petits, la quantité fxir(x\y) dx

représente la probabilité conditionnelle que X soit entre x et x + dx, sachant que Y
est comprise entre y et y + dy.
L'usage de ces densités conditionnelles rend possible le calcul de probabilités
d'événements relatifs à une variable, sous condition qu'une seconde ait pris une valeur
connue. Nommément, lorsque X et Y sont conjointement continues et pour tout
événement A relatif à X, on aura
P { X e A | y = y} = J fxlY(x\y)dx
! >
Si en particulier on choisit A = ( — oo, a], on aboutit à la définition de la fonction de
répartition conditionnelle de X sous la condition Y = y:
FxlY(a\y) = P{X<a\Y = y}= \ fxlY(x\y) dx
Il faut noter le fait que les notions qui viennent d'être présentées permettent le
calcul de probabilités conditionnelles même dans les cas où la probabilité de la
condition (à savoir Y = y) est nulle, ce qui est assez remarquable.
6.4.4 Exemples de distributions conditionnelles continues
Exemple 6.20 Soient X et Y des variables ayant pour densité conjointe
,. , fêx(2-x-y) 0<x<l,0<y<l
(.0 sinon
On cherche la densité conditionnelle de X, sachant que Y = y, où 0 < y < 1.
SOLUTION. On aura, lorsque 0<JC< 1 et 0 < y < 1
fx\Y(x\y) ~
/y (y)
y)
dx
- x
- x - y) dx
y)
x -
Exemple 6.21 Supposons que X et Y aient pour densité conjointe
f{x,y)=\ y
^0 sinon
On cherche à calculer P{X > 11 Y = y).
SOLUTION. Cherchons d'abord la densité conditionnelle de X lorsque Y = y:
fx\Y(x\y) -
h (y)
e~x/ye-y/y
e-yfî{\/y)e~x/ydx
= - e~x/y
y
Ainsi
P{X>l\Y = y}= -e~xlydx
Ji y
= -e~x/y
/y
= e
Comme dans le cas discret, X et Y ont une même densité conditionnelle et non
conditionnelle en cas d'indépendance. En effet, sous cette hypothèse
JX\Y(X\y) - — - - - fx(x) m
/y (y) /y (y)
6.4.5 Autres cas de distributions conditionnelles
On peut parler de distribution conditionnelle même lorsque les variables mises en

jeu ne sont ni conjointement continues ni conjointement discrètes. On peut par
exemple imaginer le cas de deux variables, l'une notée A'continue de densité/, l'autre
discrète notée N, et s'intéresser à la densité conditionnelle de X sous la condition
N = n. Tout d'abord
P{x<X < x + dx\N = n}

dx
P{N = n | x < X < x + dx} P{x < X < x + dx)
P{N = n} dx
Lorsque dx tend vers 0, on peut récrire cette égalité ainsi:
,. P{x<X< x + dx\N = n} P{N = n\X = x} ,, ,
où l'on voit que la densité cherchée est
P{N = n\X = x} tl
/*,*(*!*) = p{N = n} f(x)
Exemple 6.22 On considère une suite de n + m épreuves indépendantes identiques.

Leur probabilité de succès n'est cependant pas connue d'avance. On admet qu'elle est
aléatoire et distribuée uniformément dans l'intervalle (0, 1). Que devient cette distri-
bution si l'on apprend qu'une réalisation des m + n épreuves a donné n succès ?
SOLUTION. Désignons par X la probabilité de succès à l'occasion d'une épreuve isolée.

A'est uniforme sur (0, 1). Si l'on sait que X = x, les n + m épreuves sont indépendan-
tes et la probabilité de succès de chacune est x. Le nombre N des succès est donc une
variable binomiale de paramètres (n + m, x). Dès lors, la densité conditionnelle de
X sous la condition N = n est
. . . . P{N = n\X = x}fx(x)

fx\N(x\n) =—
où c ne dépend pas de x. On reconnaît la densité de la loi bêta de paramètres

(n + 1, m + 1).
Ce dernier résultat présente un intérêt supplémentaire: si dans notre expérience la
distribution a priori (c'est-à-dire avant toute réalisation) de la probabilité de succès
d'un tirage est uniforme sur (0, 1) - ce qui équivaut à dire qu'elle suit une loi bêta
de paramètres ( 1,1 ) - la probabilité a posteriori (donc conditionnelle) suit une loi bêta
(1 + n, 1 + ni) lorsqu'il y a eu « succès parmi les n + m épreuves. Cet exemple donne
donc un fondement intuitif qui permet de mieux sentir ce que représente l'hypothèse
pour une variable de suivre une loi bêta. •
6.5 STATISTIQUES D'ORDRE
6.5.1 Définition
Considérons Xx, X2,..., Xn, un groupe de n variables aléatoires indépendantes

identiquement distribuées, continues de densité/et ayant une fonction de répartition
F. On définit les variables aléatoires suivantes:
X{l)(<ax, co2,..., OJ„) vaudra le plus petit des A",.(co,.)

A"(2)(cO|, (o2,..., co„) vaudra le second plus petit des A",-(co;)
A"w(cO|, u>2,..., co„) vaudra le j-ème plus petit des A^co,-)
Aôo,, (o2,..., OJ„) vaudra le plus grand des A^co,-),

où (ça,, oo2,..., a>n) est un événement de l'ensemble fondamental associé aux variables
conjointes Xt, X2,..., X„. Les fonctions ordonnées A',,, < X{2) < ... < X(n) sont
appelées statistiques d'ordre associées à A",, A'2,..., X„. En d'autres termes, ces variables
font correspondre à un événement conjoint non pas les valeurs directes mais les
valeurs classées par ordre croissant.
6.5.2 Densité conjointe

On peut obtenir la densité conjointe des statistiques d'ordre en prenant pour
point de départ le fait que les variables A'(1), A'(2),..., X{n) prendront les valeurs
x, < x2 ... < xn si et seulement s'il existe une permutation (/,, i2,..., /,,) de (1, 2,..., n)
telle que
= X =
X\ i, > X2 Xj, , . . . , X„ = X)
Or, pour toute permutation semblable, on peut écrire

e
nf £ £ e]
P\xh - - < X, < Xil + -,..., xin - - < Xn < xt, + - j
~ e
fx ,X„ (-î, > • • • ) *i„)
= e"f(Xl) • • • f(xn)
De ce fait, en passant aux statistiques d'ordre, on aura
f e e e et
P\xl--<Xll)<x1+-,...,xn--< X(n) < xn + - j
~ «!*"/(*,) •••/(*„)
Lorsqu'on divise par e" et à condition que e tende vers 0, on obtient
fxilh....xtn)(xi,x2,...,xn) = w!/(x,)- • • f(x„) Xi < x2< • • • <xn (6.19)
Il existe une justification intuitive à (6.19): dès que (A",, X2,..., X„) prend pour valeur
l'une des n\ permutations de (x,, x2,..., xn), les variables conjointes (X{]), A"(2),..., XM)
prennent pour valeur (je,, x2,—, xn) précisément. Il y a d'ailleurs équivalence. Comme
la densité de probabilité pour toute permutation de (xt, x2,..., xn) est/fa,) ...f(xn),
(6.19) se trouve expliquée.
Exemple 6.23 Trois personnes sont échelonnées «au hasard» sur une route de un
kilomètre de longueur. On se demande la probabilité que les personnes soient espacées
d'au moins d kilomètre, d étant inférieur ou égal à 0,5.
SOLUTION. Admettons que l'hypothèse «échelonnés au hasard» signifie que la position

de chacune des trois personnes soit uniformément distribuée le long de ce bout de
route et indépendante de celle des autres. On désigne par A", la position de la i'-ème
personne. Ce que l'on cherche à calculer est donc P{X^ > X(i_t) + d, i = 2, 3}.
Comme
/x (1) ,x (2) ,x (3) (*i, x2, x3) = 3! 0 < Xi < x2 < x3 < 1
on peut écrire
où l'on a effectué le changement de variable y2 = 1 — d — x2. La dernière expression

devient
La probabilité cherchée, à savoir celle que les personnes soient espacées d'au moins
d kilomètre, est donc (1 — 2df lorsque d < 0,5. Grâce à un calcul analogue, on peut
établir que la probabilité correspondante lorsqu'on place n personnes au hasard sur
une route mesurant un kilomètre de longueur est
[1 - (n - \)df lorsque d <

n- 1
La preuve en est laissée en exercice. •
6.5.3 Densités marginales
On peut obtenir la densité marginale de la y'-ième statistique d'ordre X(j) en

intégrant la densité conjointe donnée dans (6.19). Mais on peut alternativement faire
le raisonnement suivant: pour que Xu) prenne la valeur x, il faut et suffit que j — 1
des n valeurs prises par A',,..., Xn soient inférieures à x, que n — j d'entre elles soient
supérieures à x et que la dernière soit x précisément. La densité de probabilité calculée
en un point (x,, x2,—, xn) dont les coordonnées satisfont les conditions précitées est
partitions de n nombres en trois groupes tels que ceux décrits. Par conséquent la
densité de X(j) sera
/*.<•> - ( . - X - l ) l [ F ( , ) r ' 1 1 ~ F , ' ) 1 "" / , ' ) (6.20,

Exemple 6.24 On appelle échantillon de taille 2« + 1 tout groupe de 2n + 1 variables
aléatoires indépendantes et identiquement distribuées. La médiane d'un tel échantil-
lon est X(n + (). Supposons que l'on observe un échantillon de taille 3 de variables
uniformes sur (0, 1). On s'intéresse à la probabilité que la médiane prenne une valeur
comprise entre - et -.
SOLUTION. La densité deX(2)est donnée selon (6.20) par
3!
Ainsi
16
6.5.4 Fonction de répartition
On peut calculer la fonction de répartition de X(j) par intégration de (6.20), ce qui

donne
F
«»w= (H-y^'y-t), J jFwy^n - Fwrw dx (6.21)
Mais il existe une autre méthode assez directe pour le calcul de Fx . En effet, X(j)
prendra une valeur inférieure à un nombre y si et seulement si7 des variables au moins
prennent des valeurs inférieures ou égales à y. Comme le nombre des variables Xt à
valeur inférieure ou égale à y est une variable binomiale de paramètres {n, p = F(y)),
on peut écrire
Fxti)(y) = P{X{j) s y) = i>{au moins / des X-t sont s y}
)[F(y)f[l - F(y)rk (6.22)

-.?,(;>
En marge de ce résultat général, on peut appliquer (6.21) et (6.22) au cas où F
correspond à une distribution uniforme sur (0, 1). On aura alors évidemment
F(x) = x lorsque 0 < x < 1. Cela nous fait aboutir à une identité intéressante:
|,C) *• - >r ' - c-wj-i). [' *'-'"- ^," ° ^ s '.6,3,

6.5.5 Densité conjointe de deux statistiques d'ordre
On peut déterminer la densité conjointe de deux statistiques d'ordre X{j) et Xu) en

invoquant le même genre d'argument que celui qui a permis d'établir (6.20). En
supposant que l'on soit dans le cas où i < j , cette densité est
f ( \= "!
(i-l)!(/-i-l)!(n-y)!
x [F(x i )] i " 1 [F(x ; ) - F ( x 1 ) r ' " I [ l - F(jc y )r"'/U,)/(*/) (6-24)
pour tous les arguments satisfaisant x, < x-.
Exemple 6.25 Distribution de l'étendue d'un échantillon.

Soient n variables indépendantes et identiquement distribuées X,,X2,..., Xn. L'étendue
de cet échantillon est la variable aléatoire R = X(n) - X(l). Si l'on note f et F
respectivement la densité et la fonction de répartition des variables A-,, la fonction de
répartition de R peut être calculée à partir de (6.24) comme suit pour a ^ 0:
P{i?<a} = P{X(„)-X(1)<a}
• JJ
x—x, â
fxnhx{„)(xi,xn)dxldxn
En effectuant le changement de variable y = F(xn) - F(xx), dy = j{xn) dxn, on trouve

•FU,+a)-F(x,)
et donc
P{R (6.25)
L'évaluation explicite de (6.25) n'est possible que dans quelques cas particuliers. Par
exemple, celui où les Xt sont uniformément distribuées dans (0, 1). On obtient alors
en appliquant (6.25) et pour 0 < a < 1:
a}=n\
Jo
= n a" - 1 dxt + n | (1 - x,)""1 dxx

J() Jl-a
— a)a +a
Par dérivation on peut calculer la densité de R, à savoir ici

\\-a) 0<a<l
sinon
6.6 CHANGEMENT DE VARIABLES MULTIDIMENSIONNELLES
6.6.1 Cas bidimensionnel
Considérons deux variables aléatoires X1 et X2 conjointement continues de densité

fXx Xl. Il arrive qu'on s'intéresse à la densité conjointe de F, et Y2, deux fonctions de
Aêt X2. Supposons pour être plus précis que Y{= g\{X{, X2) et Y2— g2(Xx, X2).
Admettons encore que les fonctions gx et g2 satisfassent les deux conditions suivantes:
a) on peut résoudre par rapport à x, et x2 le système d'équations yx= g,(jc,, x2),
y2 = ^2(-xri' xi>- Les solutions sont notées JC, = hx(yx, y2) et x2= h2(y\, y2);
b) les fonctions g, et g2 sont continûment différentiables et de Jacobien partout non
nul. Ceci revient à écrire, en utilisant la définition du Jacobien:
5*0
pour tout couple (xt,-x2).

Sous ces conditions, on peut montrer que les variables Y{ et Y2 sont conjointe-
ment continues et de densité
/VI.Y-2 (yi. Ï2) = /x,.x 2 (*i, x2)\J(Xi, x 2 ) r ' (6.26)
où il faut remplacer x] par /;,(j'b J'2)etxi par h2(yy, y2).

La démarche suivante mènerait à la démonstration de (6.26). D'abord calculer
p{Yt < y„ Y2 < y2} = Jj fXl.x2{xi,x2)dxidx2 (6.27)

(xi,X2>-
glUl,x2)syi
g 2 Ui,.x 2 )sy 2
La dérivation de (6.27) par rapport à yx puis y2 donnerait alors la densité conjointe

voulue. La preuve que cette dérivation donne bien le membre de droite de (6.26) est
un exercice avancé d'analyse qui ne sera pas traité dans cet ouvrage.
6.6.2 Exemples de changement de variables tridimensionnelles
Exemple 6.26 Soient Xt et X2 deux variables aléatoires conjointement continues de

densitéfx Xy. P o s e s K, = Xt+ X2 et Y2= Xx— X2. Exprimer la densité conjointe
de Yt et Y2 en fonction defXXy.
SOLUTION. Posons gi(x,, x2) = .V|+ x2 et ^(-î' xi) = x

\~x2.Ona
1 1
1 -1
Comme la solution du système _V|= * , + x2, y2= xt— x2 est xt= (yt + y2)/2,
2 07! — >,2)/2, l'application de (6.26) livre
x =
/ t ^- 1 / (y±±li yi - y 2 \
/vi.v 2 ^yi» yi) - ^jxi.Xi 1 2 ' 2 /
Dans le cas où A', et X2 sont indépendantes et uniformes sur (0, 1), ce dernier résultat
devient
, , v .z „-y1 + y2s2,0<y1-y2<2
/y„v2(yi,y2)= n
1n
sinon
Si, par contre, X{ et X2 sont indépendantes et exponentielles de paramètres Xt et X2
respectivement, on obtient
/y„y2(yi.y2)
f^cxpf-A,^) - A2(^)} ,, + y2 * 0,„ - „ 0

10 sinon
Si enfin X, et X2 sont indépendantes et normales centrées réduites, on aura
741
où l'on découvre un résultat secondaire intéressant: X, + X2 est ici indépendante de

X! - X2. En fait, on peut montrer que pour deux variables aléatoires Xj et X2 indépen-
dantes et de même fonction de répartition F, les variables X\ + X2 et Xj - X2 sont indé-
pendantes si et seulement si F est une fonction de répartition de variable normale. •
Exemple 6.27 On désigne par (X, Y) les coordonnées d'un point aléatoirement choisi
dans le plan. On suppose que X et Y sont de distribution normale centrée et réduite.
On voudrait connaître la distribution de R et 9, les coordonnées polaires du même
point (voir figure 6.5).
Figure 6.5 . = Point aléatoire. (X, Y) = R, 0
Si l'on écrit r = gt(x, y) = i/x 2 + y2 et 9 = g2(x, y) = Arc tgy/x, on peut calculer
agi x Sgj y
Or la densité conjointe de X et Y est
2TT
Par conséquent, la densité conjointe de R et 9 sera
•rVl
Cette densité étant décomposable et constituée du produit des densités marginales de

R et 9, il en résulte que ces deux variables sont indépendantes. 9 est ici uniformément
distribuée sur (0, 2n), tandis que R suit une distribution de Rayleigh de densité
A titre d'illustration, lors du tir sur une cible bidimensionnelle, il peut arriver que les
erreurs verticale et horizontale soient de distribution normale centrée réduite. Dans
ce cas, la distance entre le centre de la cible et l'impact du tir suit une distribution de
Rayleigh.
Ces résultats sont remarquables. Il n'est en effet pas évident a priori que le vecteur
des erreurs, dont les coordonnées aléatoires sont de distribution normale centrée
réduite et indépendantes, soit d'orientation uniformément répartie, et ce, de plus, à
n'importe quelle distance du centre.
On peut ainsi s'intéresser à la distribution conjointe de .R2 et 9: le Jacobien de la
transformation d = gx{x, y) = x2 + y2, 9 = g2(x, y) = Arc tg (y/x) étant
J = = 2
on voit que
on constate que R2 et 9 sont indépendantes, R2 suivant une distribution exponen-

tielle de paramètre |. Comme par définition R2 = X2 + Y2 suit par ailleurs une loi
X2 à deux degrés de liberté, on vérifie un résultat déjà présenté: la loi x2 à deux
degrés de liberté et la loi exponentielle de paramètre £ ne font qu'une. •
Exemple 6.28 Les résultats précédents permettent de réaliser un simulateur ou géné-

rateur de nombres aléatoires distribués normalement, et ce, à partir d'un générateur
de nombres uniformément distribués.
Notons par U] et U2 deux variables de distribution uniforme sur (0,1). Nous allons
déterminer une transformation de Uu U2 qui donne deux variables normales centrées
réduites Xx, X2 en considérant d'abord les variables (R, 9) associées à (Xx, X2) par un
passage aux coordonnées polaires. On vient de voir que si Xt, X2 sont indépendantes
et normales standard, alors R2 = X\ + X\ et 0 seront indépendantes, R2 étant de plus
de distribution exponentielle avec paramètre A. = j . Or, — 21n (7, suit une telle
distribution puisque, lorsque x > 0,
= 1
Par ailleurs, on peut utiliser pour simuler 0 la variable 2nU2 qui suit une loi uniforme
sur (0, 2TC). De ce fait, en posant
R2
peut être considéré comme le carré de la distance à l'origine et 0 l'angle donnant
l'orientation du point (A'l, X2). Comme Xx = R cos 0 et X2 = R sin 0, les deux variables
seront bien indépendantes et normales centrées réduites. •
Exemple 6.29 Soient X et Y deux variables aléatoires indépendantes suivant des lois
gamma de paramètres respectifs (a, A.) et (P, A.). On veut connaître la densité conjointe
de U = X + y e t K = X/(X + Y).
SOLUTION. La densité conjointe de A- et Y est
XeîXxy1 Ae- A y (Ay)^'
T(a)T(P)
Mais, si g^x, y) = x + y, g2(x, y) = x/(x + y), alors
9g i = ^gi = l agi dgi
dx dy dx (x + y) Sy (x + y)
et ainsi
1 1
J(x, y) = y x
(x + y)1 (x + yY x+y
Comme la solution du système u = x + v, v = ,v/(.v + y) est .v = u\\

y = u{\ — v), on peut écrire
fu,v(u, v) =fx,v[uv, M(1 - v)]u
r(a + p) rwnp)
On constate que X + Y et X/(X + Y) sont indépendantes; de plus, X + Y suit une
loi gamma de paramètres (a + P, X) tandis que X/(X + Y) suit une loi bêta de
paramètres (a, p). On peut de plus en tirer que B(a, P), le facteur d'ajustement dans
l'expression de la densité des variables bêta, est
B(a,p) = I v"-\\ - vf-1 dv

Jo
_ r(«)r(/3)
T(a+P)
Ce dernier résultat est très intéressant et peut être illustré de la manière suivante:
supposons que n + m tâches doivent être exécutées et que la durée d'exécution de
chacune soit une variable aléatoire exponentielle de paramètre X et soit indépendante
des autres durées. On dispose de deux travailleurs pour mener à bien ces tâches. Le
premier de ces travailleurs exécutera les tâches 1, 2,..., n, tandis que l'autre se chargera
des m tâches restantes. Désignons par A' et F respectivement le temps de travail total
de ces deux personnes. On peut alors affirmer - d'après ce qui précède ou ce qui a
été établi au paragraphe 6.3.3 - que A'et K seront des variables gamma indépendantes
de paramètres (n, X) et (m, X) respectivement. De plus, les résultats précédents
indiquent qu'indépendamment de la durée totale d'exécution des n + m tâches (donc
indépendamment de X + Y), la part réalisée par le premier employé suit une
distribution bêta de paramètres («, m). m
6.6.3 Cas général
L'approche du cas général est similaire. On a ici n variables A',, X2,..., Xn de densité
conjointe connue et l'on s'intéresse à la densité conjointe de Yt, Y2,..., Yn où
y, = gl(xl ,...,xn) Y2 = g2(x1 ,...,xn),...

y„ = g„(x,,...,x„)
On admettra que ces fonctions g, ont des dérivées partielles continues et que leur
Jacobien 7(x,,..., x„) est partout non nul. Par /(*,,..., x„), on entend
dgi
dgn dgn
On admettra encore que le système d'équations j>, = g,(jC|,..., x„), y2= g2(xi,..., x„),...,
y„ = gn(xi,..., x„) a une solution unique notée x, = hx(yu..., y„),..., xn = h„(yt,..., y„).
Si ces conditions sont réalisées, la densité conjointe des variables Yi est
/y. Y„ (yi,• •., y„) = /x, x, U i , . . . , x„)|/(x,,..., xJI"1 (6.28)
où x, est à remplacer par h^y^,..., yn), i = 1, 2,..., «.
Exemple 6.30 Les trois variables Xx, X2, et X^ sont normales centrées réduites et
indépendantes. On cherche ici la densité conjointe de Yx= Xl+ X2+ X3, Y2= X{ —
X2, F3 = X]— Xy
SOLUTION. Le Jacobien de la transformation décrite est
1 1 1
J= 1 -1 0 = 3
1 0 -1
La transformation réciproque donne
Yl + Y2 + Y3 _ Y1-2Y2+Y3 _ Yl+Y2-2Y3
Xl Xl X
~ 3 ~ 3 '~ 3
et par conséquent, d'après (6.28), la densité cherchée est
/y,,y2.y3(yi,y2.y3)
= lf / y , + y2 + y3 yx - 2y 2 + y3 y, + y2 - 2y 3 \
3 /x,.x 2 .x 3 ^ 3 ' 3 ' 3 /
Ainsi, comme
1
/x, .x2,x3 (Xi,X2,X3)
-!?.,«?/
T.f.,xî/2
(2,r) 3 ' 2 '
on voit que
,-0(y,.y 2 .y,)/2
/v1.v2.y,(yi,y2,y.->) = ,V2
3(2TT-
Q(yi,y2,y3) = (^^)2 +(
yi 2y 2 + y + y + y 2y
~ 3 "Ï { ' 3 " /^
y, 2 2 2 2 . 2
=
7+3y2 + 3y3~3y2*-
6.7.1 Vérifier l'équation 6.2.
6.7.2 Supposons que le nombre d'événements qui se produisent durant un intervalle

de temps donné soit une variable aléatoire de Poisson, de paramètre X. Si chaque
événement est classé comme étant un événement de type i associé à une probabilité
Pi, i = 1,..., n, l.p,: = 1, et ceci indépendamment des autres événements, montrer que
les nombres d'événements de type i qui se produisent, / = 1,..., n, sont des variables
aléatoires de Poisson, de paramètres respectifs X p(, i — 1,..., n et qui de plus sont
indépendantes.
6.7.3 Proposer une méthode utilisant le problème de l'aiguille de Buffon afin d'estimer n.
Il est assez surprenant de noter que c'était une méthode commune autrefois pour
estimer n.
6.7 .4 Résoudre le problème de l'aiguille de Buffon quand L > D.
RÉPONSE. (1 - sin d) + 26/n, où 0 est tel que cos 0 = DjL.

TTD
6.7.5 Si A' et Y sont des variables aléatoires indépendantes continues et positives,

exprimer la fonction de densité de
• Z = XIY et
• Z = XY
en termes de fonctions de densité de X et Y. Evaluer ces expressions dans le cas
particulier où X et Y sont toutes deux des variables aléatoires exponentielles.
6.7.6 Montrer analytiquement (par un raisonnement d'induction) que A', + ... + Xn
suit une distribution binomiale négative quand les Xh i = 1,..., n sont des variables
aléatoires géométriques indépendantes et identiquement distribuées. Donner égale-
ment un second argument qui vérifie ce qui précède, ceci sans calcul.
6.7.7
a) Si X suit une distribution gamma de paramètres (t, X), quelle est la distribution
de cX, c > 0?
b) Montrer que
2A* 2 "
possède une distribution gamma de paramètres «, X lorsque n est un entier positif

et i\n e s t u n e variable aléatoire chi-carré avec 2n degrés de liberté.
6.7.8 Soient X et Y des variables aléatoires continues indépendantes avec des fonctions
taux de panne respectives Xx(t) et XY(t), et soit W = min (X, Y).
a) Déterminer la fonction de répartition de W en fonction de celles de X et de Y.

b) Montrer que Xw{t), la fonction taux de panne de W, est donnée par
MO = MO + MO
6.7.9 Soient X]t..., X„ des variables aléatoires indépendantes exponentielles de para-
mètre commun X. Déterminer la distribution de min (Xt,..., Xn).
6.7.10 Les durées de vie de batteries sont des variables aléatoires indépendantes
exponentielles de même paramètre X. Une torche électrique a besoin de 2 batteries
pour fonctionner. Si l'on a une torche et n batteries de réserve, quelle est la distribu-
tion du temps de fonctionnement de la torche?
6.7.11 Soient X{, X2, X3, X^ et X5 des variables aléatoires continues indépendantes
identiquement distribuées de fonction de répartition F et de densité/et soit
/ = P{X, < X2 > X3 < X4 > X5}
a) Montrer que / ne dépend pas de F. Pour cela, exprimer / comme une intégrale à
5 dimensions et effectuer le changement de variables u, = F(x:), / = 1,..., 5.
b) Evaluer /.
6.7.12 Etablir le théorème 6.2.

Pour cela, l'établir d'abord pour n = 2, puis utiliser un raisonnement d'induction.
6.7.13 Dans l'exemple 6.22, nous avons calculé la densité conditionnelle de la proba-
bilité d'obtenir un succès, qui était variable, ceci sachant qu'une suite de n + m
premières épreuves avait donné n succès. Est-ce que cette densité conditionnelle aurait
changé si, parmi toutes les épreuves, nous avions spécifié celles représentant les n
succès?
6.7.14 Supposer que X et Y sont des variables aléatoires géométriques indépendantes

ayant le même paramètre p.
a) Sans aucun calcul, que pensez-vous de la valeur de P{X = i\X + Y = n}?
Pour répondre, imaginer que vous lancez continuellement une pièce ayant pour
probabilité p de tomber sur face. Si le second face apparaît au n-ième lancer, quelle
est la fonction de distribution de l'apparition du premier face?
b) Vérifier votre conjecture de la partie a).
6.7.15 Si A' et Y sont des variables aléatoires binomiales indépendantes et de même

paramètres n et p, montrer analytiquement que la distribution conditionnelle de X,
étant donné que X + Y = m, est une loi hypergéométrique. Donner également un
second argument qui permette d'obtenir le même résultat, mais sans calcul.
A titre d'indication, supposons que l'on jette 2« fois .une pièce de monnaie. Soit
X le nombre de piles dans les n premiers jets et Y le nombre de piles dans les n jets
suivants. Montrer que, le total des piles étant fixé à w, le nombre de piles dans les
n premiers jets a la même distribution que le nombre de boules blanches obtenues
lorsqu'un échantillon de taille m est tiré parmi n boules blanches et n boules noires.
6.7.16 Considérer une expérience pouvant aboutir à trois résultats et où le résultat

/ apparaît avec une probabilité /?,, i = 1, 2, 3. Supposons que cette expérience soit
effectuée n fois de façon indépendante et soit Xt, i = 1, 2, 3 le nombre de fois où le
résultat / se produit. Déterminer la loi de probabilité conditionnelle de À"„ étant donné
que X2 = m.
6.7.17 Soit Xt, X2, X3 trois variables aléatoires continues indépendantes et identique-
ment distribuées. Calculer:
• P{Xl> X2\X,> X3};

• P{X1>X2\Xl<X3};
- P{Xl>X2\X2>X3};
• P{Xl>X2\X2<X3}.
6.7.18 Soit U une variable aléatoire uniformément distribuée sur l'intervalle (0, 1).
Calculer la distribution conditionnelle de U étant donné que:
• U > a;
• U <a
où 0 < a < 1.
6.7.19 Supposons que W, le taux d'humidité de l'air un jour donné, soit une varia-
ble aléatoire gamma de paramètres (t, P). Cela veut dire que sa densité est
j\w) = Pe~p"(PH>)'~'/r(0, w > 0. Supposons également qu'étant donné que W = w, le
nombre d'accidents durant ce jour - appelons le N - suit une distribution de Poisson
de moyenne w. Montrer que la distribution conditionnelle de W, étant donné que
N = n, est la distribution bêta de paramètres (t + n, P + 1).
6.7.20 Soit W une variable aléatoire gamma de paramètres (t, p) et supposons que
conditionnellement à W = w, A',,..., Xn sont des variables aléatoires exponentielles
indépendantes de paramètre w. Montrer que la distribution conditionnelle de W, étant
donné que A"|= x„ X2= x2,..., Xn = x„, est la distribution gamma de paramètres
(t + n, P + Z Xi).
6.7.21 Un tableau rectangulaire de mn nombres arrangés en n lignes et m colonnes

est dit contenir un point de selle s'il y a un nombre qui est à la fois le minimum de
sa ligne et le maximum de sa colonne. Par exemple dans le tableau
1 3 2
0 - 2 6
.5 12 3
le nombre 1 de la première ligne et de la première colonne est un point de selle.

L'existence d'un point de selle revêt une importance dans la théorie des jeux. Considé-
rons un tableau rectangulaire de nombres comme décrit précédemment et supposons
que deux personnes A et B jouent au jeu suivant: A choisit un des nombres 1, 2,...,
n et B un des nombres 1, 2,.... m. Ces choix sont annoncés simultanément; si A choisit
i et B choisit j , alors A reçoit de B la somme spécifiée par le nombre situé à la /-ème

ligne ety'-ème colonne du tableau. Supposons maintenant que le tableau contienne un
point de selle - disons le nombre se trouvant à la ligne r et à la colonne k - et appelons
ce nombre xrk. Si le joueur A choisit la ligne r, alors il peut être sûr de réaliser un gain
au moins égal à xrk (puisque xrk est le nombre minimum de la ligne r). D'autre part,
si le joueur B choisit la colonne k, alors il peut être sûr qu'il ne perdra pas plus que
xrk (puisque xrk est le nombre maximum de la colonne k). Ainsi, comme A a une
possibilité de jeu qui lui assure un gain de xrk, et comme B a une possibilité de jeu
lui garantissant qu'il ne perdra pas plus que xrk, il semble raisonnable de considérer
ces deux stratégies comme optimales et de déclarer que la valeur du jeu pour le joueur
A est xrk.
Si les nm nombres du tableau rectangulaire décrit ci-dessus sont tirés de manière
indépendante d'une distribution continue quelconque, quelle est la probabilité que le
tableau obtenu contienne un point de selle?
6.7.22 On dit que les variables aléatoires A'et y ont une distribution normale bivariée
si leur fonction de densité conjointe est donnée par:
Zncrxay\/1 — p
P
l 2(l-p2)L\ crx ) \ ay ) P
axay Jj
• Montrer que la densité conditionnelle de X, étant donné que Y = y, est la densité

normale de paramètres
Px + p— (y-fiy) et a2x(\ - p 2 )
• Montrer que X et Y sont toutes deux des variables aléatoires normales de paramè-
tres |i v , a 2 v et \iy, a2y respectivement.
• Montrer que X et Y sont indépendantes quand p = 0.
6.7.23 Soit F(x) une fonction de répartition. Montrer que

a) F "(x) et
b) 1 - [1 - F(x)f
sont aussi des fonctions de répartition quand n est un entier positif.
A titre d'indication, considérer n variables aléatoires indépendantes X{,..., X„ ayant
la même fonction de répartition F. Définir alors des variables aléatoires Y et Z en
termes de Xi de telle sorte que P{Y ^ x] = F"(x) et P{Z ^ x) -•= 1 - [1 - F(x)]".
6.7.24 Montrer que si n personnes sont réparties au hasard le long d'une route de L
km, alors la probabilité de ne jamais rencontrer deux personnes situées à une distance
inférieure à D km est [1 — (n — \)DjL\", dans le cas où D < L/(n — 1). Qu'en est-il
si D > L/(n - 1)?
6.7.25 Etablir l'équation (6.20) en dérivant l'équation (6.22).

6.7.26 Montrer que la médiane d'un échantillon de taille 2M + 1 provenant d'une

distribution uniforme sur l'intervalle (0, 1) a une distribution bêta de paramètres
(n + \,n + 1).
6.7.27 Vérifier l'équation (6.24) qui donne la densité conjointe de X(i) et X^.
6.7.28 Calculer la densité de l'étendue d'un échantillon de taille n provenant d'une

distribution continue de fonction de densité/.
6.7.29 Soient Xm ^ X(2) ^ ... ^ X(n) les valeurs ordonnées de n variables aléatoires
uniformes sur l'intervalle (0, 1). Prouver que pour 1 < k < n + 1
P{X{k)-X{k-l)>t} = (l-tf
où X0 s 0, Xn+1 = t.
6.7.30 Soient X{,..., X„ un ensemble de variables aléatoires continues indépendantes

et identiquement distribuées selon une fonction de répartition F et soient X(i),
i = 1,..., n leurs valeurs ordonnées. Si X, indépendant des Xh i = 1,..., n, a la même
fonction de répartition F, déterminer
a) P{X > Xin)},
b) P{X > Xm) et
c) P{X(i) < X < X(j)}, 1 si<jSfl.
6.7.31 Soient X],..., X„ des variables aléatoires indépendantes et identiquement distri-

buées de fonction de répartition F et de densité/. La quantité M = [X{i) + X{n)]/2,
définie comme la moyenne de la plus petite et de la plus grande valeur, est appelée le
milieu de l'étendue. Montrer que sa fonction de répartition est:
FM (m) = n | [F(2m - x) - F{x)T'lf(x) dx
6.7.32 Soient A',,..., Xn des variables aléatoires indépendantes et uniformes sur l'inter-
valle (0, 1). Soit/? = X{n) — X(V) l'étendue et M = [X{n) + X(i)]/2 le milieu de l'étendue.
Calculer la fonction de densité conjointe de R et M.
6.8 PROBLÈMES
6.8.1 On jette deux dés équilibrés. Trouver la loi de probabilité conjointe de X et Y

dans les cas suivants:
a) X est la plus grande des deux valeurs obtenues et Y en est la somme;
b) X est la valeur obtenue avec le premier dé et Y est la plus grande des deux valeurs;
c) J et Y sont respectivement la plus petite et la plus grande des deux valeurs
obtenues.
6.8.2 Supposer que 3 balles sont tirées sans remise d'une urne contenant 5 balles
blanches et 8 balles rouges. Soit X, égal à 1 si la j-ème balle sélectionnée est blanche
et égal à 0 sinon. Donner la loi de probabilité conjointe de
a)X,,X 2 ;
b)X 1( X 2 , X3.
6.8.3 Dans le problème 6.8.2, supposer que les balles blanches sont numérotées et soit
y, égal à 1 si la j'-ème balle blanche est tirée et égal à 0 sinon. Trouver la loi de
probabilité conjointe de
a)y,,K 2 ;
b) Yh Y2, y 3 .
6.8.4 Recommencer le problème 6.8.2 lorsque chaque balle tirée est remise dans
l'urne avant le tirage suivant.
6.8.5 Recommencer le problème 6.8.3 lorsque chaque balle tirée est remise dans
l'urne avant le tirage suivant.
6.8.6 On sait qu'il y a deux transistors défectueux dans un emballage en contenant

5. Les transistors sont testés, l'un après l'autre, jusqu'à ce que les deux éléments
défectueux aient été identifiés. Soit A', le nombre de tests effectués pour trouver le
premier transistor défectueux et soit N2 le nombre de tests additionnels pour trouver
le second transistor défectueux; établir la loi de probabilité conjointe de A', et N2.
68.7 On considère une suite d'épreuves de Bernoulli indépendantes avec une probabi-
lité de succès p pour chacune d'entre elles. Soit X{ le nombre d'échecs avant le premier
succès et X2 le nombre d'échecs entre le premier et le second succès. Trouver la loi
de probabilité simultanée de Xt et X2.
6.8.8 Soit la fonction de densité conjointe de X et Y donnée par:

f(x, y) = c(y2 - x2)e~y - y < x < y, 0 < y < oo
a) Trouver c.
b) Trouver les densités marginales de X et de Y.
6.8.9 Considérons la fonction de densité simultanée de A' et Y donnée par:
/U,>0=^(* 2 + y ) 0<x<l,0<y<2
a) Vérifier que c'est bien là une fonction de densité conjointe.

b) Déterminer la fonction de densité de X.
c) Trouver P{X > Y}.
[
d) Trouver P{Y > \\X < 2}.
6.8.10 La fonction de densité de X et y est donnée par:

f(x, y) = e~KX*y) 0<x<oo,0<y<oo
Trouver:
a) P{X < Y};
b) P{X < a).
6.8.11 Le propriétaire d'un magasin de télévision évalue que 45 % des clients entrant
dans son magasin achètent un appareil de télévision ordinaire, 15% achètent un
appareil de télévision couleur et 40% d'entre eux font juste du lèche-vitrine. Si cinq
clients entrent.dans son magasin un jour donné, quelle est la probabilité qu'il vende
exactement 2 appareils ordinaires et 1 poste TV couleur ce jour-là?
6.8.12 Le nombre de personnes qui entrent dans un magasin durant une heure donnée
est une variable aléatoire de Poisson de paramètre X = 10. Déterminer la probabilité
conditionnelle qu'au plus 3 hommes entrent dans ce magasin, étant donné que 10
femmes y sont entrées durant cette heure-là. Quelles hypothèses faites-vous?
6.8.13 Un homme et une femme se sont donnés rendez-vous à un endroit donné à

12 h 30 environ. Si l'homme arrive entre 12 h 15 et 12 h 45, et si la femme arrive
indépendamment à une heure uniformément distribuée entre 12 h 00 et 13 h 00,
trouver la probabilité que le premier arrivé n'attende pas plus de 5 minutes. Quelle
est la probabilité que l'homme arrive le premier?
6.8.14 Une ambulance fait la navette à vitesse constante le long d'une route de
longueur L. A un certain moment, un accident se produit en un point aléatoire qui
est uniformément distribué sur la route (c'est-à-dire que la distance de ce point à une
extrémité de la route servant de référence est uniformément distribuée sur l'intervalle
(0, L)). En supposant que l'emplacement de l'ambulance, au moment de l'accident,
est aussi uniformément distribué, calculer, en admettant les hypothèses d'indépen-
dance nécessaires, la distribution de la distance de l'ambulance au point de l'accident.
6.8.15 Le vecteur aléatoire (X, Y) est distribué uniformément dans une région R du
plan si, pour une constante c, sa densité conjointe est
, x je si {x,y)eR
[0 sinon
a) Montrer que 1/c = aire de la région R.

Supposer que (X, Y) est uniformément distribué sur le carré de centre (0, 0) et de
longueur d'arête 2.
b) Montrer que X et Y sont indépendants, chacun étant distribué uniformément sur
(-1, D-
c) Quelle est la probabilité que (X, Y) se trouve dans le cercle de rayon 1 centré à
l'origine? Autrement dit, trouver p{x2 + Y2 <l}.
6.8.16 Supposer que n points sont indépendamment choisis au hasard sur le périmètre
d'un cercle et qu'on cherche la probabilité qu'ils se trouvent tous sur le même demi-
cercle. (Autrement dit, on cherche la probabilité qu'il y ait une ligne passant par le
centre du cercle de telle sorte que tous les points choisis soient du même côté de cette
ligne.)
Soient P\, ..., Pn les n points choisis. Soit A l'événement «tous les points sont situés
sur un demi-cercle», et soit A, l'événement «tous les points sont dans le demi-cercle
commençant au point P, et partant dans le sens des aiguilles d'une montre à 180°, i -
1,..., n».
a) Exprimer A en termes de Aj.
b) Les A, sont-ils mutuellement exclusifs?
c) Trouver P{A).
6.8.17 Trois points Xs, X2, Xi sont choisis au hasard sur une droite de longueur L.
Quelle est la probabilité que X2 se trouve entre Xt et X{!
6.8.18 Deux points sont choisis sur un segment de longueur L, de manière à ce qu'ils
soient de part et d'autre du milieu du segment. En d'autres termes, les deux points
J e t y sont des variables aléatoires indépendantes telles que X soit uniformément
distribué sur (0, L/2) et Y soit uniformément distribué sur (L/2, L). Trouver la
probabilité que la distance entre les deux points soit plus grande que L/3.
6.8.19 Dans 6.8.18, trouver la probabilité que les trois segments de droite, de 0 à X,
de X à y et de Y à L, puissent constituer les trois côtés d'un triangle (noter que trois
segments de droite peuvent former un triangle si la longueur de chacun d'entre eux
est inférieure à la somme des longueurs des deux autres).
6.8.20 Soit la densité conjointe de X et Y donnée par:
,, , \xe~{x+y) x>0,y>0
/(*. y) = n
10 sinon
X et Y sont-elles indépendantes? Qu'en est-il si f est donnée par:
[2 0<x<y,0<y<l
f(x y)
' [0 sinon
6.8.21 Supposons que 106 personnes arrivent à une station-service à des temps qui sont
des variables aléatoires indépendantes, chacune de ces variables étant uniformément
distribuée sur l'intervalle (0, 106). Soit TV le nombre de personnes qui arrivent pendant
la première heure. Trouver une approximation pour P{N = i).
6.8.22 Supposons que A, B, C sont des variables aléatoires indépendantes, chacune

étant uniformément distribuée sur l'intervalle (0, 1).
a) Quelle est la fonction de répartition conjointe de A, B, C?
b) Quelle est la probabilité que toutes les racines de l'équation Ax2 + Bx + C = 0
soient réelles?
6.8.23 Si A'est uniformément distribuée sur l'intervalle (0, 1) et Y exponentiellement

distribuée avec un paramètre X = 1, trouver la distribution de:
a) Z = X + r et de
b) Z = X/Y.
Supposer l'indépendance de X et de Y.
6.8.24 Si X] et X2 sont des variables aléatoires exponentielles indépendantes avec

paramètres respectifs Xt et X2, trouver la distribution de Z = XJX2. Calculer aussi
P{X,< X2).
6.8.25 Quand un courant / (mesuré en ampères) traverse une résistance R (mesurée

en ohms), la puissance dégagée est donnée par W = R I1 (mesurée en watts).
Supposons que I et R soient des variables aléatoires indépendantes de densité:
f,(x) = 6x(l - x) 0<*<1

fR{x) = 2x 0<x<l
Déterminer la densité de W.
6.8.26 L'espérance du nombre d'erreurs typographiques sur une page d'un magazine
est .2. Quelle est la probabilité qu'un article de 10 pages contienne a) 0 et b) 2 ou plus
erreurs typographiques? Expliquer votre raisonnement!
6.8.27 Le nombre moyen d'accidents d'avion par mois dans le monde est 2.2. Quelle
est la probabilité qu'il y ait
a) plus de 2 accidents le mois prochain;
b) plus de 4 accidents les deux prochains mois;
c) plus de 5 accidents les trois prochains mois?
Expliquer votre raisonnement!
6.8.28 La recette hebdomadaire d'un restaurant est une variable aléatoire normale de
moyenne $2200 et d'écart-type $230. Quelle est la probabilité que
a) la recette totale des deux prochaines semaines dépasse $5000;
b) la recette hebdomadaire dépasse $2000 lors d'au moins deux des trois prochaines
semaines?
Quelle hypothèse d'indépendance avez-vous faite?
6.8.29 Dans le problème 6.8.2, calculer la loi de probabilité conditionnelle de X]

sachant que
a)X 2 = 1;
b) X2 = 0.
6.8.30 Dans le problème 6.8.4, calculer la loi de probabilité conditionnelle de X]

sachant que
a)X2=l;
b) X2 = 0.
6.8.31 Dans le problème 6.8.3, calculer la loi de probabilité conditionnelle de Y\

sachant que
a)y2=l;
b) Y2 = 0.
6.8.32 Dans le problème 6.8.5, calculer la loi de probabilité conditionnelle de Y\

sachant que
a)K2 = l;
b) Y2 = 0.
6.8.33 Choisissons un nombre X au hasard dans l'ensemble des nombres {1, 2, 3, 4, 5}.
Puis choisissons au hasard un nombre du sous-ensemble {1, 2,..., X}. Appelons Y ce
second nombre.
a) Trouver la loi de probabilité simultanée de X et Y.
b) Trouver la loi de probabilité conditionnelle de X, étant donné que Y = /. Le faire
pour / = 1, 2, 3, 4, 5.
c) X et Y sont-elles indépendantes? Pourquoi?
6.8.34 On jette deux dés. Soient X et Y respectivement la plus grande et la plus petite
des valeurs obtenues. Calculer la loi de probabilité conditionnelle de Y, étant donné
que X = i pour ; = 1, 2,..., 6. X et Y sont-elles indépendantes? Pourquoi?
6.8.35 La loi de probabilité conjointe de X et Y est donnée par:
p(l,l) = è p(l,2) = 1/4

P(2,l) = è p(2,2)=è
a) Calculer la loi de probabilité conditionnelle de Xétant donné que Y = i,i= 1, 2.

b) X et Y sont-elles indépendantes?
c) Calculer P{XY < 3}, P{X + Y > 2}, P{X/Y > 1}.
6.8.36 La densité conjointe de X et Y est donnée par

f(x, y) = xe~xiy+1) x > 0, y > 0
a) Trouver la densité conditionnelle de X, étant donné que Y = y, et celle de Y, étant

donné que X = x.
b) Trouver la densité de Z = XY.
6.8.37 La densité conjointe de X et Y est:
f(x, y) = c(x2 - y2)e'x 0 < * < oo, - * < y < x
Trouver la distribution conditionnelle de Y, étant donné que X = x.
6.8.38 Si Xx, X2, X3 sont des variables aléatoires indépendantes uniformément distri-
buées sur l'intervalle (a, b), calculer la probabilité que la plus grande des trois soit
plus élevée que la somme des deux autres.
6.8.39 Une machine complexe est effectivement opérationnelle tant que trois au moins
de ses cinq moteurs fonctionnent. Si pour chaque moteur la durée de fonctionnement
est une variable aléatoire indépendante, dont la densité est/(A:) = xex, x > 0, calculer
la densité du temps de fonctionnement de la machine.
6.8.40 Si trois camions tombent en panne en des endroits aléatoirement distribués sur
une route de longueur L, trouver la probabilité que chaque camion soit à une distance
supérieure à d des deux autres lorsque d ^ L/2.
6.8.41 Considérons un échantillon de taille 5 issu d'une distribution uniforme sur

l'intervalle (0, 1). Calculer la probabilité que la médiane se trouve dans l'intervalle
M ' 4'
6.8.42 Si Xx, X2, X3, X4, X5 sont des variables aléatoires exponentielles indépendantes,
identiquement distribuées et de paramètre X, calculer:
a) P{mm(Xh..., Xs) «c a} et
b) P{max(Xly..., X5) < a}.
6.8.43 Déterminer la distribution de l'étendue d'un échantillon de taille 2 provenant

d'une distribution dont la densité estf(x) = 2x, 0 < x < 1.
6.8.44 Soient X et Y les coordonnées d'un point choisi de façon uniforme dans un
cercle de rayon 1 centré à l'origine, c'est-à-dire que leur densité conjointe est:
/(*, y) = - x2 + y2 < 1
Trouver la densité simultanée des coordonnées polaires R = (X2 + y 2 ) 1 2 et

9 = Arc tg(Y/X).
6.8.45 Si A'et Ksont des variables aléatoires indépendantes toutes deux uniformément
distribuées sur l'intervalle (0, 1), trouver la densité conjointe de R = \jx2 + Y2 et
9 = Arctg(Y/X).
6.8.46 Si U est uniforme sur l'intervalle (0, 2TT) et Z, indépendante de U, est exponen-
tielle de paramètre 1, montrer directement (sans utiliser les résultats de l'exemple 6.27)
que X et Y définies par:
X = yJlZ cos U
Y = y/ÏZ sin U
sont des variables aléatoires normales centrées réduites.
6.8.47 Si X et Y ont pour densité simultanée
/Uy)=-T-2 *>l,y>l
x y
a) Calculer la densité conjointe de U = XY, V = X/Y.

b) Quelles sont leurs densités marginales?
6.8.48 Si A" et Y sont des variables aléatoires indépendantes de distribution uniforme

sur l'intervalle (0, 1), déterminer la densité conjointe de
a) U = X + Y, V = X/Y;
b) U = X, V = X/Y;
c) U = X + Y, V = X/(X + Y).
6.8.49 Refaire le problème 6.8.48 quand X et Y sont des variables aléatoires indépen-
dantes exponentielles, chacune de paramètre X = 1.
6.8.50 Si Xt et X2 sont des variables aléatoires indépendantes exponentielles, chacune

de paramètre X, trouver la densité simultanée de Yt = X{+ X2 et Y2= ex\
6.8.51 Si X, Y et Z sont des variables aléatoires indépendantes et identiquement

distribuées de densité/(x) = e~x, 0 < x < oo, déterminer la distribution conjointe
de U = X + Y, V = X + Z et W = Y + Z.
6.8.52 Dans l'exemple 6.30, montrer que Y2 et y3 ont une distribution normale
bi variée.
6.8.53 Les âges de futurs parents contrôlés dans un hôpital sont approximativement
distribués suivant une loi normale bivariée de paramètres ux = 28,4, o\ = 6,8,
u, = 31,6, a, = 7,4 et p = 0,82. (Les paramètres avec l'indice x se réfèrent à l'âge de
la future mère et ceux indicés par y à l'âge du futur père.) En utilisant les résultats de
l'exercice théorique 6.7.22, déterminer
a) la proportion de femmes enceintes âgées de plus de 30 ans,
b) la proportion de futurs pères âgés de 35 ans dont la femme a plus de 30 ans.
CHAPITRE 7
Propriétés de l'espérance
7.1 INTRODUCTION
7.1.1 Rappel
Dans ce chapitre, nous allons développer et utiliser des propriétés supplémentaires

de l'espérance. Pour commencer, rappelons que l'espérance d'une variable aléatoire X
est définie par
E[x] = -Zxp(x)
X
lorsque X est une variable aléatoire discrète de fonction de répartition p(x) et par
E[X] = ]xf{x)dx
lorsque X est une variable aléatoire continue de densité j(x).
7.1.2 Bornes pour l'espérance
Puisque E[X] est une moyenne pondérée des valeurs possibles de X, alors, si X est
compris entre a et b, son espérance l'est aussi.
Si
P{a < X < b} = 1
alors
a < E[X] < b
Pour vérifier ce qui précède, on suppose que X est une variable aléatoire discrète
pour laquelle P{a < X < b} = 1. Puisque ceci implique que p(x) - 0 pour tout x
n'appartenant pas à l'intervalle [a, b], on voit que
£[*]= I xp(x)
x:p(x)>0
> Z ap(x)
*:p(x)>0
x:p(i)>0
=a
De la même manière, on peut montrer que E[X] < b et le résultat est donc montré
pour les variables aléatoires discrètes. Comme la preuve dans le cas continu est
similaire, le résultat est démontré.
7.2 ESPERANCE D'UNE SOMME DE VARIABLES ALEATOIRES
7.2.1 Espérance d'une fonction de deux variables
Le théorème suivant est un équivalent bidimensionnel des théorèmes 4.1 du

chapitre 4 et 5.1 du chapitre 5, qui donnent les formules pour calculer l'espérance
d'une fonction d'une variable aléatoire. Supposons que X et Y sont des variables
aléatoires et que g est une fonction de deux variables. Nous avons alors le résultat
suivant.
Théorème 7.1
Si X et Y sont discrètes et ont pour loip(x, y) alors
E[g{X,Y)] = ^g{x,y)p{x,y)
x
y
Si X et Y sont continues et ont pour densité conjointe f(x, y) alors
E[g(X,Y)]=] ]g(x,y)f(x,y)dxdy
—oo —oo
7.2.2 Exemple d'espérance d'une fonction de deux variables
Exemple 7.1 Un accident se produit en un point X uniformément distribué sur une

route de longueur L. Au moment de l'accident, une ambulance se trouve en un point Y
lui aussi uniformément distribué sur la route. En supposant que X et Y sont
indépendants, trouver l'espérance de la distance entre l'ambulance et le lieu de
l'accident.
SOLUTION. Nous devons calculer £j|X - y|J. Puisque la densité conjointe de X et Y est
f(x,y) = —, 0<x<L, 0<y<L

Propriétés de l'espérance 291
le théorème 7.1 donne
On a
-x)
Donc
dx
7.2.3 Application au cas d'une somme de variables
Admettons que deux variables X et Y ont des espérances E[X] et E[Y] finies. On
pose g(X, Y) = X + Y. En appliquant le théorème 7.1, on obtient, dans le cas continu,
E[X+Y] = jZ\Z(x + y)f(x,y)dxdy

= C C xf(x, y)dydx + JZ, I l yf(x, y)dxdy
= \ZoXfx{x)dx + \ZayfY{y)dy
= E[X] + E[Y]
Ce résultat est valable de manière tout à fait générale; on peut écrire
E[X + Y] = E[X] + E[Y] (7.1)
dès que E[X] et E[Y] sont finies.
Exemple 7.2 Supposer que pour des variables aléatoires X et Y,
X>Y
Ceci signifie que pour tout résultat d'une expérience, la valeur de la variable X est
supérieure ou égale à celle de la variable Y. Puisque l'inégalité précédente est
équivalente à X - Y > 0, on a E[X - Y] > 0 ou, de manière équivalente,
E[X] > E[Y] m
En utilisant l'équation (7.1), une démonstration par induction permet d'établir sans
difficulté que si E[Xt] est finie pour tout i = 1, .... n, alors
E[xi+... + Xn] = E[xx] + ... + E[Xn] (7.2)
L'équation (7.2) est d'une grande utilité comme le montrent les exemples du
paragraphe suivant.
7.2.4 Exemples de calculs d'espérances de sommes
Exemple 7.3 Moyenne d'un échantillon

Soient X1( ..., Xn des variables aléatoires indépendantes, identiquement distribuées
selon une fonction de distribution F et d'espérance \i. Une telle séquence de variables
constitue un échantillon de la distribution F. La quantité X, définie par
-X = Ii *—/
1=1 n
est appelée la moyenne de l'échantillon. Calculer £jXI.
SOLUTION.
E[x] = E
.1=1 n .
= -£ ixi
n U=i
1i r i
n i=i
puisque £[*,] = H
L'espérance de la moyenne de l'échantillon est donc |i, la moyenne de la distribution.

Lorsque la moyenne (X de la distribution est inconnue, la moyenne de l'échantillon est
souvent utilisée en statistiques pour l'estimer. •
Exemple 7.4 Inégalité de Boole

Soient A],..., An des événements et définissons les variables indicatrices X„ (' = 1,..., n
par
1 si Ai se produit
X; =
0 sinon
SoitX = IX,..
i=i
Donc X représente le nombre d'événements A, qui se produisent. Finalement, soit

1 si X > 1
Y' = •
[0 sinon
Donc Y est égal à 1 si au moins un des À, se produit et égal à 0 sinon. Il est clair que
X> Y
Donc
E[X] > E[Y]
Mais puisque
£M=i4 x .] = ^(A)
et « • = ' ' • = '
E[Y] = P{au moins un des A(. se produit} = Pi UA(- >
on obtient l'inégalité de Boole, soit
pfÙA^ÎpiA,)
\i=\ J 1=1 _
Les trois prochains exemples montrent comment on peut utiliser l'équation (7.2)
pour calculer l'espérance des variables aléatoires binomiale, binomiale négative et
hypergéométrique. Ces méthodes peuvent être comparées à celles présentées au
chapitre 4.
Exemple 7.5 Espérance d'une variable aléatoire binomiale

Soit X une variable aléatoire binomiale de paramètres n ctp. On se souvient qu'une
telle variable X représente le nombre de succès lors de la réalisation de n épreuves
indépendantes, chaque épreuve débouchant sur un succès avec la même probabilité p.
On peut donc écrire
X = X, + X2 +... + Xn
où
1 si la i - ième épreuve est un succès
X: = ,
[0 si la i - ième épreuve est un échec
Chaque variable X, est une variable de Bernoulli ayant par conséquent pour espérance
£[*,•] = l(p) + 0(1-/7)= p. D'où
E[x] = E[xi] + E[x2] + ... + E[Xn] = np

Exemple 7.6 Espérance d'une variable aléatoire binomiale négative

On réalise une séquence d'épreuves indépendantes, chacune ayant la probabilité p
d'aboutir à un succès. Le nombre d'épreuves à réaliser pour obtenir le r-ième succès
est une variable aléatoire suivant une distribution binomiale négative. On cherche
l'espérance de cette variable.
SOLUTION. Désignons par X cette variable. Elle peut-être représentée par
X=Xl+X2+... + Xr
où Xi est le nombre d'épreuves nécessaires à l'obtention du premier succès, X2 le

nombre supplémentaire d'épreuves pour obtenir un deuxième succès, X3 celui des
épreuves à ajouter pour avoir un troisième succès, etc. De manière générale, X,
représente le nombre d'épreuves supplémentaires nécessaires à partir du (i - l)-ème
succès pour obtenir le i-ème. Une courte réflexion permet de voir que chacune des
variables X, suit une loi géométrique de paramètre p. D'après les résultats obtenus
dans l'exemple 4.31 du chapitre 4, E[Xft = 1/p, i= 1,2,..., r. Donc
É[X] = 4 ^ ] + E[X2] +... + E[Xr] = -

P
Exemple 7.7 Espérance d'une variable aléatoire hypergéométrique

Si n boules sont tirées au hasard d'une urne contenant N boules dont m blanches,
trouver l'espérance du nombre de boules blanches tirées.
SOLUTION. Soit X le nombre de boules blanches tirées et représentons X par
X = Xl + X2+... + Xm
où
[1 si la i - ième boule blanche a été tirée
[0 si elle ne l'a pas été
Or
£[X,.] = P{X,.=1}
= P{la i - ième boule blanche a été tirée }
n
N
Et donc
E[x] = E{xi] + ... + E[Xm] = !j-
On aurait pu obtenir ce résultat en utilisant une autre décomposition
X=Y1 + ... + Yn
où
1 si la i - ième boule tirée est blanche
[0 sinon
Or les chances pour chacune des N boules d'être tirée en j'-ème position sont les
mêmes. Par conséquent,
4^1=-
L J
et par suite N
E[X] = E[Y1] + ... + E[Y„] = ^

N
Exemple 7.8 Espérance du nombre de rencontres

Chacun des N hommes d'une assemblée jette son chapeau au milieu de la pièce. On
mélange les chapeaux et chacun en ramasse un au hasard. On veut savoir le nombre
moyen de rencontres, c'est-à-dire d'hommes ayant récupéré leur propre chapeau.
SOLUTION. Désignons le nombre de rencontres par X. Le moyen le plus simple de

calculer E[X] consiste à écrire
X = X, + X2 + • • • + XN
où
z'-ème homme ramasse son chapeau
ramasse celui de quelqu'un d'autre
Comme le i-ème homme a autant de chances de ramasser n'importe lequel des N

chapeaux,
E[Xi] = P{Xi = l} = jj
pour tout / = 1, 2,..., N. Par conséquent
E[X] = E[Xy\ + ••• + E[XN] = (Jj}N=l
On conclut qu'en moyenne un participant seulement aura ramassé son propre cha-
peau. •
Exemple 7.9 Le problème ci-dessous fut posé pour la première fois et résolu par
Daniel Bernoulli au 18e siècle. On suppose qu'une urne contient 27V cartes, deux
d'entre elles portant le numéro 1, deux autres le 2, deux autres le 3, etc. On tire m
cartes au hasard. Quel est le nombre moyen de paires encore présentes dans l'urne
après ce tirage? (Il est intéressant de savoir que Bernoulli a proposé ce modèle comme
l'un de ceux permettant de déterminer combien de couples mariés il reste après la mort
de m personnes dans un groupe composé exclusivement de couples au départ, au
nombre de AB-
SOLUTION. On définit pour /' = 1, 2,..., N
{ 1
0
si la î'-ème paire est intacte
si elle a disparu, totalement ou en partie
Or
E[X{\ = P{Xt = 1}
=
e:)
(2N-2)!
m!(2N-2-m)!
(2AQ!
m!(2JV-m)!
(2N - m)(2N - m - 1)
(2JV)(2N-1)
aussi le résultat cherché est-il
E[Xt + X2 + • • • + XN] = E[Xi] +••• + E[XN]

_(2N-m)(2N-m-l)
2(2N-1)
Exemple 7.10 Problème de collection de bons à compléter

Il existe N sortes de bons différents, aucune sorte n'étant plus rare que les autres. Le
but du jeu est de rassembler une collection complète où les N sortes soient représen-
tées.
a) On se procure un lot de n bons. Il faut d'abord trouver le nombre moyen de sortes
qui y seront représentées;
b) on cherche encore le nombre moyen de bons à amasser pour obtenir une collection
complète.
SOLUTION.
a) Soit X le nombre de sortes différentes représentées dans le lot de taille n considéré.
On calcule E[X] en utilisant la décomposition
X = X, + • • • + XN
ou
1 si la sorte i est représentée dans le lot
X,=
.0 si elle ne l'est pas
Or
E[X,] = P{Xt = 1}
= 1 — f{la sorte i n'est pas représentée dans le lot}
=1
•m'
Donc
E[X] = E[XX\ + ••• +

™-*[-(^)1
b) Désignons par Y la variable qui compte le nombre de bons à amasser pour former
une collection complète. On calcule E[Y] en utilisant la même technique que celle
appliquée au calcul de l'espérance d'une variable binomiale négative (exemple
7.6). En l'occurrence, on appelle Yh i = 0, 1,..., N — 1 le nombre de bons à
ajouter, une fois que / sortes sont représentées, pour faire apparaître une sorte de
plus. On a bien sûr
y = Y0+Yi + ---+YN.l
Lorsque / sortes sont déjà représentées, un nouveau bon sera d'une nouvelle sorte avec
probabilité (N — i)/N. Par conséquent,
En d'autres termes, F, est une variable géométrique de paramètre (N — i)/N. D'après

l'exemple 7.5, on sait déjà que
N-i
ce qui entraîne
Exemple 7.11 Dix chasseurs guettent le passage d'un vol de canards. Lorsque les
canards passent en groupe, les chasseurs font tous feu en même temps, mais chacun
choisit sa cible au hasard, indépendamment des autres. On admet que chaque chas-
seur touche son canard avec la même probabilité/?. Combien de canards survivront-ils
au tir lorsque le vol se compose de 10 oiseaux?
SOLUTION. Disons que la variable A", vaudra 1 si le z'-ème canard survit et 0 sinon,
i = 1, 2,..., 10. Le nombre moyen de canards épargnés sera
E[Xl + ••• + Xl0] = E[Xt] + ••• + E[Xl0\
Pour le calcul de E[XS] = P{Xj = 1}, on remarque que chacun des tireurs atteindra
indépendamment des autres le i-ème canard avec la probabilité p/\0. Aussi,
Et donc
B[X]-10(l-£)"
Exemple 7.12 Nombre moyen de chaînes

On considère les diverses permutations composées de n caractères «1» et de m
caractères «0». On admet que l'une d'entre elles est tirée au hasard, si bien que
chacune des (n + w)!/(n!w!) permutations distinguables a la même probabilité de
sortir. Toute succession ininterrompue de 1 sera appelée chaîne de 1. Si par exemple
n = 6 et m = 4, et si l'ordre de tirage est 1, 1, 1,0, 1, 1, 0, 0, 1,0, nous serons en
présence de trois chaînes de 1. On souhaite ici déterminer le nombre moyen de ces
chaînes.
SOLUTION. Pour ce faire on peut poser
f1 si une chaîne de 1 commence au <-ème caractère

10 sinon
On peut donc écrire C(l), le nombre de chaînes de 1, de la manière suivante:

n+m
C(l) = I I,
i=l
et par conséquent
n+ m
£[c(i)]= I £[/,]
1= 1
Or
E[Ii) = P{\e premier caractère est un 1}
n
n+ m
et pour 1 < /' < n + m
E[Ij] = P{0 occupe la (/ — l)-ième position et 1 la f'-ème}

_ m n
n+m n+m —1
Donc
E [ C ( l ) j > ^ - + (n + m - l ) ""*
n+m (n + m)(n + m — 1)
De manière similaire, E[C(0)], le nombre moyen de séquences de 0, sera
£[C(0) = — - + ^ —
n+ m n+m
et le nombre moyen de séquences de tous types sera
2nm
E[C(1) + C ( 0 ) ] = 1 +
Exemple 7.13 On pose une à une les cartes d'un jeu ordinaire sur une table, ouvertes
et côte à côte. On se demande combien il faut poser de cartes en moyenne pour obtenir
a) le premier as;
b) le premier pique.
SOLUTION. Les questions a) et b) ne sont que des cas particuliers du problème plus
général suivant: une urne contient n boules blanches et m noires. On prélève ces boules
une à une jusqu'à ce que la première boule blanche apparaisse. Si on désigne par X
le nombre des boules alors prélevées, quelle est l'espérance de XI
Pour résoudre la version générale du problème, on va rendre distinguables les
boules noires de l'urne en les baptisant Nx, N2,..., Nm. Posons encore
si Nj est prélevée avant l'apparition de la première boule blanche

*-{; sinon.
On voit facilement que
Donc
Or, Xj vaudra 1 si la boule JV, est tirée avant toutes les boules blanches. Mais chacune
de ces n + 1 boules (à savoir les n blanches et la boule N,) a la même probabilité d'être
la première dans l'ordre des prélèvements, ce qui permet d'écrire
et ainsi
m
La réponse à la question a) sera donc, avec n = 4 et m = 48: ~, c'est-à-dire 10,6 cartes

en moyenne. Pour b) on aura n = 13 et m = 39, ce qui donne un nombre moyen de
Yj = 3,79 cartes avant d'obtenir le premier pique. •
Exemple7.14 Déplacement aléatoire dans le plan

On considère une particule située dans un plan et se déplaçant par sauts de longueur
fixe mais orientés dans n'importe quelle direction. Plus précisément, on admettra que
la longueur des sauts est égale à une unité, tandis que l'angle entre l'axe des abscisses
et la direction prise à la suite d'un saut est une variable uniforme sur (0, 2n) (voir
figure 7.1). On cherche le carré de la distance entre la particule et sa position initiale
après n sauts.
(Ô) = position initiale

(7) = position après le premier saut
(7) = position après le second saut
Figure 7.1
SOLUTION. Désignons les variations de coordonnées associées au j'-ème saut par

(Xj, Yj), i = 1, 2,..., n. On a les relations
où les 8„ j = 1, 2,..., n sont par hypothèse des variables uniformes sur (0, 2n). La
n n
position au bout de n sauts aura pour coordonnées (L Xh £ Y^). On voit donc que
/= i ;= i
la grandeur D2 cherchée, le carré de la distance de la particule à l'origine, est
= n + £ Z (cos 0, cos 6j + sin 0* sin 0;)

<*/
où l'on a utilisé la relation cos2 0, + sin2 0, = 1. En passant aux espérances, en

utilisant l'indépendance de 0, et 0 lorsque / ^ j , ainsi que les relations
£[cos 8t] — cos udu = sin 2n - sin 0 = 0

Jo
r 2,r
E[sm 0,] = sin M du = cos 0 - cos 2TT = 0
on trouve Jo
2
£[£> ] = n
7.2.5 Espérance de la somme d'une infinité de variables
Lorque l'on traite d'un ensemble infini de variables aléatoires Xh / ^ 1, ayant

toutes une espérance finie, il n'est pas certain que
II.* = I E[Xt] (7.3)
Pour déterminer dans quel cas (7.3) est valable, on calcule son premier membre en
x n
s'appuyant sur la relation S Xi = lim S Xi
i= 1 n-*x /= 1
£ [ î X,] =£him I X,j

X Hm £
n-»oo |
= lim î E[X,]
= I £[*,] (7.4)
;=i
Ces calculs - et par conséquent (7.3) - ne sont fondés que lorsque la permutation
de l'espérance et de la prise de limite est correcte à la deuxième ligne du calcul de
(7.4). Dans le cas général, cette permutation n'est pas justifiée. Cependant, on peut
montrer que dans les deux cas particuliers suivants elle est néanmoins acceptable:
a) les variables X, sont toutes à valeurs non négatives, ce qui signifie que P{Xi ^ 0} = 1 ;
b) ï E[\X,\] < oo.
Exemple 7.15 Considérons une variable discrète X quelconque à valeurs positives ou

nulles. On définit pour tout i > 1
«-{; si X i} (7.5)

i= l
qui est une identité intéressante.
Exemple 7.16 On souhaite stocker en mémoire d'ordinateur une liste ordonnée

comportant n éléments que nous appellerons 1,2,..., n. On sait que l'utilisateur de cette
liste aura à consulter un élément de la liste par unité de temps. L'élément / sera
n
consulté indépendamment du passé avec probabilité P(i), i > 1 et Z P(i) = 1. Ces
/=i
probabilités étant supposées connues, quel est l'ordre de stockage qui minimisera le
temps d'accès moyen à un élément appelé pour consultation?
SOLUTION. On numérote les éléments de telle manière que P(\) ^ P(2) ^ ... > P(n).
Nous allons montrer que 1, 2,..., n est la permutation optimale. Pour ce faire,
désignons par X la position de l'élément consulté. Pour toute permutation envisagea-
ble O = (',, ;2,..., /„
Po{X > k} = I P(ij)
* L J»(y)
= Pia„..,n{X * fc>
En sommant sur k et en utilisant (7.12), on obtient
E0[X] > £,, 2 , ...,„[X]
ce qui montre bien que disposer les éléments dans l'ordre des probabilités décroissan-
tes minimise effectivement le temps moyen d'accès à un élément demandé. •
Exemple 7.17 Probabilité d'une réunion d'événements

Soient les événements A, A„ et les variables indicatrices X„ i = 1,..., n définies
par
1 si At a lieu
X> =
0 sinon
Remarquons que
1 si HA, a lieu
i - n (i - x,) 0 sinon
Alors
i - n (i - x,) HUA,
i=i W=i
Le développement du membre de gauche de cette expression donne
P | U A, | = E 2 x,, - 2 2xtXj + 222x,XjXk

i=l i<j i<j<k
+ (-1)" + 1 X , - • -Xn (7.6)
Mais, puisque
S
A, a lieu
v X • • • X - < l
' Ai A
' '
A, A,. Aik - < Q sinon
on voit que
Ainsi (7.6) n'établit rien d'autre que la formule bien connue pour la réunion d'événe-
ments
P(IM,.) = 2P(Ai) - E E P(A,Aj) + X 2 2 P{AtAjAk)
i<j i<j<k
- • • • + (-1)" + , P(A, • • -An) m
Le dernier exemple de cette section montre d'une autre façon que l'introduction du
hasard peut parfois être employée avantageusement.
Exemple 7.18 Un tournoi de n participants se déroule de la manière suivante. Chaque

joueur rencontre chaque autre joueur une fois (il y a (^paires de joueurs donc ("\
matchs). A chaque fois, un concurrent gagne et l'autre perd. Supposer que les n
joueurs sont initialement numérotés comme joueur 1, joueur 2, etc. La permutation
'i>*2> — •'/! est une permutation hamiltonienne si I'I bat i2, i% bat /3, ... et in.\ bat in. Le
problème est de déterminer le plus grand nombre possible de permutations
hamiltoniennes.
Par exemple, supposer qu'il y a 3 joueurs. Il est alors facile de voir que si un des
joueurs gagne deux fois, il n'y a qu'une seule permutation hamiltonienne (par
exemple, si 1 gagne deux fois et si 2 bat 3 alors la seule hamiltonienne est 1, 2, 3); et
si chaque joueur gagne une fois, il y a alors trois permutations hamiltoniennes (par
exemple, si 1 bat 2, 2 bat 3 et 3 bat 1, alors 1,2,3, 2,3,1 et 3,1,2 sont hamiltoniennes).
Donc, lorsque n = 3, le plus grand nombre possible de permutations hamiltoniennes
est 3.
Bien que le problème des permutations hamiltoniennes n'implique pas les
probabilités, nous allons introduire le hasard pour montrer que dans un tel tournoi de n
joueurs, n > 2, il y a un résultat pour lequel le nombre de permutations hamiltoniennes
est supérieur à n!/2"~ .
Pour vérifier ceci, supposons que les résultats des ("} matchs sont indépendants et
que chacun des deux joueurs a autant de chance de gagner chaque match. Si X est le
nombre d'hamiltoniennes à la fin du tournoi, alors X est une variable aléatoire dont
l'ensemble des valeurs possibles est constitué de tous les nombres possibles de
permutations hamiltoniennes qui peuvent résulter d'un tel tournoi à n participants.
Puisqu'au moins une des valeurs possibles d'une variable aléatoire non constante doit
dépasser sa moyenne, il doit au moins y avoir un résultat possible du tournoi qui
possède plus de E[X] permutations hamiltoniennes. Pour trouver E[X], numérotons les
n! permutations et soit, pour i = 1,..., n!,
Jl si la permutation i est hamiltonienne

1
[0 sinon
On a
i
donc
E[x] = JdE[xi]
i
Mais
EyXij = P{ la permutation i est hamiltonienne}
Cette égalité est vraie car la probabilité qu'une permutation ilt ..., in soit
hamiltonienne est, par indépendance, la probabilité que ix batte i2 multipliée par la
probabilité que i2 batte i3, etc. On obtient donc
r -i ni
4*1-pr
Puisque, pour n > 2, X n'est pas une variable aléatoire constante, il existe au moins
une valeur possible dépassant n\/2n~ .
7.3 COVARIANCE, VARIANCE DE SOMMES, CORRÉLATION
7.3.1 Espérance d'un produit de variables indépendantes
A titre de préliminaire à cette section 7.3, nous présentons le théorème suivant,

établissant que l'espérance du produit de deux variables indépendantes est égale au
produit de leurs espérances.
Théorème 7.2
Soient X et Y deux variables aléatoires indépendantes et h et g deux fonctions.
Alors
E[g(X)h(Y)] = E[g(X)]E[h(Y)]
DÉMONSTRATION. Plaçons-nous dans le cas où A' et Y sont conjointement continues

de densité / ( • , ) . On peut écrire
E[g(X)h(Y)]=\ g(x)h(y)f(x,y)dxdy
J — oo J — oo
roo r ao
g(x)h(y)fx(x)fY(y)dxdy
J—oo J —
/•oo roo
= h(y)fY(y) dy \ g(x)fx(x) dx
J — oo J —oo
= E[/i( Y)]E[g(X)]
et la démonstration est similaire dans le cas discret. •
De la même manière que l'espérance et la variance d'une unique variable aléatoire

nous donnent des informations sur cette variable, la covariance entre deux variables
nous donne des informations sur la relation entre ces deux variables.
7.3.2 Covariance
La covariance de deux variables aléatoires quelconques X et Y est notée
Cov(X, Y) et est définie par l'expression:
Cov (X, Y) = E[(X - E[X])( Y-E[ Y])]
Le développement du membre de droite donne
Cov (X, Y) = E[XY - E[X] Y - XE[ Y] + E[ Y]E[X]]

= E[XY] - E[X]E[ Y] - E[X]E[ Y] + E[X]E[ Y]
= E[XY]-E[X]E[Y]
On remarquera qu'en application du théorème 7.2, la covariance de deux variables

indépendantes X et Y est nulle. La réciproque n'est cependant pas vraie. On peut
donner comme contre-exemple simple le cas des deux variables A' et y suivantes; X
est telle que
P{X = 0} = P{X = 1} = P{X = - 1 } = \
et on définit Y par rapport à X
0 si X * 0
.1 siX = 0
Or XY est clairement nulle, donc ZsfA'F] aussi. Comme E[X] l'est aussi, il reste
Cov (X, Y) = E[XY] - E[X]E[ Y] = 0
Il est pourtant manifeste que X et Y ne sont pas indépendantes.
La proposition suivante énonce plusieurs propriétés de la covariance.
Théorème 7.3
i) cov(x,y) = cov(y,x)
ii) Cov(X,X) = Var(x)
iii) Cov(aX, Y) = aCo\(X, Y)
f n m \ n m i ^
iv) cov ix,., i y, = Iicov x,,y.
DÉMONSTRATION. Les parties i) et ii) proviennent directement de la définition de la

covariance et la partie iii) est laissée en exercice au lecteur. Pour démontrer iv), qui
stipule que la covariance est additive (comme l'espérance), soit jx, = E[X,] et v, =
E[Yj\. Alors
n n m
i=i
E xy
£"'
et
f n n \f m m
Co nx m
E XX.--Z/U Xç-Sv,
\l ^r Vi=i 1=1 A/'=i ;'=i
= E\î{xi-ni)î(Yj-vj)
où la dernière égalité provient du fait que l'espérance d'une somme de variables est
égale à la somme des espérances. •
7.3.3 Variance de sommes
Les parties ii) et iv) du théorème 7.3, en prenant K, = Xj,j = 1,..., n, entraînent que
Va/ XX,. J = Covf X X,, ÎXj J
= XXCov(x,.,X,)
= XVar(x,.)+XXCov(x,.,r.)
i'=l i*j
Puisque chaque paire d'indice i,j, i *j, apparaît deux fois dans la double sommation,
l'expression ci-dessus est équivalente à
Var( X Xi J = X Varfx,. ) + 2 X XCov(x,., X,. ) (7.7)

v
V/=i J ,=i i<j "
Si Xlt ..., Xn sont indépendantes deux à deux, c'est-à-dire si X, et Xj sont indépen-

dantes pour i */', alors l'équation (7.7) se réduit à
Var[ X X , ) = X V a r ( x . )
\I=1 J !=1
L'exemple suivant illustre l'utilisation de l'équation (7.7).
7.3.4 Exemples de variance de sommes
Exemple 7.19 Soient X\, ..., X„ des variables aléatoires indépendantes et identique-
ment^ distribuées de moyenne \i et de vanancecr , et, comme dans l'exemple 7.3,
soitX = XXj/ n l a moyenne de l'échantillon. Les quantités X, - X, i = l,...,n, sont
i=i
appelées déviations car elles sont égales aux différences entre une donnée individuelle
et la moyenne de l'échantillon. Soit S2 la somme des carrés des déviations
S2
Hxi-x)
La variable aléatoire S21 {n - 1) est appelée la variance de l'échantillon. Trouver
a)Var(x);
b)E{s2/(n-l)].
SOLUTION.
a)
Var(x) = Q)var(£x,;
riY » f v
= — ZVar^XJ par indépendance
\nj i=i
a2
par indépendance
b) Commençons par l'identité algébrique suivante.
s2 = ï(xi-ti + n-x)
= î{xi-nf + ï(x-n)2-2(x-n)î(xi-n)
1=1 1=1 1=1
= t (X,. - fif + n(x - nf - 2(X - fx)n(x - n)
= î(xi-nf-n(x-nf
1=1
En prenant les espérances de l'expression ci-dessus, on obtient
4 ^ 2 ] = t E[{X, - M)' ] - nE[(x - /i)2

= no2 -nVar(x)
= (n-l)<7 2
où l'égalité finale provienne la partie a) et où celle d'avant provient du résultat de

l'exemple 7.3 qui donne £"1x1 = //. En divisant par (n - 1), on voit que l'espérance de
la variance de l'échantillon est la variance a de la distribution.
L'exemple suivant présente une autre méthode que celle utilisée dans le chapitre 4
pour obtenir la variance d'une variable aléatoire binomiale.
Exemple 7.20 Variance d'une variable aléatoire binomiale

On considère ici le cas d'une variable aléatoire binomiale de paramètres n et p.
SOLUTION. Une telle variable représentant le nombre de succès lors de n épreuves

indépendantes de même probabilité de succès p, on peut écrire
X = X, + • • • + X„
où chaque A", est une variable de Bernoulli indépendante des autres et telle que
1 si la z'-ème épreuve est réussie
D'après (7.7), on obtient

H; 10 sinon
Var (X) = Var (X.) + • • • + Var (X„)

Mais
Var(X j ) = E [ X ? ] - ( £ [ X , ] ) 2
= E[Xi] - (£[X,]) 2 puisqueX 2 = X,
et donc
Var(X) = n p ( l - p ) •
Exemple 7.21 Variance d'un nombre de rencontres

On cherche la variance de X, la variable comptant le nombre d'hommes ramassant
leur propre chapeau dans la situation de l'exemple 7.8.
SOLUTION. On utilise la même décomposition de X que dans l'exemple 7.8, à savoir

X = X , + • • • + XN
où
_ f1 si le f'-ème homme ramasse son chapeau
[O sinon
D'après l'équation (7.7), on a
Var (X) = I Var (X,) + 2 1 £ Cov (X„ X,) (7.8)

i-l i<;
Comme P{Xj = 1} = \jN, on peut écrire en s'inspirant de l'exemple précédent que

De plus
Cov {Xi, X,) = £[X f X ; ] - £[X,]£[X y ]
Or
'1 si le i-ème et le j'-ème hommes récupèrent leurs propres chapeaux
<*> - {o
XJC, ...
sinon
et par conséquent
E[XiXi] = P{Xi = l,Xj = l}
= P{Xi = l}P{A} = l | X , = l}
1 1
N N-l
ce qui d'après (7.8) donne
,, , v . N-l „/N\ 1
Var(X) = — + 2 ( 2 ) ^ - 1)
= Nj-J. J_
AT N
= 1
On constate donc que la variance du nombre de rencontres aussi bien que son
espérance valent 1. Ce résultat était d'une certaine manière prévisible puisqu'on a
montré à la section 2.5 que lorsque N est grand, la probabilité d'obtenir / rencontres
est approximativement e~ '/<!• Ceci revient à dire que pour A' grand toujours le nombre
de rencontres suit approximativement une loi de Poisson d'espérance 1. Comme
on a l'égalité de l'espérance et de la variance pour une variable poissonnienne, le
résultat obtenu est sans surprise. •
Exemple 7.22 Echantillon de population finie

On considère un groupe comptant N individus; chacun d'entre eux s'est fait une
opinion sur un certain sujet, opinion que l'on mesure au moyen d'un nombre réel v
appelé intensité du sentiment de l'individu relativement au sujet. On note u, l'intensité
du sentiment de l'individu /, / = 1,..., N. Les quantités t>„ i = 1,..., A' sont inconnues
et pour acquérir de l'information à leur sujet on choisit au hasard un sous-groupe de
n personnes. Choisir au hasard signifie qu'on s'y prend de manière telle qu'aucun
sous-groupe de taille n parmi les (^) sélections possibles n'a une plus grande chance
d'être tiré qu'un autre. On interroge alors ces n personnes et mesure les v, correspon-
dants. On forme la somme S de ces n valeurs. Que vaudront l'espérance et la variance
de 5?
A titre d'application importante de ce problème on peut mentionner les élections
à l'occasion desquelles chaque électeur est pour ou contre un certain candidat. On
prendra alors u, = 1 si l'électeur est favorable au candidat, u, = 0 sinon. La grandeur

_ N
v= lu,/Nreprésente alors la proportion de la population soutenant ce candidat,
/= i
autrement dit sa cote. Pour estimer v on choisit au hasard un échantillon de n
personnes que l'on interroge. La proportion S/n favorable au candidat est souvent
utilisée pour estimer v.
SOLUTION. On définit pour chaque électeur /, i = 1,..., N, une variable indicatrice /,
indiquant si cette personne appartient ou non à l'échantillon. Plus précisément,
1 si la personne i est dans l'échantillon
H:
Dès lors, S peut être écrite
sinon
donc
Comme
on voit que
Alors
L'expression de Var(S) peut être transformée en utilisant l'identité

, N , NN
(U] + ... + vN) = Xl>i + 2XXt>,u,, ce qui laisse après simplifications
On peut considérer le problème sous un autre angle et supposer que le nombre de V

égaux à 1 est Np. La variable S pouvant dans ce cas être considérée comme une
variable hypergéométrique, son espérance et sa variance seront
N
CTCI - - P
E[S\ = nv = np puisque v = — = p
n(N-n)
Si par ailleurs, plutôt qu'à S, on s'intéresse à S/n, la proportion dans l'échantillon des
électeurs favorables à notre condidat, on aura
7.3.5 Corrélation
La corrélation entre deux variables aléatoires X et Y est notée p(X, Y) et est définie
ainsi, pour autant que Var(A') Var(F) soit non nul:
Cov<x i ,
,«n- •'
vVar (X) Var ( Y)
On peut montrer que
- 1 < P(X, Y) < 1 (7.9)
Pour établir (7.9), admettons que X et Y aient des variances q? et aj, respectivement.
Propriétés de l'espérance
313
On a
0 < Var
qui implique que
D'autre part
entraîne
ce qui finit d'établir (7.9).

On sait que Var(Z) = 0 entraîne que Z est constante avec probabilité 1 (ce résultat
intuitif sera rigoureusement démontré au chapitre 8). La démonstration de (7.9)
établit donc, compte tenu de cette implication, que p (X, Y) = 1 entraîne
Y = a + bX où b = oylox > 0 tandis que p(X, Y) = - 1 entraîne Y = a + bX
où b = — cy/Gx < 0. On laisse au lecteur le soin de prouver que la réciproque est
également vraie: si Y = a + bX, alors p(X, Y) vaudra 1 ou — 1 selon que le signe
de b est positif ou négatif.
Le coefficient de corrélation est une mesure du degré de linéarité entre X et Y.
Les valeurs de p proches de 1 ou — 1 indiquent une linéarité quasiment rigoureuse
entre X et Y, tandis que des valeurs proches de 0 indiquent une absence de toute
relation linéaire. Lorsque p (X, Y) est positif, Y a tendance à augmenter si X en fait
autant, tandis que pour p(X, Y) < 0, Y a tendance à diminuer si X augmente. Si
p(X, Y) = 0, on dit que ces deux statistiques sont non corrélées.
7.3.6 Exemple de calcul de corrélation
Exemple 7.23 Soient IA et IB les variables indicatrices des événements A et B. Par

définition
si A survient
IA
sinon
si B survient
IB
sinon.
Alors
E[IA] = P(A)
E[IB] = P(B)
E[IAIB] = P(AB)
et ainsi
Cov (IA, IB) = P{AB) - P(A)P(B)
= P(B)[P(A\B)-P(A)]
On vient d'obtenir un résultat annoncé par une approche intuitive de la situation: les
variables indicatrices de A et B sont positivement corrélées, non corrélées ou négative-
ment corrélées selon que, respectivement, P(A \ B) est plus grande, égale ou inférieure
&P(A). •
L'exemple suivant montre que la moyenne de l'échantillon et les déviations ne

sont pas corrélées.
Exemple 7.24 Soient Xi, .... Xn des variables aléatoires indépendantes et identique-
ment distribuées de variance a . Montrer que
Cov(x,. - X , x ) = 0
SOLUTION. _
Cov(x,. - X,X) = Cov(x,, x ) - C o v ( x , x )
= Cov(x,.,-î-£x.)-Var(x)
= -icov(xi>X.)-
n ;=i n
1 2
rr T
n n
où l'avant-dernière égalité utilise le résultat de l'exemple 7.19 et où la dernière égalité

provient du fait que
/ \ fO si ;' * i par indépendance
CovX,.,X,.)
; ={ 2 . . . . \. / „ \ 2
v ' / 1er si j = i puisque Var^XJ = a
par indépendance
Bien que X et la déviation X( - X ne soient pas corrélées, elles ne sont pas, en

général, indépendantes. Cependant, dans le cas particulier où les X, sont des variables
aléatoires normales, X n'est plus seulement indépendante d'une_seule déviation,
mais est indépendante de la séquence entière des déviationsX; - X, j = !,...,«. Ce
résultat sera_établi dans la section 9 où nous montrerons aussi que, dans ce cas, la
moyenne X de l'échantillon et la variance de l'échantillon S / ( n - l ) sont
indépendantes et que S fa a une distribution chi-carrée avec n - l degrés de liberté.
(Voir l'exemple 7.19 pour la définition de S1.) u
Exemple 7.25 On considère m épreuves indépendantes. Chacune peut donner r

r
résultats de probabilités Pt, P2,-, Pr avec £ Pt, = 1. On désigne par Njt i = 1,..., r
1=1
le nombre parmi ces m épreuves de celles qui aboutissent au résultat i. Nx, N2,—, Nr
suit alors une distribution multinomiale
P{Ni = n1,N2 = n2,...,N, = nr}
r
_ Hl p", rD»2 . . . r D", L n, = m
il irl 2 r
itil n2\... nr\ i= l
Lorsque / ^ j , il semble raisonnable qu'une grande valeur de JV, soit associée à de

petites valeurs de Nj, aussi s'attend-on intuitivement à ce que ces deux variables soient
négativement corrélées. Calculons leur covariance en utilisant le théorème 7.3 (iv) et
la décomposition
m m
N, = I J,(k) et Nj - I Ij(k)
fc=l k=l
OÙ
si la k-ième épreuve aboutit au résultat /

sinon
si la A>ième épreuve aboutit au résultat j
sinon
Grâce au théorème 7.3 (iv) on peut écrire

m m
Cov (JV„ AT) = S S Cov (I.(k), 1.(1))
l=\k=\
Or, lorsque k J= l
Cov (/,(*), /.(/)) = 0
puisque l'issue de l'épreuve k ne dépend pas de celle de l'épreuve /. D'autre part,
Cov (/.(/), /.(/)) = /•[/.(/)/.(/)] - £[/.(/)]£[/.(/)]

= 0 - P,P, = -PtPj
où l'on a utilisé la relation /,-(/)/.(/) = 0, puisque l'épreuve / ne peut donner les deux
résultats /' et j à la fois. On obtient donc
Cov (Ni, N,) = -mPtPj
qui confirme notre conclusion intuitive que Nt et Nj sont négativement corrélées.
7.4 ESPÉRANCE CONDITIONNELLE
7.4.1 Définition du cas direct
On se souvient que, pour un couple de variables aléatoires discrètes, on

avait défini la loi de probabilité conditionnelle de X, sachant que Y = y, pour autant
que P{ Y = y) > 0, par
p(x, y)
Il est dès lors naturel de vouloir définir dans le cas discret l'espérance conditionnelle
de X sous la condition Y — y, pour autant que pY(y) > 0, par
E[X\ Y = y] = I xP{X = x| Y = y}
x
= IxPx\y(x\y)
X
Exemple 7.26 On considère deux variables aléatoires binomiales X et Y, indépendan-

tes et de mêmes paramètres n et p. On souhaite calculer l'espérance conditionnelle de
X sous la condition X + Y = m.
SOLUTION. Déterminons d'abord la loi de probabilité conditionnelle de X sous la

condition X + Y = m. Pour k ^ min(«, m) on a
, P{X = k,X+Y = m}
P{X = k\X+Y = m}= p { x + y = m}
P{X = k,Y = m-k}

P{X + Y = m}
P{X = k}P{Y = m - k}
où l'on a utilisé le fait que X + Y est une variable aléatoire binomiale de paramètres
2« et p (voir l'exemple 6.17). On conclut que la distribution conditionnelle de X,
sachant que X + Y = m, est hypergéométrique. D'après le résultat de l'exemple 7.7,
on sait que
E[X\X+Y = m~\ = ^
7.4.2 Définition du cas continu
On se souvient également que pour un couple de variables X et Y continues

de densité f( •, • ), la densité conditionnelle de X, sachant que Y = y, est définie - pour
autant quefY(y) > 0 - par
A-(y)
Il est donc naturel de définir l'espérance conditionnelle de X, dans le cas continu et
sous la condition Y = y, par
E[X\Y = y] = xfx]Y(x\y)dx
J —oo
pour les valeurs de y telles que fY(y) > 0.
Exemple 7.27 Supposons que la densité conjointe de X et Y soit

e~xlye -y
f(x, y) -
y
On veut calculer E[X\ Y =-y]-
SOLUTION. Calculons d'abord la densité conditionnelle

On constate que cette densité conditionnelle de X sous la condition Y = y n'est autre

que la densité exponentielle de paramètre et espérance y. Donc,
Jo
7.4.3 Elargissement du point de vue
On sait que les probabilités conditionnelles satisfont toutes les propriétés des
probabilités simples. De la même manière, les espérances conditionnelles ont toutes
les propriétés des espérances ordinaires, en particulier
X g(x)Px\y(x\y) dans le cas discret
!
g(*)/x|v(*l y) àx dans le cas continu
J —oo
et
En fait, l'espérance conditionnelle, sachant que Y = y, peut être considérée comme

une espérance ordinaire basée sur un espace de probabilité, réduit aux seuls événe-
ments pour lesquels Y = y est vérifiée.
7.4.4 Théorème de calcul d'espérances par conditionnement
On décide de noter E[X\ Y] la composition des fonctions F et £[^1 Y = y], cette

dernière fonction faisant correspondre à un nombre y l'espérance conditionnelle de
X, sachant que Y = y. On remarquera que la fonction composée obtenue est
elle-même une variable aléatoire. Le théorème qui suit énonce une propriété fonda-
mentale de l'espérance conditionnelle.
Théorème 7.4
E[X] = E[E[X\Y]] (7.10)
Lorsque Y est une variable discrète, ce théorème signifie que
E[X] = IE[X\ Y = y]P{Y = y} (7.11)

y
tandis que lorsque Y est continue, le théorème entraîne
E[X]=\ E[X\Y = y]fY(y)dy (7.12)

DÉMONSTRATION. On suppose pour cette démonstration que A'et y sont deux variables
discrètes. On doit établir (7.11). Or, le membre de droite de (7.11) peut être réécrit
I E[X\ Y = y]P{Y = y} = X I *P{X = x\ Y = y}P{Y = y}
= I X xP{X = x, Y = y}
y *
= ZxZP{X = x,Y = y}
x y
= I xP{X = x}
X
= E[X]
ce qui établit le résultat.

Pour mieux faire comprendre (7.11), on peut donner l'interprétation suivante:
pour calculer E[X\, on construit une moyenne pondérée des espérances conditionnel-
les de X sous les diverses conditions Y = y, les masses de pondération étant les
probabilités des conditions (cette construction a déjà été rencontrée; où?). Le résultat
(7.11) est très utilisé, il permet souvent de calculer assez facilement une espérance
après avoir conditionné la variable par une autre variable appropriée. C'est ce
qu'illustrent les exemples du paragraphe suivant. •
7.4.5 Exemples de calcul d'espérances par conditionnement
Exemple 7.28 Un mineur est prisonnier dans un puits d'où partent trois tunnels. Le
premier de ces tunnels le mènerait à la sortie au bout de 3 heures de marche. Le second
le ramènerait à son point de départ au bout de 5 heures de marche, ainsi que le
troisième au bout de 7 heures. Si à chaque choix qu'il fait le mineur emprunte
n'importe quel tunnel avec la même probabilité, quelle sera la durée moyenne de sa
tentative de sortie?
SOLUTION. La variable X représentera la durée de la recherche de la sortie en heures;

y représente la première porte choisie. On a
E[X] = E[X\ Y = l]P{Y = 1} + E[X\ Y = 2]P{Y = 2}

+ E[X\Y = 3]/>{Y = 3}
= ?(E[X\ Y = 1] + E[X\ Y = 2] + E[X\ Y = 3])
Or
E[X\Y = 1] = 3
E[X\ Y = 2] = 5 + E[X]
E[X\Y = 3] = 7 + E[X] (7.13)
Pour comprendre les équations (7.13), voyons le cas particulier E[X\ Y = 2]: si le
mineur emprunte le deuxième tunnel, il y passera 5 heures puis reviendra à son point
de départ. Une fois là, le problème est exactement le même qu'à l'origine. A ce point,
la durée moyenne de sa recherche est E[X]. C'est pourquoi E[X\ Y = 2) = 5 + E[X\.
Les arguments à la base des deux autres équations sont semblables. On a donc
finalement:
E[X] = 1(3 + 5 + E[X] + 7 + E[X])
ou
E[X] = 15
Exemple 7.29 Espérance de la somme d'un nombre aléatoire de variables aléatoires

Le nombre de clients se rendant à un grand magasin donné dans l'espace d'une
journée est une variable aléatoire d'espérance 50. La somme dépensée par chacun des
clients quotidiens du magasin est aussi une variable aléatoire d'espérance 8 francs. On
admet que les dépenses d'un client ne dépendent ni de celles des autres clients ni du
nombre total de clients pour la journée. Quelle est l'espérance du chiffre d'affaires
quotidien du magasin?
SOLUTION. Le nombre de clients par jour sera noté N, tandis que le montant dépensé
A»
par le client / est X{. Le chiffre d'affaires du magasin est donc X À",. Or
E^X,] = £^[1**1^
Mais
E [îxi N = n j|x,|JV = n
du fait de l'indépendance des Xt et de N
= nE[X]
où l'on a désigné par E[X\ l'espérance commune à tous les Xr Dès lors la variable
N
aléatoire notée E[L X(\ N] a pour expression ici
= NE[X]
[ï
E\ÏX;\N
ce qui entraîne
!,*]- E[NE[X]] = E[N]E[X]
Dans notre exemple, le chiffre d'affaires moyen du magasin est donc de 50 x 8 = 400
francs par jour. •
Exemple 7.30 Une urne contient b boules blanches et n boules noires. On retire les
boules une à une jusqu'à ce que la première blanche apparaisse. Quel sera le nombre
moyen des boules noires tirées?
SOLUTION. On a déjà résolu ce problème dans l'exemple 7.13. Nous allons voir ici une
solution faisant appel à la technique du conditionnement. Désignons par X le nombre
des boules noires qu'il faut tirer. On notera E[X] = Mhn pour rendre explicite la
dépendance de cette espérance envers b et n. On va obtenir une expression de Mhn
en conditionnant sur la couleur de la première boule retirée de l'urne. On définit pour
cela Y ainsi:
c
si la première boule tirée est blanche
si elle est noire.
Conditionnons selon Y:
Mhn = E[X] = E[X\ Y = 1]P{Y = 1} + E[X\ Y = 0]P{Y = 0}
Mais
E[X\Y = 1] = 0
E[X\Y = 0] = 1 + Mhj_l (7.14)
Pour se convaincre de la validité de (7.14), supposons que la première boule tirée soit
noire. Après le premier tirage, la situation est exactement ce qu'elle aurait été au
départ si nous avions eu b boules blanches et n — 1 boules noires. D'où l'expression
de droite dans (7.14).
On connaît par ailleurs P{Y = 0} = nj{b + n), ce qui permet d'écrire
Mh,„ = [1 +A/fe,„-,]
b + n
Or Mh0 est évidemment nulle, à partir de quoi on peut faire les calculs suivants:
1
Mh [1 + MhJ = l
b +1 b +1
2 2 1 H
Mh [1 + A/,,,] 1+
b + 2 b + 2 b +1 b +1
3 3 2 3
Mh [1 + A/fti2] = 1 +
b + 3 ' b + 3 b +1 b +1
Par induction on vérifierait facilement que
M'h,n
.b + 1
7.4.6 Exemple de calcul de variance par conditionnement
On peut appliquer la technique précédente au calcul de variance également, comme

le montre l'exemple suivant.
Exemple 7.31 Variance d'une variable géométrique

On réalise des épreuves indépendantes ayant toutes une même probabilité p de succès.
On désigne par N le nombre d'essais à faire jusqu'à obtenir le premier succès.
Quelle sera la variance de NI
SOLUTION. Soit Y la variable valant 1 lorsque la première épreuve est un succès et 0

sinon. On sait que
Var (N) = E[N2] - {E[N]f
Pour calculer E[N2] on utilise la technique du conditionnement:

E[N2] = E[E[N2\ Y]]
Mais
E[N2\Y = 1 ] = 1
£[7V 2 | Y = 0] = E [ ( l + N) 2 ]
Ces deux équations sont fondées. Si en effet la première épreuve est un succès, N
vaut évidemment 1, /V2 aussi. Si par contre cette épreuve est un échec, le nombre total
d'épreuves jusqu'à obtenir un succès suivra la même distribution que la variable A'
augmentée de 1 (le premier échec). On peut donc écrire E[N2\ Y = 0] = E[(N + l) 2 ],
puis
E[N2] = E[N2\ Y = l]P{Y = 1} + E[N2\ Y = 0]P{Y = 0}
=p+ (l-p)E[(l+N)2]
= 1 + (1 - p)E[2N + N2]
On a par ailleurs montré dans l'exemple 4.31 que E[N] = ï/p. Il reste donc
E[N2] = 1 + 2 ( 1 ~ P ) + (1 - p)E[N2]
P
ou encore
£[N2] = ^
Par conséquent
Var(N) = £ [ N 2 ] - ( £ [ N ] ) 2
i-P
~ 2
P •
Dans l'exemple suivant, nous allons déterminer l'espérance du nombre de

variables aléatoires uniformes (0, 1) qu'on doit additionner pour que leur somme
dépasse 1. La réponse, étonnamment, est e.
Exemple 7.32 Soit U\, U2, ... une séquence de variables aléatoires uniformes (0, 1)
indépendantes. Trouver E[N] lorsque
N = minln: £t/,. >ll
SOLUTION. Nous allons résoudre ce problème en cherchant un résultat plus général.

Pour x e [0, l ] , soit
N(x) = min< n : £ Ui > x >
et posons
m(x) = 4M*)]
N(x) est le nombre de variables aléatoires uniformes (0, 1) qu'on doit additionner pour
que leur somme dépasse x, et m(x) est son espérance. Nous allons maintenant donner
une équation pour m(x) en conditionnant sur U\. Cela donne, à partir de l'équation
(7.12),
m(x) = \E[N(x)\ul=y]dy (7.15)
On a
S1 y
4iV(*)fa
1 1 1
=?]J = {!., / \ lX (7-16)
[l + m(x-y) si y < x
La formule précédente est évidente lorsque y > x car si la première valeur uniforme est
y, alors le nombre restant d'uniformes à additionner est le même que si nous
commencions et que nous additionnions des uniformes jusqu'à ce que leur somme
dépasse x - y. En substituant (7.16) dans (7.15), on a
X
m(x) = 1 + \m(x - y)dy
= l + j m(u)du en posant u = x - y
o
En dérivant cette équation, on a
m'(x) = m(x)
"'(*) _ t
m(x)
En intégrant ceci, on obtient
ln[m(*)j = x + c
ou
m(x) = kex
Puisque m(0) = 1, on voit que k=\, donc on obtient
m(x)=ex
Donc m(l), l'espérance du nombre de variables aléatoires uniformes (0, 1) qu'on doit
additionner pour que leur somme dépasse 1, est égale à e. m
7.4.7 Calcul de probabilité par conditionnement
La technique utilisée pour le calcul d'espérances et ci-dessus de variances, consis-

tant à conditionner selon une variable aléatoire appropriée, peut également servir au
calcul de probabilités. Nous allons voir comment l'appliquer au calcul de la probabi-
lité d'un événement E quelconque. On définit d'abord la variable indicatrice X de F:
f1 si E est réalisé
X =\
10 sinon
En conséquence de la définition de X, on aura:
E[X] = P(E)
E[X \ Y = y] = P(E | Y = y) pour toute variable Y.
En vertu de (7.10) et (7.11), on peut alors écrire, respectivement
P(E) = I P(E | Y = y)P( Y = y) si Y est discrète

y
= P(E\ Y = y)fY(y)dy si Y est continue (7.17)

J —OO
On remarquera que si Y est une variable discrète pouvant prendre les valeurs v,,.r2,...,
>'„, et si on définit les événements F, pour i allant de 1 à « par F,• = { Y = v,}, (7.17)
se réduit à l'équation déjà connue
P ( E ) = £ F(£|F;)P(F,)
où F,,..., F„ sont des événements mutuellement exclusifs dont l'union est l'ensemble
fondamental.
Exemple 7.33 Soient deux variables aléatoires A' et y continues indépendantes et de

densités fx, fY respectivement. On souhaite calculer P{X < Y}.
SOLUTION. On conditionne selon Y, ce qui donne:
P{X < Y} = [ P{X < Y\ Y = y}fY(y) dy

J -OO
P{X<y\Y = y}fY(y)dy
co
P{X < y}fy{y) dy par hypothèse d'indépendance

OO
= I Fx(y)fY{y) dy
ou
Exemple 7.34 Soient X et Y deux variables indépendantes et continues. On veut

connaître la distribution de X + Y.
SOLUTION. En conditionnant selon Y, on obtient:
P{X +Y <a}= P{X + Y < a | Y = y}fY(y) dy

J — ce
/•co
= P{X + y<a\Y = y}fY(y)dy

J —oo
/•ce
= P{X<a- y}fY(y) dy
J -co
/•oo
Fx(a - y)fy(y) dy •
J -OO
7.4.8 Variance conditionnelle
On peut définir la variance conditionnelle de X selon Y en s'inspirant de la

démarche suivie pour l'espérance conditionnelle. On obtient en fin de compte la
variable aléatoire:
Var (X\ Y) = E[[X - E(X\ Y)f\ Y]
Cette variable fait correspondre à tout événement l'espérance conditionnelle (sous

condition Y = y, y étant la valeur associée à cet événement par Y) de la variable égale
au carré de la différence entre X et son espérance conditionnelle par rapport à Y. En
d'autres termes, cette définition s'appuie sur la définition ordinaire de la variance, à
cela près que toutes les espérances sont prises conditionnellement selon Y.
Il existe une relation très utile entre Var(A'), la variance conditionnelle de X et la
variable \&v(X\ Y); cette relation sert parfois au calcul de Var(A'). Pour construire
cette relation on notera d'abord que
Var (X | Y) = E[X2 \ Y] - (E[X \ Y])2
d'après le même raisonnement que celui grâce auquel on établit

Var(X) = E[X2] - {E[X]f. Donc
£[Var (X\ Y)] = E[E[X2\ Y]] - E[(E[X\ Y])2}

= E[X2]-E[(E[X\Y])2] (7.18)
Mais comme £[£1X1 Y]] = E[X], on a par ailleurs
Var (E[X \ Y]) = E[(E[X \ Y])2] - [E[X])2 (7.19)
On en arrive ainsi à achever la démonstration du théorème suivant, par simple

addition de (7.18) et (7.19).
Théorème 7.5 Formule de la variance conditionnelle
Var (X) = £[Var ( X | Y)] + Var (E[X\ Y])
7.4.9 Exemples de calculs de variances par conditionnement
Exemple 7.35 On admet qu'à toute heure I, le nombre de personnes qui se sont
rendues à une gare suit une loi de Poisson de paramètre croissant Xt. Si le premier
train s'arrêtant à cette gare repart à une heure aléatoire uniformément distribuée dans
l'intervalle (0, T) et indépendante de l'arrivée des passagers, quelles seront l'espérance
et la variance du nombre de passagers qui pourront prendre le train?
SOLUTION. Pour tout ( ^ 0 on convient d'appeler N(t), le nombre de personnes

attendant à la gare à l'heure t. L'heure d'arrivée du train sera désignée par Y. Ce qui
nous intéresse est donc N( Y). Le conditionnement selon Y donne:
E[N( Y)\Y = t] = E[N{t) \Y = t]

= E[N(t)] en vertu de l'indépendance de Y et N(t)
= \t du fait que N(t) est poissonienne de paramètre "kt
Donc
Prenons l'espérance des deux membres. On aura
E [ N ( Y ) ] = AE[Y] = y
Pour obtenir Var(/V( Y)), utilisons la formule de la variance conditionnelle:
Var (7V( Y) | Y = t) = Var (N(t) \Y = t)

= Var (N(t)) par hypothèse d'indépendance
= AI
et donc
Ce qui donne en utilisant la formule précitée:
Var (N( Y)) = £[A Y] + Var (A Y)

2
T 2T
2 12
où l'on a utilisé la formule Var(K) = 7 2 /12. B
Exemple 7.36 Variance de la somme d'un nombre aléatoire de variables aléatoires

Soit A',, X2,... une collection de variables aléatoires indépendantes et identiquement
distribuées. Soit encore N, une variable aléatoire indépendante des À",-, i > 1, à valeurs
N
entières non-négatives. On désire calculer Var(2 A',).
SOLUTION. On conditionne selon TV:
NE[X]
Varl X XilN) = NVar(X)
Ces relations sont valables, car lorsque N est connue, Z AT, n'est autre que la somme
;=i
d'un nombre fixe de variables aléatoires indépendantes. Dans ce cas, l'espérance et
la variance d'une telle somme sont simplement la somme des espérances et des
variances, respectivement. On applique maintenant la formule de variance condition-
nelle pour obtenir
•a*) = E[N] Var (X) + ( E [ X ] )

2
Var I I X, Var (TV)
7.5 ESPÉRANCE CONDITIONNELLE ET PRÉDICTION
7.5.1 Meilleur prédicteur
Il arrive que l'on puisse observer la valeur d'une variable aléatoire X et qu'ensuite,
on souhaite prédire la valeur d'une autre variable Y en se basant sur ce que l'on sait
de X. Désignons parg(A') le prédicteur de Y, au sens où si éprend x pour valeur alors
g(x) est la valeur prédite de Y. On souhaite évidemment choisir g de telle manière que
la variable g(X) soit aussi proche que possible de Y. Un critère de qualité en matière
de prédiction est d'avoir minimisé E[(Y— g(X))2]. Nous allons montrer ci-dessous
que selon ce critère, le meilleur prédicteur de Kest g(X) = E[Y\X].
Théorème 7.6
Pour toute fonction g
E[(Y- g(X))2] > E[( Y - E[ Y|X]) 2 ]
DÉMONSTRATION.
E[(Y- g ( X ) ) 2 | X ] = £[( Y - E[Y\X] + E[Y\X] - g ( X ) ) 2 | X ]

= E[(Y-E[Y\X])2\X]
+ E[(E[Y\X]-g(X))2\X]
+ 2E[(Y - E[Y\X])(E[Y\X]- g(X))\X] (7.20)
A ce point, si A'est connue, on peut considérer E[Y\ X] — g(X) comme une constante.
Aussi a-t-on
E[(Y ~ E[Y\X])(E[Y\X]~ g(X))\X]
= ( £ [ Y \ X ] - g(X))E[Y- E[Y\X]\X]
= ( £ [ Y \ X ] - g(X))(E[Y\X] - E[Y\X])
=0 (7.21)
On tire de (7.20) et (7.21)
E[( Y - g ( X ) ) 2 | X ] a E[( Y - E[Y\X])2\X]
le pas final consistant à prendre l'espérance des deux membres de l'inégalité ci-dessus.
•
On peut donner un argument plus intuitif, quoique moins rigoureux, pour faire
comprendre le théorème 7.6. Il n'est pas difficile de montrer que E[(Y — c)2] est
minimale lorsque c = E[Y] (voir l'exercice théorique 7.10.5). Si donc, nous n'avons
aucune information, la meilleure prédiction de Y dans le sens de la minimisation du
carré moyen de l'erreur, est de déclarer que Y prendra comme valeur son espérance.
Si nous disposons d'une observation x de la variable X, le problème de prédiction se
pose exactement dans les mêmes termes qu'auparavant, à cela près qu'il faut considé-
rer toutes les probabilités et espérances comme conditionnelles, la condition étant
X = x. En résumé, la meilleure prédiction dans ce cas est de déclarer que Y prendra
pour valeur l'espérance conditionnelle de Y sous la condition X = x, ce qui est bien
ce qu'établit le théorème 7.6.
7.5.2 Exemples de prédiction
Exemple 7.37 On suppose que lefilsd'un homme de taille x (en centimètres) atteindra
une taille de distribution normale autour de x + 2 et de variance 10. Quelle est la
meilleure prédiction que l'on puisse donner sur la taille finale du fils d'un homme de
180 cm?
SOLUTION. Formellement le modèle admis peut être écrit
Y = X + 2 + e
où e est une variable normale, indépendante de X et de paramètres 0 et 10. Les

variables A' et F représentent bien sûr respectivement la taille du père et du fils. La
meilleure prédiction est donc E[Y\X = 180] à savoir
E[Y\X = 180] = E[X + 2 + e\X = 180]

= 182 + E[e\X = 180]
= 182 + E[e] par hypothèse d'indépendance
= 182
Exemple 7.38 On suppose qu'un signal d'intensité s lors de son émission en A est
perçu en B avec une intensité aléatoire normalement distribuée, de paramètres (s, 1).
Or le signal émis en A est lui aussi une variable aléatoire 5, normale de paramètres
(u, G 2 ). On observe en B un signal que l'on note R. Quelle est la meilleure estimation
de l'intensité d'émission si l'on enregistre R = ri
SOLUTION. Commençons par calculer la densité conditionnelle de S, R étant donnée:
/si (5|r)=
* i^r
_fs(s)fR\s(r\s)
= K<r (s -" ,2/ ' CT v

où K ne dépend pas de s. Or
(s--2
où de nouveau C, et C2 ne dépendent pas de s. Ainsi
fs\it(s\r) = C e x p
l (ï£)
où C ne dépend toujours pas de s. On en déduit que la distribution conditionnelle de
S, intensité du signal émis, sachant que l'intensité du signal reçu est r, est normale
de paramètres
E[S R = r] = ?——
1 + <T
2
Var (S\R=r)=-^—2
1+ a
D'après le théorème 7.6, la meilleure estimation de signal émis est, dans le sens d'un
carré moyen de l'erreur minimum et d'après l'observation de l'intensité r du signal
reçu
.. 2
E[S\R = r}^-—-2n+-^—2r
1 + (T 1 + <T
Cette dernière décomposition de l'espérance conditionnelle de S est instructive dans

la mesure où elle montre que la prédiction est une moyenne pondérée de u, espérance
a priori du signal émis, et de r, valeur enregistrée. Les poids attribués à u et r sont dans
la même proportion entre eux que 1 et a 2 , respectivement variance conditionnelle du
signal reçu lorsque l'intensité d'émission est s et variance du signal émis. •
Exemple 7.39 Lors du traitement digital de données basées sur des mesures analogi-
ques brutes X, ces mesures doivent être rendues discrètes avant tout traitement. Pour
ce faire, on détermine de manière tout à fait générale un ensemble ordonné de bornes
a,, i' — 0, + 1, + 2,... telles que lim a, = oo et lim a, = — oo. Une mesure
analogique X est alors rendue discrète selon l'intervalle («,, ai+s) auquel elle appar-
tient. Notons par j„ la valeur attribuée à la variance X rendue discrète lorsque
X G (a„ ai+[); en d'autres termes
Y = y, si ai < X < a j+1
La distribution de Y est donnée par
P{Y = y,} = Fx(a,+l) - Fx(a.)
Le problème consiste alors à choisir les valeurs y,, i = 0, ± 1, ± 2,... de manière à

minimiser E[(X- Y)2], l'espérance du carré de l'erreur entre donnée brute et approxi-
mation discrète,
a) On veut trouver les valeurs y- optimales, i = 0, ± 1, ± 2,...;
b) pour le quantificateur optimal y ainsi trouvé, on veut montrer que ^ [ y ] = E[X],

ce qui signifie que ce quantificateur conserve l'espérance des données;
c) on souhaite encore montrer que Var(y) = Var(A') — E[(X — Y)2].
SOLUTION.
a) Pour tout quantificateur Y on obtient, en conditionnant selon les valeurs de Y
E[(X - Y)2] = Y. E[(X - yi)2\ai < X < al+i]P{a, < X < ai+l}
i
Posons maintenant
I =i si ai < X s a1+1
Alors
E[(X - y,) 2 |a, < X s fl|+1] = E[(X - ytf\l = i]
et en vertu du théorème 7.7, cette quantité est minimale lorsque
y, = £ [ X | / = J]
= £[X|a,<X<aj+1]
xfx(x) dx
-ï. Fx(ai+1) - Fx(ai)
Or, comme le quantificateur optimal est donné par Y = £[^1/], on a
b) E[Y] = E[X]
c) Var (X) = £[Var (X \ I)] + Var (E[X \ /])
= E[E[(X - Y)21 /]] + Var ( Y)
= E [ ( X - y ) 2 ] + Var (Y) •
7.5.3 Meilleur prédicteur linéaire
Il arrive que la distribution conjointe de A' et Y ne soit pas connue, ou le soit mais
que le calcul de £ [ y | X = x] soit pratiquement hors de portée. Dans ce cas, on peut
cependant trouver le meilleur prédicteur linéaire de Y basé sur X si les espérances et
variances de ces deux variables sont connues, ainsi que leur corrélation.
Il s'agit alors de déterminer deux constantes a et b telles que E[(Y — (a + bX))2]
soit minimum. Or
£ [ ( y - (a + WO) 2 ] = E [ y 2 - 2 a y - 2bXY + a2 + 2abX + b2X2]

= E[Y2] - 2aE[Y] - 2bE[XY] + a2
+ 2abE[X] + b2E[X2]
La dérivation partielle par rapport à a et b donne
* E[(Y-a- bX)2] = -2E[ Y] + 2a + 2bE[X]

da
d (7.22)
E[(Y-a- bX)2] = -2E[XY] + 2aE[X] + 2bE[X2}
db
La résolution du système d'équations identifiant les dérivées partielles à 0, donne les
solutions a et b
E[XY] - E[X]E[Y] = Cov (X, Y) = o±
E[X2]-(E[X])2 <j\ P
~ *X
(7.23)
p<TyE[X]
a = E[Y]- bE[X] = £ [ Y] -
où p désigne la corrélation entre X et Y, tandis que G2, = Var(K) et a2x = Var(À').

On vérifie aisément que ces valeurs donnent bien un minimum de E[( Y — (a + bX))2],
déterminant ainsi le meilleur predicteur linéaire de Y basé sur X au sens du carré
moyen de l'erreur
My + (X - /Xj
<Tx
oùu, = E[Y]et\ix = E[X).

Le carré moyen de l'erreur de ce predicteur est
= E[( Y - M,)2] + P2 ^ E[(X - M x)

2
] - 2 p ^ E[( Y - M y )(X - ^)]
<TX <TX
2 . 2 2 i 2 2
= (Ty + p (Ty — Zp (Ty
= <r2y(l-p2) (7.24)
On constate grâce à (7.24) que, lorsque p est voisin de + 1 ou — 1, le carré moyen

de l'erreur du meilleur predicteur linéaire est presque nul.
Exemple 7.40 On va montrer qu'il existe une situation parmi d'autres dans laquelle
l'espérance conditionnelle de Y selon X est linéaire en X, ce qui signifie que le meilleur
predicteur linéaire de Y basé sur X, est le meilleur tout court: celle où X et Y sont des
variables conjointement normales.
SOLUTION. La densité conjointe de X et Y est
/te,)- • exp{--^-[(^--)'
2 TT(Tx(Ty\l 1 — p l. 2(1— p ) L \ <JX I
_ 2p{x - / Q ( y - fiy) + /y-MyVl]

a-xay \ cry / JJ
On laisse au lecteur le soin de vérifier que la densité conditionnelle de Y, X = x étant

donné, est
/y|x(y|-«)
On voit donc que la distribution conditionnelle associée est normale, d'espérance
E[ Y | X = x] = p,y + p -1 (x - p.x)
et de variance a\ (1 — p2), ce qui montre bien que le meilleur estimateur est linéaire.
On retrouve d'ailleurs l'expression du meilleur estimateur linéaire. •
7.6 FONCTIONS GÉNÉRATRICES DES MOMENTS
7.6.1 Définition et propriétés
On définit pour tout réel t, la fonction génératrice des moments Mac la variable
aléatoire X par
M(t) = E[e'x]
Y.e'xp(x) si X est discrète, de loi de probabilité p
X
e lxf(x ) dx si X est continue, de densité f
Cette fonction M est appelée fonction génératrice des moments du fait que tous les
moments d'ordre n de X peuvent être calculés en dérivant n fois M puis en évaluant
le dérivée en t = 0. Par exemple,
M'(t)=jtE[e'x]
= E[Xe'x] (7.25)
où l'on a admis que la permutation des opérations de dérivation et de prise d'espé-
rance était légitime. Plus précisément on a admis que
dans le cas discret et que

d_
dt
dans le cas continu. Cette supposition est presque toujours fondée et d'ailleurs est
valable pour toutes les distributions considérées dans cet ouvrage. Ceci fait que
lorsqu'on évalue M'obtenue dans (7.25) en t = 0 on trouve bien
M'(0) = E[X]
Et de même
M"(t) = Jt Mît)
-4£<H
= E[X2e'x]
par conséquent
Af"(0) = E[X2]
L'expression générale de la n-ième dérivée de M est
Mn(t) = E[Xne'x] n> 1

qui laisse
M"(0) = E[X"] n> 1
7.6.2 Exemples d'applications de la fonction génératrice des moments
Les exemples qui suivent étudient la fonction génératrice des moments de plusieurs
distributions courantes.
Exemple 7.41 Cas de la distribution binomiale de paramètres n et p

Soit X une variable suivant une telle distribution. On souhaite déterminer M et
appliquer ses propriétés au calcul de E[X] et V a r ^ ) .
SOLUTION. On a
M(t) = E[e'x]
îoeik{n^pk(i-prk
k =
où l'on reconnaît lors de la dernière égalité, une application de la formule du binôme.

En dérivant,
M'(t) = n(pe' + l-p)"~1pe'

et par suite
E[X] =M'(0) = np
ce qui est bien en accord avec le résultat calculé dans l'exemple 7.5. Une seconde
dérivation donne
M"(t) = n(n - \)(pe' + 1 - p)"'2{pe')2 + n(pe' + 1 - p)"^pe

puis
E[X2] =M"(0) = n(n - \)p2 + np
La variance de X est donc
Var (X) = E[X2] - (E[X]f

= n(n - \)p2 + np - n2p2
= np(l -p)
ce qui une fois encore confirme le calcul effectué dans l'exemple 7.20. •
Exemple 7.42 Cas de la distribution de Poisson de paramètre A.

L'objectif est le même que dans l'exemple précédent, X désigne toujours la variable
aléatoire étudiée.
SOLUTION. On a
M(t) = E[e,x)
e
= y '"e'^"
" n?o n!
-x s (A*r
n=o ni
— ,,-*„*«'
= e e
= exp{A(e'-l)}
Deux dérivations donnent successivement
M'(t) = A e ' e x p { A ( e ' - l ) }

M"(t) = (Ae')2 exp{A(e' - 1)} + Ae' exp{A(e' - 1)}
et donc
E[X] = Af'(0) = A
E[X2]=M"(0) = A2 + A
Var(X) = £ [ X 2 ] - ( E [ X ] ) 2
=A
On constate encore une fois que l'espérance et la variance d'une variable poissonienne
sont toutes deux égales à A.. •
Exemple 7.43 Cas d'une distribution exponentielle de paramètre X
SOLUTION. On a
M(t) = E[e'x]
-r e'x\e~Kx dx
{x )x
- dx
JoÀ
À - t pour t< À
Jo
On remarque ici que M n'est définie que pour des valeurs de / inférieures à X. Deux
dérivations livrent
Et donc
E[X]=M'(0)=~ £[X2]=M"(0)=-^
A A
et la variance de X est
Var (X) = E[X2] - ( £ [ X ] ) 2

1
=
F
Exemple 7.44 Cas d'une distribution normale
SOLUTION. On déterminera d'abord la fonction génératrice des moments d'une varia-

ble normale standard. Désignons cette variable par Z. On a
Mz(t) = E[e'z]
c
e e dx
V2ïr J_
i r r (X2-2tx)}
^Lexpl—ri*
=i fex [ u-oy 2 l
V2TT J_ooeXPl 2 2J
= e' 2 / 2 -J=|
-JITT f
/•OO
e-(*-)2/2dx
e~y /2
dy en substituant y à x - t
= e"2
La fonction génératrice des moments d'une variable aléatoire Z normale centrée
réduite est donc M^t) = e . Pour obtenir la fonction génératrice des moments d'une
variable normale quelconque, il faut se souvenir que X = u + CTZ sera de
distribution normale avec paramètres u et a2 si Z est normale standard. On peut alors
calculer la fonction génératrice des moments de X ainsi
Mx(t) = E[e'x]
= £[c'("+aZ)]
= £[>'V^]
= e' M E[e' aZ ]
= e^MzW
=c Vw,2/2
= exp
On dérive pour obtenir
{
2 2
t 1
+ /
^2~ )
M i ( 0 = (fi + ter2)2 exp j ^ — + jU 1 + a2 exp j ^ — + fit \
donc
E[X] = M'(0) = fi
E[X2] = M"(0) = n2 + a2
et finalement
Var(X) = E [ X 2 ] - E ( [ X ] ) 2
2
= cr
7.6.3 Tableaux de fonctions génératrices des moments
Les tableaux 7.2 et 7.3 donnent la fonction génératrice des moments de plusieurs
distributions courantes.
Tableau 7.2
Fonction génératrice
Loi de probabilité des moments
Lois (discrètes) p(x) M(t) Espérance Variance
Binomiale de paramètres n, p (pe' + l - p ) " «P np(l - p )
0 0 x =0,1,2,...
Géométrique de paramètre 1-p
Pd-pr*
l-(l-p)e'
0 < p <1
Binomiale négative de x = l,2,... r ^^ r i r(l-p)
paramètres r, p
Ll-(l-p)e'J P P2
0 < p <1
« = r, r + 1,...
Tableau 7.3
Fonction génératrice
des moments
Lois (continues) Densité f(x) M(t) Espérance Variance
1
Uniforme sur (a, b) a<x0 A 1 1
paramètre "k > 0 «'> = {«Ke' x <0 A -r A A2
Gamma de paramètres x aO s
(s, k) X>0 C4;)' A K~2
0 x < 0
1 -<«-<*> 2 /2" 2 - 0 0 < x < Û O

Normale de paramètres /(*) = exp ! fit + M a2
v27TO f)
7.6.4 Autres propriétés des fonctions génératrices des moments
Théorème 7.7
La fonction génératrice des moments d'une somme de variables aléatoires indépen-
dantes est égale au produit des fonctions génératrices des moments individuels de ces
variables.
DÉMONSTRATION. Soient deux variables aléatoires indépendantes X et F de fonctions

génératrices des moments respectives Mx et MY. La fonction génératrice des moments
de X + Y est
Mx+Y(t) = E[e,(x+Y)]
= E[e,xe'Y]
= E[e'x]E[e'Y]
= Mx(t)MY(t)
où l'avant dernière égalité est une conséquence du théorème 7.2 et de l'indépendance

de X et Y. u
Une autre propriété très importante des fonctions génératrices est que leur donnée
détermine de manière univoque la distribution des variables auxquelles elles corres-
pondent. Plus précisément, s\Mxet ses dérivées existent et sont finies dans un voisinage
de 0, la distribution de Xest entièrement déterminée par ces fonctions. Si par exemple
Mxit) = (j)1 V + l) 10 on pourra affirmer, grâce au tableau 7.2 que Xest une variable
binomiale de paramètres 10 et i.
7.6.5 Exemples d'application
Exemple 7.450n sait que la fonction génératrice des moments d'une variable X est
M(t) = eMe'-". Que vaudra P{X = 0}?
SOLUTION. Le tableau 7.2 indique que M est la fonction génératrice des moments d'une
variable de Poisson de paramètre 3. En vertu de l'unicité de la distribution associée
à une fonction génératrice, on conclut que X est une variable de Poisson de para-
mètre 3. Par conséquent, P{X = 0} = e~3. •
Exemple 7.46 Somme de variables binomiales indépendantes

Considérons deux variables binomiales A'et Y indépendantes et de paramètres respec-
tifs («, p) et (m, p). Quelle sera la distribution de X + Y?
SOLUTION. La fonction génératrice des moments de X + Y est
Mx+Y(t) = Mx(t)MY{t) = (pe' + 1 - p)n(pe' + 1 - p)m

= (pe' + l-p)m+n
On reconnaît ici dans (pe' + 1 — p)'" + " la fonction génératrice des moments d'une
variable binomiale de paramètres m + n et p. Cette distribution est donc celle de
X + Y. m
Exemple 7.47 Somme de variables aléatoires de Poisson

Si X et Y sont deux variables poissoniennes indépendantes de paramètres respectifs
\\ et k2, quelle est la distribution de leur somme?
SOLUTION.
Mx+Y(t) = Mx(t)MY(t)
= exp{À1(c'-l)}exp{A2(c'-l)}
= exp{(A, + À 2 ) ( e ' - l ) }
Et par conséquent X + F est de distribution poissonienne avec paramètre Xt+ k2,

ce qui confirme le résultat établi dans l'exemple 6.16. •
Exemple 7.48 Somme de variables normales indépendantes

On veut montrer que si A' et Y sont deux variables normales indépendantes de
paramètres respectifs (u,, a]) et (u2, a 2 ) alors X + Y est normale d'espérance
Ui + u2 et de variance a, + a 2 .
SOLUTION.
Mx+y(0= Mx{t)MY(t)
2.2
\<r\t2 1 \cr\t2 \
= exp | — + / M j exp | — + n2t |
= exp | + (/A, + ^t 2 )/ >
que l'on reconnaît être la fonction génératrice des moments d'une variable normale
d'espérance u, + u2 et de variance a] + a\. Le résultat annoncé est donc acquis du
fait de l'unicité de la distribution associée à une fonction génératrice des moments.
Exemple 7.49 Calcul de la fonction génératrice des moments d'une variable aléatoire
chi-carrée à n degrés de liberté.
SOLUTION. On peut représenter une telle variable aléatoire par
zf + ... + z2n
où Z\, ..., Z„ sont des variables aléatoires normales standard indépendantes. Soit M(t)
sa fonction génératrice des moments. D'après ce qui précède,
M(t) = (E[e'z2]J
où Z est normale standard. On a
x
Ele
1 J = ,— Je* e dx
4ln -»
= ,— Je OÏ o a = (l - 2t )
4ln —
= (l-2fr1/2
où l'avant-dernière égalité utilise le fait que l'intégrale de la densité normale de
moyenne 0 et de variance a vaut 1. Donc
•n/2
M(t) = (l-2t)
Exemple 7.50 Fonction génératrice des moments d'une somme d'un nombre aléatoire
de variables aléatoires. On considère une collection X{, X2,... de variables aléatoires
indépendantes et identiquement distribuées. On considère également une variable N
à valeurs entières positives indépendantes des Xi7 i — 1, 2,.... On souhaite déterminer
la fonction génératrice des moments puis l'espérance de
(Dans l'exemple 7.29 Y représentait la somme totale dépensée dans un magasin

lorsqu'à la fois les dépenses de chaque client et le nombre de clients sont des variables
aléatoires).
SOLUTION. Pour trouver la fonction génératrice des moments de Y, on conditionne

tout d'abord selon N comme suit
E[e'z"x'\N = n] = £ [ c ' I r x ' | N = n]

= E[e'Irx']
= (Mx(f))"
ou
Mx(t) = E[e'x']
Par conséquent
E[e,Y\N] = (Mx(t))"
et donc
MY(t) = E[(Mx(t))N]
Il suffit à ce stade de dériver pour obtenir les premiers moments de Y:
M'y(t) = £ [ N ( M x ( 0 ) N _ 1 M ' x ( 0 ]
et par suite
E[Y] = M'Y(0)
= E[N(Mx(0))"-1M'x(0)]
= E[NEX]
= E[N]E[X] (7.26)
où le résultat de l'exemple 7.29 se trouve confirmé. On a utilisé dans ce calcul la

relation MÔ) = E[eox] = 1. Ensuite,
M"Y(t) = E[N(N - l)(Mx(t))"-2(M'x(t))2 + N(Mx(t))N-lM'x(t)]
et donc
E[Y2] = MY(0)
= E[N(N - l)(E[X])2 + NE[X2]]
= (E[X])2(E[N2] - E[N]) + E[N]E[X2~\
= E[N](E[X2] - (E[X])2) + (E[X])2E[N2]
= £[N]Var(X) + (£[X])2£[N2] (7.27)
De (7.26) et (7.27) on tire Var(y):
Var ( Y) = E[N] Var (X) + (E[X])2(E[N2] - (E[N])2)

= Ê[N]Var(X) + (E[X])2Var(N) •
7.6.6 Fonction génératrice des moments de variables conjointes
Le concept de fonction génératrice des moments peut être étendu à des variables
conjointes. On procède comme suit: pour toute collection de n variables aléatoires Xi%
X2,..., X„ leur fonction génératrice des moments conjoints M est définie pour toute
collection de n arguments réels lt, t2,.--, t„ par
A / « „ . . . , r J = E[e''x'+ +
'" x "]
Les fonctions génératrices des moments individuelles sont calculables à partir de M

en posant tous les arguments sauf un égaux à zéro; en clair
Mx,(t) = E[e'x'] = M(0,..., 0,f, 0 , . . . , 0)
où / est le /-ème argument de M.

On peut démontrer que la donnée de M détermine de manière univoque la distribu-
tion conjointe de Xt, X-,,..., Xn. La démonstration est cependant trop difficile pour
figurer dans cet ouvrage. Ce résultat permet d'en démontrer alors un autre.
Théorème 7.8
n variables aléatoires Xu X2,— Xn seront indépendantes si et seulement si
M (f„ . . . , * „ ) = MxM\) • • • MXnUn) (7.28)
DÉMONSTRATION. Supposons l'indépendance des n variables aléatoires, alors
M ( r 1 , . . . , ^ 1 ) = E[e('>x'+•••+,••x",]
= £[«''*• .••e'»x"]
= E[eh ' ] • • • E[e'n -] du fait de l'hypothèse précitée
= Mx,{tl)---Mx„(tn)
Dans l'autre sens, si (7.28) est vraie, la fonction génératrice des moments conjoints
M est identique à celle de n variables aléatoires indépendantes, la j'-ème desquelles aura
la même distribution que Xt. Comme la fonction génératrice des moments conjoints
détermine une distribution conjointe de manière unique, la distribution reconnue est
bien celle des A-, conjointement. Ces variables sont donc indépendantes. •
7.7 AUTRES PROPRIÉTÉS DES VARIABLES ALÉATOIRES NORMALES
7.7.1 Distribution normale multivariée
On considère un ensemble de n variables aléatoires indépendantes et normales

standard notées Zx, ..., Z„. On définit des variables aléatoires X\, X2, ..., Xm grâce aux
équations
x
i=aiizi+- + a
i„zn+î
X2=a2lZx+... + a2nZn+n2
Xm - amiZ\ + ••• + am„Z„ + M™

m ml 1 mn n ~m
où ay, 1 < (' < m, 1 <j < n et n,-, 1 < i < m sont des constantes. Tout jeu de variables X„
1 < i < m ainsi définies est appelé groupe de variables aléatoires normales
multivariées.
La somme de variables aléatoires normales indépendantes étant elle-même de
distribution normale d'après le résultat de l'exemple 7.48, on remarquera que chaque
Xj est une variable aléatoire normale d'espérance et de variance données par
4*,.]= M ,
Var(X,)=Î4
7=1
Considérons à présent la fonction génératrice conjointe des moments de Xx,.... Xm
M'i tm) = E[^p{tlXl+... + tmXm}]

m
Comme £f,A, est une combinaison linéaire des variables aléatoires normales
indépendantes Z\, ..., Z„, elle est aussi normalement distribuée. Sa moyenne et sa
variance sont
et
(m \ (m m
Varl IÏ.X,. I = Covl I f,X,., I tjXj
mm / \
= i=i>= ïïtitjCov(xi,Xj)
2
Si Y est une variable aléatoire normale de moyenne |i et de variance a , alors
a
4/]=A/ K (OL 1 = C
Nous voyons donc que
M
{h O = exp\ £tfo +-ÎÎVjCovfaXj) l
[ >=i 2 i'=i;'=i J
ce qui montre que la distribution conjointe de X\ X„ est complètement déterminée

par la connaissance des valeurs de ^[X-j etCovIX^X J, i,j = l,...,m.
7.7.2 Distribution conjointe de la moyenne et de la variance d'un échantillon
Soient Xit ..., Xn des variables aléatoires normales indépendantes, chacune ayant
2 - i X:
pour moyenne \x et pour variance a . SoitX = 2 , — la moyenne de l'échantillon.
1=1 n
Puisque la somme de variables aléatoires normales indépendantes est aussi une
variable aléatoire normale, X est donc une variable aléatoire normale d'espérance |J. et
de variance a fn (voir les exemples 7.3 et 7.19).
Rappelons que selon l'exemple 7.24
Co\(x,Xi-x) =0 j=l n (7.29)
De plus, puisque X,X, - X,X2 - X,...,Xn - X sont toutes des combinaisons

linéaires des normales standard indépendantes(x, -fij/a, / = !,...,«, alors
X,Xj — X, i = l,...,n possède une distribution conjointe normale multivariée. Si l'est

une variable aléatoire normale jie moyenne (i. et de variance a fn indépendante des
Xh i = 1, ..., n alors Y, Xt;- X, i = l,..,n possède aussi une distribution normale
multivariée et, à cause de (X29), a les mêmes espérances et covariances que les
variables aléatoires X,Xj-X, i = \,...,n. Mais comme une distribution normale
multivariée est complètement_déterminée par ses espérances et ses covariances, on
peut conclure que Y,Xt-X, i = l,..,n et_ X,Xt-X, i = l,...,n ont la même
distribution conjointe, ce qui montre que X est indépendant de la séquence des
déviations Xt, - X, i = l,..,n.
Puisque X est indépendant de la séquence des déviations X, - X, i = 1,..,«, X est
aussi indépendant de la variance de l'échantillon S /(n - 1 ) s Ëfx, - ^ j / ( » - 0-

Comme nous savons déjà que X est normal de moyenne \i et de variance a /n,
il reste seulement à déterminer la distribution de S2. Pour faire ceci, reprenons
l'identité algébrique de l'exemple 7.19
9 ni —\2
2
S sJ,[Xi-X)
2
En divisant cette équation par a2 , on obtient
+ /=i
est la somme des carrés de n variables aléatoires normales standard et est donc une
variable aléatoire chi-carrée à n degrés de liberté. Donc, selon l'exemple 7.49, sa
fonction génératrice des moments est (l - 2f ) . Ainsi,
est le carré d'une normale standard et est donc une variable aléatoire chi-carrée à 1
degré de liberté dont la fonction génératrice des moments est(l - 2r) . Nous avons
vu précédemment que les deux variables aléatoires du membre gauche de l'équation
(7.30) sont indépendantes. Donc, comme la fonction génératrice des moments d'une
somme de variables indépendantes est égale au produit de leurs fonctions génératrices
des moments, on voit que
Mais comme (l - 2t) " est la fonction génératrice des moments d'une variable
aléatoire chi-carrée à n - 1 degrés de liberté, on peut conclure que, puisque la fonction
génératrice des moments détermine de manière unique la distribution de la variable
2 / 2
aléatoire, c'est la distribution de S /a .
En résumé, nous avons le théorème suivant.
Théorème 7.9
Si Xj, .... X„ sont des variables aléatoires normales indépendantes et
identiquement_distribuées de moyenne fi et de variance a , la moyenne^ de
l'échantillon X et la variance de l'échantillon S /(n - 1 ) sont indépendantes. X est
une variable aléatoire normale de moyenne fi et de variance a /n; S fa est une
variable aléatoire chi-carrée an-1 degrés de liberté.
7.8 DÉFINITION GÉNÉRALE DE L'ESPÉRANCE MATHÉMATIQUE
7.8.1 Cadre du problème
Nous n'avons jusqu'à présent défini d'espérance que pour des variables discrètes
ou continues. Or il existe des variables qui n'appartiennent à aucune de ces deux
catégories et pour lesquelles il est malgré tout intéressant d'essayer de définir une
espérance. A titre d'exemple, considérons la variable aléatoire W construite ainsi:
soient X une variable de Bernoulli de paramètre p = ^ et Y une variable uniforme
sur [0, 1]. On pose
fX lorsque X = 1
W
•{ Y lorsque X * 1
La variable W n'est manifestement ni discrète (son ensemble fondamental [0, 1] étant

non dénombrable), ni continue (discontinuité de Fw en 1 puisque P{W = 1} = l-).
Il s'avère utile pour définir l'espérance de variables aléatoires absolument quelcon-
ques de disposer d'un outil, à savoir l'intégrale de Stieltjes définie ci-après.
7.8.2 Intégrale de Stieltjes
Avant de définir cette intégrale, procédons à un rappel. On se souvient que pour

toute fonction g, \ha g(x) dx est définie ainsi:
1 i
g(x) dx = lim I g(x,)U - *,-i)
i= l
où la limite est prise sur toutes les divisions a = xQ < .Y, < .v2< ... < .Y„ = b avec
n -> co et max (x, — x,_,) -• 0.
1=1 H
On définit maintenant pour toute fonction de répartition F, Y intégrale de Stieltjes

d'une fonction à valeurs non négatives g sur l'intervalle [a, b] par
g(x) dF(x) = lim I g U ) [ F U - ) - F U . . , ) ]
où comme précédemment, la limite est prise sur toutes les divisions a = ,v(l < v, <
x2 < ... < x„ = b de [a, A] avec n -• oo et max (.Y, - .Y,-_,) -* 0. On peut étendre
/=1 n
cette définition à l'axe réel tout entier en posant
| g(x)dF(x)= lim | g(x)dF(x)

J -oo a-»-oc J a
h-»+oo
Enfin, si g est une fonction à valeurs quelconques non nécessairement positives, on

définit g+ et g~
(JC) lorsque g(x) > 0
lorsque g U ) < 0
lorsque g(x) > 0
g(x) lorsque g(jc) < 0
Les fonctions g+ et g" étant à valeurs non négatives et g s'écrivant g = g+ — g ,

il est naturel de définir en tout généralité
=
g(x) dF(x) = j +
g+g(x)( xdF(x)
) d F ( x-) - ^ g (x) dF(x)
et nous dirons que j ^ x g(x)dF(x) existe dès que j ^ ' g+ (x) dF(x)et J^ y g (x)dF(x)
ne sont pas toutes deux égales à + oc.
7.8.3 Espérance d'une variable aléatoire quelconque
Soit X, une variable aléatoire quelconque de fonction de répartition F. On définit

l'espérance de A' par
E[X]=
-j: J OC
xdF(x) (7.31)
On peut montrer que lorsque X est une variable discrète de loi de probabilité /;,
xdF(x)= X xp(x)
tandis que si X est continue de densité/

f °o ("oo
xdF(x) = xf(x)dx
J -OO J — oo
Le lecteur remarquera que (7.31) correspond intuitivement à la définition précé-

dente de E[X] comprise comme moyenne. Si en effet, on considère l'approximation
suivante de E[X], à savoir
I x,[F(x.) - F(x^)]
i= \
on remarque que F\Xj) - f\A-;_|) n'est autre que la probabilité que X soit dans
l'intervalle (.v,-_,, x]. L'approximation citée revient donc à multiplier une valeur
approximative de X lorsque la variable prend une valeur dans (x,_|, x,] par la
probabilité que cet événement se produise. Il est prévisible que lorsque les intervalles
utilisés deviennent de plus en plus fins le résultat sera une bonne moyenne pondérée.
L'intégrale de Stieltjes présente un intérêt plutôt sur le plan théorique où elle
constitue un outil synthétique pour la définition et l'exploitation des propriétés de
l'espérance. Son usage dispense en particulier de l'élaboration de démonstrations
distinctes pour traiter les cas continu et discret. Comme par ailleurs, ses propriétés
sont assez voisines de celles de l'intégrale ordinaire, on peut facilement adapter les
démonstrations données dans ce chapitre pour leur donner une validité générale.
7.9.1 Montrer que E\ (X - a) est minimisée en a = E[X\.
7.9.2 Supposer que X est une variable aléatoire continue de densité /. Montrer
que £[|X - a|J est minimisée lorsque a est égal à la médiane de F.
Pour cela, écrire
E[\X-a\] = j\x-a\f(x)dx
puis fractionner l'intégrale en deux régions où x < a et x > a et dériver.
7.9.3 Démontrer le théorème 7.1 lorsque

a) Xet y ont une fonction de distribution conjointe;
b) X et Y ont une densité conjointe et que g(x, y) > 0 pour tout x, y.
7.9.4 On considère une variable aléatoire X d'espérance (i finie et de variance a

ainsi qu'une fonction g deux fois dérivable. Montrer que
ïlMhM + â2
On pourra pour cela développer g en série de Taylor et négliger les termes au-delà du
troisième.
7.9.5 Soient A\, A2, -.., An des événements quelconques et soit Ck = {au moins k
événements À, se produisent}. Montrer que
îp{Ck)=îp{Ak)
k=l k=\
Pour cela, soit X le nombre de A, qui se produisent. Montrer que les deux membres de
l'égalité ci-dessus sont égaux à E[X].
7.9.6 Dans le texte, on a noté que
£[£*,]. £4*,]
lorsque les X, sont toutes des variables aléatoires non négatives. Puisqu'une intégrale
est une limite de sommes, on peut s'attendre à ce que
tant que X(t), 0 < t < °°, sont des variables aléatoires non négatives; et ce résultat est
effectivement vrai. Utilisez-le pour donner une autre preuve du résultat suivant: pour
une variable aléatoire non négative X,
E[X] = ]p{X > t]dt

o
Pour cela, définir pour chaque t non négatif la variable aléatoire X(f) par
1 si t<X
W
* -Ï0 sit>-X
Relier ensuite} X{t)dt à X.

o
7.9.7 On dit que X est plus grand en probabilité que Y, et on note X >sl Y si, pour tout
t,
P{X > t} > P{Y > t}
Montrer que si X >st Y, alors E[X] Ê[Y] lorsque

a) X et Y sont des variables aléatoires non négatives;
b) X et Y sont des variables aléatoires quelconques.
Pour cela, écrire X comme
X = X+ - X~
où
+ _fX siX>0 -_J° si X>0
~{o si X < 0 "t"* si X < 0
De la même manière, représenter Y comme Y+ - Y~. Utiliser alors la question a).

7.9.8 Montrer que X est plus grand en probabilité que Y si et seulement si
E[/(X)]> E[/(Y)]
pour toute fonction croissante/.

Pour cela, si X >st Y, montrer que £ [ / ( x ) ] > £[/(K)] en montrant que
f(x) >st f(Y) puis utiliser l'exercice 7.9.7. Pour montrer que £ [ / ( x ) ] > £[/(K)]
pour toutes les fonctions croissantes/implique que P{X > t}> P{Y > t}, définir une
fonction croissante/appropriée.
7.9.9 On lance n fois une pièce donnant face avec probabilité/?. Calculer l'espérance
du nombre de chaînes de faces dans le résultat dont la longueur soit 1, puis 2, puis
k, 1 < k < n.
7.9.10 Soient X\, X2,..., X„ des variables aléatoires positives indépendantes et identi-
quement distribuées. Calculer pour k ^ n
7.9.11 On considère n épreuves indépendantes pouvant chacune aboutir à r résultats

différents avec les probabilités />,, P2,-., Pr Désignons par X, le nombre de résultats
qui ne sont pas représentés au bout de n tirages. Calculer E[X] puis montrer que parmi
tous les vecteurs Px, P2,--, Pr celui qui minimise E[X] est celui pour lequel P, = \/r,
i = 1, 2,..., /-.
7.9.12 On effectue une série d'épreuves indépendantes. La z'-ème épreuve débouche

sur un succès avec probabilité T5,, Calculer l'espérance puis la variance du nombre des
succès au cours des n épreuves. L'hypothèse d'indépendance est-elle significative pour
chacun de ces deux calculs?
7.9.13 Soient Xx,..., X„ des variables aléatoires indépendantes, identiquement distri-

buées et continues. On dira qu'un pic est observé au temps j , j < n, si Xt > Xt pour
tout /' tel que 1 ^ / < j . Montrer que
n
a) £ [nombre de pics] = Y, l/j.
n
b) Var(nombre de pics) = L ( j — l)// 2 -
7.9.14 Pour l'exemple 7.10 montrer que la variance du nombre de bons nécessaires
pour obtenir une collection complète est égale à
N l
' ~ iN „
2
i-i (N-ï)
Quand N est grand, on peut montrer que cette expression est approximativement
égale à N2K2/(> (c'est-à-dire que leur rapport tend vers 1 lorsque N -» co).
7.9.15 On considère une série de n épreuves indépendantes. La /-ème donne un succès

avec probabilité Pt.
a) Calculer l'espérance du nombre de succès sur l'ensemble des n épreuves. On la
notera u;
b) sous la condition que u reste constant, quel est le choix des probabilités P„..., P„
pour lequel la variance du nombre de succès devient maximale?
c) A l'inverse, quel choix rendra-t-il cette variance minimale?
7.9.16 Supposons que des boules soient prélevées au hasard dans une urne contenant
initialement n boules blanches et m boules noires. On a montré, dans l'exemple 7.13,
que E[X] = 1 + m/(n+ 1) où X est le nombre de tirages nécessaires pour obtenir
une boule blanche.
a) Calculer Var(^);
b) montrer que l'espérance du nombre de boules qu'il faut tirer pour amasser un total
de k boules blanches est /c[l + m/(n+ 1)].
Pour cela considérer des variables aléatoires Yh i = 1,..., n + 1, qui représentent le
nombre de boules noires retirées après les (/'— 1) premières boules blanches et avant
la /-ème boule blanche. Utiliser le fait que les Yh i = 1,..., n + 1 sont identiquement
distribuées.
7.9.17 On considère deux variables aléatoires indépendantes X\ et X^ de même

espérance u. On sait également que Var(A'i) = a2 et Var(Ar2) = a2.. La valeur de u
est inconnue et on se propose de l'estimer grâce à une moyenne pondérée de Xx et X2.
La forme générale de cette estimation sera donc X Xx + (1 — X) X2, où X reste à choisir.
Pour quel choix de X, l'estimation aura-t-elle la variance la plus faible? Dire pourquoi
cette valeur de X est intéressante.
7.9.18 Dans l'exemple 7.25 nous avons montré que la covariance des variables
aléatoires multinomiales A', et A^ est égale à — mP,Pj. Pour cela, nous avons exprimé
A', et A', comme une somme de variables indicatrices. On peut aussi obtenir ce résultat
en utilisant la formule
Var(JV, + Nj) = Var{N,) + Var(A/,.) + 2Cov(JV/,A>/)
a) Quelle est la loi de N, + Nj?

b) Utiliser l'identité précédente pour montrer que Cov(Nj,Nj) = —mPtPj
7.9.19 Si A' et Y sont identiquement distribuées, non nécessairement indépendantes,

montrer que Cov(X + Y X _ y ) = Q
7.9.20 Formule de la covariance conditionnelle

La covariance conditionnelle de X et K, étant donné Z, est définie par
Cov(X,K|Z) =£[(X - E[X\Z))(Y - E[Y\Z])\Z]
a) Montrer que
Cov(X,y|Z) = E[XY\Z] - E[X\Z]E[Y\Z]
b) Montrer la formule de la covariance conditionnelle

Cov(X,K) = E[Co\(X,Y\Z)] + Cov(£[X|Z], E[Y\Z])
c) Poser X = Y dans b) et énoncer la formule de la variance conditionnelle.
7.9.21 Soient XU), i = 1,..., n les statistiques d'ordre d'un ensemble de n variables
aléatoires uniformes sur (0,1). On sait que la densité de Xm est donnée par
a) Calculer Var(X (l) ), i = 1, . . . , n.

b) Pour quelles valeurs de / Var(A'(,)) atteint-elle son
• minimum;
• maximum?
7.9.22 Montrer que si Y = a + bX, alors
+ 1 S l b > 0
n(XYï-l
7.9.23 Soit Z, une variable aléatoire normale centrée réduite. On pose

Y = a + bZ + cZ2. Montrer que
p{Y z)
- "7P7ï?
7.9.24 Prouver l'inégalité de Cauchy-Schwarz, à savoir:
(E[XY])2 < E[X2]E[Y2]
On remarquera qu'à moins qu'il existe une constante t telle que Y = ~ tX, auquel
cas, cette inégalité devient une égalité, on peut écrire que pour tout /,
0 < E[(tX + Y)2] = E[X2]t2 + 2E[XY]t + E[ Y2]
Aussi, les racines de l'équation quadratique
E[X2]t2 + 2E[XY]t + E[ Y2] = 0
doivent-elles être imaginaires, ce qui implique que le discriminant de cette équation

quadratique doit être négatif.
7.9.25 Montrer que pour deux variables X et Y indépendantes
E[X | Y = y] = E[X] pour tout y
aussi bien dans le cas continu que discret.
7.9.26 Montrer que
E[g(X)Y\X] = g(X)E[Y\X].
7.9.27 Montrer que lorsque E[Y\X = x] = E[Y] pour tout x alors Xet Ksont non
corrélées, puis donner un contre-exemple établissant que la réciproque n'est pas vraie.
On pourra pour cela montrer puis utiliser la relation ZsfÀ'F] = ffA'.E'fKI X]].
7.9.28 Montrer que Co\(X,E[Y\X]) = Co\(X,Y).
7.9.29 On considère des variables aléatoires X{,..., X„ indépendantes et identique-

ment distribuées. Calculer
£ [ X 1 | X 1 + - - - + X „ = x]
7.9.30 On considère l'exemple 7.25 qui traite d'une distribution multinomiale. Utili-
ser l'espérance conditionnelle pour le calcul de E[NiN^ puis utiliser ce résultat pour
vérifier la formule donnant Cov (Nh N-) citée dans ce même exemple.
7.9.31 Une urne contient au départ n boules noires et b boules blanches. A chaque
étape on ajoute r boules noires puis retire r boules au hasard prises parmi les
n + b + r boules présentes. Montrer que
£[nombre des boules blanches à la fin de l'étape t] = I 1 n.
7.9.32 Démontrer l'équation (7.12).
7.9.33 Une pièce est caractérisée par une probabilité/? de tomber sur face. On la lance
indéfiniment. Calculer l'espérance du nombre de jets qu'il faudra jusqu'à ce qu'une
chaîne de r résultats de type face consécutifs apparaisse.
On pourra conditionner sur la date d'apparition du premier pile, ce qui amène à
l'équation
E[X] = (1 - p) l p'-\i + E[X]) + {l-p) I p'-'r

i=l i=r+l
Après simplification, on peut la résoudre par rapport à E[X].
7.9.34 Pour avoir une autre approche de l'exercice 7.9.33, appeler Tr le nombre de
jets nécessaires pour obtenir une série de r faces consécutives.
a) Déterminer E\ T^Tr_x I.
b) Déterminer E[Tr] en fonction de £"_| 7^-—1 ]•
c) Qu'est-ce que E[T\]1

d) Qu'est-ce que E[Tr]l
7.9.35 a) Montrer que
E[X] = E[X\X < a]p{X <a} + E[x\X > a]p{X => a}
Pour cela, définir une variable aléatoire appropriée et calculer E[X] en conditionnant
sur cette variable.
b) Utiliser la question a) pour démontrer l'inégalité de Markov, qui affirme que si
P{X > 0} = 1, alors pour a > 0
7.9.36 On tire une à une des boules dans une urne en contenant b blanches et n noires.
On continue jusqu'à ce que toutes les boules restantes soient de la même couleur. Soit
Mhn le nombre attendu de boules dans l'urne à la fin de l'expérience. Calculer une
formule récursive donnant Mhn et la résoudre pour b = 3 et n = 5.
7.9.37 Une urne contient b boules blanches et n boules noires. Lorsqu'une boule est
tirée, elle est remise dans l'urne s'il s'agit d'une boule blanche. S'il s'agit d'une noire,
elle est remplacée par une boule blanche provenant d'une autre urne. Soit Mh
l'espérance du nombre attendu de boules blanches restant dans l'urne après que
l'opération ait été répétée k fois.
a) Etablir l'équation de récurrence:
b) Utiliser cette équation pour prouver que
M,. = b + n - n [ 1
V b+n
c) Quelle est la probabilité que la (A: + l)-ième boule tirée soit blanche?
7.9.38 Le meilleur prédicteur linéaire de Y basé sur Xt et X2 est a + bXt + cX2, où

a, b et c doivent être choisis de manière à minimiser
E[(Y - (a + bXt + cX2))2].
Déterminer a, b et c.
7.9.39 Le meilleur prédicteur quadratique de Y basé sur X est a + bX + cX , où

a, b et c doivent être choisis de manière à minimiser
E[(Y - (a + bX + cX2))2].
Déterminer M, b et c.
7.9.40 On considère X et Y, deux variables aléatoires conjointement normales de

densité
2(l-p
a) Montrer que la loi conditionnelle de Y lorsque X = x est normale d'espérance

u, + p(o{jaJ(x — uv) et de variance a2v(\ — p2);
b) montrer que CorrfÀ', Y) = p;
c) montrer que X et Y sont indépendantes si et seulement si p = 0.
7.9.41 Soient X une variable aléatoire normale de paramètres u = 0 et a = 1 et /,

indépendante de X, telle que P{I = 1} = \ = P{1 = 0}. On définit Y ainsi
y = ( X si/ = 1
\-X si 7 = 0
En d'autres termes, Y a autant de chances d'être égale à X ou à —X.

a) A1 et K sont-elles indépendantes?
b) / et Y sont-elles indépendantes?
c) Montrer que Y est normale, d'espérance 0 et de variance 1.
d) Montrer que Cov(.Y, Y) = 0.
7.9.42 Du théorème 7.6 et du fait que le meilleur prédicteur linéaire de Y basé sur
A'est u, + p(csJoK)(X ux) il résulte que si
E[Y\X] = a + bX
alors
o\, ay
a = fiy - p ^ M v b = p —
ax ax
(pourquoi?). Vérifier ceci par un calcul immédiat.
7.9.43 Montrer que pour toutes variables aléatoires X et Z
E[(X- Y) 2 ]= E[X2]~E[Y2]
où
Y = E[X\Z]
7.9.44 On considère une population dont les individus sont capables de produire
seuls une descendance identique à eux-mêmes. On admet que chaque individu a une
probabilité Pf,j > 0, d'avoir engendré y descendants au terme de sa vie, ceci indépen-
damment de l'activité des autres individus. Le nombre initial d'individus dans la
population est noté XQ et appelé taille de la 0-ième génération. Tous les descendants
de cette génération 0 sont de la première génération, de taille Xv De manière générale
Xn représente la taille de la n-ième génération. L'espérance et la variance de la
descendance immédiate d'un individu donné seront respectivement notées u = X jPf
et a 2 = Ë (j — u)2 P,. On admettra que X0 = 1, c'est-à-dire que la population provient
/=0
à l'origine d'un individu unique,
a) Montrer que
E[Xn] = nE[Xn^}
b) En déduire que
c) Montrer que
d) En déduire que
Ce que l'on vient d'étudier est appelé processus de ramification. Une question impor-
tante pour une population évoluant selon ces lois est de connaître la probabilité de
son extinction. Notons K, cette probabilité sous l'hypothèse que la population
descend d'un ancêtre initial unique; en clair,
n = P{la population s'éteigne\Xt) - \\

e) Prouver que
ir = i py
On pourra pour cela conditionner sur le nombre de descendants immédiats de

l'ancêtre originel.
7.9.45 Vérifier la formule donnant la fonction génératrice des moments d'une

variable aléatoire uniforme, telle qu'elle est donnée dans le tableau 7.3. Vérifier
également les formules donnant l'espérance et la variance par dérivation.
7.9.46 Pour une variable aléatoire normale standard Z, soit/l n = Ej Z n I. Montrer que
0 si n est impair
Commencer par développer la fonction génératrice des moments de Z en série de

Taylor autour de 0 pour obtenir
7=0 j \
2
7.9.47 Soit X une variable aléatoire normale de moyenne \i et de variance a . Utiliser
les résultats de l'exercice 7.9.46 pour montrer que
L J
;=o 2>j\
Dans cette expression, [n/2\ est le plus grand entier inférieur ou égal à n I 2. Vérifier
votre réponse pour n = 1 et n = 2.
7.9.48 Soit Y = aX + b, où a et b sont des constantes. Exprimer la fonction

génératrice des moments de Y en fonction de celle de X.
7.9.49 Soit X une variable de fonction génératrice des moments M. On pose

¥(/) = (In M(t)). Montrer que
V(0|,-o = Var(X)
7.9.50 A l'aide du tableau 7.3, déterminer la distribution de X Xt lorsque Xt,..., Xn

i=\
sont des variables exponentielles indépendantes et identiquement distribuées d'espé-
rance commune 1/X,.
7.9.51 Montrer comment on peut calculer Cov(A", Y) à partir de la fonction généra-

trice des moments conjoints de X et Y.
7.9.52 Soient Xx,..., Xn des variables de distribution normale multivariée. Montrer

qu'elles seront indépendantes si et seulement si
Cov (Xh Xj) = 0 pour i * j
7.9.53 Si Z est une variable aléatoire normale standard, que vaut Cov(Z, Z 2 )?
7.10 PROBLEMES
7.10.1 Si X et y sont des variables aléatoires uniformes (0, 1) indépendantes, montrer

que
# " rla]= 7 — K < — T \

1 J
pour a >
°
( a + l)(a + 2)
7.10.2 Soient X et Y des variables aléatoires indépendantes, ayant autant de chance

l'une et l'autre de prendre n'importe quelle valeur parmi 1, 2,..., m. Montrer que
n ,-, (m - l)(m + l)
3m
7.10.3 Un hôpital est situé au centre d'un parc dont les côtés mesurent 3 km. Si un
accident se produit dans le parc, l'hôpital envoie une ambulance. Le réseau de routes
est rectangulaire, donc la distance de l'hôpital, dont les coordonnées sont (0, 0), au
point (x, y) est |*| + \y\. Si un accident se produit en un point uniformément distribué
dans le parc, trouver l'espérance de la longueur du trajet de l'ambulance.
7.10.4 On lance 10 fois un dé. Calculer l'espérance de la somme des 10 jets.
7.10.5 N personnes arrivent séparément à un dîner professionnel. En arrivant, chaque

personne regarde si elle a un ami parmi les gens déjà présents. Une personne s'assoit
soit à la table d'un ami, soit à une table vide si aucun de ses amis n'est présent. En
posant que chacune des("J paires de gens sont, indépendamment, amis avec une
probabilité p, trouver l'espérance du nombre de tables occupées.
Poser Xi égal à 1 ou 0 selon si le i-ème arrivant s'assoit à une table inoccupée ou non.
7.10.6 On place n balles, numérotées de 1 à n, dans n urnes, aussi numérotées de 1 à

n, de telle façon que la balle i ait autant de chance de se trouver dans les urnes
1, 2,.... i. Trouver
a) l'espérance du nombre d'urnes vides;
b) la probabilité qu'aucune urne ne soit vide.
7.10.7 Considérons 3 épreuves, chacune ayant la même probabilité de succès. Soit X

le nombre total de succès dans ces épreuves. Si E[X] = 1.8, quelle est
a) la plus grande valeur possible de P[X= 3};
b) la plus petite valeur possible de P{X = 3} ?
Dans les deux cas, construire un scénario probabiliste qui donne à P{X = 3} la valeur
fixée.
Pour la partie b), commencer par poser U, une variable uniforme (0, 1) et définir alors
les épreuves en termes de valeurs de U.
7.10.8 Considérer n lancers indépendants d'une pièce ayant une probabilité p de tom-
ber sur face. On dit qu'il y a un changement lorsqu'une sortie est différente de celle
qui la précède. Par exemple, si n = 5 et que les sorties sont FFPFP, il y a 3
changements. Trouver l'espérance du nombre de changements.
On pourra exprimer le nombre de changements comme la somme de n - 1 variables
aléatoires de Bernoulli.
7.10.9 Un groupe de n hommes et m femmes est placé en ligne aléatoirement. Déter-

miner l'espérance du nombre d'hommes qui ont au moins une femme à leurs côtés.
On pourra définir une variable aléatoire indicatrice pour chaque homme.
7.10.10 Refaire le problème 7.10.9 lorsque le groupe est assis en rond autour d'une
table.
7.10.11 Une urne contient m balles noires. A chaque étape, on enlève une balle noire
et on met à sa place une nouvelle balle, qui est soit noire avec une probabilité p, soit
blanche avec une probabilité 1 - p. Trouver l'espérance du nombre d'étapes
nécessaires pour qu'il n'y ait plus de balle noire dans l'urne.
NOTE. Le problème ci-dessus a une application possible dans la compréhension de la

maladie du SIDA. Une partie du système immunitaire du corps consiste en une
certaine classe de cellules appelées les T-cellules. Il y a deux types de T-cellules,
appelées CD4 et CD8. Bien que le nombre total de T-cellules d'un malade du SIDA
(au moins au début de sa maladie) soit le même que celui d'un individu en bonne
santé, on a découvert récemment que la proportion des T-cellules CD4 et CD8 est
différent. Environ 60% des T-cellules d'une personne en bonne santé sont du type
CD4 alors que le pourcentage des T-cellules CD4 décroît continuellement chez les
personnes atteintes du SIDA. Un modèle récent propose que le virus HIV (le virus qui
cause le SIDA) attaque les cellules CD4 et que le mécanisme du corps qui remplace
les T-cellules mortes ne remarque pas si la T-cellule morte était du type CD4 ou CD8.
Il produit simplement une nouvelle T-cellule qui est CD4 avec une probabilité .6 et
CD8 avec une probabilité .4. Cependant, bien que ce semble être une façon efficace
de remplacer les T-cellules mortes lorsque chaque cellule morte a autant de chance
d'être n'importe quelle T-cellule du corps (et qui a une probabilité .6 d'être CD4),
cela a des conséquences dangereuses lorsqu'on fait face à un virus qui ne vise que les
T-cellules CD4.
7.10.12 Cinq urnes contiennent des boules. On tire au hasard une boule de chaque
urne. Celles-ci contiennent respectivement 1 boule blanche et 5 noires; 3 blanches et
3 noires; 6 blanches et 4 noires; 2 blanches et 6 noires; 3 blanches et 7 noires. Calculer
l'espérance du nombre des boules blanches obtenues.
7.10.13 Soit Z une variable aléatoire normale standard. Pour une valeur x fixée, poser
x = \l siz>x
[0 sinon
1
Montrer que E[X] = -j==e~x'!1.
7.10.14 On bat parfaitement un jeu de n cartes, numérotées de 1 à n, afin que toutes

les n\ configurations possibles soient équiprobables. Supposons que vous deviez
hasarder n conjectures successives, où la /-ème conjecture devine la carte en position i.
Soit A' le nombre de conjectures correctes.
a) Sans aucune information sur les conjectures précédentes, montrer que, quelque
soit la stratégie adoptée, E[N] = 1.
b) Si, après chaque conjecture, on vous montre la carte qui se trouve dans la position
correspondante, quelle est d'après vous la meilleure stratégie? Montrer que selon
cette stratégie
E[N] = 1/n + l/(n - 1) + • • • 4- 1

f" 1
« - dx = In n
h x
c) Supposons qu'après chaque conjecture on vous dise si vous avez raison ou tort.
Dans ce cas, on peut montrer que la stratégie qui maximise E[N] est celle qui
consiste à annoncer à chaque fois la même carte jusqu'à ce que l'on vous dise que
vous avez raison et à passer ensuite à une nouvelle carte. Selon cette stratégie,
montrer que
E[N] = 1 + 1/2! + 1/3! + • • • + 1/n!
« e - 1
Pour cela, exprimer JV comme une somme de variables aléatoires indicatrices (ou
de Bernoulli).
7.10.15 On retourne l'une après l'autre les cartes d'un jeu ordinaire de 52 cartes. Si
la première est un as, ou la seconde un deux, ou la troisième un trois,..., ou la treizième
un roi, ou la quatorzième un as, etc., nous disons qu'une rencontre a lieu. Remar-
quons que nous ne demandons pas que la (13« + l)-ième carte soit un as particulier
pour considérer qu'il y a rencontre, mais seulement que ce soit un as. Calculer
l'espérance du nombre de rencontres.
7.10.16 Une certaine région est habitée par r espèces d'insectes. Chaque insecte attrapé
sera de l'espèce / avec une probabilité donnée par
Pbi = l,...,r IP, = 1

î
ceci indépendamment des insectes attrapés antérieurement.
a) Calculer le nombre moyen d'insectes qui sont attrapés avant qu'un insecte de
l'espèce 1 soit pris;
b) calculer le nombre moyen d'espèces représentées parmi les captures jusqu'à ce
qu'un insecte d'espèce 1 soit pris.
7.10.17 Une urne contient «boules, la i-ème étant de poids W(i),i = 1,...,«. Les boules
sont prélevées une à une et sans remise, d'une manière telle que la propriété suivante
sera vérifiée: à chaque tirage, la probabilité qu'une boule donnée soit choisie sera égale
au rapport de son poids et de la somme des poids restant dans l'urne. Supposons par
exemple qu'à un moment donné, l'ensemble des boules restant dans l'urne soit /,,...,
ir; donc le prochain choix sera la boule zj avec une probabilité
mi,)/ 1 W(ik), y = l r.
/ k=l
Calculer l'espérance du nombre des boules qui seront prélevées avant que la boule
n° 1 n'apparaisse.
7.10.18 On considère un groupe de 100 personnes. Calculer l'espérance du nombre

de jours où 3 personnes exactement auront leur anniversaire. Calculer aussi l'espé-
rance du nombre de jours anniversaire distincts.
7.10.19 Combien de fois vous attendez-vous à jeter un dé équilibré avant que chacune
des six faces soit apparue au moins une fois?
7.10.20 Une urne n° 1 contient 5 boules blanches et 6 boules noires, alors que l'urne
n° 2 en contient 8 blanches et 10 noires. Deux boules sont choisies au hasard de l'urne 1,
puis introduites dans l'urne 2. Si 3 boules sont ensuite prélevées au hasard de l'urne 2,
calculer l'espérance du nombre des boules blanches présentes parmi ces 3 boules.
Pour cela poser X; = 1 si la i-ème boule blanche initialement dans l'urne 1 est l'une
des trois boules tirées et poser X: = 0 si ce n'est pas le cas. De façon analogue, poser
Yj = 1 si la z'-ème boule blanche de l'urne 2 est une des 3 boules choisies et Yi = 0
sinon. Le nombre de boules blanches présentes dans le triplet peut alors s'exprimer
comme 5 x
I X; + X Y,
î i
7.10.21 Une bouteille contient initialement m grandes pilules et n petites pilules.

Chaque jour un patient choisit au hasard une des pilules. S'il choisit une petite pilule,
il l'avale. S'il en choisit une grande, il la coupe en deux; il remet une part (considérée
à présent comme une petite pilule) dans la bouteille et mange l'autre.
a) Soit X le nombre de petites pilules dans la bouteille après que la dernière grande
pilule a été choisie et que sa petite moitié a été replacée. Trouver E[X].
On pourra définir n + m variables indicatrices, une pour chaque petite pilule présente
initialement et une pour chacune des m petites pilules créées en coupant une grande.
Utiliser ensuite l'argument de l'exemple 7.13.
b) Soit F le jour où la dernière grande pilule est choisie. Trouver E[Y].
On pourra pour cela chercher la relation entre X et Y.
7.10.22 Soient X\, X2, ••• une séquence de variables aléatoires continues indépen-
dantes et identiquement distribuées. Soit N > 2 tel que
x,>x2>...>xN_t<xN
N est le point à partir duquel la séquence cesse de décroître. Montrer que E[N] = e.
Trouver d'abord P{N > n}.
7.10.23 Soient Xt, X2, ..., Xn des variables aléatoires indépendantes et identiquement
distribuées selon une loi uniforme (0, 1 ).
a) TrouverZslmax(X,,...,Xn)|.
b) Trouver Ej min(X,,..., Xn ) I.
7.10.24 Dans le problème 7.10.4, calculer la variance de la somme des dés.
7.10.25 Dans le problème 7.10.6, calculer la variance du nombre d'urnes vides.

7.10.26 Si E[X] = 1 et Var(X) = 5, trouver

a)£[(2 + X)2];
b) Var(4 + 3X).
7.10.27 Si 10 couples mariés s'installent autour d'une table ronde, ceci au hasard,
calculer l'espérance et la variance du nombre de femmes qui seront assises à côté de
leur mari.
7.10.28 On retourne l'une après l'autre des cartes provenant d'un jeu ordinaire.
Calculer l'espérance du nombre de cartes à retourner avant d'obtenir
a) 2 as;
b) 5 piques;
c) les 13 cœurs.
7.10.29 Soit X le nombre de 1 et y le nombre de 2 apparaissant lors de n jets d'un

dé équilibré. Calculer Cov(A\ Y).
7.10.30 Un dé est jeté 2 fois. Soit X la somme des résultats et soit Y la différence entre
le premier et le second résultat. Calculer Cov(A\ Y).
7.10.31 Les variables aléatoires X et Y ont une densité conjointe donnée par
, \2e~2x/x 0<x<oo,0<y<x
(0 sinon
Calculer Cov(À\ Y).
7.10.32 Soient Xt,... des variables aléatoires indépendantes de moyenne commune u

et de variance commune a2 et soit Y„ = X„ + X„+l + X„ + ->. Trouver, pour j > 0,
Cov(r„, y„ +/ ).
f(x,y) = - e~(y+x/y), x > 0, y > 0

y
Calculer E[X] et E[Y] et montrer que C o v ^ , Y) = 1.
7.10.34 Un étang contient 100 poissons parmi lesquels se trouvent 30 carpes. On

capture 20 de ces poissons. Quelle est l'espérance puis la variance du nombre des
carpes parmi ces 20 poissons? Quelles hypothèses faites-vous?
7.10.35 Un groupe de 20 personnes, composé de 10 hommes et de 10 femmes, est

réparti aléatoirement en 10 couples. Calculer l'espérance et la variance du nombre de
couples mixtes. Supposons maintenant que ce groupe de 20 personnes soit en fait
composé de 10 couples mariés. Calculer l'espérance et la variance du nombre de
couples mariés qui seront réunis par le hasard.
364 initiation aux probabilités
7.10.36 Soit A",, X2,..., Xn des variables aléatoires indépendantes ayant une distribu-
tion continue F inconnue; soit Yt, Y2,..., Ym des variables aléatoires indépendantes
ayant une distribution continue G inconnue. Ordonnons maintenant ces n + m
variables et posons
1
1 si la f'-ème plus petite des n + m variables est de
l'échantillon des X
0 sinon
La variable aléatoire R = Z //,- est la somme des rangs de l'échantillon des X; elle
/= r
est la base d'une méthode statistique classique (appelée test de la somme des rangs
de Wilcoxon) utilisée pour tester si les distributions F et G sont identiques. Ce test
accepte l'hypothèse que F — G si R n'est ni trop grand ni trop petit. En supposant
que cette égalité est en fait vérifiée, calculer la moyenne et la variance de R (utiliser
les résultats de l'exemple 7.22).
7.10.3711 existe deux procédés différents pour fabriquer une certaine pièce; supposons
que la qualité d'une pièce obtenue par le procédé / soit une variable aléatoire continue
de distribution F,, / = 1,2. Supposons encore que n pièces soient issues du procédé
1 et m du procédé 2. Ordonnons les n + m pièces par ordre de qualité et posons
I
l si la /-ème meilleure pièce est obtenue grâce au pro-
cédé 1
2 sinon
Pour le vecteur A" = (A",, X2,..., A"„+m) composés de H «1» et de m «2», soit R le nombre
de chaînes de «1». Par exemple, si « = 5, m = 2 et X = (1,2, 1, 1, 1, 1,2), alors
R = 2. Si F, = F2 (c'est-à-dire si les deux procédés produisent des articles dont la
qualité varie selon la même répartition), quelles sont l'espérance et la variance de RI
7.10.38 Si A",, X2, X3, XA sont des variables aléatoires deux à deux non corrélées ,
chacune d'espérance nulle et de variance 1, calculer les corrélations de
a) A-, + X2 et X2 + A\;
b) A-, + X2 et A-, + X4.
7.10.39 Considérons le jeu de dés suivant, pratiqué dans certains casinos: deux
joueurs, 1 et 2, jettent chacun à leur tour une paire de dés. Puis, la banque jette à son
tour les dés, après quoi on détermine qui a gagné selon la règle suivante: le joueur
/',/'= 1,2 gagne si la somme de ses deux dés donne un résultat strictement plus grand
que celui de la banque. Posons pour i = 1,2
11 si ; gagne
[0 sinon
et montrer que /, et I2 sont positivement corrélées. Expliquer pourquoi on pouvait

s'attendre à un tel résultat.
7.10.40 On jette plusieurs fois un dé équilibré. Soient X et Y le nombre de jets

nécessaires pour obtenir un 6 et un 5, respectivement. Trouver a) E]X], b) E[X\Y - 1]
etc)£[Xiy=5].
7.10.41 Une urne contient 4 boules blanches et 6 boules noires. On en tire successive-
ment deux échantillons aléatoires de taille 3 et 5 respectivement, ceci sans remise.
Soient X et y le nombre de boules blanches dans chacun de ces échantillons; calculer
E[X\ Y = ;•] pour; = 1, 2, 3, 4.

— x/y —y
e e
f(x, y) = 0<x<oo;0<y<oo
y
Calculer E[X2\ Y = y].
f(x, y) = — 0 < * < y, 0 < y < oo
Calculer E[Xy \ Y = y].
7.10.44 Un prisonnier est enfermé dans une cellule contenant 3 portes. La première
ouvre un tunnel qui revient dans la cellule après une marche de 2 jours. La seconde
porte donne sur un tunnel qui revient aussi à la cellule au bout d'un voyage de 4 jours.
La troisième porte conduit à la liberté au bout d'un jour de marche. On suppose que
le prisonnier choisit à chaque tentative les portes 1, 2 et 3 avec des probabilités
respectives de 0,5, 0,3 et 0,2. Quelle est l'espérance du nombre de jours qu'il faudra
au prisonnier pour retrouver sa liberté?
7.10.45 Dix chasseurs attendent que des canards s'envolent. Lorsqu'un vol de canards
apparaît, les chasseurs tirent tous en même temps, chacun choisissant sa cible de façon
aléatoire et indépendamment des autres. Si chaque chasseur atteint sa cible indépen-
damment de la réussite des autres avec une probabilité de 0,6, calculer le nombre
moyen de canards qui seront touchés. On suppose que le nombre de canards dans un
vol est une variable aléatoire de Poisson de paramètre 6.
7.10.46 Le nombre de personnes qui entrent dans un ascenseur au rez-de-chaussée est

une variable aléatoire de Poisson d'espérance 10. Supposons qu'il y ait TV étages, que
la probabilité de sortir à tout étage est la même pour toutes les personnes et que de
plus chaque personne agit indépendamment des autres. Calculer le nombre d'arrêts
moyen que devra faire l'ascenseur pour débarquer tous les passagers.
7.10.47 On admet que le nombre moyen d'accidents dans une installation industrielle
est de 5 par semaine. Supposons aussi que les nombres de travailleurs blessés dans
chaque accident sont des variables aléatoires indépendantes ayant une même espé-
rance égale à 2,5. Si le nombre de travailleurs blessés dans chaque accident est
indépendant du nombre d'accidents qui se produisent, calculer le nombre moyen de
travailleurs blessés au cours d'une semaine.
7.10.48 On jette continuellement une pièce ayant pour probabilité p de tomber sur
face jusqu'à ce que pile et face soient apparues. Trouver
a) l'espérance du nombre de jets;
b) la probabilité que le dernier jet donne face.
7.10.49 Une personne jette continuellement une pièce jusqu'à ce que 3 faces consé-
cutives apparaissent. En admettant que chaque jet donne indépendamment face avec
une probabilité p, déterminer l'espérance du nombre de jets requis.
Pour cela, soit P le premier jet donnant pile, et soit P = 0 si tous les jets donnent face.
Conditionner ensuite sur P.
7.10.50 Dans un jeu à n + 1 participants, chaque personne est, indépendamment, un

gagnant avec une probabilité p. Les gagnants partagent un prix d'une unité (par
exemple, si 4 personnes gagnent, chacune d'elles reçoit 1/4 et s'il n'y a pas de
gagnant, aucun des participants ne reçoit quelque chose.) Soit A un des joueurs et soit
X la somme reçue par A.
a) Calculer l'espérance du prix total partagé par les joueurs.
b) Montrer que
H+l
c) Calculer E[X] en conditionnant sur le fait que A gagne ou non et conclure que
3[(, + B)-]_lzfi^£
lorsque B est une variable aléatoire binomiale de paramètres n et p.
7.10.51 Chacun des m + 2 joueurs paye 1 unité dans une cagnotte pour jouer au jeu
suivant. Une pièce équilibrée est lancée successivement n fois, où n est un nombre
impair, et les sorties successives sont notées. Chaque joueur écrit, avant les jets, une
prédiction de sortie. Par exemple, si n = 3, un joueur peut écrire (F, F, P), ce qui
signifie qu'il prédit un face sur le premier jet, un face sur le deuxième et un pile sur le
troisième. Après les jets de la pièce, les joueurs comptent leur nombre de prédictions
correctes. Ainsi, si toutes les sorties montrent face, le joueur ayant écrit (F, F, P) a 2
prédictions correctes. La cagnotte de m + 2 unités est alors répartie équitablement
entre les joueurs ayant le plus grand nombre de prédictions correctes.
Puisque chaque jet a autant de chance de donner pile ou face, m joueurs ont décidé de
faire leurs prédictions d'une manière totalement aléatoire. En fait, ils lancent chacun
leur propre pièce n fois et utilisent les résultats comme prédictions. Cependant, les 2
derniers joueurs ont formé un groupe et utilisent la stratégie suivante. L'un d'eux fait
des prédictions de la même façon que les m autres joueurs, mais le second prédit
exactement le contraire du premier. En fait, lorsque le membre du groupe prédisant au
hasard prédit un F, l'autre membre prédit un P. Par exemple, si celui prédisant au
hasard prédit (F, F, P), l'autre prédit (P, P, F).
a) Argumenter le fait qu'exactement un des deux membres du groupe fait plus de n 12
prédictions correctes. (Rappelez-vous que n est impair.)
b) Soit X le nombre de joueurs parmi les m ne faisant pas partie du groupe qui ont plus
de n 12 prédictions correctes. Quelle est la distribution de X?
c) Avec X défini en b), argumenter le fait que
1
£[le groupe a une récompense] = (m + 2)E
X + l.
d) Utiliser la partie c) du problème 7.10.50 pour conclure que
m+l
2(m + 2)
£[le groupe a une récompense] 1-1-
m+l
et le calculer explicitement pour m - 1, 2 et 3.
m+l
2(m + 2)
Comme on peut montrer que > 2, il s'ensuit que la stratégie
m+l
du groupe donne toujours une espérance de profit positive.
7.10.52 Soit U\, U2, ••• une séquence de variables aléatoires uniformes (0, 1) indépen-
dantes. Dans l'exemple 7.32, on a montré que pour 0 < x < 1, £[//(.*)] = ex où
N(x) = Minimums n : X U, > x >
Ce problème propose une autre approche pour établir ce résultat.

a) Montrer par induction sur n que pour 0 < x < 1 et pour tout n > 0,
n
P{N(x)>n + \} = —
n\
Pour cela, conditionner d'abord sur l/j puis utiliser l'hypothèse d'induction.
b) Utiliser la question a) pour conclure que
E{N(x)] = e*
7.10.53 Une urne contient 30 balles dont 10 rouges et 8 bleues. On tire aléatoirement
12 balles de cette urne. Soit X le nombre de balles rouges tirées et Y le nombre de
balles bleues tirées. Trouver Cov(X, Y)
a) en définissant des variables aléatoires indicatrices (c'est-à-dire de Bernoulli) appro-
10 t
priées Xb Yj telles que X = I X , , Y = I Y. ;
b) en conditionnant (soit sur X, soit sur Y) pour déterminer E[XY\.
7.10.54 Des ampoules de type i fonctionnent pendant une durée aléatoire de moyenne
(i, et d'écart-type a,, i = 1,2. Une ampoule choisie au hasard dans une boîte d'am-
poules est de type 1 avec une probabilité p et de type 2 avec une probabilité 1 -p. Soit
X la durée de vie de cette ampoule. Trouver
a)£[X];
b) Var(X).
7.10.55 Dans l'exemple 7.28, calculer la variance du temps qu'il faut au mineur pour
retrouver la sortie.
7.10.56 Les règles du jeu de dés nommé craps ont été définies au problème 2.9.14.
Calculer l'espérance et la variance du nombre de jets de dés qu'il faut pour terminer
une partie de craps.
7.10.57 Considérons un joueur qui, à chaque partie, gagne ou perd son pari avec des
probabilités p et (1 — p). Lorsque p > ^ la stratégie suivante, connue sous le nom
de stratégie de Kelley, est souvent utilisée. Elle consiste à toujours parier la fraction
2p — 1 de sa fortune restante. Calculer l'espérance de la fortune au bout de n parties
d'un joueur parti avec x unités et qui fait usage de la stratégie de Kelley.
7.10.58 Le nombre d'accidents touchant un individu lors d'une année donnée est une
variable aléatoire de Poisson d'espérance X. Supposons que cette espérance varie en
fonction des personnes, valant ainsi 2 pour 60% de la population et 3 pour les 40%
restants. On choisit une personne au hasard. Quelle est la probabilité qu'au cours
d'une année, elle n'ait aucun accident? Qu'elle en ait 3? Quelle est la probabilité
conditionnelle qu'elle ait 3 accidents dans l'année sachant qu'elle n'a pas eu d'acci-
dents l'année précédente?
7.10.59 Refaire le problème 7.10.59 lorsque la proportion de la population caractéri-

sée par un paramètre X inférieur à x est égale à 1 — e~v.
7.10.60 Considérons une urne contenant un nombre élevé de pièces de monnaie et

supposons que chacune des pièces ait une probabilité p de montrer face lorsqu'elle
est jetée. Cependant, cette valeur de p varie pour chaque pièce. Supposons que la
composition de l'urne est telle que si une pièce est choisie au hasard, alors le paramètre
p qui la caractérise peut être vu comme une variable aléatoire uniformément distribuée
sur [0, 1]. Si une pièce est choisie au hasard et jetée deux fois, calculer la probabilité
que le premier jet donne face, puis que les deux jets donnent face.
7.10.61 Dans le problème 7.10.60, supposons que la pièce est lancée n fois. SoitX le
nombre de faces obtenues. Montrer que
p{X = i} = , i=0,l,...,n
n+1
Utiliser le fait que
V
o ' {a + b-\)\
où a et b sont des entiers positifs.
7.10.62 Supposons que dans le problème 7.10.60, on continue à lancer la pièce

jusqu'à ce que face apparaisse. Soit N le nombre de jets nécessaires. Trouver
a)P{N>i},i>0;
b)P{N = i);
c) E[N].
7.10.63 Dans l'exemple 7.38, appelons S le signal émis et R le signal reçu.

a) Calculer E[R].
b) Calculer Var(rt).
c) R est-elle normalement distribuée?
d) Calculer Co\(R, S).
7.10.64 Dans l'exemple 7.39, supposons que X est uniformément distribuée sur (0, 1).
Si les régions discrètes sont déterminées par a0 = 0, a, = ]• et a2= 1, déterminer le
quantificateur optimal F et calculer E[(X — Y)2].
7.10.65 La fonction génératrice des moments de Xest donnée par Mx(r) = exp{2e' - 2}
et celle de Y par My(t) = 0) 10 (3 <?' + l) 10 . Si Xet Y sont indépendantes, que valent
a).P{X + Y = 2}, b) P{XY= 0} et c)E[XY]?
7.10.66 On jette deux dés. Soit X la valeur du premier dé et Y la somme des deux
valeurs. Calculer la fonction génératrice des moments conjoints de X et Y.
7.10.67 La densité conjointe de A' et Y est donnée par
e~xe~y/x
f(x, y) = 0<JC<OO, 0 < y < o o
x
a) Calculer la fonction génératrice des moments conjoints de X et Y;
b) calculer les fonctions génératrices des moments individuels de X et Y.
7.10.68 Deux enveloppes, contenant chacune un chèque, sont placées devant vous.
Vous devez choisir une enveloppe, l'ouvrir et regarder le montant du chèque. A ce
moment-là, vous pouvez soit accepter le montant soit l'échanger contre le chèque de
l'enveloppe fermée. Que devez-vous faire? Est-il possible de trouver une stratégie
meilleure que d'accepter la première enveloppe?
Soient A et B, A < B, les montants (inconnus) des chèques, et remarquer que la
stratégie qui sélectionne une enveloppe au hasard et accepte toujours son chèque a une
espérance de (A + B) I 2. Considérer la stratégie suivante: soit F(.) une fonction de
distribution strictement croissante (donc continue). Choisir une enveloppe au hasard et
l'ouvrir. Si le chèque découvert a pour valeur x, alors accepter le avec probabilité F(x)
et changer le avec probabilité 1 - F(x).
a) Montrer que si vous employez cette stratégie, l'espérance de gain est supérieure à
(A + B) 12.
On pourra conditionner sur le fait que la première enveloppe contienne soit A soit B.
Considérer la stratégie qui fixe une valeur x puis accepte le premier chèque si sa
valeur est plus grande que x et l'échange sinon.
b) Montrer que, pour tout x, l'espérance du gain sous la x-stratégie est toujours au
moins (A + B) I 2 et qu'elle est strictement plus grande que (A + B) 12 si x se trouve
entre A et B.
c) Soit X une variable aléatoire continue sur toute la ligne et considérer la stratégie
suivante: générer la valeur de X et si X = x, employer la ^-stratégie de la question b).
Montrer que l'espérance du gain sous cette stratégie est plus grande que (A+ B) 12.
CHAPITRE 8
Théorèmes limites
8.1 INTRODUCTION
Les théorèmes limites constituent les résultats théoriques les plus importants des
probabilités. Parmi eux, les principaux sont répertoriés sous deux dénominations: lois
des grands nombres d'une part, et théorèmes centraux limites d'autre part. On s'ac-
corde généralement à les considérer comme des lois des grands nombres s'ils énoncent
des conditions sous lesquelles la moyenne d'une suite de variables aléatoires converge
(dans un sens à définir) vers leur espérance commune. Les théorèmes centraux limites
par contre déterminent sous quelles hypothèses la somme d'un grand nombre de
variables aléatoires est de distribution approximativement normale.
8.2 LOI FAIBLE DES GRANDS NOMBRES
8.2.1 Inégalité de Tchebychev
Nous allons commencer par établir l'inégalité appelée inégalité de Markov.
Théorème 8.1 Inégalité de Markov

Soit X une variable aléatoire à valeurs non négatives. Pour tout réel a > 0
a
DÉMONSTRATION. Pour a > 0, soit
1 si X > a
0 sinon
et noter que, puisque X > 0,
En prenant les espérances de l'expression ci-dessus, on obtient
ce qui, comme E[I ] -P[X> a], prouve le résultat. •

Le théorème suivant est alors un corollaire de l'inégalité de Markov.
Théorème 8.2 Inégalité de Tchebychev

Soit X une variable aléatoire d'espérance u et de varianceCT"finies. Pour tout réel
k > 0 a2
P{|X-M|>fc}
k~
2 2
Mais comme (X — u) > k équivaut à \X — u| > k, (8.1) peut être réécrite
E[(X-n)2] a2
P{|X-/i|>/c}<
ce qui achève la démonstration. •

L'importance des inégalités de Markov et de Tchebychev réside en ce qu'elles
permettent de borner la valeur de certaines probabilités là où seule l'espérance de la
distribution est connue, plus éventuellement sa variance. Il est évident que, si la
distribution elle-même est connue, on ne recourra pas à des bornes, puisque la valeur
exacte de ces probabilités est calculable.
8.2.2 Exemples d'utilisation des inégalités de Markov et Tchebychev
Exemple 8.1 On suppose que le nombre de pièces sortant d'une usine donnée en
l'espace d'une semaine est une variable aléatoire d'espérance 50.
Théorèmes limites 373
a) Peut-on estimer la probabilité que la production de la semaine prochaine dépasse

75 pièces?
b) On sait de plus que la variance de la production hebdomadaire est de 25. Peut-on
estimer la probabilité que la production de la semaine à venir soit comprise entre
40 et 60?
SOLUTION. Désignons par X le nombre de pièces produites en une semaine.

a) L'inégalité de Markov donne
P1{ X > 7 5 } , M ^ I = 50=2

' 75 75 3
b) L'inégalité de Tchebychev donne
P{\X - 50| > 10} s ^ = i

et donc
P{|X-50|< 1 0 } > 1 - | = |
La probabilité que la production de la semaine à venir se situe entre 40 et 60 pièces

est donc au moins 0,75. •
L'inégalité de Tchebychev étant valable pour n'importe quelle distribution de la
variable X, il ne faut pas s'attendre à ce que la borne qu'elle fournit soit très proche
de la probabilité exacte dans la majorité des cas. C'est ce que montre l'exemple
suivant.
Exemple 8.2 Soit X une variable uniforme sur l'intervalle (0, 10). On sait qu'alors
E[X] = 5 et Var(A') = ^, ce qui donne dans l'inégalité de Tchebychev
P{\X-5\>4}^r.52
alors que le résultat exact est
P{\X - 5| > 4} = .20
On voit bien que si l'inégalité de Tchebychev est fondée, la borne qu'elle fournit est
ici loin d'être proche de la probabilité exacte.
A titre d'illustration supplémentaire, la borne calculée par l'inégalité de Tcheby-
chev pour une variable X normale d'espérance u et de variance a 2 est, lorsque
k = 2a,
P{|X-M|>2a}<j
alors que la probabilité exacte est, elle,
P{\X-^\>2a} =p \ ~ ^ >l\ =2[1-<D(2)]*.0456 •

On utilise souvent l'inégalité de Tchebychev comme outil théorique de démonstra-

tion, comme on le verra dans la preuve de la loi faible des grands nombres. Le
théorème suivant permet déjà de s'en rendre compte.
Théorème 8.3
Soit X une variable aléatoire de variance nulle. A lors X est égale à son espérance avec
probabilité 1.
P{X = E[X]} = 1
DÉMONSTRATION. En vertu de l'inégalité de Tchebychev, on peut écrire pour n ^ 1
pj|x - n\ > ±} = o
Faisons tendre n vers l'infini. La propriété de continuité des probabilités donne alors
0= l i m p f | X - M l > - | = p | l i m ( | X - / t | > - H
P{X * M}
ce qui établit le résultat voulu.
8.2.3 Enoncé de la loi faible des grands nombres
Théorème 8.4 Loi faible des grands nombres

Soient Xt, X2,... une suite de variables aléatoires indépendantes et identiquement
distribuées. On suppose que toutes admettent la même espérance finie E[X^\ = u.
Pour tout s > 0
X.+
H
Xn
M > e lorsque n -> oo
DÉMONSTRATION. Nous démontrerons le théorème en admettant une hypothèse sup-

plémentaire, à savoir que les variables considérées ont une variance a2 commune et
finie. Dans ce cas, comme
Xl + --- + XH
- ix et Var I = —
\ n I n
il résulte de l'inégalité de Tchebychev que
X, + • • • + X„
"{ ^ > e
ne
ce qui établit le résultat.
La loi faible des grands nombres fut établie pour la première fois par Jacob
Bernoulli pour le cas particulier où les X-t ne prennent pour valeur que 0 ou 1 (et sont
donc des variables de Bernoulli). Son énoncé de ce théorème et la démonstration qu'il
en donne figurent dans son ouvrage Ars Conjectandi, publié en 1713 par son neveu
Nicolas Bernoulli, huit ans après sa mort. Il faut savoir que l'inégalité de Tchebychev
n'étant pas connue à l'époque, Bernoulli dut développer une démonstration extrême-
ment ingénieuse pour établir le résultat. La version générale de la loi faible des grands
nombres, telle que la présente le théorème 8.4, est attribuée au mathématicien russe
Khintchine.
8.3 THÉORÈME CENTRAL LIMITE
8.3.1. Version restreinte

Le théorème central limite est l'un des plus remarquables résultats de la théorie
des probabilités. En gros, il établit que la somme d'un grand nombre de variables
aléatoires indépendantes suit une distribution approximativement normale. Il fournit
donc non seulement une méthode simple pour le calcul approximatif de probabilités
liées à des sommes de variables aléatoires, mais il explique également ce fait empirique
remarquable que bien des phénomènes naturels admettent une distribution en forme
de cloche, c'est-à-dire de type normal.
La clé de la démonstration du théorème central limite est le théorème suivant,
donné sans démonstration.
Théorème 8.5
Soient Z,, Z2,... une suite de variables aléatoires dont les fonctions de répartition sont
notées F^ et les fonctions génératrices des moments MZn, n > 1; soit aussi une va-
riable aléatoire Z de fonction de répartition Fz et de fonction génératrice des
moments Mz. Si MZn (t) -» M^t) pour tout t, alors FzJt) -* F^t) pour toutes les
valeurs de tpour lesquelles Frft) est continue.
Dans le cas particulier d'une variable Z normale standard, on sait que

Mz(0 - e'2'2- Du théorème 8.5, il résulte que si A/^(f) -> e'2'2 lorsque n -» <», alors
F/i: (t) -* <&(t) lorsque n -* co.
Nous allons maintenant donner la version la plus simple du théorème central
limite.
Théorème 8.6 Théorème central limite

Soient Xt, X2,... une suite de variables aléatoires indépendantes et identiquement
distribuées, d'espérance u, de variance a 2 . Alors la distribution de
Xj + • • • + X„ - n/x
avn
tend vers la distribution normale lorsque n -> oo, ce qui veut dire que
\Xx + • • • + Xn - n M 1 1 f" _xV2.

— s a ) -* -j= e dx quand n -» oo
a-Jn J v27rJ_ m
DÉMONSTRATION. Admettons pour l'instant que u = 0 et a 2 = 1. Nous allons démon-
trer le théorème en faisant l'hypothèse que la fonction génératrice des moments des
Xt, notée M(t), existe et est finie. La fonction génératrice des moments de Xj/yfn sera
E
[^ ifn = M
v;
et par conséquent celle de Ë XJyJn sera M | -=
Posons
L(f) = lnM(0
et remarquons que
L(0) = 0
W
M(0)
=0
, »<n\ - M(0)M"(0)-[M'(0)]2
M
[M(0)f
= E[X2]
= 1
Or, pour démontrer le théorème, il nous faut établir que [M(tW n )]" -» et2/2 lorsque
n -» oo, ou, ce qui est équivalent, que nL(t/yfn) -+ r/2 lorsque n -* oo. On peut écrire
,. Ut/Jri) ,. -L'{t/s/n)n~V2t
hm r,— = hm en vertu de la règle de l'Hôpital
n-»oo fi n->ao -2n"z
-1™ 'L'(t/Jn)i
r ^
=
£2, L = 2 ^ — .en vertu de la même règle
n-œ L W«/ 2 J
Le théorème central limite est donc démontré pour le cas où u = 0 et a2 = 1. Dans

le cas général, on considère les variables standardisées X* = (Xi — u)/a auxquelles
s'applique la démonstration ci-dessus, puisque E[X'] = OetVar(A'*) = 1; le résultat
est ainsi établi en toutes circonstances. •
A titre de remarque, on peut ajouter la considération suivante: bien que le théo-

rème 8.6 affirme que pour chaque a
(Xl + ---+Xn-nfi
P\ j= < a [ -+<&(a)
l erVn J
on peut en fait démontrer que cette convergence est uniforme en a (on dit que
f„(a) -* f(a) uniformément en a si, pour tout e > 0, il existe un N tel que
\f„(a) — f(a)\ < e, pour tout a, dès que n ^ TV).
La première version du théorème central limite fut établie par De Moivre aux alen-
tours de 1733 pour le cas particulier des variables de Bernoulli de paramètre
p = Vi. Laplace en donna une extension à des variables de Bernoulli quelconques
(une variable binomiale pouvant être comprise comme une somme de n variables de
Bernoulli indépendantes et de même paramètre, cette démonstration de Laplace
justifie l'approximation normale donnée aux variables binomiales, par exemple dans
la section 5.4.7). Laplace énonça aussi la version plus générale donnée ici au
théorème 8.6. Sa démonstration n'était cependant pas totalement rigoureuse, et il n'est
d'ailleurs pas aisé de la compléter. Ce fut le mathématicien russe Liapounoff qui, le
premier, donna une démonstration absolument rigoureuse du théorème central limite,
et ce entre 1901 et 1902.
8.3.2 Applications du théorème central limite
Exemple 8.3 Un astronome souhaite mesurer la distance, en années-lumière, entre

son observatoire et une étoile lointaine. Bien qu'il connaisse une technique de mesure,
il sait aussi que chaque résultat ne constitue qu'une distance approchée, en raison des
influences atmosphériques et d'autres causes d'erreur inévitables. Par conséquent,
notre astronome prévoit de prendre plusieurs mesures et d'accepter leur moyenne
comme estimation de la distance réelle. Il a des raisons de penser que les différentes
valeurs mesurées sont des variables aléatoires indépendantes et identiquement distri-
buées d'espérance commune d (la vraie valeur) et de variance commune 4 (l'unité étant
toujours l'année-lumière). Combien de mesures doit-il réaliser pour être raisonnable-
ment sûr que l'erreur soit inférieure à une demi-année-lumière?
SOLUTION. Admettons que l'astronome fasse n observations que l'on désignera par Xx,
X2,—, Xn. Le théorème central limite établit que
L X, - nd
Z =!=1
2Vn
suit approximativement une distribution normale. Par conséquent

n
Si donc notre astronome souhaite que la probabilité que l'erreur soit de moins d'une
demi-année-lumière reste au-delà de 95 chances sur 100, il lui faudra prendre n*
mesures où n* vérifie
2<D l^P\ - 1 = .95 ou <ï> 1-4- I = .975
ce qui, d'après le tableau 5.4 du chapitre 5, équivaut à
f~~*
-j-=1.96 ou n* = (7.84) 2 = 61.47
Comme n* est nécessairement entier, il faudra faire 62 mesures.

On notera cependant que cette évaluation repose sur l'hypothèse d'une qualité
suffisante de l'approximation de Z„ par une variable normale lorsque n = 62. Bien
qu'en général ce soit le cas pour une telle valeur de «, le moment à partir duquel n
est assez grand pour qu'on puisse qualifier l'approximation de bonne dépend de la
distribution des Xr Si notre astronome craint que cette distribution ne soit défavora-
ble et s'il ne souhaite pas prendre de risques, il peut avoir recours à l'inégalité de
Tchebychev. On a
\i*\-é Va,(ï*)-*
Li=i n \ \ i = i nj n
et l'inégalité donne alors
lh =i n | J n(.5) n
L'astronome devra donc faire n = — = 320 observations pour avoir 95 chances sur
100 de maintenir l'erreur en dessous d'une demi-année lumière. •
Exemple 8.4 Le nombre d'inscriptions à un cours de psychologie est une variable

aléatoire de Poisson d'espérance 100. Le professeur donnant ce cours a décidé que,
si le nombre des inscriptions est au-delà de 120, il créera deux sections et donnera donc
deux cours, tandis qu'en deçà une seule classe sera formée. Quelle est la probabilité
que ce professeur ait à donner deux fois le cours?
00
SOLUTION. La solution exacte est e~m t (100)'//! et son évaluation numérique n'est
/=120
pas aisée. On se souvient cependant qu'une variable poissonienne de paramètre 100
peut être considérée comme la somme de 100 variables poissoniennes indépendantes
de paramètre 1 chacune, ce qui donne l'occasion d'utiliser le théorème central limite
pour obtenir une approximation de la réponse exacte. Soit X le nombre d'inscrip-
tions. On a
1 2
P{X*120} = P(X--10° °-10 0 1
'100 '100
= 1-<D(2)
» .0228
où l'on a utilisé le fait qu'espérance et variance des variables poissoniennes sont

toujours égales. •
Exemple 8.5 On lance 10 dés équilibrés. On cherche la probabilité que la somme des
dix résultats soit comprise entre 30 et 40.
SOLUTION. On note Xt le résultat montré par le /-ème dé, /' = 1, 2,..., 10. Comme
E[X,] = \ et Var(Xi) = E[Xt2] - (E[X,]f = j | , on obtient par application du
théorème central limite
* 2<D(V6/7) - 1
«.65
Exemple 8.6 Soient X-„ i — 1,..., 10 des variables aléatoires uniformes sur l'intervalle
i?,* > 6 -
10
(0, 1). On cherche à évaluer approximativement P\
SOLUTION. Comme E[Xt] = \ et Var(A',) = yr, le théorème central limite livre
»{lX,>6} = P ' - ^ 6-5

Viotè) Viotè)
« 1 - *0/L2)
«.16
10
ce qui signifie que 16 fois sur 100 seulement, en moyenne, la somme X Xi sera
i=i
supérieure à 6. •
Dans l'exemple 8.7 nous allons utiliser le théorème central limite pour obtenir
l'approximation de Stirling de n\.
Exemple 8.7 Approximation de Stirling de n!
Soient X\, X2 , ... des variables aléatoires de Poisson indépendantes de moyenne

n
(et de variance) égale à 1. Soit Sn = Z X, et noter que Sn a une moyenne et une
/= î
variance égales à n.
Soit Z une variable aléatoire normale standard. On a
P{S„ = n] = P{n- 1 < Sn < n} puisque Sn est un entier

= P{-1 < Sn-n < 0}
Œ p\ — < z < o\lorsquenestgrand,

| J~ ~ i par le théorème central limite
o
1
/
_ 1 1 par le théorème fondamental

V2n Vn du calcul intégral
Mais la somme de variables aléatoires de Poisson indépendantes est aussi une

variable aléatoire de Poisson, donc Sn est Poisson de moyenne n. Donc
P{Sn = n) = e~»^
Donc pour n grand

e~" n" 1
V 2nn
ce qui est l'approximation de Stirling de n\.

8.3.3 Versions plus générales du théorème central limite

Il a été possible de démontrer des versions du théorème central limite où les Xt sont
encore indépendantes mais plus nécessairement identiquement distribuées. L'une de
ces versions suit ici, qui n'est d'ailleurs pas la plus générale.
Théorème 8.7 Théorème central limite relatif à des variables indépendantes seulement
Soit Xh X2,... une suite de variables aléatoires d'espérances u, et de variâmes 07,
i = ], 2,... . Si
a) les variables Xt sont uniformément bornées, ce qui signifie qu'il existe un réel
M tel que P{ \X,\ < M} = 1 pour tout i et
b) I aj = oo,
alors
i=l
P <t>(a) quand n -» oo
8.3.4 Note historique : Pierre Simon, marquis de Laplace
Le théorème central limite a été à l'origine posé et démontré par le mathématicien

français Pierre Simon, le marquis de Laplace, qui aboutit à ce théorème en observant
que les erreurs de mesure (qui peuvent usuellement être considérées comme étant la
somme d'un grand nombre de forces minuscules) tendaient à être normalement distri-
buées. Laplace, qui était aussi un célèbre astronome (il était en effet appelé «le
Newton français»), fut un des premiers grands mathématiciens à contribuer aux pro-
babilités et statistiques. Il rendit populaire l'utilisation des probabilités dans la vie de
tous les jours. Il croyait fortement à leur importance, comme on le voit dans cette
citation de son livre Analytical Theory of Probability. «On voit que la théorie des
probabilités est à la base du sens commun réduit au calcul; elle nous fait apprécier
avec exactitude ce que des esprits raisonnables sentent par une sorte d'instinct, sou-
vent sans être capables d'expliquer pourquoi [...]. Il est remarquable que cette
science, qui trouve ses origines dans l'étude des jeux de chance, puisse devenir l'objet
le plus important de la connaissance humaine [...]. Les questions les plus importantes
de la vie sont, pour une grande part, des problèmes de probabilités.»
L'application du théorème central limite, pour montrer que les erreurs de mesure
sont approximativement normalement distribuées, est vue comme une importante
contribution à la science. En effet, dans les 17e et 18e siècles, le théorème central
limite était souvent appelé la «loi de fréquence des erreurs». La loi de fréquence des
erreurs était considérée comme une avancée majeure par les scientifiques. Voyons les
mots de Francis Galton (tirés de son livre Natural Inheritance, publié en 1889) à ce
sujet. «Je ne connais rien d'aussi remarquable pour l'imagination que la merveilleuse
forme que prend l'ordre cosmique dans la "Loi de Fréquence des erreurs". La Loi
aurait été personnifiée et déifiée par les Grecs s'ils l'avaient connue. Elle règne avec
sérénité et dans un effacement complet parmi la confusion la plus sauvage. Plus la

foule est énorme et plus l'anarchie apparente est grande, plus son influence est
parfaite. C'est la loi suprême de la déraison.»
8.4 LOI FORTE DES G R A N D S NOMBRES
8.4.1 Loi forte, version restreinte et version générale
La loi forte des grands nombres est sans doute le résultat le plus célèbre en théorie
des probabilités. Il établit que la moyenne d'une suite de variables aléatoires identi-
quement distribuées tendra avec probabilité 1 vers l'espérance de cette distribution
commune.
Théorème 8.8 Loi forte des grands nombres

Soit Xx, X2,..- une suite de variables indépendantes et identiquement distribuées,
d'espérance commune finie u. Alors, avec probabilité 1
Xl + X2 + • • • + Xn ,
* fi quand n -> oo
n
Il est inutile de démontrer ce théorème, car on en prouvera plus loin une version
plus générale. On peut cependant ici présenter une application très importante de la
loi forte des grands nombres. Supposons qu'on réalise une série d'épreuves indépen-
dantes. Soit E un événement donné relatif à l'expérience ainsi répétée et P(E) sa
probabilité, constante au cours des tirages. On pose
Hi
si E survient lors du i'-ème tirage
sinon
La loi forte des grands nombres établit qu'avec probabilité 1
Xl +
--- + X
"-»E[X] = P(E) (8.2)
Comme Xt+ X2+ ... + Xn représente le nombre des occurrences de E au cours des
« premiers tirages, (8.2) peut recevoir l'interprétation suivante: la fréquence relative
limite d'apparition de l'événement E est P(E) avec probabilité 1.
Bien que le théorème puisse être démontré sans cette hypothèse, notre preuve de
la loi forte des grands nombres admet que les variables aléatoires X, ont un quatrième
moment fini, ce qui signifie que E[Xf ] = K<°°.
En d'autres termes la loi forte des grands nombres signifie que

P\ Hm (*, + ••• + X„)/n = /x | = 1
DÉMONSTRATION DE LA LOI FORTE DES GRANDS NOMBRES. Pour commencer, admettons que
n
il, la moyenne des X„ est égale à 0. Soit S„ = £X, et considérons
i= î
E[SÎ] = E[ (X, ,..., Xn ) (X,,..., Xn ) (X,,..., X„ ) (X,,..., X„ )]

En développant le terme de droite, on obtient un résultat en termes de la forme
Xf, X? Xj, Xj Xj, Xj Xj;Xk et XiXjXkX,
où i,j, k, l, sont tous différents. Comme tous les X, ont pour moyenne 0, on obtient par
indépendance que
E[Xj Xj] = E[Xj] E[Xj\ = 0

E[Xj XjXk] = E[Xj] E[Xj\ E[Xk] = 0
£[X,.X;X*X(] = 0
Pour une paire donnée i et 7 , il y a ( 2) = 6 termes dans le développement qui sont

égaux à X, Xj. Cela entraîne donc, en développant le produit précédent et en prenant
les espérances terme par terme, que
£[5J] = nE[X?]+6Ci)E[XjXj]
= nK + 3n(n-\)E[Xj] E[Xj]
où nous avons utilisé encore une fois l'hypothèse d'indépendance.

Maintenant, puisque
0 < Var(X?) = E[Xf]-(E[Xj])2
nous voyons que
(£[X?])2 < E[Xf] = K
D'où nous tirons, de la précédente expression, que
E[S*] < nK+3n(n-l)K
qui implique que
Donc, cela entraîne que

'«4 1 E »4 < oo
n= 1
Mais ceci implique avec une probabilité égale à 1 que Ï S } / n 4 < oo . (S'il y a une
probabilité positive que la somme soit infinie, alors son espérance est infinie.) Mais la
convergence d'une série implique que son «-ièrne terme tend vers 0; et nous pouvons
donc conclure, avec une probabilité égale à 1 que
53
lim = 0
Mais si S*/n4 = (S„/n)4 tend vers 0, alors Snln doit aussi; nous avons donc prouvé
avec une probabilité égale à 1 que
-» 0 lorsque n -> oo
Lorsque \i, la moyenne des X„ n'est pas égale à 0, on peut appliquer l'argument
précédent aux variables aléatoires X, - \L pour obtenir avec une probabilité égale à 1
que
(Xj-H)
lim = 0
ou de manière équivalente,
lim
Sï = M
ce qui prouve le résultat.
La loi forte des grands nombres fut démontrée pour la première fois et dans le
cas particulier de variables de Bernoulli par le mathématicien français Borel. La
version générale du théorème 8.8 est due au mathématicien russe A.N. Kolmogorov.
8.4.2 Comparaison de la loi faible et de la loi forte

Bien des gens ont du mal à saisir au début la différence entre loi faible et loi forte
des grands nombres. La loi faible assure que pour toute grande valeur de n, disons
n* par exemple, (X] + ... + X„,)/n* est probablement très voisine de u. Elle n'assure
pas cependant que (Xt + ... + Xn)/n devra rester dans un voisinage étroit de u pour
toutes les valeurs de n supérieures à n*. Elle laisse donc la porte ouverte à une
situation où de larges écarts entre (Xt+ ... + X„)/n et n peuvent se produire pour
une infinité d'événements, infinité dont la probabilité collective est très faible cepen-
dant. La loi forte exclut cette situation. Elle assure en particulier qu'avec probabilité
1 et pour toute valeur e > 0,
,= i n
ne sera supérieure à e qu'un nombre fini de fois.
8.5 AUTRES INEGALITES
8.5.1 Inégalité unilatérale de Tchebychev

On rencontre parfois des situations dans lesquelles on voudrait obtenir une borne
supérieure pour une probabilité de la forme P{X - |i > a], où a est un réel positif
et où Xest de distribution inconnue, mais d'espérance u et de variance a1 qui sont,
elles, connues. On se trouve ici évidemment dans un cas d'application de l'inégalité
de Tchebychev puisque X - |i > a > 0 entraîne IX - |al > a; on obtient
P{X-n>a} <P{\X-/Ji>a}< T - lorsquea > 0
Le théorème suivant montre cependant qu'on peut faire mieux.
Théorème 8.9 Inégalité unilatérale de Tchebychev

Soit X une variable aléatoire d'espérance nulle et de variance a2 finie. On a alors
pour tout réel a > 0
2
P{X > a} < -5^—2

o- + a
DÉMONSTRATION. Soit b > 0 et notons que X > a est équivalent hX+ b>a + b .
Donc
P[X>a] =P{X+b>a + b]
<P{(X+b ) >(a + b)2}
2
où l'inégalité ci-dessus est obtenue en remarquant que comme a + b >0, X + b>a + b

implique que (X + b)2 >(a + b)2. En appliquant l'inégalité de Markov, on obtient que
L
' (a + b)2 (a + b)2
En posant b = a2 I a (dont on peut facilement voir qu'il s'agit de la valeur de b qui

minimise ( a2 + b2 ) I ( a + b )2), on obtient le résultat désiré. •
Exemple8.8 Le nombre de pièces produites par une usine en une semaine est une
variable aléatoire d'espérance 100 et de variance 400. On cherche une borne supé-
rieure pour la probabilité que la production dépasse 120 pièces lors d'une semaine
donnée.
SOLUTION. Appliquons l'inégalité unilatérale de Tchebychev
4 0 C
P{X > 120}= P{X - 100 a 20} < V2 = -
1
400 + (20) 2 2
où l'on voit que la probabilité de dépasser une production de 120 pièces en une
semaine ne dépasse pas ^.
Il était possible d'obtenir une borne grâce à l'inégalité de Markov, qui aurait
donné
c'est-à-dire une borne nettement moins bonne que la précédente. •

De l'inégalité unilatérale de Tchebychev, on peut déduire le théorème suivant.
Théorème 8.10
Soit X une variable aléatoire, avec E[X] — u et Var {X) = cr. On aura pour tout
réel a > 0,
2
P{Xzfi + a}s 2°" 2
o- + a
2
P{X s n - a) s / 2
cr + a
DÉMONSTRATION. Les variables X - u et u - X ont toutes deux une espérance nulle

et une variance a 2 . De ce fait
2
a
P{X - n> a}
a + a2
2
et
2
F{ M - X < a} < 2°" 2
a +a
ce qui établit le résultat annoncé. •
Exemple8.9 On répartit au hasard en 100 couples un groupe initialement composé

de 100 hommes et 100 femmes. On cherche une borne supérieure à la probabilité que
moins de 30 des 100 couples formés soient mixtes.
SOLUTION. On numérote les hommes arbitrairement de 1 à 100 puis on pose
1 si l'homme / est associé à une femme

0
ceci pour / = 1, 2,..., 100. On peut exprimer le nombre de couples mixtes comme
la somme
100
i= 1
Comme l'homme / a autant de chances d'être associé à chacune des 199 autres
personnes, dont 100 sont des femmes, on a
£ [ X i ] = P{Xi = l} = ^
Par un raisonnement similaire, et si i ^ j , on calcule
E[XiXi] = P{Xi = l,Xj=l}

100 99
= P{X, = 1}P{X / =1|X, = 1} = — —
On peut se convaincre que P{Xj = 1 \Xj = 1} = 1~- en réalisant que, si l'homme /'
est associé à une femme, l'homme y peut être associé avec autant de chances à l'une
quelconque des 197 personnes restantes, dont 99 sont des femmes. On peut mainte-
nant calculer
100
E[X] = I E[Xt]
» 50.25
100
_ 1 0 0 99 „ ./ I 0 0 \ r i 0 0 99 /100\2
Var (X) = I Var (X,) + 2 1 1 Cov (Ai, X,)
i=l \ i<j 2 / L l 9 9 197 \199/
«25.126
et appliquer l'inégalité de Tchebychev
P{X < 30} < P{IX-50.25I > 20.25} < ÎS)1 " 0.61
L'événement «moins de 30 hommes seront associés chacun à une femme» a donc au

plus 6 chances sur 100 de se produire. Cette borne peut cependant être améliorée
par application de l'inégalité unilatérale de Tchebychev qui donne, elle,
P[X < 30} = P[X < 50.25-20.25}

25.126
~ 25.126+ (20.25)2
= .058 •
8.5.2 Bornes de Chernoff
Lorsque la fonction génératrice des moments d'une variable aléatoire X est

connue, on peut obtenir une borne plus efficace pour P{X > a}. Soit M(t) - E[e'x] la
fonction génératrice des moments de la variable aléatoire X. Alors pour t > 0,
P{X>a) = P{e'x>e'a)
par l'inégalité de Markov
<E[e'x]e-'a
De la même façon, pour t < 0,
P{X<a) = P{etX>e'a)
<E[e'x]e-'a
Ainsi, nous avons les inégalités suivantes, connues sous le nom des bornes de
Chernoff.
Théorème 8.11 Bornes de Chernoff
P[X>a}<e',a M(t) pour tout t>0

P[X < a] < e-<" M(t) pour tout t<0
Puisque les bornes de Chernoff sont valables pour tout t dans les quadrants positifs et
négatifs, on obtient la meilleure borne pour P{X>a} en utilisant le t qui minimise
e-'a M(t).
Exemple 8.10 Bornes de Chernoff pour une variable aléatoire normale standard.
Si Z est une variable aléatoire normale standard, sa fonction génératrice des moments
est M (t) -e'2 n, donc la borne de Chernoff pour P{Z > a} est donnée par
P{Z>a) <e-'a e'2'2 pour tout f>0.
La valeur de t, t > 0, qui minimise e'2 /2~ '" est la valeur qui minimise t2/2 - ta, soit
t = a. Ainsi, pour a > 0, on voit que
P{Z>a] <e-" 2 / 2
De la même manière, on peut montrer que pour a < 0,
P{Z<a}<^2/2 •
Exemple 8.11 Bornes de Chernoff pour une variable aléatoire de Poisson.

Si X est une variable aléatoire de Poisson de paramètre X, sa fonction génératrice des
moments est M( t ) = ex ( ^~ ! ) . Ainsi la borne de Chernoff pour P{X > i} est
P{X>i}<ex^-ê~it ,t>0
Minimiser le membre de droite de cette expression revient à minimiser X(e'- 1) - i t

et le calcul montre que la valeur minimale est atteinte quand e' = i IX. En stipulant
que i IX > 1, cette valeur de t qui donne le minimum est positive. Donc, en admettant
que /' > X et en posant e' = ilX dans la borne de Chernoff, on obtient que
P{X>i}<eî/x-» y '
-A,
P{X>i}<e^f*-
Exemple 8.12 Considérons un joueur qui, à chaque coup, a autant de chance,

indépendamment du passé, de gagner ou de perdre 1 unité. Ceci signifie que si X,
représente les gains du joueur au j'-ème coup, alors les X, sont indépendants et
P[Xt =\}=P{Xj = -\} = \l2.

n
Soit Sn - £X, les gains du joueur après n coups. Nous allons utiliser la borne de
i = i
Chernoff sur P{Sn >a}. Pour commencer, notons que la fonction génératrice des
moments de X, est
E[e<x]=ÊLïjrL
Maintenant, en utilisant les développements de McLaurin de e' et e~', on voit que
e'+e-' = 1 + f + —+—+...+ ( l - f + ^-Jï+-)
= 2 { 1 + §j+$"+...}
°° fin
=2 y - —
«t-o (2n )!
l2
<2 Y ^ )" puisque (2n)!>n! 2n
DoncE[e'x}<e'1/2.
Puisque la fonction génératrice des moments de la somme de variables aléatoires

indépendantes est le produit de leurs fonctions génératrices des moments, on a
E[e's»] =(E[e'x]f
<e"'2'2
En utilisant ce résultat avec la borne de Chernoff, on obtient
P{Sn>a}<e-<aen<111 , t>0
La valeur de t qui minimise le membre de droite de cette expression est la valeur qui
minimise nt21 2 - ta , et cette valeur est t = a I n. En supposant que a > 0 (de telle
sorte que le t qui minimise soit positif) et en posant t = a I n dans l'inégalité
précédente, on obtient
P{Sn>a\<e-^l2n ,a>0
Par exemple, cette inégalité donne
/ > {S 1 0 >6}<e- 3 6 / 2 0 =.1653
alors que la probabilité exacte est
P{ Sl0 > 6 } = P{le joueur gagne au moins 8 fois sur les 10 premiers coups}
io\ /io\ /io\

+ +
8 9 10
2 io
56
» .0547
1024
8.5.3 Inégalité de Jensen
L'inégalité que nous allons maintenant traiter porte sur des espérances plutôt que
des probabilités. Nous avons auparavant besoin d'introduire la notion de convexité
de fonction: une fonction réelle/deux fois différentiable est dite convexe s i / " (x) > 0
pour tout x. Une fonction sera de même dite concave s i / " (x) < 0 pour tout x. A
titre d'exemples, les fonctions suivantes sont convexes: f(x) = x2, f(x) = eax,
f(x) = — JC"" lorsque x > 0. S i / e s t convexe la fonction g = — / e s t concave et
vice versa.
Théorème 8.12 Inégalité de Jensen
Soit f une fonction convexe. Alors
E[f(X)]>f(E[X])
pour autant que ces espérances existent et soient finies.
DÉMONSTRATION. Ecrivons le développement en série de Taylor de / autour de

u = E[X\.
p(t)(x - f)2
;
/(*) = /(/*) + / V ) ( * - M) + 2
où £, est un réel compris entre x et u. C o m m e / " © ^ 0, on aura
/(x)s=/0t)+/V)(x-/*)
et donc
/(X)s/(M)+/'(M)(X-/x)
Il suffit de prendre l'espérance des deux membres pour obtenir
E[f(X)] > / ( M ) + f(fi)E[X - M] = /(M)
ce qui achève la démonstration. a
Exemple 8.13 Un investisseur est confronté à une alternative. Soit il place tout son
capital dans une affaire risquée rapportant une somme aléatoire X d'espérance m,
soit il le place en titres sans risques qui rapporteront une. somme m avec probabilité
1. On sait qu'il va chercher à prendre sa décision de manière à maximiser l'espérance
de u(R), où R est son bénéfice et u sa fonction de préférence. L'inégalité de Jensen
nous montre que si u est une fonction concave, E[u(X)] < u(m), ce qui rend le
placement sûr préférable. Si par contre u est convexe, le placement risqué doit être
choisi puisque £[«(A')] > u(m). •
8.6 BORNES POUR L'ERREUR DE PROBABILITE COMMISE EN

APPROXIMANT UNE LOI BINOMIALE PAR UNE LOI DE POISSON
Dans cette section, nous allons établir des bornes pour savoir comment une somme
de variables aléatoires de Bernoulli indépendantes est approximée par une variable
aléatoire de Poisson ayant la même moyenne.
Supposons qu'on veuille approximer la somme de variables aléatoires de Bernoulli

indépendantes de moyennes respectives plt p2,—, pn- En partant avec une séquence
Ylt..., Yn de variables aléatoires de Poisson indépendantes, y, ayant pour moyenne /?,,
nous allons construire une séquence de variables aléatoires indépendantes de
Bernoulli Xit..., Xn de paramètres p{,...,pn telle que
P[Xi*Yi}<p2i pour tout i

n n
En posant X = YX, et Y= £ y , , le fait précédent nous permet de conclure que
1=1 i= i
P{X*Y}<ip>
i=i
Finalement, nous allons montrer que cette inégalité implique que pour tout ensemble
A de nombres réels,
n
\P{XeA}-P{YeA}\< £ p]
i=i
Puisque X est la somme de variables aléatoires indépendantes de Bernoulli et que Y

est une variable aléatoire de Poisson, l'inégalité précédente nous mènera à la borne
voulue.
Pour montrer comment l'inégalité précédente se produit, soient Yh i =1,..., n, des
variables aléatoires indépendantes de Poisson de moyennes respectives pv Soient à
présent U\,...,Un des variables aléatoires indépendantes qui sont aussi indépendantes
des Yj et qui sont telles que
( 0 avec probabilité (\-pùep>

[ 1 avec probabilité 1 - (1 -p,) ePi
Cette définition utilise implicitement l'inégalité e~P > 1- p en admettant que

(l-Pi)eP'<l.
Définissons à présent les variables aléatoires Xt, i= 1,..., n par
x = j O siK,= [/, = 0
{1 sinon
Noter que
P{X, = 0} = P{ Yk: = 0}P{ Ui = 0)= e~P> (1 -Pi y* =l-Pi

P{Xi=l} = l-P{Xi = 0}=pi
Si Xj est nul, alors y, doit être nul aussi (par définition de X,). Donc on voit que
PiXfïY,) = P{Xi=l, Yi*l]

= p{yi=o,Xi=i)+m,>i}
= P{Yt=0, Ui=l}+P{Yi>1}
= eri" [1 - ( 1 -pi )eP'] + 1 - e'P'-pt e~P<
= Pi ~ Pi e~p>
< p j (puisque \-e~P< p)
n n
A présent, soit X = £X, et Y = £ Y( et notons que X est la somme de variables
1=1 1=1
aléatoires indépendantes de Bernoulli et que Y est une Poisson, d'espérances
E[Y]=E[X] = fp,
i = 1
Notons aussi que l'inégalité X* Y implique que X, * Yt pour un i, donc
P{X * Y} <P {Xi * y, pour un j}

n
< YP{ Xi * Yi} (inégalité de Boole)
1=1
* i = i
ÏPI
Pour n'importe quel événement B, soit IB la variable indicatrice de cet événement B,

définie par
J 1 si fi se produit
B
[0 sinon
Notons que pour n'importe quel ensemble de nombres réels A,
Cette inégalité provient du fait que, puisqu'une variable indicatrice vaut soit 0 soit 1,
le membre de gauche ne vaut 1 que lorsque /( Xe A ) = 1 e t h re A ) = 0-
Mais ceci implique que X e A et Y <£ A, ce qui signifie que X * Y, donc que le
membre de droite est aussi égal à 1. En prenant les espérances de cette inégalité, on
obtient
P{X e A] -P{Y e A} < P{X * Y]
En inversant X et Y, on obtient de la même façon que

P{Y e A} -P{X e A] < P{X * Y]
et nous pouvons conclure que
I P{X e A} -P[Y e A}\ < P{X * Y}
n
Donc, on a démontré qu'avec X - Zp it
REMARQUE. Lorsque tous les />, sont égaux kp, X est une variable aléatoire binomiale.
Ainsi, cette inégalité montre que pour n'importe quel ensemble A d'entiers non
négatifs,
8.7.1 Soit a 2 la variance de X. La racine positive a de la variance est appelée

écart-type. Si Xest de moyenne u et d'écart-typeCT,montrer que
P{\X - /*| > ka} < \i

k
8.7.2 Soit X une variable de moyenne u et d'écart-type a; le rapport r = |(i|/o est

appelé rapport signal-bruit de X. L'idée vient de ce que X peut être exprimée comme
X = u -|- (X - u) où u représente le signal et X - u le bruit, dont l'écart-type est o.
On définit \(X — u )/u| = D comme l'erreur relative de X par rapport à son signal
(ou espérance) u. Montrer que pour a > 0
F{D<a}>l--^
r a
8.7.3 Calculer le rapport signal-bruit, c'est-à-dire |u| /a, où u = E[X] et a2 = Var(A")

pour les variables aléatoires suivantes:
a) Poisson de moyenne X;
b) binomiale de paramètres n et p;
c) géométrique de moyenne \/p;
d) uniforme sur l'intervalle (a, b);
e) exponentielle de moyenne 1/X;
f) normale de paramètres u, a 2 .
8.7.4 Soit Z„, M ^ 1, une suite de variables aléatoires et c une constante telle que pour
chaque e > 0, P{ \Zn — c\ > e} -> 0 quand n -» oo. Montrer que pour toute fonction
continue bornée g,
E[g(Z„)] -» g(c) quand n -> oo
8.7.5 Soit/(;c) une fonction continue définie pour 0 ^ x < 1. Considérer les fonctions
-L>m
(appelées polynômes de Bernsteiri) et prouver que
lim B„(x) = /(x)
Considérer, à titre d'indication, des variables aléatoires indépendantes de Bernoulli

Xl,X2,— ayant pour espérance x. Montrer, puis utiliser le fait suivant (en faisant usage
du résultat de 8.7.4):
Comme on peut montrer que la convergence de B„(x) \ersf(x) est uniforme en x,

ce qui est établi ci-dessus donne une preuve probabiliste du fameux théorème d'ana-
lyse dit de Weierstrass, théorème qui énonce que toute fonction continue sur un
intervalle fermé peut être approximée de façon arbitrairement proche par un poly-
nôme.
8.7.6
• Soit X une variable aléatoire discrète pouvant prendre les valeurs l, 2,... . Si
P{X = k) est non croissante en k - l, 2,..., prouver que
P{X = k } ^ 2 ^ P
• Soit X une variable aléatoire continue non négative de densité non croissante.
Montrer que
!
f(x) < 5-J pour tout x > 0
8.7.7 Supposons qu'un dé non pipé soit jeté 100 fois. Soit Af,-la valeur obtenue au i'-ème
jet. Calculer une approximation pour
{ îoo 1
1 < a <6
8.7.8 Expliquer pourquoi une variable aléatoire gamma de paramètres (/, X) a une
distribution approximativement normale quand t est grand.
8.7.9 Une pièce de monnaie équilibrée est jetée 1 000 fois. Si les 100 premiers jets
donnent tous des piles, quelle proportion de piles peut-on s'attendre à obtenir lors des
900 derniers jets? Faites un commentaire sur l'énoncé «la loi forte des grands nombres
noie une anomalie dans la masse mais ne la compense pas».
8.7.10 Si X est une variable aléatoire de Poisson de moyenne X, montrer que pour
i < X,
P{X<i)<^f^-
8.7.11 Soit X une variable aléatoire binomiale de paramètres n et p. Montrer que pour
i > np :
a) le minimum de e~" E[e'x] est atteint lorsque t est tel que e' = -—^— où
(n-i)p
q=l-p.
b)P{X>i}< •,(n""-)0-,P'(l-p)"-J
8.7.12 La borne de Chernoff d'une variable aléatoire normale standard Z donne que
P{Z> a] < e~"2,2,a>0. Montrer, en considérant la densité de Z, que la partie droite
de l'inégalité peut être réduite par un facteur 2. En fait, montrer que
P{Z>a}<ê-«212 ,a>0
8.7.13 Si E[X] < 0 et 6 # 0 est tel que E[eox] = 1, montrer que 0 > 0.
8.8 PROBLÈMES
8.8.1 Soit X une variable aléatoire d'espérance et de variance toutes deux égales à 20.
Que peut-on dire de P{0 s£ X s£ 40}?
8.8.2 Un professeur sait par expérience que la note de test d'un étudiant se présentant
à un examen final est une variable aléatoire d'espérance 75.
a) Donner une borne supérieure à la probabilité que la note de test d'un étudiant
dépasse 85;
Supposons maintenant que le professeur sache en plus que la variance de la note de
test d'un étudiant est 25.
b) Que peut-on dire de la probabilité qu'un étudiant obtienne une note comprise entre
65 et 85?
c) Combien faudrait-il qu'il se présente d'étudiants à cet examen pour assurer, avec
une probabilité d'au moins 0,9, que la moyenne de la classe soit de 75 plus ou
moins 5? Ne pas utiliser le théorème central limite.
8.8.3 Utiliser le théorème central limite pour résoudre la partie c) du problème 8.7.2.
8.8.4 Soient A',,..., X20 des variables aléatoires indépendantes de Poisson d'espé-
rance 1.
20
a) Utiliser l'inégalité de Markov pour obtenir une borne de P{T. Xt > 15}.
'= 1 20
b) Utiliser le théorème central limite pour obtenir une approximation de .P{£ Xt> 15}.
i= i
8.8.5 On arrondit 50 nombres à l'entier le plus proche et on effectue la somme. Si les
erreurs d'arrondi individuels sont distribuées uniformément sur ( — 0,5, 0,5), quelle
est la probabilité que la somme obtenue ait un écart de plus de 3 par rapport à la
somme exacte?
8.8.6 On lance un dé jusqu'à ce que la somme totale des nombres obtenus dépasse 300.
Quelle est la probabilité qu'il faille au moins 80 jets?
8.8.7 On a 100 ampoules dont les durées de vie sont des variables aléatoires indépen-
dantes exponentielles de moyenne 5 heures. Si l'on allume une ampoule à la fois et
qu'une ampoule grillée est instantanément remplacée par une neuve, qu'elle est la
probabilité qu'il reste encore une ampoule intacte après 525 heures?
8.8.8 Si, dans le problème8.8.7, le temps de remplacement d'une ampoule défaillante

suit une loi uniforme sur (0, 0,5), quelle est la probabilité que toutes les ampoules
soient grillées après 550 heures?
8.8.9 Soit X une variable aléatoire gamma de paramètres (n, 1). Quelle doit être la
valeur de n pour que
P{\X/n - 1| > .01} < .01
8.8.10 Des ingénieurs civils pensent que W, le poids (en milliers de livres) qu'une
travée d'un pont peut supporter sans subir de dommage au niveau de sa structure,
suit une loi normale, de moyenne 400 et d'écart-type 40. Supposons que le poids
(également en milliers de livres) d'une voiture est une variable aléatoire normale de
moyenne 3 et d'écart-type 0,3. Combien de voitures devraient se trouver sur cette
travée pour que la probabilité de rupture soit supérieure à 0,1?
8.8.11 Plusieurs personnes pensent que la fluctuation journalière du prix de l'action

d'une société donnée, cotée en bourse, est une variable aléatoire de moyenne 0 et de
variance a 2 . Cela veut dire que, si Yn représente le prix de l'action lors du n-ième jour,
Y„ = Y„_, + Xn n> 1
où Xx, X2,... sont des variables aléatoires indépendantes identiquement distribuées

d'espérance 0 et de variance a 2 . Supposons que le prix de l'action soit aujourd'hui
de 100. Si a2 = 1, que peut-on dire de la probabilité que le prix de l'action excède 105
après 10 jours?
8.8.12 Nous avons 100 composants que nous allons employer les uns après les autres.
Cela veut dire que le composant 1 sera d'abord utilisé, puis lorsqu'il tombera en
panne, il sera remplacé par le composant 2, qui sera lui-même remplacé après
défaillance par le composant 3, et ainsi de suite. Si la durée de vie du composant ('

est distribuée de façon exponentielle avec espérance 10 + f/10, i = 1,..., 100, estimer
la probabilité que la durée de vie totale de l'ensemble des composants dépasse 1 200.
Refaites le même exercice lorsque la distribution de la durée de vie des composants
est uniforme sur l'intervalle (0, 20 + ;'/5), /' = 1,..., 100.
8.8.13 Les résultats d'un examen donné par un certain professeur ont une moyenne
de 74 et une déviation standard de 14. Ce professeur a donné deux examens; l'un à
une classe de 25 élèves et l'autre à une classe de 64 élèves.
a) Approximer la probabilité que la moyenne du test dans la classe de 25 élèves
dépasse 80.
b) Refaire la question a) pour la classe de 64.
c) Approximer la probabilité que la moyenne de la plus grande classe dépasse celle
de l'autre de 2.2 points.
d) Approximer la probabilité que la moyenne de la plus petite classe dépasse celle de
l'autre de 2.2 points.
8.8.14 Un certain composant joue un rôle critique dans un système électrique et doit
être remplacé immédiatemment à chaque panne. Si la durée de vie moyenne de ce
type de composant est de 100 heures et que sa déviation standard est 30 heures,
combien de ces composants doit-on avoir en stock pour que la probabilité que le
système marche continuellement les 2000 prochaines heures soit au moins de .95 ?
8.8.15 Une assurance a 10000 automobilistes assurés. L'espérance annuelle d'indem-

nités demandées par un assuré est $240 avec une déviation standard de $800. Appro-
ximer la probabilité que les indemnités annuelles totales dépassentp$2.7millions.
8.8.16 Refaire l'exemple &9 sous l'hypothèse que le nombre de couples est (approxi-
mativement) distribuée selon une loi normale. Cela vous semble-t-il être une supposi-
tion raisonnable?
8.8.17 Refaire la partie a) du problème 8.8.2 en sachant que la variance de la note de

test de l'étudiant est 25.
8.8.18 Un lac contient 4 espèces de poissons. On suppose qu'un poisson capturé au

hasard a autant de chances de représenter n'importe laquelle des espèces. Soit Y le
nombre de poissons à prendre de façon à obtenir au moins un poisson de chaque type.
• Donner un intervalle (a, b) tel que P{a < Y «: b} 5* 0,90.
• En utilisant l'inégalité de Tchebychev unilatérale, combien de poissons doit-on
envisager de capturer pour être certain à au moins 90% d'obtenir au moins un
poisson de chaque type?
8.8.19 Soit X une variable aléatoire non négative de moyenne 25. Que peut-on dire
des espérances suivantes:
• E[X3];
' Eb/Jt];
• £[ln x];
• E[<rx]?
8.8.20 Soit X une variable aléatoire non négative. Prouver que
E[X] < (E[X 2 ]) 1 / 2 < ( £ [ X 3 ] ) 1 / 3 < • • •
8.8.21 Est-ce que les résultats de l'exemple 8.13 auraient changé si l'homme d'affaires
avait pu répartir son argent à raison d'une part a, 0 < a < 1, destinée au placement
à haut risque et d'une autre part 1 — a destinée à l'opération sans risque? Son gain
après un tel investissement mixte serait alors R = aX + (1 — a)m.
8.8.22 Soit X une variable aléatoire de Poisson de moyenne 20.

a) Utiliser l'inégalité de Markov pour obtenir une borne supérieure de p = P[X > 26}.
b) Utiliser l'inégalité unilatérale de Chebyshev pour obtenir une borne supérieure de
P-
c) Approximer p en utilisant le théorème central limite.
d) Déterminer p en faisant tourner un programme approprié.
CHAPITRE 9
Thèmes choisis de probabilité
9.1 PROCESSUS DE POISSON
9.1.1 Définition
Avant de définir le processus de Poisson, rappelons qu'une fonction/est dite o(h)

si lim f(h)/h = 0. Ceci revient à dire que lorsque/est o(h), si h prend de très petites
valeurs, J[h) reste très petit par rapport à h.
Supposons maintenant que certains événements se répartissent de manière aléa-
toire dans le temps. Désignons par N(t) le nombre d'événements survenus dans
l'intervalle [0, t]. On dit que le processus stochastique {N(t), t^ 0} est un processus
de Poisson de paramètre X, X > 0, si
a) N(0) = 0;
b) les nombres d'événements survenant au cours d'intervalles disjoints sont des
variables indépendantes;
c) la distribution du nombre d'événements survenant pendant un intervalle donné ne
dépend que de la longueur de cet intervalle, et pas de son origine en particulier;
d) P{N(h) = 1} = Xh + o(h);
e) P{N(h) > 2} = o(h).
La condition a) précise que le processus commence au temps 0. La condition b) est

dite hypothèse d'indépendance des incréments. Son nom lui vient de ce qu'elle impose
entre autres que le nombre d'occurrences d'événements entre les instants t et t 4- .v
[à savoir N(t + s) — N(t)] soit indépendant du nombre des occurrences jusqu'au
temps t [à savoir N(t)]. La condition c) appelée hypothèse de stationnarité établit que
la distribution de N(t + s) — N(t) est la même pour toutes les valeurs de /.
Nous avons donné au chapitre 4 une explication qui montrait que N(t) suit une
loi de Poisson de paramètre Xt et qui est basée sur le fait que la loi de Poisson est la
forme limite de certaines distributions de variables binomiales. Ce même résultat va

maintenant être démontré d'une autre manière dans les paragraphes 9.1.2 et 9.1.3.
9.1.2 Distributions des temps d'attente
Avant d'en venir à ces distributions, établissons le théorème suivant:
Théorème 9.1
Pour tout processus de Poisson de paramètre X
P{N(t) = 0} = e~K'
DÉMONSTRATION. Posons P 0 (0 = P{N(f ) = 0}. On va faire apparaître une équation

différentielle dont P0(t) sera solution:
P0(t + h) = P{N(t + h) = 0}
= P{N(t) = 0, N{t + h)- N{t) = 0}
= P{N(t) = 0}P{N(t + h)- N(t) = 0}
= P0(t)\l-\h + o(h)]
où les deux dernières transformations sont légitimées par l'hypothèse b) d'une part et
par le fait, d'autre part, que P{N(h) = 0} = 1 - Xh + o(h) en vertu des hypothèses
c) et d). Donc
P0(t + h) - P0(t) o(h)

xp
h ~ oW + ~Y~
Faisons maintenant tendre h vers 0. On obtient
P'o(t) = -\PQ(t)
ou encore
P'o(t)
qui entraîne, en intégrant les deux membres
In P0(t) = -Xt + c
ou
Po(0 = Ke"
Comme ^(O) = P{N(0) = 0} = 1 on peut conclure que
PoiO = e-" m
Nous noterons désormais 7, la date du premier événement. Pour n > 1 les varia-
bles aléatoires T„ représenteront le temps écoulé entre le (« — l)-ième et le /;-ième
Thèmes choisis de probabilité 403
événement. La suite {T„, n = 1, 2,...} est appelée suite des intervalles d'attente. Si par
exemple Tx = 5etT2 = 10, nous sommes dans le cas où le premier événement de notre
processus de Poisson est arrivé au temps 5 et le second au temps 15. La distribution
de ces intervalles d'attente est donnée par le théorème suivant:
Théorème 9.2
Tt, T2,... sont des variables aléatoires indépendantes, distribuées exponentiellement
et d'espérance commune l/X.
DÉMONSTRATION. On remarquera d'abord que l'événement {Tt> t] est équivalent à
l'événement «il ne survient aucun événement pendant l'intervalle [0, /]». Par consé-
quent
P{T1>t} = P{N(t) = 0} = e'x'
La variable Tx suit donc une distribution exponentielle d'espérance \/X. Mais par
ailleurs
P{T2>t} = E[P{T2>t\Tl}]
Or
P{T2 > t\ Ti = s} = P{0 événement durant (s, s + t]\ Tt = s}
= P{0 événement durant (s, s + t]}
= e~x'
où les deux dernières inégalités résultent des hypothèses b) et c). Ce calcul permet de
conclure que T2 est également une variable exponentielle d'espérance l/X, indépen-
dante de T, qui plus est. Il suffit alors de répéter ce calcul pour établir complètement
le théorème. •
Une autre variable qui va nous servir est Sn, date à laquelle se produit le «-ième
événement. On l'appelle aussi temps d'attente pour le n-ième événement. On voit
facilement que
Sn = î Ti n>1
i=l
ce qui permet de dire, en invoquant le théorème 9.2 et les conclusions de 5.2 que Sn
suit une loi gamma de paramètres n et X. Sa densité est donc
9.1.3 Distribution du nombre d'occurrences au temps t
Nous sommes maintenant en mesure de démontrer que N(t) est une variable
aléatoire de Poisson d'espérance Xt.
Théorème 9.3
Pour tout processus de Poisson de paramètre X
n'.
DÉMONSTRATION. On remarquera que la n-ième occurrence du processus de Poisson

surviendra au temps / ou avant si et seulement si le nombre d'événements survenus
au temps t est de n au moins. Ceci peut être écrit
N(t) >d«S„<(
et donc
P{N(t) = n} = P{N(t) > n} - P{N(t) > n + 1}

= P{S„ < t} - P{Sn+l < t}
=Jo\\e-^d
(n-1)!
X-\\e'-^f
Jo n\
dx
On utilise la formule d'intégration par parties f u dv = uv — J v du avec u = e~Xx,

dv = X[(kx)"~[/(n — 1)!] <lv, ce qui donne
Ae — dx = e —— + ke — dx
Jo (n-1)! n! J 0 n\
qui achève la démonstration. •
9.2 CHAÎNES DE MARKOV
9.2.1 Définitions
Considérons une suite X0, A',,... de variables aléatoires dont l'ensemble fondamen-
tal commun est {(), 1 M}. Ce modèle peut servir à représenter l'état d'un système
au cours du temps, Xn désignant cet état au temps n. Dans ce cadre, nous dirons que
le système se trouve dans l'état / au temps n si X„ — i. La suite des variables
considérées est appelée chaîne de Markov si à partir de tout état ;' la probabilité />,-•
de passer immédiatement après à l'étaty est constante au cours du temps. Plus précisé-
ment encore la condition requise s'écrit, pour tout ensemble de réels i0, /,,..., /„_,, /, /,
'{•Xn-n = / | Xn — l, X„_] = J„_j , . . . , Xi = Il , A() = (()} = P[)
Les grandeurs />,;, où 0 ^ i ^ M et 0 ^ / < M, sont appelées probabilités de transition
de la chaîne de Markov et vérifient (dire pourquoi?) les relations suivantes:
M
p„5 0 i n = i i = o,i,...,M
Il est commode de disposer ces probabilités de transition Py dans un tableau carré

comme suit:
Poo °oi ' ' " *OM
^10 ° 11 " ' " M M
P.MO °M1 " ' " P\1M
Un tel tableau est appelé matrice.

La connaissance de la matrice de transition ainsi créée et de la distribution de X0
permet théoriquement de calculer toutes les probabilités désirées. La densité conjointe
de X0,..., A',, par exemple est calculable ainsi:
P\Xn = i„, X„-i = J„_i,.. ., X\ = ly, AQ = Jo}

= P{Xn = in\ X„-i = i„~i,..., X0 = i0}P{X„-i = i „ _ i , . . . , X0 = io}
=
Pi„-i,i„P\Xn-i = l„-i , . . . , X0 ~ h}
et la répétition de cet argument finit par montrer que la probabilité ci-dessus vaut
=
•'i„_1,i„*i„_2,i„-] ' " " Pii,i2Pio.'lP\^0 ~ 'o/
9.2.2 Exemples de chaînes de Markov
Exemple 9.1 On admet que le fait qu'il ait plu ou non un jour donné est la seule
considération à prendre en compte pour prévoir s'il pleuvra le lendemain. Plus
précisément, s'il pleut aujourd'hui il pleuvra demain aussi avec probabilité a et s'il
ne pleut pas aujourd'hui la probabilité qu'il pleuve demain est p\
On convient de dire que le système est dans l'état 0 s'il pleut et 1 s'il ne pleut pas.
La situation peut être représentée par une chaîne de Markov à deux états dont la
matrice de transition est
a 1— a
/3 1-/3
C'est-à-dire, Poo = a = l - P0l, Pi0 = 0 = l - Pu. •
Exemple 9.2 On considère un joueur qui à chaque tour de jeu ne peut rencontrer que
deux résultats possibles; soit il gagne 1 avec probabilité p, soit il perd 1 avec probabi-
lité 1 — p. On suppose que le joueur cesse de miser dès que sa fortune atteint 0 ou
M. On reconnaît dans la suite des avoirs de ce joueur une chaîne de Markov ayant
pour probabilités de transition
* V M =P=l~Pi,-i i= l,...,M-l
=
^00 P\tM ~ 1
Exemple 9.3 Les physiciens P. et T. Ehrenfest ont étudié un modèle pour le mouve-
ment de molécules dans lequel M molécules sont réparties parmi deux urnes. Au bout
d'une unité de temps une molécule est désignée au hasard, on la retire de son urne
et la place dans l'autre. On désigne le nombre de molécules contenues dans la première
urne après la n-ième opération par X„. Dans ces conditions {X0, Xu...} est une chaîne
de Markov ayant pour probabilités de transition
Pu+i = - ~ - 0< /< M

M
M
P,, = 0 si|y-i|>l a
9.2.3 Matrices de transition d'ordre supérieur
Lorsqu'on considère une chaîne de Markov, Py représente la probabilité que le

système passe de l'état i à l'état j en une transition. Mais on peut définir une matrice
de transition d'ordre deux, composée des coefficients /></2) donnant la probabilité que
le système passe de l'état i à l'état y en l'espace de deux transitions:
Pf = />{Xm+2 = y|X m = i}
On peut calculer les coefficients Pj,2) à partir des valeurs Py comme suit:
P?=P{X2 = j\X0 = i}
M
= I P{X2 = j,Xl = k\X0 = i}
M
= I P{X2 = j\X, = k,X0 = iyPiX, = k\X0 = i}
k =0
M
=
Z PkjPik
k=0
On définit de manière plus générale la matrice de transition d'ordre n, notée P[--\

par
p<; ) =p{x„ +m =y|x m = /}
Le théorème qui suit montre comment on peut calculer les coefficients /*"'.
Théorème 9.4 Equations de Chapman-Kolmogorov
M
K r <
p\n) = £ P\k Pk"~r) Poul tout
° "
DEMONSTRATION.
p\;] =p{xn = j\x0 = i}

= lP{Xn=j,Xr = k\X0 = i)
k
= I P{Xn = j\X, = k, X0 = i}P{Xr = k\X0 = i}

k
= iPknr)p\k) •
le
Exemple 9.4 Marche aléatoire

Il s'agit, sous cette dénomination connue, d'un exemple de chaîne de Markov
ayant un nombre infini dénombrable d'états. Une particule se déplace le long d'un
axe dans un espace unidimensionnel. Après chaque unité de temps, la particule se
déplace d'un cran vers la droite ou d'un cran vers la gauche avec probabilités
respectives/? et 1 — p. Ceci revient à dire que la position de la particule est représentée
par une chaîne de Markov ayant pour probabilités de transition
Pu+1 = p = 1 - P,,,-, i = 0,±l,...
Une particule située à l'abscisse /' se retrouvera à l'abscisse y' au bout de n transitions
avec une probabilité égale à celle que (n — / + j)/2 de ces transitions se fassent vers
la droite et n — [(n — i + j)/2] = (« + /— j)/2 se fassent vers la gauche. Comme
chaque transition vers la droite se fera avec probabilité p indépendamment des
transitions passées, on voit que la probabilité cherchée est de type binomial:
n-i+j)/2/-t _ _\(n + i-/)/2

/»«;'= n - i + y p{"-,+wm-P)
2 /
où (") vaut 0 si x n'est pas un entier inférieur à « et non négatif. Ce résultat peut être
décrit ainsi:
P
'ïï* ={n2+k)P"+k{l~Pr~k k = 0,±l,...,±n
p(2«+l) = / 2/1+1 \ +k + l k
fc = 0 , ± l , . . . , ± n , - ( / i + l ) •
On remarquera que bien que les P{p soient des probabilités conditionnelles, on
peut les utiliser pour le calcul de probabilités non conditionnelles en conditionnant
selon l'état initial. Par exemple,
P{Xn = ; } = ! P{Xn = j\X0 = i}P{X0 = i}

i
= i p | ; , p { x „ = i}
9.2.4 Chaînes ergodiques
Il apparaît que pour un grand nombre de chaînes de Markov, la suite des P^]
converge lorsque n tend vers l'infini vers une limite II • qui ne dépend que de j . En
d'autres termes, la probabilité de se trouver dans l'état j après n transitions lorsque
n est grand, est approximativement Tlj, indépendamment de l'état de départ. On peut
montrer qu'une condition suffisante pour qu'une chaîne de Markov possède cette
propriété est qu'il existe un n > tel que
P\"} > 0 pour tous les i,j = 0, 1,..., M (9.1)
Les chaînes de Markov satisfaisant (9.1) sont dites ergodiques. Comme d'après le
théorème 9.4
M
PT" = I P^Pkj
k=0
il résulte que lorsque n tend vers l'infini, les chaînes ergodiques vérifient
M
n, = I UkPki (9.2)
fc-0
M
De plus, 1 = S P]f. On obtient donc également, toujours si n -* oo,
M
I n, = i (9.3)
On peut en fait montrer que les n, pour 0 ^ j < M, sont les seules solutions non
négatives de (9.2) et (9.3). Ces résultats sont rassemblés dans le théorème 9.5, cité sans
démonstration.
Théorème 9.5
Pour toute chaîne de Markov ergodique,
n , = lim PiH)
n-»oo
existe et les ITj, 0 ^ j < M, sont les seules solutions non négatives de
M
n; = i nkpki
lc=0
M
Z n y = i.
Exemple 9.5 Reprenons la situation présentée dans l'exemple 9.1, où l'on admet qu'il
pleuvra demain avec une probabilité a ou B selon qu'il pleuve aujourd'hui ou non. Le
théorème 9.5 indique que les probabilités limites de pluie et d'absence de pluie,
notées n o et O,, seront
ce qui donne
Si par exemple a = 0,6 et P = 0,3, la probabilité limite qu'il pleuve le n-ième jour, n
tendant vers l'infini, est Il 0 = 2. •
La quantité IL représente aussi la proportion de fois, à long terme, où la chaîne

de Markov reste dans l'état j , j = 0,..., M. Pour le comprendre intuitivement, notons
par Pj la proportion de fois où la chaîne se trouve dans l'état y. (La loi forte des grands
nombres permet de montrer que les proportions ainsi définies existent et sont constan-
tes.) Or, comme la proportion de fois, à long terme, où la chaîne reste dans l'état k
est Pk et que, de l'état k elle passe à l'état y avec probabilité PkJ, il s'ensuit que la
proportion de fois où la chaîne de Markov entre dans l'état y à partir de l'état k est
égale à Pk Pkj. En sommant sur k, on trouve que Pj, la proportion de fois où la chaîne
de Markov passe à l'état y, satisfait
Comme il est vrai aussi que
et que les Yl^j = 0,..., M sont l'unique solution des équations précédentes d'après le
théorème 9.5, on conclut que P-t = Ylpj = 0, ..., M.
Exemple 9.6 Dans l'exemple 9.3, intéressons-nous à la proportion de fois où l'urne 1

contient y molécules, j = 0, ..., M. On sait, d'après le théorème 9.4 que ces quantités
ainsi définies constituent l'unique solution du système suivant:
n0 = n, x 1
M
M
S n, = i
Or, comme on peut le vérifier facilement, les quantités
n,= (^)(ir. y = 0, . . . , M
satisfont les équations précédentes, elles représentent donc les proportions de fois où
la chaîne de Markov reste dans chacun des états. (Le problème 9.6.11 indique
comment on aurait pu deviner cette solution.) •
9.3 SURPRISE, INCERTITUDE, ENTROPIE
9.3.1 Définition formelle de la surprise
Considérons E, l'un des événements pouvant survenir à la suite d'une expérience.

A quel point serions-nous surpris d'apprendre que E a effectivement eu lieu? Il semble
que la réponse à cette question doive dépendre de la probabilité de E: si par exemple
l'expérience consiste à jeter deux dés, il ne nous semblerait pas spécialement étonnant
d'apprendre que la somme des dés est paire (événement de probabilité ^); nous serions
par contre plus étonnés d'apprendre que cette somme vaut douze puisque la probabi-
lité en est ^-.
36
Nous allons nous attacher dans ce qui suit à quantifier la notion de surprise. Pour
commencer, admettons que la surprise que nous éprouverons consécutivement à la
réalisation d'un événement E ne dépendra que de la probabilité de E. On notera S(p)
la surprise créée par la réalisation de tout événement de probabilité p. Nous allons
essayer de déterminer la forme de S en nous fixant préalablement un ensemble de
conditions intuitivement acceptables que S devra satisfaire. Les propriétés de S ne
devront être déterminées que par ces conditions; tout au long de ce qui suit on
considérera S définie pour toute valeur de p comprise entre 0 (exclusivement) et 1
(inclusivement): la fonction S ne sera pas définie pour des événements de probabilité
nulle.
Notre première condition n'est que la traduction du fait intuitif qu'il n'y aura pas
de surprise à apprendre qu'un événement certain est effectivement arrivé.
Axiome 9.6
S(l) = 0
Notre seconde condition sera que plus un événement est improbable, plus grande
sera notre surprise.
Axiome 9.7
S est une fonction strictement décroissante de p, c'est-à-dire que si p < q alors
(S(p) > S(q).
La troisième condition est l'expression mathématique de l'opinion qu'une petite
variation de p devrait n'entraîner qu'une faible variation de S(p).
Axiome 9.8
S est une fonction continue.
Pour étayer la dernière condition, considérons deux événements indépendants E
et F deprobabilités respectives P{E) = pet P(F) = q. Comme P(EF) = pq, la surprise
correspondant à l'apparition simultanée de E et F est S{pq). Supposons maintenant

que l'on apprenne d'abord que E est survenu, puis plus tard que F est survenu
lui aussi. La surprise créée par la réalisation de E étant S(p), on peut dire que
S(py) — S(p) représente la surprise additionnelle créée par le fait que F survienne.
Mais F étant indépendant de E, l'information sur E ne change pas la probabilité de
F; la surprise additionnelle doit donc être S(q) simplement. Ce raisonnement suggère
la dernière condition.
Axiome 9.9
S(pq) = S(p) + S(q) 0<A><1,0<<?<1
Nous avons maintenant les éléments nécessaires pour énoncer le théorème 9.10 qui
va nous livrer l'expression analytique de S.
Théorème 9.10
Si S satisfait les axiomes 9.6 à 9.9, alors
S(p) = -C\og2p
où C est un entier positif quelconque.
DÉMONSTRATION. De l'axiome 9.9 il résulte que
S(p2) = S(p) + S(p) = 2S(p)

et par induction
S(pm) = mS(p) (9.4)
Ceci permet d'écrire que pour tout entier n
S{p) = S(pUn • •
ce qui entraîne à son tour que
S(pl/n) (9.5)
De (9.4) et (9.5) on tire
S(pm/n)
qui est équivalent à

S(px) = S(p) (9.6)
pour autant que x soit rationnel positif. En vertu de l'axiome 9.8 (continuité de S),
la relation (9.6) reste vraie pour toute valeur non négative de x (le lecteur peut
l'établir).
9.3.3 Cas de variables conjointes
Considérons deux variables aléatoires X et Y prenant leurs valeurs dans respective-

ment {x„ x2,..., xn\ et {_)>, y2,.., yj, leur loi de probabilité conjointe étant
pU-, y,-) = P{X = xt, Y = y,}
On calcule grâce à cette loi conjointe l'incertitude H(X, Y) attachée au vecteur

aléatoire (X, Y):
H(X, Y) = - I I p(x„ y,) log p(x„ y,-)
1
Dans le reste de ce chapitre nous écrirons log .x pour log,*. On continuera d'écrire In x pour
désigner log^ x.
Admettons maintenant que l'on ait observé que Y = y y La quantité restante d'incerti-
tude sur X est dès lors
Wy = J / (X) = -Y, p(xt | y,) log p(Xi | y,-)
i
OÙ
pU,|y,) = P{X = ;c,|Y = y,}
Aussi écrira-t-on comme suit l'incertitude moyenne associée à X après observation
de Y:
Hy(X) = lHY.yi(X)pY(y,)
i
où
M y / ) = J , {V = y,-}
Le théorème 9.11 se propose de mettre H(X, Y), H(Y) et Hy(X) en relation. Il

établit que l'incertitude associée à Xet Y est égale à celle associée à Y plus celle restant
sur X une fois que Y a été observée.
Théorème 9.11
H{X, Y) = H(Y) + HY(X)
DÉMONSTRATION. On utilise l'identité p{xt, y;) = py(y/)p(x,|y,) qui entraîne

H{X, Y) = - I I p(x„ y,) log pU„ y;)
' i
= - I I Pv (y>)pU I y>)[log Pv (y>) + log p(x, | yy)]
= - I Pv(yj) log Pv (y,) I p(Xi | yy)
- I Pv (y;) I p(*i I y>) log P(X, | y,)

i '
Un résultat fondamental de la théorie de l'information est que l'incertitude asso-

ciée à une variable aléatoire X diminuera, en moyenne, si l'on peut observer une autre
variable Y. Avant de démontrer cela on notera que pour tout réel positif x,
lnxsx-1 JC>0 (9.7)
et l'égalité n'a lieu que lorsque x = 1. La démonstration est laissée en exercice.

Théorème 9.12
HY(X)sH(X)
et l'égalité a lieu si et seulement si X et Y sont indépendantes.
DÉMONSTRATION.
HY (X) - H(X) = - I l p{Xi | y,) log [p(x, | y,)]p(y,)

• i
+lï.p{Xi,yj)\o%p{xi)
• i
= IZp(*i,yy)log[-^rl
i i LpU|y,)J
< log e I I p(Xi, yt) P *' - 1 en application de (9.7)
' i lp(Xi\yj) J
= log e [ i I pixMyj) - I l P(xt, y,)]
= log e[l - 1]
= 0 .
9.4 THÉORIE DU CODAGE ET ENTROPIE
9.4.1 Efficacité d'un code
Imaginons qu'il faille transmettre la valeur prise par une variable discrète X d'un
point A, où on l'observe, jusqu'à un point B, ceci grâce à un système de communica-
tion ne véhiculant que des 0 ou des 1. La première chose à faire est de coder les diverses
valeurs que X peut prendre pour les transformer en chaînes de 0 et de 1. Pour éviter
toute ambiguïté on exige normalement qu'il soit impossible de former un code
simplement en ajoutant quelque chose à un autre.
A titre d'exemple supposons que X puisse prendre l'une des quatre valeurs x{, x2,
x3, JC4. Un des codes auxquels on peut penser serait:
x, <->00
x3 <-> 10
x4*+ 11
Ceci signifie que lorsque X = x„ le message envoyé en B est 00, qu'il est 01 lorsque
X = x2, etc. Mais on peut aussi coder ainsi:
X2 *"» 10 /Ç) g\
X3~110
JC4 «-> 111
Par contre, le codage
x2*-> 1
x3<-»00
n'est pas admis car les codes correspondant à x3 et x4 sont des extensions du code
de X|.
L'un des objectifs ordinairement assignés au codage est de minimiser le nombre
moyen de bits (c'est-à-dire de chiffres binaires) qui seront nécessaires pour transmettre
le message de A à B. Supposons par exemple que
P{X = *,} = \
P{X = x2} = i
P{X = x3} = ï
Le code donné par (9.9) utilisera en moyenne j(l) + ]-(2) + l-(3) + ^(3) = 1,75 bits;
mais le code donné par (9.8) aura en moyenne besoin de 2 bits. Aussi dit-on, pour
cette distribution de X, que ce dernier est moins efficace que l'autre.
9.4.2 Efficacité maximale d'un code sans bruit
Les considérations qui précèdent soulèvent la question suivante: pour une variable
X donnée, quelle est l'efficacité maximale que puisse présenter un codage? La réponse
est que pour tout codage il faudra transmettre un nombre de bits moyen au moins
égal à l'entropie de X. Nous allons démontrer ce résultat, connu en théorie de
l'information sous le nom de théorème du codage sans bruit, en deux phases.
Théorème 9.13
Soient X une variable aléatoire et {xt, x2,..., xN} l'ensemble des valeurs qu'elle peut
prendre. Pour que des chaînes binaires de longueurs respectives «,,..., nN constituent
un codage des valeurs de X (sans que certains codes ne constituent des extensions
d'autres codes), il faut et il suffit que
I (I)"' s 1
i=l
DÉMONSTRATION. Soient N entiers positifs notés «„..., nN. Désignons par w- le nombre
des «, valant j , j = 1, 2,.... Il est évident que si nous voulons obtenir un codage
exprimant pour tout i = 1,..., JV la valeur xf en «, bits, il est nécessaire que w, ^ 2.
Comme de plus il est exclu qu'une chaîne binaire constitue une extension d'une autre,
on aura w2 ^ 22 — 2vv, (ceci résulte du fait qu'au nombre 22 de chaînes de longueur
2 il faut soustraire le nombre 2w{ des séquences qui ne sont qu'une extension des
chaînes de longueur 1 déjà utilisées). Le même raisonnement permet d'établir de
manière générale que
w„ < 2" - Wi2 - w22"~z w n _,2 (9.10)
pour n = 1,.... Le lecteur peut en fait se convaincre en réfléchissant tant soit peu que
ces conditions sont également suffisantes pour qu'il existe un codage traduisant x, en
une chaîne de longueur «,, i = 1,..., N. On peut réécrire (9.10):
wn + wn-i2+ w„_222 + - • • + ^ , 2 " " ' < 2" n = 1,...
Une division par 2" livre une nouvelle expression de nos conditions nécessaires et
suffisantes:
£ w,(!)''< 1 pour tout n (9.11)
y-i
La suite des termes £" w- (^y

i
étant croissante et bornée par 1, il en resuite que (9.11)
./= i
équivaut à: °°
I WyGV ^ 1
>=1
Le résultat est ainsi acquis puisque par définition des w-, qui représentent le nombre
des n, de longueur /',
I w,(î)y = I (!)"••
>=i i-i B
Nous sommes maintenant en mesure de démontrer le théorème principal.
Théorème 9.14 Théorème du codage sans bruit

Soit X une variable aléatoire pouvant prendre les valeurs x^,..., xN avec pour probabi-
lités respectives p(xj,..., p(xN). Tout codage de X traduisant xi grâce à n, bits
utilisera un nombre moyen de bits supérieur ou égal à l'entropie de X:
N N
I niP(Xi) > H(X) = - I p{xt) logp(x,)
i=i /=i
IN
DÉMONSTRATION. Posons P\ = p{xt), <?, = 2 "> / £ 2~\ i = 1 , . . , N. Alors
/ ;= 1
N ( p\ N /p\
iog = lo8e p ln
-,?/- w) - ,?, ' u)
=loge I P, In (j?)
< log e I />(%• - 1 ) en vertu de (9.7)

i=l \Pi I
N N
= 0 puisque Y. P = I <?. = 1
i=l i=l
Donc
- Z PtlogP,*-Z P.logq,
i=l i=l
N I N \
= I nfi + log ( I 2-'
i=i \/=i
s £ n,F, en vertu de théorème 9.13 •

i=i
Exemple 9.7 On considère la variable aléatoire X de loi
pUi) = 2 PU2) = I p(JC3) = P(JC4) = s

On sait que
H(X) = -ti\og± + i\ogï + 1/4ogi]

- 1 + 2 + 2
— 2 + 4 + 4
= 1.75
Il résulte alors du théorème 9.14 qu'il n'existe pas de codage plus efficace que
Xi <-»0
x2<-> 10
X3<-»110
JC4 -ï-^- 1 1 1 •
9.4.3 Borne pour codage non optimal
Dans la plupart des cas il n'existe pas de codage dont l'efficacité atteint la borne
correspondant à H(X). Il est cependant toujours possible de créer un codage tel que
le nombre moyen de bits utilisé s'approche de H(X) à moins d'une unité. Pour
l'établir, il suffit de considérer les entiers «, satisfaisant
-log p(xi) < n, < -log p(x,) + 1
pour i = 1,.., N. La première inégalité entraîne

N N N
I 2-"' < Z 2 ,ogpU ' ) = Z P(*i) = 1
i-l i=l i=l
et donc, en vertu du théorème 9.13, il existe un codage des valeurs JC, de X par des
chaînes de longueur «,, / = 1,..., N. La longueur moyenne de ces chaînes est
N
L = Z n.piXi)
i=i
satisfaisant
- I p(x,) log p(Xi) =s L s - £ p( Xi ) log p(x,) + 1

i=l i=l
ou enfin
H(X) s L < H ( X ) + 1
Exemple 9.8 On jette dix foix une pièce tombant sur face avec probabilité p. Les jets
sont indépendants. On désire transmettre le résultat en un point B, alors que l'expé-
rience est réalisée en un autre point A. Le résultat de cette expérience est donc un
vecteur aléatoire X = (Xt,..., Xl0) où Xj = 1 ou 0 selon que le jet correspondant a
ou n'a pas donné face. Les résultats précédents établissent que le nombre moyen L
de bits nécessaires à la transmission satisfera pour tout codage
H(X) < L
et qu'on aura pour un codage au moins
L<H(X) +1
Or les Xj sont indépendantes et il résulte donc des théorèmes 9.11 et 9.12 que
H ( X ) = H ( X , , . . . , X , ) = £ H(X,)
= -10[plogp + ( l - p ) l o g ( l - p ) ]
Pour p = i on trouve H{X) = 10. Dans ce cas on ne peut pas faire mieux que coder
X grâce à ses composantes. Si par exemple les cinq premiers jets donnent face et les
cinq derniers pile, il suffit de transmettre en B le message 1111100000.
Si par contre p / \ il sera souvent possible de faire mieux que ce dernier codage.
Pour p = - par exemple,
H ( X ) = - 1 0 ( i l o g i + | l o g | ) = 8.11
et il existe donc un codage dont la longueur moyenne ne dépassera pas 9,11.

Un codage simple qui serait ici plus efficace que le codage trivial consiste à dé-
composer d'abord le vecteur (Xt,..., XU)) en cinq paires de variables puis à convertir
chaque paire comme suit:
Xi = 0 , X 1 + I =0<-»0
Xi = 0,X j + 1 = l*-> 10
Xt = 1,X,+I = 0 < H > 1 1 0
Xi = 1,X,+ 1 = 1** 111
où / = 1,3, 5, 7, 9. Le message total est constitué des messages partiels mis bout à
bout. Si par exemple on observe P P P F F P P P P F il faudra émettre 010110010.
La longueur moyenne du message en bits est pour ce codage
9.4.4 Codage en cas de bruit
Nous avons jusqu'ici supposé que le message émis en A était reçu sans erreur en
B. Cependant, une erreur peut toujours résulter des perturbations aléatoires agissant
sur le canal de communication. Il peut arriver qu'à cause d'une telle perturbation un
message émis sous la forme 00101101 en A parvienne en B sous la forme 01101101.
Supposons qu'un bit émis en A soit correctement enregistré en B avec probabilité
p, et ce indépendamment d'un bit à l'autre. Un tel système de communication est
appelé canal binaire symétrique. Admettons encore que p = 0,8 et qu'on veuille
transmettre un message constitué d'une grande quantité de bits de A à B. La transmis-
sion du message tel quel entraînera une probabilité d'erreur de 0,2 par bit, ce qui est
plutôt fort. Un moyen de réduire ce taux d'erreur consiste à émettre trois fois
consécutivement chaque bit du message puis à décoder en appliquant le système
majoritaire. Cela revient en d'autres termes à utiliser le codage
Encodage Décodage
000
001
0->000
010
100
111
110
1 -• 111 101
011J
On remarquera que tant qu'une erreur au plus se produit lors de la transmission,

le décodage restitue la valeur correcte. La probabilité d'erreur par bit est donc
ramenée a
(0.2)5 + 3(0.2)2(0.8) = 0.104
ce qui constitue une amélioration notable. Il est évident qu'on peut rendre le taux
d'erreur aussi petit que l'on veut en répétant le bit à transmettre de nombreuses fois
puis en décodant selon le système majoritaire. Le codage suivant, par exemple
réduirait le taux d'erreur par bit à moins de 0,01:
Encodage Décodage
0 -> chaîne de 17 «0» à la majorité

1 -» chaîne de 17 « 1 »
Le problème avec ce type de codage est que, tout en réduisant le taux d'erreur, on
réduit aussi le nombre de bits significatifs par signal (voir tableau 9.1).
Tableau 9.1 Codage par répétition des bits

Probabilité d'erreur Débit des bits
de transmission par bit significatifs
0.20 1
0.10 0.33 ( = 1/17)
0.01 0.06 ( = ^
A ce point de l'exposé, il apparaîtra peut-être au lecteur inévitable que l'abaisse-

ment de la probabilité d'erreur par bit vers 0 s'accompagne toujours d'un abaissement
du débit effectif vers 0 également. Or, et c'est un résultat remarquable de la théorie
de l'information, ce n'est pas le cas. Ce résultat, connu sous le nom de théorème du
codage avec bruit, est dû à Claude Shannon. En voici l'énoncé.
Théorème 9.15 Théorème du codage avec bruit

Il existe un nombre C tel que pour tout R < C et pour tout e > o il y ait un système
de codage et décodage transmettant au taux moyen de R bits par signal et avec une
probabilité d'erreur par bit inférieure à e. La plus grande valeur1 que l'on puisse
donner à C, notée C*, est appelée capacité du canal et vaut, pour les canaux binaires
symétriques
C* = 1 + plogp + (1 - p ) l o g ( l - p)
9.5 EXERCICES THÉORIQUES ET PROBLÈMES
9.5.1 Des clients arrivent dans une banque à un rythme poissonien de taux X.
Supposons que deux clients arrivent durant la première heure. Quelle est la probabilité
que
• les deux soient arrivés durant les 20 premières minutes?
• L'un au moins soit arrivé pendant les 20 premières minutes?
9.5.2 Sur une autoroute les voitures franchissent une ligne transversale à un rythme
décrit par un processus poissonien de taux par minute X = 3. Joe traverse l'autoroute
sans regarder. Quelle est alors la probabilité qu'il ne soit pas blessé s'il met s secondes
pour traverser? (on suppose que s'il se trouve sur la route alors qu'une voiture passe,
il sera blessé). Prendre ,v = 2, 5, 10, 20.
9.5.3 Supposer, dans le scénario du problème 9.5.2, que Joe est assez agile pour
échapper à une seule voiture, mais que s'il rencontre 2 ou plusieurs voitures en
' Voir au problème 9.6.18 une interprétation de C* en termes d'entropie.

essayant de traverser la route, il sera blessé. Quelle est la probabilité qu'il ne soit pas
blessé s'il met s secondes pour traverser? Prendre s = 5, 10, 20, 30.
9.5.4 On suppose que 3 boules blanches et 3 boules noires sont réparties dans deux
urnes de façon que chacune de celles-ci contienne trois boules. On dira que le système
est dans l'état i si la première urne contient /' boules blanches, / = 0, 1, 2, 3. A chaque
étape une boule est tirée de chaque urne, puis la boule tirée de la première urne est
placée dans la deuxième et inversement. Soit X„ l'état du système après la «-ième
étape; calculer les probabilités de transition de la chaîne de Markov {X„, n ^ 0}.
9.5.5 Considérer l'exemple 9.1. S'il y a 50 chances sur 100 qu'il pleuve aujourd'hui,
calculer la probabilité qu'il pleuve pendant 3 jours à partir d'aujourd'hui lorsque
a = 0,7 et p = 0,3.
9.5.6 Calculer les probabilités limites correspondant au modèle du problème 9.5.4.
9.5.7 Une matrice de probabilités de transition est dite doublement stochastique si

M
1 ^ =1
pour tous les étatsy = 0,1,..., M. Si une telle chaîne de Markov est ergodique, montrer
que II, = 1/(M + 1), j = 0 , 1 , . . . , M.
9.5.8 Un jour donné, Buffy est soit de bonne humeur (b), soit comme-ci comme-ça
(c), soit mélancolique (m). Si elle est de bonne humeur aujourd'hui, elle sera b, c ou
m demain avec probabilité 0,7,0,2,0,1 respectivement. Si elle est comme-ci comme-ça
aujourd'hui, elle sera b, c ou m demain avec probabilité 0,4, 0,3, 0,3 respectivement.
Si elle est mélancolique aujourd'hui, elle sera b, c ou m demain avec probabilité 0,2,
0,4, 0,4 respectivement. Quelle proportion de temps Buffy est-elle de bonne humeur?
9.5.9 Supposons que le fait qu'il pleuve ou non demain ne dépende que des conditions
météorologiques des deux derniers jours. Plus précisément, supposons que s'il a plu hier
et aujourd'hui, il pleuvra demain avec probabilité 0,8; s'il a plu aujourd'hui mais pas
hier, il pleuvra demain avec probabilité 0,4 et s'il n'a plu ni hier ni aujourd'hui, il
pleuvra demain avec probabilité 0,2. Quel est le pourcentage de jours pluvieux?
9.5.10 Un homme fait une promenade tous les matins. Lorsqu'il quitte la maison pour
sa promenade, il emprunte avec équiprobabilité la porte de devant ou celle de derrière
et de même, au retour, il rentre avec équiprobabilité par la porte de devant ou de
derrière. Le promeneur possède 5 paires de chaussures de marche qu'il ôte, après la
promenade, devant la porte qu'il emprunte pour rentrer. S'il ne trouve pas de
chaussures devant la porte, en sortant de chez lui, il se promènera pieds nus. On veut
déterminer le pourcentage de promenades qu'il effectue pieds nus.
a) Représenter cette situation par une chaîne de Markov. Donner les états et les
probabilités de transition.
b) Déterminer le pourcentage de promenades qu'il effectue pieds nus.
9.5.11 Reprenez l'exemple 9.6.

a) Vérifiez que la valeur proposée des IL satisfait les relations nécessaires.
b) Pour une molécule quelconque, quelle est, à votre avis, la probabilité limite qu'elle
se trouve dans l'urne 1.
c) Pensez-vous que les événements «la molécule j est dans l'urne 1 après un long
moment», j > 1, sont (à l'infini) indépendants?
d) Expliquer comment on obtient ces probabilités limites?
9.5.12 Déterminer l'entropie de la somme obtenue lors du jet d'une paire de dés non
pipés.
9.5.13 Soit Xune variable pouvant prendre n valeurs différentes avec pour probabilités
respectives /»„..., P„. Montrer que H(X) est maximale lorsque Pt = 1/n, i = 1,..., n.
Que vaut H(X) dans ce cas?
9.5.14 Une paire de dés non pipés est lancée. Soit
y _ j1 si la somme est 6
[0 sinon
et soit Y la valeur montrée par le premier dé. Calculer H(Y), Hy(X) et H(X, Y).
9.5.15 Une pièce ayant une probabilité p =2/3de tomber sur face est lancée 6 fois.
Calculer l'entropie du résultat de l'expérience.
9.5.16 Une variable aléatoire peut prendre les valeurs xu..., x„ avec probabilités
respectives p(x,), i = 1,..., n. On essaie de déterminer la valeur de X en posant une
série de questions, les seules réponses possibles étant oui ou non. Par exemple, on peut
demander «X est-elle égale à x,?» ou «X est-elle égale à x{ ou x2 ou x3?», et ainsi de
suite. Que pouvez-vous dire sur le nombre moyen de questions nécessaires pour
déterminer la valeur de XI
9.5.17 Montrer que pour toute variable aléatoire discrète X et toute fonction/on a
H(f(X)) < H(X)
9.5.18 Lors de la transmission d'un bit d'un point A à un point S, si on désigne

par X la valeur du bit émis de A puis par Y la valeur reçue en B, alors H(X) — HY(X)
est appelé taux de transmission de l'information de A à B. Le taux maximal de
transmission, en tant que fonction de P{X = 1} = 1 — P{X = 0}, est appelé capacité
du canal. Montrer que pour un canal binaire symétrique avec P{ Y = 11X = 1}
= P{Y = 0 1 ^ = 0} = p, la capacité du canal est atteinte par le taux de trans-
mission de l'information quand P{X = 1} = 1/2 et sa valeur est 1 + p log p
+ (1 - p) log (1 - p).
9.6 RÉFÉRENCES
Les références suivantes concernent les paragraphes 9.1 et 9.2
Kemeny, J., L. Snell, and A. Knapp. Denumerable Markov Chains. New York: D. Van Nostrand Company,
1966.
Parzen, E. Stochaslic Processes. San Francisco: Holden-Day, Inc., 1962.
Ross, S. M. Introduction to Probability Models, 3rd éd. New York: Academic Press, Inc., 1984.
Ross, S. M. Stochaslic Processes. New York: John Wiley & Sons, Inc., 1983.
Les références suivantes concernent les paragraphes 9.3 et 9.4

Abramson, N. Information Theory and Coding. New York: McGraw-Hill Book Company, 1963.
McEliece, R. Theory of Information and Coding. Reading, Mass.: Addison-Wesley Publishing Co., Inc., 1977.
Peterson, W., and E. Weldon. Error Correcting Codes, 2nd éd. Cambridge, Mass.: The M.I.T. Press, 1972.
CHAPITRE 10
Simulation
10.1 INTRODUCTION
10.1.1 Exemple de situations à simuler
Comment peut-on déterminer la probabilité de gagner une partie de solitaire?

(nous entendons par solitaire n'importe quelle version connue du jeu utilisant un
paquet de 52 cartes normales et basée sur une stratégie fixe). Une méthode consiste
à admettre l'hypothèse raisonnable d'équiprobabilité des (52)! permutations possibles
des cartes, puis à déterminer combien parmi celles-ci sont gagnantes. Il ne semble
malheureusement pas aisé de mettre au point un critère systématique discriminant les
permutations gagnantes: (52)! est un nombre fort grand et il semble qu'il n'y ait pas
d'autre moyen de savoir si une permutation mène à une réussite que déjouer la partie.
Cette approche ne conviendra pas.
Il apparaît à ce point que la détermination de la probabilité de gagner échappe au
traitement mathématique. Cependant les choses ne s'arrêtent pas là car les probabili-
tés sont du domaine des sciences appliquées comme de celui des mathématiques; or
dans toutes les sciences appliquées l'expérimentation est fort utile. Dans le cas de
notre partie de solitaire, par exemple, l'expérimentation revient à exécuter un grand
nombre de parties ou mieux encore à programmer un ordinateur pour qu'il le fasse.
Après l'exécution de, disons, n parties on pourra poser
_ f 1 si le i-ème jeu est une victoire

' \o sinon
Les variables Xs, i = 1,..., n seront alors des variables de Bernoulli pour lesquelles
E[Xj] = P{gagner une partie}
D'après la loi forte des grands nombres, nous saurons que
" Xi _ nombre de parties gagnées

i=i n nombre de parties jouées
tendra avec probabilité 1 vers la probabilité de gagner une partie. Ou encore, on peut
dire qu'après un grand nombre de parties on peut utiliser la proportion de parties
gagnées sur le nombre total de parties pour obtenir une estimation de la probabilité
cherchée. La méthode consistant à déterminer des probabilités de manière empirique
à travers l'expérimentation est appelée simulation.
10.1.2 Procédé de simulation
Dans le but d'utiliser un ordinateur pour mener une étude de simulation, on doit
pouvoir générer les valeurs d'une variable aléatoire uniforme sur (0, 1); ces valeurs
sont appelées des nombres aléatoires. Pour générer ces nombres, la plupart des
ordinateurs possèdent une fonction prédéfinie appelée générateur de nombres aléatoi-
res, qui produit une suite de nombres pseudo-aléatoires. C'est une suite de nombres
qui, pratiquement, est semblable à un échantillon issu d'une distribution uniforme sur
(0, 1). La plupart des générateurs de nombres aléatoires procèdent en se basant sur
une valeur initiale X0, appelée le germe, puis en calculant selon un processus recursif
les valeurs suivantes à l'aide de nombres prédéterminés a, c et m, selon la formule
Xn+l = (aXn + c) modulo m n>0
Ceci signifie que aX„ + c est divisé par m et que l'on assigne à X„+l le reste de cette
division. Chaque X„ peut donc prendre des valeurs dans 0, 1,..., m—1 et c'est la
quantité X„/m qui est prise comme approximation d'une variable aléatoire uniforme
sur (0, 1). On peut montrer qu'avec des choix convenables de a, c et m, cette méthode
produit une suite de nombres qui semblent provenir de l'observation de variables
aléatoires indépendantes uniformes sur (0, 1).
Pour simuler des variables de distribution quelconque, nous admettrons désormais
que nous disposons déjà d'un simulateur de variable uniforme sur (0, 1) et nous
utiliserons le terme «nombres aléatoires» pour désigner les variables aléatoires indé-
pendantes ayant cette distribution.
Dans l'exemple du solitaire nous aimerions programmer un ordinateur pour jouer
la partie en partant avec un certain arrangement des cartes. Cependant, étant donné
que la configuration initiale est l'une des (52)! permutations possibles, et ceci avec la
même probabilité, par hypothèse, il est également nécessaire de pouvoir générer une
permutation aléatoire. L'algorithme suivant montre comment, seulement à partir de
nombres aléatoires, on peut l'obtenir. L'algorithme commence par le choix aléatoire
d'un des éléments et le place à la position n; puis il prend un autre élément au hasard
parmi ceux qui restent et le met en position n— 1; et ainsi de suite. Le choix parmi les
éléments restants se fait de manière efficace en maintenant ceux-ci dans une liste
ordonnée et en sélectionnant au hasard une position dans cette liste.
Simulation 427
Exemple 10.1 Génération d'une permutation aléatoire

Supposons que l'on s'intéresse à générer une permutation des entiers 1,2,..., n telle que
les n\ arrangements possibles soient équiprobables. On commencera avec n'importe
quel arrangement et on obtiendra la permutation désirée après n — 1 étapes où à
chaque étape on intervertira les positions de deux des nombres de la permutation. On
gardera en permanence trace de la permutation en notant X(i), i = 1,..., n, le nombre
qui se trouve actuellement en position /'. L'algorithme procède comme suit:
1. Considérer une permutation arbitraire et noter X(i) l'élément qui est placé dans la
position i, i = 1,..., n. (Par exemple, on pourrait prendre X(i) = i, i = 1,..., n).
2. Générer une variable aléatoire N„ qui peut prendre les valeurs 1, 2,..., n de façon
équiprobable.
3. Intervertir les valeurs de X(N„) et de X(n). Désormais la valeur de X{n) sera gardée
fixe. [Par exemple, prenons n = 4 et au départ X(i) = i, i = 1, 2, 3, 4. Si NA = 3,
alors la nouvelle permutation est X(\) = 1, X{2) = 2, XÇ>) = 4, AX(4) = 3 et
l'élément 3 sera maintenu à la position 4.]
4. Générer une variable aléatoire Nn_x qui vaudra 1, 2,..., «—1 avec équiprobabilité.
5. Intervertir les valeurs de X(N„_i) et de X(n— 1). [Si maintenant N3 = 1, alors la
nouvelle permutation est AX(l) = 4, X(2) = 2, X(3) = 1 et X(4) = 3].
6. Générer une variable aléatoire Nn_2 à valeurs dans {1, 2,..., n —2} avec équiproba-
bilité.
7. Intervertir les valeurs de X(N„_2) et de X(n — 2). [Si N2 = 1 alors la nouvelle
permutation est X(l) — 2, X(2) = 4, ^(3) = 1, X(4) = 3 et c'est la permutation
finale].
8. Générer N„_3, et ainsi de suite. L'algorithme continue jusqu'à la génération de N2
et, après l'interversion correspondante, la permutation résultante est la permuta-
tion cherchée.
Pour exécuter cet algorithme, il est nécessaire de pouvoir générer une variable
aléatoire qui prend les valeurs 1, 2,..., k avec équiprobabilité. Pour le réaliser, noter
U un nombre aléatoire - c'est-à-dire que U est uniformément distribué sur (0, 1) - et
remarquer que kU est uniforme sur (0, k). Ainsi,
P{i - 1 < kU < i} = - i=l k

k
et en prenant Nk = [kU] + 1, où [x] est la partie entière de x (c'est-à-dire le plus grand

entier inférieur ou égal à x), alors Nk aura la distribution voulue.
L'algorithme peut se résumer de la manière suivante:
Etape 1: Choisir A"(l), X(2),..., X(n), une des permutations de 1, 2,..., n. (Par exemple,
poser X(i) — i, i = 1,..., n).
Etape 2: Poser I = n.
Etape 3: Générer un nombre aléatoire U et poser N = [IU] + 1.
Etape 4: Intervertir les valeurs de X(N) et de X(I).
Etape 5: Diminuer I de 1 et si I > 1 aller à l'étape 3.
Etape 6: A'O), X(2),..., X(n) est la permutation aléatoire cherchée. •
L'algorithme précédent, qui génère une permutation aléatoire, est extrêmement

utile. Par exemple, supposons qu'un statisticien désire développer une expérience pour
comparer les effets de m traitements différents sur un ensemble de n individus. Il
décide de partager les individus en m groupes distincts d'effectifs respectifs «,, n2,...,
m
nm, où £ « / = n, et tels que les membres du groupe i reçoivent le traitement i. Pour éviter
toute sorte de biais lors de l'affectation des individus aux groupes de traitement
(l'interprétation des résultats de l'expérience pourrait être faussée s'il s'avérait que les
«meilleurs» sujets étaient assignés au même groupe, par exemple), il est impératif que
cette affectation d'un individu à un groupe donné soit faite de façon «aléatoire».
Comment réaliser cette répartition? '
Une procédure simple et efficace consiste à numéroter de façon arbitraire les
individus 1, 2,..., n puis à générer une permutation aléatoire X(\),..., X(n) de 1, 2,...,
n. Affecter alors les individus X(l), X(2),..., X(nt) au groupe 1, X{n{ + 1),...,
X(nt + n2) au groupe 2 et de façon générale le groupe j sera composé des individus
numérotés X(nx + n2 +... + «,._, + k),k = 1,..., n,,
10.2 TECHNIQUES GÉNÉRALES POUR LA SIMULATION DE

VARIABLES ALÉATOIRES CONTINUES
Dans cette section nous présenterons deux méthodes générales, basées sur l'utilisa-
tion des nombres aléatoires, pour simuler des variables aléatoires continues.
10.2.1 Méthode de la transformation inverse
Sur le théorème qui suit est basée une méthode générale pour la simulation de
variables aléatoires continues, appelée méthode de la transformation inverse.
Théorème 10.1
Soit une variable uniforme U sur (0, 1) et soit F une fonction de répartition continue
quelconque. La variable aléatoire Y définie par
Y = F\U)
a F pour fonction de répartition (F'l(x) désigne la valeur y pour laquelle

F(y) = x).
DÉMONSTRATION.
FY(a) = P{Yâ\
= P{F'(U) < a} (10.1)
La fonction F étant monotone, on peut écrire que F~\U) ^ a équivaut à
U < F(a). Placée dans (10.1) cette transformation donne
1
Dans le cas m = 2, une autre technique pour la répartition aléatoire des individus est présentée
dans l'exemple 6.12 du chapitre 6. La procédure générale est plus rapide mais nécessite plus de
place en mémoire que celle de l'exemple 6.12.
Simulation 429
Fr(a) = P{U^F(a)}
= F{a) m
Selon le théorème 10.1, nous pouvons simuler une variable aléatoire A-de fonction
de répartition continue F en produisant un nombre aléatoire U et en posant
X =F~\U).
Exemple 10.2 Simulation d'une variable aléatoire exponentielle

Prenons F(x) = 1 — e v; alors F\y) est la valeur de x telle que
1 - e~x = y
d'où
x = -In (1 - y)
Si U est uniforme sur (0, 1) alors la variable
F-'(U) = -ln(l - U)
sera de distribution exponentielle d'espérance 1. Comme 1 - U est également uniforme

sur (0, 1), il reste que - In U est de distribution exponentielle d'espérance 1. Plus
généralement, comme cX est exponentielle d'espérance c, lorsque X est exponentielle
d'espérance 1, on conclut que - c In U suit une loi exponentielle d'espérance c. •
On peut utiliser les résultats de l'exemple 10.2 pour simuler une variable aléatoire
gamma.
Exemple 10.3 Simulation d'une variable gamma (n, A)

Pour obtenir une simulation d'une variable gamma de paramètres (n, k) où n est
entier, on utilise le fait que la somme de n variables exponentielles de paramètre X et
indépendantes suit la distribution voulue. Par conséquent, si U1,,..., U„ sont des
variables aléatoires indépendantes uniformes sur (0, 1) alors
"1 1 / " \
suit la distribution demandée. •
10.2.2 Méthode de rejet
Supposons que l'on dispose d'une méthode pour simuler une variable aléatoire de
fonction de densité g(x). Sur cette base, on peut simuler une variable aléatoire
continue de fonction de densité f(.x). En effet, on simule d'abord Y ayant la den-
sité g puis on accepte cette valeur générée avec une probabilité proportionnelle à
f(Y)/g(Y).
Plus précisément, soit c une constante telle que
fiy) < c pour tout y

g(y)
Nous appliquons la procédure suivante pour simuler une variable aléatoire de fonc-
tion de densité/.
Méthode de rejet
Etape 1: On simule Y de fonction de densité g et on produit un nombre aléatoire U.
Etape 2: Si U <f(Y) / cg(Y), on pose X = Y. Sinon on revient à l'étape 1.
La figure 10.1 représente graphiquement la méthode de rejet.
A-t-on Oui
Générer Générer un Y
Y - g nombre aléatoire
U cg(Y)
Non
Figure 10.1 Méthode de rejet pour simuler une variable aléatoire X de fonction de
densité /
Le théorème suivant démontre la validité de la méthode de rejet.
Théorème 10.2
La variable aléatoire X générée par la méthode de rejet a la fonction de densité f.
DÉMONSTRATION. Soient X la valeur obtenue et N le nombre d'itérations nécessaire.

Alors
P{X < 4 = P{YN ^ x)
l cgiX))
_
où K = P{U <f(Y)/cg(Y)}. Or la fonction de densité conjointe de Y et de U est,

grâce à leur indépendance,
f(y, u) = g(y) 0<u<l
En utilisant cette expression, on obtient

Simulation 431
P{X < x) = g (y) du dy

K
0<u</(.r)'«S(rl
K
1 (10.2)
En faisant tendre x vers l'infini, comme f est une densité, on a
1 -- f 1
cK
Grâce à l'équation (10.2), on obtient
Ce qui achève la démonstration. •
On peut remarquer les points suivants.

a) Lorsqu'on dit qu'on «accepte la valeur Y avec probabilité f(Y)/cg(Y)»,
cela signifie que l'on génère un nombre aléatoire U et que l'on accepte Y si
U<f(Y)/cg(Y).
b) Comme chaque itération produit, indépendamment d'une autre, un nombre qui
sera accepté avec probabilité P{U <f(Y)jcg{Y)} = K = 1/c, le nombre d'itéra-
tions suit donc une loi géométrique de moyenne c.
Exemple 10.4 Simulation d'une variable aléatoire normale

Pour simuler une variable aléatoire normale standard Z (de moyenne 0 et de variance
1), il faut noter d'abord que la valeur absolue de Z a comme fonction de densité de
probabilité
0 < x < oo (10.3)

'W-JS'"
On commencera par simuler une variable de fonction de densité définie en (10.3) en
utilisant la méthode de rejet où g est une fonction de densité exponentielle de moyenne 1
(dite standard), à savoir
Comme
(10.4)
(_IV _ 1\2Ï
= V2e/Tr exp
^ Vle/it
en prenant c — yj2e/n, grâce à l'équation (10.4) on a
—— = exp
{^}
De ce fait, grâce à la méthode de rejet, on peut simuler la valeur absolue d'une variable
aléatoire normale standard selon la procédure suivante:
a) Générer deux variables aléatoires indépendantes Y et U, Y étant exponentielle
standard et U uniforme sur (0, 1).
b) Si U < exp { — (Y — l)2/2} poser X = Y. Sinon revenir au point a).
Une fois que l'on a simulé une variable aléatoire X de fonction de densité donnée en
(10.3), on peut générer une variable aléatoire normale standard Z où Z vaudra X ou
— X de façon équiprôbable.
Dans l'étape b), la valeur F est acceptée si U < exp { - (Y - l)2/2}, ou de façon
équivalente si - In U > (Y - l)2/2. Cependant, on a montré dans l'exemple 10.2 que
— In U est exponentiel standard, et par conséquent les étapes a) et b) sont équivalen-
tes à
a') Générer deux variables aléatoires indépendantes F, et Y2 exponentielles standard,
b')Si Y2 > (F, - l)2/2, poser X = Yv Sinon revenir en a')-
Supposons maintenant que dans cette procédure on accepte F, - on sait donc que F2
est plus grand que (F, — l)2/2. Que vaut cet écart? Pour répondre à cette question,
rappelons que F2 est exponentiel de moyenne 1, par conséquent, étant donné qu'il
dépasse une certaine valeur, le surplus entre F2 et (F, — l)2/2 (c'est-à-dire «la durée
de vie additionnelle» au-delà du temps (F, — l)2/2) suit également une loi exponen-
tielle de moyenne 1, en vertu de la propriété d'absence de mémoire. En d'autres
termes, si l'on s'arrête à l'étape b'), on obtient non seulement X, la valeur absolue
d'une normale standard, mais encore en calculant Y2 — {Y^ — l)2/2 une variable
aléatoire exponentielle standard (indépendante de X).
Ce qui donne, en résumé, l'algorithme suivant pour simuler une variable exponen-
tielle standard et une variable normale standard indépendantes.
Etape 1: Générer F,, une variable aléatoire exponentielle standard.
Etape 2: Générer F2, une variable aléatoire exponentielle standard.
Etape 3: Si Y2 - (Yt - l)2/2 > 0 poser F = Y2-{YX- l)2/2 et aller à l'étape 4.
Sinon aller à l'étape 1.
Etape 4: Générer un nombre aléatoire U et poser
Simulation 433
[K, Si U < 1/2

\-K, si U > 1/2
Les variables aléatoires Z et Y générées par l'algorithme précédent sont indépendan-

tes; Zest normale de moyenne 0 et de variance 1 et Y est exponentielle standard. (Pour
obtenir une variable normale de moyenne fi et de variance a2, effectuer simplement
la transformation u + aZ).
Le lecteur remarquera que

a) puisque c = y/2e/n « 1,32, alors le nombre de fois où le point 2 est exécuté dans
l'algorithme précédent doit être distribué selon une loi géométrique de moyenne
1,32.
b) De plus, pour générer une suite de variables aléatoires normales standard, on peut
utiliser la variable aléatoire exponentielle Y obtenue à l'étape 3 comme point de
départ pour la génération de la variable normale suivante. Ainsi, en moyenne, on
peut simuler une variable normale en générant 1,64 ( = 2 x 1,32 — 1) variables
exponentielles et en calculant 1,32 termes au carré.
Exemple 10.5 Simulation de variables aléatoires normales par la méthode des coor-
données polaires
On a montré dans l'exemple 6.27 du chapitre 6 que si X et Y sont des variables
aléatoires normales standard indépendantes, alors leurs coordonnées polaires
R = sJX2 + Y2, 9 = Arc tg(Y/X) sont indépendantes. R2 suit une loi exponentielle
de moyenne 2 et 9 est uniformément distribuée sur (0, 2%). Ainsi, si Ux et U2 sont deux
nombres aléatoires alors, grâce au résultat de l'exemple 10.2, on peut poser
/? = ( - 2 1n£/,)l/2
9 = 2nU2
ce qui entraîne que
X = R cos9 = ( - 2 InC/,)"2 cos(2itC/2) , ] n ..

Y = R sinO = ( - 2 lnt/,)" 2 sin(2nU2) (
'
sont des variables aléatoires normales standard indépendantes.

L'approche précédente pour la génération de variables aléatoires normales stan-
dard est appelée l'approche de Box-Muller. Son efficacité souffre quelque peu de la
nécessité de calculer les valeurs du sinus et du cosinus mentionnées. Il existe cependant
un moyen pour réduire la consommation potentielle de temps de calcul. Pour com-
mencer, remarquons que si U est uniforme sur (0, 1) alors 2 U est uniforme sur (0, 2)
et par conséquent 2 U - 1 est uniforme sur (— 1, 1). Si l'on a généré deux nombres
aléatoires U] et U2 et que l'on pose
V, = 2t/, - 1
V2 = 2U2 - 1
alors (Kb V2) est uniformément distribué à l'intérieur du carré d'aire 4 centré en (0, 0)
illustré sur la figure 10.2
(i,D (i, i)
Figure 10.2
Supposons maintenant que nous générons une suite de couples (V1, V2) jusqu'à ce que
nous obtenions un couple qui soit contenu dans un cercle de rayon 1 centré en (0, 0)
- c'est-à-dire jusqu'à ce que (K„ V2) soit tel que V] + V\ < 1. Cela implique que
ce couple (K„ V2) est uniformément distribué à l'intérieur du cercle. Soient R et 9 leurs
coordonnées polaires, il est facile de vérifier que R et 8 sont indépendantes, avec R2
uniformément distribuée sur (0, 1) et 9 uniformément distribuée sur (0,2n) - voir pour
cela le problème 10.5.13.
Comme
on déduit de l'équation (10.5) qu'on peut générer des variables aléatoires X et Y

normales standard indépendantes en générant un autre nombre aléatoire U et en
posant
Or, comme #% sachant que V \ + V\ < 1, a une distribution uniforme sur (0, 1) et
qu'il est indépendant de 9, on peut l'utiliser au lieu de générer un nouveau nombre
aléatoire U; de cette façon on montre que
Simulation 435
Y = ( - 2 In* 2 )" 2 r 2 /tf = / 21

" 5 F2
sont des variables aléatoires normales standard indépendantes, où
S = R2 = V2 + Vl
La procédure suivante résume la méthode pour générer un couple de variables

aléatoires normales standard indépendantes.
Etape 1 : Générer des nombres aléatoires t/, et U2.
Etape 2: Poser K, =2C/, - 1, V2 = 2U2 - 1, S = V] + V\.
Etape 3: Si S > 1 revenir à l'étape 1.
Etape 4: Produire les variables aléatoires normales standard indépendantes
x= h2^Sv^y= hlMy2
La méthode exposée ci-dessus s'appelle la méthode des coordonnées polaires.

Comme la probabilité qu'un point, pris au hasard dans un carré, se trouve à l'intérieur
du cercle estrc/4,l'aire du cercle divisée par l'aire du carré, il s'ensuit que, en moyenne,
la méthode des coordonnées polaires nécessite 4/n = 1,273 itérations de l'étape 1. Par
conséquent, en moyenne, on aura besoin de 2,546 nombres aléatoires, 1 logarithme,
1 racine carrée, 1 division et de 4,546 multiplications pour générer deux variables
aléatoires normales standard indépendantes. •
Exemple 10.6 Simulation d'une variable aléatoire Chi-carré

La loi Chi-carré à «degrés de liberté est la loi de X\ = Z] + • • • + Z 2 o ù Z „ ; = \,...,n,
sont des variables aléatoires normales standard indépendantes. Comme il a été
montré dans la section 6.3.4 du chapitre 6, Z\ + Z\ suit une loi exponentielle de
paramètre Vi. Dans le cas où n est pair, disons n = 2k, X2\ a une distribution gamma
de paramètres (k, Vi). Par conséquent, — 21n (FI*=, U,) a une distribution Chi-carré
avec 2k degrés de liberté. On peut simuler une variable aléatoire Chi-carré avec
2k + 1 degrés de liberté en générant en premier lieu une variable aléatoire normale
standard Z puis en ajoutant Z 2 à la variable Chi-carré précédente. En d'autres termes
A-2, + 1 = Z 2
- 2 1n (nu,
où Z, [/,,..., U„ sont indépendants, Z est normale standard et les autres variables sont
uniformes sur (0, 1). •
10.3 SIMULATION DE VARIABLES ALÉATOIRES DISCRÈTES
10.3.1 Méthode de simulation
Toutes les méthodes générales pour simuler des variables aléatoires continues ont
leur analogue dans le cas discret. Par exemple, supposons que l'on veuille simuler une
variable aléatoire X dont la loi de probabilité est
P{X=Xj} = Pj, y = 0,l,..., 1/^=1

i
On peut utiliser la méthode discrète analogue à celle de la transformation inverse.
Pour simuler X tel que P{X = Xj) = Pj, on considère une variable U continue
uniforme sur (0, 1) puis l'on pose
' Jt, si U < />,
x2 si />, < U < Px + P2
xj si ' s p, < u < i pt

1 /
Comme
p{x = Xj) = p T i ' P,<U<£P\ = ^
X aura la distribution voulue.
10.3.2 Exemples de simulation de variables discrètes
Exemple 10.7 Simulation d'une variable géométrique

Supposons que l'on effectue une suite d'épreuves indépendantes, ayant chacune une
probabilité p, 0 -ip /a 1
qui est clair si l'on remarque que X = /si les (/ — 1 ) premières épreuves résultent en
des échecs et la /-ème épreuve est un succès. La variable aléatoire X est appelée une
variable aléatoire géométrique de paramètre p. Comme
' ï P{X = i} = 1 - P{X>j- 1}

= 1 - P{j — 1 premières épreuves sont des échecs}
= i - (i - Py-* y> i
Simulation 437
on peut simuler cette variable en générant un nombre aléatoire U et en donnant à X

la valeur,/ telle que
1 - (1 - pY'1 < U< 1 - (1 - p)1

(1 - pY < 1 - U < (1 - p)'-{
Comme 1 — U a la même distribution que U, on peut donc définir X par
A- = min {j : (1 - p)' < U}

= mm{j:jln(l - p) < In U}
—1
In
= min \ ./:./>
ln(l
où l'inégalité change de signe puisque In (1 — p) est négatif (en effet, In (1 — p) < In 1

= 0). En notant [x] la partie entière de x (c'est-à-dire que [x] est le plus grand entier
inférieur ou égal à x), on peut écrire
In U
1 +
ln(l -p)
Comme dans le cas continu, des techniques particulières de simulation ont été
développées pour la plupart des distributions discrètes usuelles et certaines vont être
présentées maintenant.
Exemple 10.8 Simulation d'une variable binomiale

Le meilleur moyen pour simuler une variable binomiale de paramètres (n, p) s'appuie
sur le fait que celle-ci peut être exprimée comme la somme de n variables de Bernoulli
indépendantes. Si (/„..., Un sont des variables uniformes sur (0, 1) et indépendantes,
on peut poser
fl si U,• < p
' [0 sinon
et A" s S Xj sera une variable aléatoire binomiale de paramètres n et p. •
Exemple 10.9 Simulation d'une variable aléatoire poissonienne

Pour simuler une variable aléatoire de Poisson de moyenne X, on génère des variables
aléatoires indépendantes uniformes sur (0, 1), U1,, U2,... jusqu'à
N = min In : U U, < e~
La variable aléatoire X s N — 1 a la distribution voulue. En d'autres termes, si l'on

continue de produire des nombres aléatoires jusqu'à ce que leur produit tombe
au-dessous de e~A, alors le nombre de générations nécessaire moins 1 suit une loi de
Poisson de moyenne X.
Que X = N — 1 soit effectivement poissonienne de moyenne X, on peut le voir
facilement en remarquant que
X + 1
est équivalent à
ou, en prenant le logarithme, à
ou encore a
Cependant, — lnU,est exponentielle de paramètre 1 et de ce fait X peut être considéré

comme le nombre maximal de variables exponentielles de paramètre 1 dont la somme
reste inférieure à X. Nous avons vu que les temps d'attente entre deux événements
successifs d'un processus de Poisson de moyenne 1 sont exponentiels de paramètre 1
et indépendants. Ainsi X est égal au nombre d'événements durant un intervalle de
temps X d'un processus de Poisson de paramètre 1 ; par conséquent X a une distribu-
tion de Poisson de moyenne X. m
10.4 TECHNIQUES DE LA REDUCTION DE LA VARIANCE
Soient Xt,..., X„ dont la distribution conjointe est donnée; supposons que l'on
s'intéresse au calcul de
e-EfecXi, • • • .*„)]
où g est une fonction fixée. Le calcul analytique de cette expression s'avère souvent
extrêmement difficile et, dans ce cas, on peut essayer de recourir à la simulation pour
estimer 0. La procédure est la suivante: générer les variables X\i],..., Ar<„l> ayant la
même distribution conjointe que A',,..., A",, et poser
Simulation 439
Simuler alors un deuxième ensemble de variables aléatoires (indépendant du premier

ensemble) X^\..., X™ avec toujours la même distribution que celle de Xu..., X„ puis
poser
y2 = *(xf>, . . . , x < 2 ) )
On continue jusqu'à la génération du k-ième ensemble, où k est un nombre prédéfini,

et jusqu'à la détermination de y,,..., Yk. Or, Y,,..., Yk sont des variables aléatoires
indépendantes et identiquement distribuées ayant chacune la même distribution que
g(Xu..., X„). Si l'on note alors par Y la moyenne de ces k variables aléatoires,
c'est-à-dire
* Y
Y= S T
1=1 k
on a
E[Y] = 6
E[(Y - 6)2] = Var (?)
On peut donc prendre Y comme estimateur de G^Comme l'espérance du carré de la

différence entre y et 9 est égale à la variance de Y, il faudrait que cette quantité soit
aussi petite que possible. [Dans la situation précédente, Var (Y) = Var(y,)/fc, que
l'on ne connaît en général pas à l'avance mais qui doit être estimé à partir des valeurs
générées Yt,..., Y„]. Nous allons maintenant présenter trois techniques pour réduire
la variance de cet estimateur.
10.4.1 Utilisation de variables antithétiques
Dans la situation précédente, supposons que nous ayons généré deux variables Y]
et Y2 identiquement distribuées de moyenne 0. On a
l
Var - [Var (K,) + Var (Y2) + 2 Cov (Yu Y2)]
Var (y,) Cov (F,, Y2)

2 2
Il serait alors avantageux (dans le sens où la variance serait réduite) d'avoir y, et Y2

non pas indépendants mais corrélés négativement. Comment s'arrange-t-on pour
l'obtenir? Supposons que les variables A',,..., Xn sont indépendantes et qu'en plus elles
ont été générées grâce à la technique de la transformation inverse. En clair, X, est
simulée à partir de F~] (£/,) où £/,- est un nombre aléatoire et Ft la distribution de X,.
y, peut donc s'écrire comme
y, = g(Ff'([/,), . . . ,F-\U„))
Or, pour tout nombre aléatoire U, 1 — U est aussi uniforme sur (0, 1 ) et est corrélé
négativement avec U. Y2 défini par
Y2 = StfT'O - Ut), ... ,F~\l - U„))
aura donc la même distribution que y,. Par conséquent, si y, et Y2 ont une corrélation
négative, alors en générant Y2 par cette méthode, on obtiendra une variance plus
petite que s'il provenait d'un nouvel ensemble de nombres aléatoires. (De plus, on
économise des opérations, car au lieu de générer n nombres aléatoires supplémentai-
res, il suffit de soustraire chacun des n nombres précédents de 1). Bien qu'en général
on ne puisse pas être certain que Y, et Y2 soient corrélés négativement, il se trouve que
c'est souvent le cas et on peut effectivement montrer que c'est le cas si g est une
fonction monotone.
10.4.2 Réduction de la variance par conditionnement
Rappelons d'abord la formule de la variance conditionnelle (voir la section 7.6.8

du chapitre 7)
Var (Y) = £[Var(y|Z)] + Var (£[y|Z])
Supposons que l'on s'intéresse à l'estimation de E[g(X^..., X„)] en simulant X =

(A',,... X„) et en calculant Y = g(X). Si pour une variable aléatoire Z on arrive à
calculer £ [ y | Z ] alors, comme Var (y|Z) > 0, on obtient grâce à la formule de la
variance conditionnelle que
Var (£[y|Z]) < Var (Y)
Ceci implique, en plus du fait que £ [ £ [ y | Z ] ] = E[Y], que £ [ y | Z ] est un meilleur

estimateur de E[Y] que Y.
Exemple 10.10 Estimation de TC

Soient U] et U2 des nombres aléatoires et Vi = 2Vi— 1, i = 1, 2. On a vu dans
l'exemple 10.5 que (K,, V2) est uniformément distribué dans le carré d'aire 4 centré en
(0, 0). La probabilité que ce point se trouve à l'intérieur du cercle inscrit de rayon 1
et centré en (0,0) - voir la figure 10.2 - est égale à n/4 (le rapport entre l'aire du cercle
et celle du carré). Par conséquent, grâce à la simulation d'un grand nombre n de
couples ainsi définis et à la définition de
1 si la 7'-ème paire tombe dans le cercle

Ij =
0 sinon
il s'ensuit que Ij,j = 1,..., n sont des variables aléatoires indépendantes, identiquement
distribuées et ayant la même moyenne E[/,-] = TI/4. On a donc, en vertu de la loi forte
des grands nombres, que
Simulation 441
> -n/4 lorsque « —» oo
De ce fait, en simulant un grand nombre de couples (V{, V2) et en multipliant la

proportion de ceux qui se trouvent à l'intérieur du cercle par 4, on obtient une
approximation précise de n.
L'estimateur mentionné ci-dessus peut encore être amélioré en recourant à l'espé-
rance conditionnelle. Soit / la variable indicatrice définie précédemment pour le
couple (K„ V2). Au lieu de considérer la valeur observée de /, il est préférable de
conditionner sur V, et d'utiliser
et ainsi
E[/|V,] = E[VT^~K?]
De cette façon, pour estimer n/4, on obtient une amélioration si l'on utilise non pas
la moyenne de / mais plutôt la valeur moyenne de Vl — V\- Plus précisément, comme
£ [ V l - V]] = J_ i i V l - v2dv = I V l - u2 du = E [ V l - U2]
où U est uniforme sur (0, 1), on peut générer n nombres aléatoires U et prendre la
valeur moyenne de Vl — t/ 2 comme estimation de rc/4. (Le problème 10.5.14 montre
que cet estimateur a la même variance que la moyenne des n valeurs Vl — ^ 2 -)
On peut même encore améliorer cet estimateur de n si l'on remarque que la
fonction g(u) = y/\ — u1, 0 < u < 1 est une fonction monotone décroissante et ainsi
la méthode des variables antithétiques réduira donc la variance de l'estimateur de
E[yjl — U2]. En d'autres termes, plutôt que de générer n nombres aléatoires et de
prendre la valeur moyenne de Vl — U1 comme estimation de n/4, on peut obtenir un
meilleur estimateur en générant seulement M/2 nombres aléatoires U et en prenant la
moyenne de Vl — ^ 2 + >/l — (1 — U)2 divisée par 2 comme estimation de n/4.
La table suivante donne les estimations de 7t résultant de simulations basées sur les
3 estimateurs cités, en prenant n = 10 000.
Méthode Estimation de n
Utilisant la proportion des points aléatoires tombant dans le
cercle 3,1612
Utilisant la valeur moyenne de -Jl — U2 3,128448
Utilisant la valeur moyenne de y/l - U2 + >Jl - (1 - U)2 3,139578
Une autre simulation, qui considère la dernière approche avec n = 64 000, donne
l'estimation 3,143288. •
10.4.3 Variables de contrôle
Supposons de nouveau que l'on veuille estimer £[g(X)], où X = (A"];..., X„), par la
méthode de simulation. Mais maintenant nous supposerons que pour une fonction/
la valeur moyenne de/(X) est connue - à savoir E [/(X)] = fi. Pour toute constante
a, on peut alors prendre
W = g(X) + a[f(\) - y.]
comme estimateur de £[g(X)]. Or
Var (W) = Var [g(X)] + a2 Var [/(X)] + la Cov [g(X), /(X)] (10.6)
Un simple calcul montre que cette expression est minimale lorsque
= - C o v [ / ( X ) , g(X)] (10.7)
° Var [/(X)]
et, pour cette valeur de a, elle vaut
[C
Var (W) = Var [g (X)] - °V [ / ( X ) ' *(X)]]2 «*•*>
lsy n
Var[/(X)]
Malheureusement, Var [/(X)] et Cov [/(X), g(X)] ne sont en général pas connues,
aussi nous ne pouvons obtenir cette réduction de variance. Dans la pratique, une
approche consiste à estimer ces valeurs et à espérer que la variable W obtenue ait
effectivement une variance plus petite que celle de g(X), alors qu'une seconde possibi-
lité est de simuler les données pour estimer ces quantités.
10.5 PROBLEMES
10.5.1 L'algorithme suivant génère une permutation aléatoire des éléments 1, 2,..., n.
Il est un peu plus rapide que celui présenté dans l'exemple 10.1 mais il est tel qu'aucune
Simulation 443
position n'est fixée avant que l'algorithme s'arrête. Dans cet algorithme, P(i) peut être
considéré comme l'élément se trouvant en position i.
Etape 1 : Poser k = 1.
Etape 2: Poser P{\) = 1.
Etape 3: Si A: = n, s'arrêter. Sinon poser k = k + 1.
Etape 4: Générer un nombre aléatoire U et poser
P(k) = P([kU] + 1)
P([kU] + 1) = k.
Revenir à l'étape 3.
a) Expliquer avec des phrases ce que fait l'algorithme.

b) Montrer qu'à l'itération k - c'est-à-dire au moment où la valeur de P(k) est
initialisée - P(l), P(2),..., P(k) est une permutation aléatoire de 1, 2,... k.
Utiliser pour cela un raisonnement par induction et montrer que
Pk\i\< h' • • • y ij-\i k, ij, . . . , ik-2> 0
= (
^*-ivi> 2> • • • » f / - i > ' . ij> • • • . ' * - 2 / 7
= — grâce à l'hypothèse d'induction

k\
10.5.2 Développer une technique pour simuler une variable aléatoire ayant la fonction
de densité de probabilité
IV* -oo < x < 0
\e~2x 0 < x < oo
10.5.3 Développer une technique pour simuler une variable aléatoire ayant la fonction
de densité de probabilité
r[
(JC - 2) 2 < x < 3
2
f(x) = { 1
2\2~5 3<
*
0 ailleurs
10.5.4 Présenter une méthode pour simuler une variable aléatoire ayant la fonction de
répartition
(0 x < -3
1 X
-3 < x < 0
2 + 6
F(x) = { 1 x2
- + — 0<j(<4
2 32
1 x > 4
10.5.5 Utiliser la méthode de la transformation inverse pour présenter une approche

pour la simulation d'une variable aléatoire distribuée selon la loi de Weibull
F(t) = 1 - e-^ t> 0
10.5.6 Donner une méthode de simulation d'une variable aléatoire ayant la fonction
taux de panne
a) k(t) = c
b) k(t) = et
c) X(f) = et2
d) k(t) = et3
10.5.7 Soit F la fonction de répartition
F(x) = x" 0 < .Y < 1
a) Donner une méthode pour simuler une variable aléatoire ayant F comme fonction
de répartition, qui n'utilise qu'un seul nombre aléatoire.
b) Soient U1, U2,..., U„ des nombres aléatoires indépendants. Montrer que
P{max(t/,, . . . , U„) < *} = x"
c) Utiliser la partie b) pour élaborer une seconde méthode de simulation d'une

variable aléatoire de fonction de répartition F.
10.5.8 Supposer qu'il est relativement facile de simuler à partir de Fh i = 1,..., n.

Comment peut-on simuler à partir de
a) F(.x) = Ô F,M
/'= 1
b) F(x) = 1 - fi [1 - F,.«]
i= 1
10.5.9 Supposer que l'on a une méthode pour simuler des variables aléatoires ayant
les distributions F, et /s. Expliquer comment on simule à partir de la distribution
F(x) = pFt(x) + (1 - p)F2(x) 0\
10.5.10 Dans l'exemple 10.4 nous avons simulé la valeur absolue d'une variable
aléatoire normale standard selon la procédure de rejet appliquée sur des variables
Simulation 445
exponentielles de paramètre 1. Ceci soulève la question suivante: pouvait-on obtenir

un algorithme plus efficace à partir d'une densité exponentielle différente - c'est-à-dire
d'une densité g(x) = \e~kx, par exemple? Montrer que le nombre moyen d'itérations
nécessaire dans la technique de rejet est minimal lorsque X = 1.
10.5.11 Utiliser la méthode de rejet avec g(x) = 1, 0 < x < 1, pour déterminer un
algorithme de simulation d'une variable aléatoire ayant la fonction de densité de
probabilité
_ f 60x3(l - x)2 0< x <1
[0 ailleurs
10.5.12 Expliquer comment on peut utiliser des nombres aléatoires pour approximer
§0k(x) dx où k(x) est une fonction arbitraire. Pour cela, dire ce que représente E[k(U)]
si U est uniforme sur (0, 1).
10.5.13 Si (X, Y) est distribué uniformément dans le cercle de rayon 1 centré à

l'origine, sa densité conjointe est
f(x,y) = 1/ir, 0 < x2 + y2 < 1
Soient R = (X2 + Y2)['2 et 9 = Arc tg (YIX) leurs coordonnées polaires. Montrer

que R et 0 sont indépendants, avec R2 uniforme sur (0, 1) et 9 uniforme sur (0, 2n).
10.5.14 Dans l'exemple 10.10 nous avons montré que
£•[(1 - V2),/2] = £1(1 - f/2)1/2] = TT/4
où Kest uniforme sur (— 1,1) et U sur (0,1). Montrer que
Var[(l - V2)1/2] = Var[(l - U2)l/2]
et trouver leur valeur commune.
10.5.15
a) Vérifier que (10.6) atteint son minimum lorsque a est donné par (10.7).
b) Vérifier que la valeur minimale de (10.6) est donnée par (10.8).
10.5.16 Soit X une variable aléatoire définie sur (0, 1 ) ayant la fonction de densité/(;c).
Montrer que l'on peut estimer ÇQg(x) dx en simulant X et en prenant g(X)/f(X)
comme estimateur. Cette méthode, appelée échantillonnage par importance, essaie de
choisir une fonction / d e forme semblable à celle de g telle que g(X)/f(X) ait une
variance faible.
10.6 RÉFÉRENCE
Ross, S M A Course in Simulation, Macmillan, 1991.
Solutions à quelques problèmes choisis
Chapitre 1
1.8.1 a) 67 600 000 b) 19 656 000 1.8.2 24, 4 1.8.3 144,4

1.8.4 2401 1.8.5 5184
1.8.6 720 a) 72 b) 144 c) 72 1.8.7 a) 120 b) 1260 c) 34 650
1.8.8 27 720
1.8.9 a) 40 320 b) 10 080 c) 1152 d) 2880 e) 384
1.8.10 a) 720 b) 72 c) 144 1.8.11 a) 720 b) 672 c) 384 d) 216 e) 576
1.8.12 a) 24 300 000 b) 17 100 720 1.8.13 190 1.8.14 2 598 960
1.8.15 600 1.8.16 a) 120 b) 110
1.8.17 a) 896 b) 1000 c) 910 1.8.18 a) 36 b) 26
1.8.19 35 1.8.20 18 1.8.2148
1.8.25 27 720 1.8.26 210 1.8.27 165,35
1.8.28 a) 65 536 b) 2520 1.8.29 a) 1287 b) 14 112
1.8.30 1 852 200 1.8.31 a) 12 600 b) 945
1.8.32 564 480 1.8.33 a) 220 b) 552
Chapitre 2
2.9.6 74 2.9.7 a) 0.4 b) 0.1 2.9.8 a) 0.49 b) 0.28

2.9.9 a) 0.5 b) 0.32 c) 149/198
2.9.10 a) 20 000 b) 12 (XX) c) Il (XX) d) 10 (XX) e) 68 000
2.9.11 1.057 2.9.12 0.0769.0.03116
2.9.13 a) 0.0020 b) 0.4226 c) 0.0475 d) 0.0211 e) 0.00024
2.9.15 9.10946 x 10"" 2.9.16 0.048 2.9.18 0.4
2.9.19 0.492929 2.9.20 0.58333 2.9.21 0.2477,0.2099
2.9.220.5 2.9.23 2/9,1/9 2.9.25 70/323

2.9.28 0.8363 2.9.29 a) 0.0045 b) 0.0588
2.9.30 a) 0.0833 b)0.5 2.9.314 2.9.32 0.48
2.9.34 0.5177 2.9.411.0604 x 10"3 2.9.42 0.4329
2.9.43 2.6084 x 10"6 2.9.45 a) 0.09145 b) 0.4268
2.9.46 4/7 2.9.4712/35 2.9.48 0.0511
2.9.49 a) 0.2198 b) 0.0342
Chapitre 3
3.7.1 1/3 3.7.3 0.339 3.7.5 6/91

3.7.61/2 3.7.7 2/3 3.7.81/2
3.7.9 7/11 3.7.10 a) 0.1818 b) 0.4073 c) 0.2845, 0.2532
3.7.110.22 3.7.12 0.4697 3.7.13 0.9835
3.7.14 a) 0.0792 b) 0.264 3.7.15 a) 0.331 b) 0.383 c) 0.286 d) 48.62
3.7.16 a) 44.3 b) 41.18 3.7.17 a) 0.4 b) 1/26 3.7.18 a) 0.496 b) 3/14 c) 9/62
3.7.19 a) 1/2 b) 1/8 3.7.21 35/768 3.7.22 4/9, 1/2
3.7.24 a) 1/3 b) 1/2 3.7.26 20/21, 40/41 3.7.27 7/12, 3/5
3.7.28 5/11 3.7.29 4/5 3.7.30 27/31
3.7.31 3/4 3.7.32 1/2 3.7.33 a) 1/3 b) 1/5 c) 1
3.7.34 12/37 3.7.35 46/185
3.7.36 a) 3/13 b) 5/13 c) 5/52 d) 15/52 3.7.37 b/(b + r+ c)
3.7.3843/459 3.7.39 34.48 3.7.404/9
3.7.421/11 3.7.44 2/3 3.7.4519/268
3.7.46 17.5, 38/165, 17/33 3.7.48 9 3.7.50 c) 2/3
3.7.51 a) 2/3 b) 1/3 c) 3/4 3.7.55 a) 9/13 b) 1/2
3.7.59 9, 9, 18, 110, 4,4, 8, 120 tous sur 128 3.7.60 1/9, 1/18
3.7.61 38/64, 13/64, 13/64 3.7.63 a) 1/16 b) 1/132 c) 5/16 d) 1/4 e) 31/32
3.7.65 P, /(P, + P2 - PlP2) 3.7.68 3/10 3.7.69 0.5550
3.7.710.9530 3.7.73 a) 1/2 b) 3/5 c) 4/5
3.7.74 9/19,6/19, 4/19; 77/165,53/165, 35/165
3.7.79 97/142, 15/26, 33/102
Chapitre 4
4.11.1 P(4) = 6/91, P(2) = 8/91, P(l) = 32/91, P(0) = 1/91, P(-l) = 16/91,
P(-2) = 28/91
4.11.4 1/2, 5/18, 5/36, 5/84, 5/252, 1/252,0,0, 0, 0 4.11.5 n - 2i, i = 0,..., n
4.11.6 P(3) = P(-3) = 1/8, P(l) = P(-l) = 3/8
4.11.12 a) P(4) = 1/16, P(3) = 1/8, P(2) = 1/16, P(0) = 1/2, P(-i) = P(0 b) P(0) = 1
4.11.13 P(0) = 0.28, P(500) = 0.27, P(1000) = 0.315, P(1500) = 0.09,
P(2000) = 0.045
Solutions à quelques problèmes choisis 449
4.11.14 P(0) = 1/2, P(l) = 1/6, P(2) * 1/12, P(3) = 1/20, P(4) = 1/5
4.11.17 a) 1/4, 1/6, 1/12 b) 1/2 4.11.19 1/2, 1/10, 1/5, 1/10, 1/10
4.11.20 a) 0.5918 b) non c) -0.108 4.11.21 38.793, 36.25
4.11.23 3.5 4.11.24 p = 11/18, maximin = 23/72
4.11.26 11/2, 17/5 4.11.27 A(p + 1/10) 4.11.28 3/5
4.11.31 p* 4.11.32 110 - 100(0.9)10
4.11.33 96 4.11.35 a) -0.0067 b) 1.093
4.11.37 92.5, 92.1875 4.11.39 3/8 4.11.40 11/243
4.11.42 p > 1/2 4.11.45 3 4.11.50 a) 1/10 b) 1/10
4.11.51 a) c-2 b) 1 - 3c"2 4.11.53 a) 1 - e~6 b) 1 - <r219-18
4.11.56 365 log(2) 4.11.57 a) 0.5768 b) 0.6070
4.11.59 a) 0.3935 b) 0.3033 c) 0.0902 4.11.600.8886
4.11.610.4082 4.11.63 a) 0.0821 b) 0.2424
4.11.65 a) 0.3935 b) 0.2293 c) 0.3935 4.11.66 a) 0.1500 b) 0.1012
4.11.68 5.8125 4.11.69 a) 32/243 b) 4864/6561 c) 160/729 d) 160/729
4.11.73 li(ny>-V(35y> 4.11.76 3/10, 5/6, 75/138
4.11.77 0.3439
Chapitre 5
5.9.2 3.5e"5/2 5.9.3 non, non 5.9.4 a) 1/2

5.9.5 1 - (0.01)1'5 5.9.6 a) 4 b) 0 c) °° 5.9.7 3/5, 6/5
5.9.8 2 5.9.10 a) 2/3 b) 2/3 5.9.11 2/5
5.9.13 a) 2/3 b) 1/3 5.9.16 (0.9938)10 5.9.18 22.66
5.9.19 14.56 5.9.20 a) 0.0006 b) 0.75 c) 0.977
5.9.22 a) 9.5 b) 0.0019 5.9.23 0.9258,0.1762
5.9.26 0.0606,0.0525 5.9.30 a) e~l b) e~m 5.9.32 e~\ 1/3
5.9.36 3/5 5.9.38 \ly
Chapitre 6
6.8.2 a) 14/39, 10/39, 10/39, 5/39 b) 84, 70, 70, 70, 40, 40, 40, 15 tous sur 429
6.8.3 15/26, 5/26, 5/26, 1/26 6.8.4 25/169,40/169, 40/169, 64/169
6.8.6 p(i,j) = 1/10 6.8.7 p(i,j) =p2 (1 -p)i+J
6.8.8 1/8 6.8.9 b) (12A:2 +6*)/7 c) 15/56 d) 0.8625
6.8.10 a) 1/2 b) 1 - e- 6.8.11 0.1458 6.8.12 (39.3)<r5
6.8.13 1/6, 1/2 6.8.15 7t/4 6.8.16 «(1/2)" - '
6.8.17 1/3 6.8.18 7/9 6.8.19 1/2
6.8.21 c-'/j ! 6.8.24 %a /[( \a + ^ )( ^ + Âj )]
6.8.26 a) e~2 b) 1 - 3e"2 6.8.28 0.0446 6.8.29 a) 1/3,2/3 b) 5/12, 7/12
6.8.30 5/13, 8/13 6.8.31 a) 1/6, 5/6 b) 1/4, 3/4
6.8.33
j 1 2 3 4 5
i
1 0.438 0.219 0.146 0.1095 0.0876
2 0 0.3896 0.2597 0.1948 0.1558
3 0 0 0.4255 0.3191 0.2553
4 0 0 0 0.5556 0.4444
5 0 0 0 0 1
p{x = j\Y = i}
6.8.36 a) (y + lf
Chapitre 7
7.10.3 3/2 7.10.4 35 7.10.5 [\-{\-p)Vp

7.10.7 a) 0.6 b)0 7.10.8 2 ( n - l ) p ( I-/?)
7.10.11 m/(l - p ) 7.10.12 109/60 7.10.15 4
7.10.18 0.9301,87.5757 7.10.19 14.7 7.10.20 147/110
7.10.23 «/(« + 1), l/(n + 1) 7.10.24 175/6 7.10.26 14
7.10.27 20/19, 360/361 7.10.28 a) 21.2 b) 18.929 c) 49.214
7.10.29 -n/36 7.10.30 0 7.10.31 1/8
7.10.34 6,112/33 7.10.35 100/19, 16 200/6137, 10/19,3240/6137
7.10.38 a) 1/2 b) 0 7.10.40 a) 6 b)7 c) 5.8192
7.10.41 9/5, 6/5, 3/5,0 7.10.42 2y2 7.10.43 yV4
10/JV
7.10.44 12 7.10.46 Ml 7.10.47 12.5
n
7.10.53-96/145 7.10.55 218 7.10.5741 + {2p-\)2f

7.10.59 1.2, 1/16, 2/81 7.10.60 1/2, 1/3 7.10.62 l / / , [ / ( i + !)]""', 00
7.10.63 a) |x b) 1 + a2 c) oui d)a 2
Chapitre 8
8.8.1 p > 19/20 8.8.2 a) 15/17 b)p > 3/4 c) n > 10

8.8.3 n > 3 8.8.4 a) p< 4/3 b) 0.8438
8.8.5 0.1416 8.8.6 0.9431 8.8.7 0.3085
8.8.8 0.6932 8.8.9 66.564 8.8.10 117
Solutions à quelques problèmes choisis 451
8.8.11 p > 0.6 8.8.13 a) 0.0162 b) 0.0003 c) 0.2514 d) 0.2514

8.8.14 n > 23 8.8.15 0 8.8.17 p < 0.2
8.8.22 a) 0.769 b) 0.357 c) 0.1093 d) 0.112184
Chapitre 9
9.5.1 1/9, 5/9 9.5.3 0.0265, 0.0902,0.2642,0.4422

9.5.10 b) 1/6 9.5.14 2.585, 0.5417, 3.1267
9.5.15 5.5098
Index
A (loi de) 134

Analyse combinatoire 1 (espérance d'une variable de) 139
Antithétiques (variables) 439 Bertrand (paradoxe de) 194
Aléatoire(s) Bêta (loi) 219-220, 227, 265, 275
(marche) 300, 407 Binôme (théorème du) 8
(sous-ensembles) 251-253,428 Binomiale
(nombres) 426 (loi) 134, 260, 262, 278
Approximation approximation
- binomiale d'une loi hypergéométrique - d'une variable hypergéométrique 161
161 (approximation normale d'une variable)
- normale d'une loi binomiale 204 204
- poissonienne d'une loi binomiale 145 (approximation poissonienne d'une
Associativité de la réunion et de variable) 145
l'intersection d'événements 27 (espérance d'une variable) 139, 293
Axiomes des probabilités 28-29 (fonction génératrice des moments d'une
Axiomes de la théorie de l'information variable) 334-335, 338
410-411 (calcul de la fonction de répartition)
142-143,181
(simulation d'une variable) 437-438
B (variance d'une variable) 139
Banach (problème des allumettes de) 157 loi - négative 156-157
Bayes (formule de) 68 loi - négative, relation avec la loi
formule de binomiale 167
- généralisée 72 loi - négative, relation avec la loi
Bernoulli géométrique 157
Daniel 296 Bit 412
Jacob 375 Bivariée (distribution normale) 280, 332,
Jacques 86,134, 142 356
Nicolas 142, 375 Bonferroni (inégalité de) 50
(épreuves de) 99 Boole (inégalité de) 50, 292-293
Borel 384 Conjoints (fonction génératrice des

Bornes de Chernoff 388-390 moments) 343-344
Box-Muller (approche de) 433 Continues
Buffon (problème de l'aiguille de) 248-249, (variables aléatoires) 183
277 (variables conjointement) 239, 244
Continuité, propriété de - des probabilités
44-45
C Convexité de fonction 390
Canal binaire symétrique 419 Convolution 255-256
Capacité d'un canal de transmission 420 Corrélation 312
Cauchy (loi de) 218-219 Corrélées (variables non) 313
Cauchy-Schwarz (inégalité de) 353 Covariance 305-306
Central limite (théorème) 371, 375 formule de la - conditionnelle 352
Chaîne de Markov 404
- ergodique 408
probabilités limites pour une - ergodique D
408-409 De Méré 81
Chaînes de résultats identiques 43, 52,92, Demi-vie 253-255
298 De Moivre 195, 207, 377
Chapman-Kolmogorov (équations de) 406 théorème limite de De Moivre-Laplace
Chernoff (bornes de) 388-390 204
Chi-carré (loi du) 217,258, 277, 341, 346 De Morgan (lois de) 27
(simulation d'une variable) 435 Densité 183
Codage - conditionnelle 262
(théorie du) 414 - conjointe ou simultanée 239,244
théorème du - avec bruit 420 Dépendantes (variables aléatoires) 248
théorème du - sans bruit 416 Dépendants (événements)75-76
Coefficient Déviation 308, 314
- binomial 8 Diagramme de Venn 26
- multinomial 10-11 Discrètes (variables aléatoires) 123
Combinaison 6 Distributions particulières: voir sous leur
Commutativité de la réunion et de nom spécifique
l'intersection d'événements 27 Distribution
Conditionnelle (densité) 262 - conditionnelle 260-261, 263-264
(distribution) 260-261, 263-264 - marginale 238
(espérance) 316-319 Distributivité de la réunion et de
(fonction de répartition) 263 l'intersection d'événements 27
(formule de la variance) 325-326,440
(loi de probabilité) 260
(probabilité) 61 E
(utilisation pour la prédiction de Ecart-type 133, 394
l'espérance) 328 Echantillon tiré d'une population finie 310
(variance) 325-326 Echantillonnage par importance 445
Conditionnellement, événements - Ehrenfest (modèle des urnes d') 405,409
indépendants 95 Ensemble fondamental 23
Conjointe Entropie 410
(densité) 239, 243 relation à la théorie du codage 414-420
(fonction de répartition) 235, 244 Epreuves 78
(loi de probabilité) 236 - de Bernoulli 99
Conjointement, variables - continues 239, Equations de Chapman-Kolmogorov 406
244 Ergodique (chaîne de Markov) 408
Index 455
Eriang(loid')217 F
Espérance mathématique 126,187, 289, Factorielle 3
347-348 Fermât 82, 86
- comme centre de gravité 128 Fonction de variable aléatoire 221
- conditionnelle 316-319 Fonction génératrice des moments 333, 340
définition générale - conjoints 343-344
- d'une fonction de variable aléatoire - de variable binomiale 334-335, 338
128-129,188-189 - de variable exponentielle 336
- d'une somme de variables aléatoires - de variable normale 336-337, 339
290 - de variable poissonienne 335, 338
- de variable de Bernoulli 134 - d'une quantité aléatoire de variables
- de variable binomiale 134, 293 aléatoires 342-343
- de variable binomiale négative 158, 294 (tables des) 338, 339
- de variable exponentielle 208 Fonction de répartition 120
- de variable gamma 217 - conditionnelle 263
- de variable géométrique 155 - marginale 236,
- de variable hypergéométrique 161-162, - simultanée ou conjointe 235, 244
294 - simultanée de n variables 244
- de variable normale 197-198 Formule de Bayes 68
- de variable poissonienne 147 - généralisée 72
- de variable uniforme 193 Formule
- du nombre de rencontres 295 .- des probabilités totales 67
- de la somme d'une quantité aléatoire de - des probabilités totales généralisées 72
variables aléatoires 320 - de Stirling 141
(tables récapitulatives des) 338, 339 - de la variance conditionnelle 325, 326,440
Estimation du maximum de vraisemblance Fréquence relative et définition des
160,165 probabilités 28-29
Etendue d'un échantillon aléatoire 269
Evénement(s) 24
- complémentaires 25 G
- conditionnellement indépendants 95 Gamma (loi) 216, 257, 274
- dépendants 75-76 relation avec la loi chi-carré 217, 258
- élémentaire 35 relation avec la loi exponentielle 258
- indépendants 75-76, 77-78 relation avec le processus de Poisson
(intersection d') 25 216-217
- limite 45 (simulation de variable) 429
- mutuellement exclusifs 25 Gauss 207
- totalement indépendants 77-78 Générateur de nombres aléatoires 426
- vide 25 Géométrique (loi) 154
Exclusifs (événements mutuellement) 25 (simulation de variable) 436-437
Exponentielle 208
(loi) 208
(espérance de variable) 208 H
(variance de variable) 208-209 Huyghens 82, 86
(fonction génératrice des moments de Hypergéométrique (loi) 159, 278, 316-317
variable) 336 relation avec la loi binomiale 163
(absence de mémoire d'une variable) 210
variable -, relation avec la loi gamma 258
relation avec la demi-vie 253-255 I
loi-double 212 Incertitude 412
(simulation d'une variable) 429 Indépendantes (variables aléatoires) 245, 250
Indépendants Markov (chaîne de) 404

(événements) 75-78 (inégalité de) 371
(événements conditionnellement) 95 Matrice de transition 405-406
Inégalité Maximum de vraisemblance (estimation du)
- de Bonferroni 50 160,165
- deBoole50,52 Médiane d'un échantillon 268,280
- de Cauchy-Schwarz 353 - d'une variable aléatoire 225, 349
- de Jensen 390 Mémoire (variable aléatoire sans) 210
- de Markov 371 Mendel 136
- de Tchebychev 372 Méthode
Information 412 - de rejet 429-430
Intégrale de Stieltjes 347-348 - de la transformation inverse 428
Intersection d'événements 25 - probabiliste 89
Intervalles d'attente poissoniens 403 Mode d'une variable aléatoire 225
Modèle des urnes d'Ehrenfest 405
Moments
J - par rapport à l'origine 132
Jensen (inégalité de) 390 (fonction génératrice des) 333, 340
Jeux (théorie des) 172, 279 (fonction génératrice des) - conjoints
343-344
Montmort (problème de rencontre de) 40, 51,
K
94, 295, 309
Khintchine 375
Moyenne d'échantillon 292, 345-347
Kolmogorov 384
Multinôme (théorème du) 11
Multinomiale (loi) 244, 315
L Multinomiaux (coefficients) 10-11
Laplace 212,377,381
(règle de succession de) 96,101 N
Laplacienne (distribution) 212
Normale
Legendre (théorème de) 227 (loi) 195
Liapounoff 377
approximation
Limite
- de la loi binomiale 204
- d'événements 45
loi - bivariée 280, 332, 356
- supérieure d'événements 52
loi - multivariée 344
probabilité - d'une chaîne de Markov
(caractérisation de la loi) 249
ergodique 408
loi - standard ou centrée réduite 199
Log-normale (loi) 227
(espérance de variable) 197-198
Lois particulières: voir sous leur nom
(fonction génératrice des moments de
spécifique
variable) 336-337,339
Lois de De Morgan 27
(simulation de variable) 431,433
Loi des grands nombres 31, 371
tables de la loi-standard 200
(loi faible des) 374,384
(variance de variable) 197-198
(loi forte des) 31, 382, 384,409,426
Loi de probabilité 123
- conditionnelle 260 O
- simultanée ou conjointe 236 Ordre (statistiques d') 265-266
M PQ
Marche aléatoire 300,407 Paradoxe
Marginale (distribution) 238 - de Bertrand 194
Index 457
- de St-Petersbourg 174 Rayleigh (loi de) 214, 273

Pareto (loi de) 163 Règle de multiplication 65
Partition 50 Règle de succession de Laplace 96,101
Pascal 81-82 Rejet (méthode de) voir simulation
Permutation 3 Réunion d'événements 24
- aléatoire 427,442-443 Riemann
Pics 351 (fonction zêta de) 163
Plus grand en probabilité 350
Poisson 144
(loi de) 42,144,246, 259, 262, 277, 310 S
approximation de - d'une loi binomiale 145 St-Petersbourg (paradoxe de) 174
(espérance de variable de) 147 Shannon 420
(fonction génératrice des moments de Simulation 425
variable de) 335, 338 méthode de rejet 429-430
(simulation de variable de) 437-438 méthode des coordonnées polaires 433,
(variance de variable de) 147 435
(calcul de la fonction de répartition de) Simultanée
153, 181 (densité) 239, 243
Poker 36 (fonction de répartition) 235, 244
Prédicteur 328, 355 (loi de probabilité) 236
- linéaire 331, 355 Somme de variables aléatoires
Prédiction (utilisation de l'espérance (espérance de la) 290
conditionnelle pour la) 328 Sous-ensemble aléatoirement choisi 251-253
Principe fondamental de dénombrement 2 Statistique d'ordre 265-266
Probabilité Stieltjes (intégrale de) 347-348
- subjective 48 Stirling
- de transition 404 (formule de) 141
- de transition d'ordre n 406 (approximation de) 39, 380
Problème Subjective, approche - des probabilités 48
- de l'aiguille de Buffon 248-249, 277 Surprise 412
- des anniversaires 38, 148-149
- des allumettes de Banach 157
- de collecte de coupons 118-120, T
296-297, 351 Taux
- de la durée du jeu 86 - de variable aléatoire exponentielle 214
- d'élection 100 - de panne 213
- du paradoxe 46 - de mortalité 215
- des points 81-82 - de transmission 422
- de rencontre de Montmort 40, 51, 94, Tchebychev
295, 309 (inégalité de) 372
- de la roue de la fortune 136 (inégalité unilatérale de) 385
- de la ruine du joueur 83, 172 Temps d'attente poissoniens 402-403
Processus Théorème
- de Poisson 150-152,401 - du binôme 8
- de ramification 357 - central limite 375
Propriété de continuité des probabilités 44-45 - central limite étendu 381
Pseudo-aléatoires (nombres) 426 - du codage avec bruit 420
- du codage sans bruit 416
R - de Legendre 227
Ramification (processus de) 357 - limite de De Moivre-Laplace 204
Rapport signal-bruit 394 - de Weierstrass 395
Théorie -d'une variable exponentielle 208-209

- du codage 414 -d'une variable géométrique 156, 322
- du codage en relation à l'entropie -d'une variable hypergéométrique 162
414-420 -d'une variable normale 197-198
- de l'hérédité 136 -d'une variable de Poisson 147
- de l'information 412 -d'une variable uniforme 193
- des jeux 172,279 -d'une variable 132,190-191
Traitement de signaux 329-330 -d'échantillon 308, 345-347
Transition -du nombre de rencontres 309
(matrice de) 405 -de la somme d'une quantité aléatoire de
matrice de - d'ordre n 406 variables aléatoires 327
(probabilité de) 404 - d'une somme de variables aléatoires 307
(tables récapitulatives de) 338, 339
Venn (diagramme de) 26
U VonNeumann317
Uniforme (loi) 191-192
W
Weibull(loi de) 218,226,444
Variable aléatoire 115 relation avec la loi exponentielle 226
- continue 183 Weierstrass (théorème de) 395
- discrète 123
Variance
- comme moment d'inertie 133 XYZ
- conditionnelle 325-326 Zêta
formule de la - conditionnelle 325-326 (loi) 163
- d'une variable binomiale 139, 309 fonction - de Riemann 163
- d'une variable binomiale négative 158 Zipf (loi de) 163

Initiation Aux Probabilités

Transféré par

Droits d'auteur :

Formats disponibles

Initiation Aux Probabilités

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Initiation Aux Probabilités

Transféré par

Droits d'auteur :

Formats disponibles

Initiation

Traduit de l'américain par Christian Hofer et Frédéric Dorsaz

Presses polytechniques et universitaires romandes

Calcul différentiel et intégral

Cours d'analyse, 3 volumes

Recherche opérationnelle pour ingénieurs I

Recherche opérationnelle pour ingénieurs II

Analyse, Recueil d'exercices et aide-mémoire vol. 1 et 2

Analyse avancée pour ingénieur

Introduction à l'analyse numérique

Les Presses polytechniques et universitaires romandes sont une fondation

Version originale: A first course in probability

Traduction de la quatrième édition américaine revue et augmentée

Cette troisième édition française, basée sur la quatrième version américaine de

Cette nouvelle version a été préparée par Monsieur F. Dorsaz. Je le remercie du

CHAPITRE 1 ANALYSE COMBINATOIRE

CHAPITRE 2 AXIOMES DES PROBABILITÉS

CHAPITRE 3 PROBABILITÉ CONDITIONNELLE ET INDÉPENDANCE

3.4 Evénements indépendants 75

CHAPITRE 4 VARIABLES ALÉATOIRES

CHAPITRE 5 VARIABLES ALÉATOIRES CONTINUES

CHAPITRE 6 VARIABLES ALÉATOIRES SIMULTANÉES

CHAPITRE 7 PROPRIÉTÉS DE L'ESPÉRANCE

7.9 Exercices théoriques 349

CHAPITRE 8 THÉORÈMES LIMITES

CHAPITRE 9 THÈMES CHOISIS DE PROBABILITÉ

SOLUTIONS À QUELQUES PROBLÈMES CHOISIS 447

1.2 PRINCIPE FONDAMENTAL DE DÉNOMBREMENT

1.2.1 Version restreinte

Ce principe de dénombrement (ci-dessous théorème 1.1) sera essentiel par la suite.

DÉMONSTRATION. On peut obtenir la démonstration en énumérant tous les résultats

(m, 1), (m, 2 ) , . . . , (m, n)

SOLUTION. En considérant le choix du père comme la première expérience et ensuite

1.2.2 Principe fondamental généralisé

Lorsqu'il y a plus de deux expériences à réaliser, le principe fondamental peut être

1.2.3 Exemples d'applications du principe fondamental

Exemple 1.2 Le comité de planification d'un collège est constitué de 3 étudiants de

SOLUTION. Nous pouvons considérer le choix d'un sous-comité comme le résultat

Exemple 1.3 Combien de plaques minéralogiques portant un matricule de 7 carac-

SOLUTION. En application de la version généralisée du principe de base, la réponse

Exemple 1.5 Dans l'exemple 1.3, combien de plaques minéralogiques pourrait-on

SOLUTION. Dans ce cas, il y aurait 26 • 25 • 24 • 10 • 9 • 8 • 7 = 78 624 000 plaques

1.3.1 Permutations d'objets distinguables

Combien existe-t-il d'arrangements ordonnés des lettres a, b et c? Par énumération

L'expression n!, dite n factorielle est définie par l'équation

Supposons maintenant que nous ayons n objets. Un raisonnement analogue à celui

1.3.2 Exemples de permutations

Exemple 1.8 M. Jones va disposer 10 livres sur un rayon de sa bibliothèque. Quatre

SOLUTION. Il y a 4! 3! 2! 1! dispositions telles que les livres de mathématiques se

1.3.3 Permutations d'objets partiellement indistinguables

Nous allons maintenant nous attacher à déterminer le nombre de permutations

SOLUTION. On remarquera d'abord qu'il existe 6! permutations des lettres P1 E1 P2

est de la forme P P E P E R. Par conséquent il y aura 6!/(3! 2!) = 60 arrangements

1.3.4 Exemples de permutations d'objets partiellement indistinguables

Exemple 1.10 Parmi les 10 participants à un tournoi d'échec, on compte 4 russes,

Nous serons souvent intéressés à déterminer le nombre de groupes de r objets qu'il

1.4.2 Exemples de calcul de combinaisons

Exemple 1.13 A partir d'un groupe de 5 hommes et de 7 femmes, combien de comités

SOLUTION. Comme il y a (|) groupes possibles de 2 hommes et (3) groupes possibles

+y = (J)v+(î)*v = x+y