Initiation Aux Probabilités
Initiation Aux Probabilités
Initiation Aux Probabilités
aux probabilités
Traduction de la quatrième S h e l d o n M . ROSS
édition américaine
Algèbre linéaire
Renzo Cairoli
Algèbre linéaire
Robert C. Dalang, Amel Chaabouni
www.ppur.org
Publié par Macmillan, New York, sous le titre «A first course in probability», cet
ouvrage a été écrit en anglais en 1976 par Sheldon M. Ross. Il fait partie de la
nouvelle génération de textes d'introduction au calcul des probabilités. Nouveau dans
le sens qu'il s'éloigne de l'ouvrage phare de Feller «An introduction to probability
theory and its applications», en mettant l'accent sur les notions de probabilité
conditionnelle, plutôt que sur les aspects combinatoires de la probabilité.
Dès sa parution, ce livre a connu un succès énorme auprès des universités et des
collèges américains. Le succès de la traduction française, publiée par les Presses
polytechniques romandes en 1987, n'en fut pas moins grand car l'ouvrage comblait
une lacune de la littérature traitant du calcul des probabilités en langue française. Il a
très vite été reconnu comme un texte excellemment adapté aux besoins des étudiants
qui cherchent une introduction au sujet à la fois directe et rigoureuse sans un appareil
mathématique trop lourd.
Peter Nüesch
Préface
«... On réalise en fin de compte que la théorie des probabilités n'est tout simple-
ment que le bon sens réduit à du calcul. Elle nous fait apprécier avec exactitude ce
que l'esprit bien fait sent déjà par une sorte d'instinct, souvent sans être capable d'en
rendre compte... Il est remarquable que cette science, qui a pris son origine dans
l'étude des jeux de chance, soit devenue l'objet le plus important de la connaissance
humaine. Les questions les plus importantes de la vie ne sont en réalité, pour
l'essentiel, que des problèmes de probabilité».
Ainsi pensait le «Newton» des Français, le célèbre mathématicien et astronome
Pierre Simon, marquis de Laplace. On est en droit de penser que l'illustre marquis
- qui fut d'ailleurs l'un des grands contributeurs à l'essor des probabilités - a un peu
exagéré. Il n'en est pas moins certain que la théorie des probabilités est devenue un
outil d'importance fondamentale pour un nombre considérable de scientifiques,
d'ingénieurs, de médecins, de juristes et d'industriels. En fait l'homme éclairé a appris
à ne plus demander «est-ce ainsi?» mais plutôt «quelle est la probabilité qu'il en soit
ainsi?».
Ce livre se veut une introduction élémentaire à la théorie mathématique des
probabilités pour les étudiants qui possèdent assez de connaissances préalables en
calcul différentiel et intégral, qu'ils travaillent en mathématiques, dans les sciences de
l'ingénieur et même dans n'importe quelle science en général (y compris les sciences
sociales et du management). Il essaie de présenter non seulement la partie mathémati-
que de la théorie des probabilités mais aussi, et à travers une foule d'exemples, les
nombreuses applications possibles de cette connaissance.
Dans le chapitre 1 sont présentés les principes de base de l'analyse combinatoire,
qui sont extrêmement utiles pour le calcul des probabilités.
Dans le chapitre 2 on considère les axiomes de la théorie des probabilités et on
montre comment ils peuvent être utilisés pour calculer les probabilités auxquelles on
s'intéresse. Ce chapitre inclut une preuve de l'importante (et malheureusement sou-
vent négligée) propriété de continuité des probabilités, qui est alors utilisée pour la
résolution d'un paradoxe.
Le chapitre 3 traite des très importantes notions de probabilité conditionnelle
et d'indépendance d'événements. Par une série d'exemples, nous illustrerons com-
ment les probabilités conditionnelles interviennent non seulement quand des informa-
tions partielles sont disponibles mais aussi comme outils pour nous permettre de
calculer des probabilités plus facilement, même si aucune information partielle n'est
présente. Cette technique qui permet efficacement d'obtenir des probabilités en
conditionnant réapparaît au chapitre 7, où nous l'utilisons avec la notion d'espérance
conditionnelle.
VIII Préface
Dans les chapitres 4, 5 et 6 est discuté le concept de variable aléatoire. Les variables
aléatoires discrètes sont traitées au chapitre 4, les variables continues au chapitre 5
et les variables conjointes au chapitre 6. Les importants concepts d'espérance et de
variance d'une variable aléatoire sont introduits dans les chapitres 4 et 5. Ces quan-
tités sont alors déterminées pour plusieurs types courants de variables aléatoires.
Des propriétés supplémentaires de l'espérance sont présentées dans le chapitre 7.
De nombreux exemples illustrant l'utilité du résultat «l'espérance d'une somme de
variables aléatoires est égale à la somme de leurs espérances» sont également donnés.
Ce chapitre comprend d'autre part une section sur l'espérance conditionnelle, incluant
son utilisation en vue de la prédiction, et une autre sur les fonctions génératrices des
moments. Enfin, la dernière section présente la distribution normale multivariée ainsi
qu'une preuve simple concernant la distribution conjointe de la moyenne et de la
variance d'un échantillon provenant d'une distribution normale.
Au chapitre 8 sont présentés les principaux résultats théoriques de la théorie des
probabilités. Nous démontrerons en particulier la loi forte des grands nombres et le
théorème central limite. Notre démonstration de la loi forte est relativement simple en
admettant que les variables aléatoires ont un quatrième moment fini, et celle du
théorème central limite repose sur le théorème de continuité de Levy. Des inégalités
sur les probabilités sont aussi présentées dans ce chapitre, telles que l'inégalité de
Markov, celle de Chebyshev et les bornes de Chernoff. La dernière section du chapitre
8 donne une borne pour l'erreur induite par l'approximation d'une probabilité
concernant la somme de variables aléatoires indépendantes de Bernoulli par la proba-
bilité correspondante d'une variable aléatoire de Poisson de même espérance.
Le chapitre 9 présente quelques thèmes choisis tels que les chaînes de Markov, le
processus de Poisson ainsi qu'une introduction à la théorie de l'information et du
codage.
Le chapitre 10 traite des aspects de la simulation de façon plus étoffée que dans
l'édition précédente.
De nombreux exemples sont traités tout au long du texte et le lecteur trouvera aussi
quantité d'exercices - où l'on a distingué des exercices théoriques et des problèmes -
proposés pour approfondissement. Un grand soin a été porté à la formulation de ces
exemples et problèmes. Une solution à la plupart des problèmes est indiquée à la fin
de l'ouvrage tandis que pour les enseignants un recueil de solutions est disponible.1
Nous aimerions remercier les correcteurs suivants: Thomas R. Fischer, Texas A & M
University; Jay Devore, California Politechnic University, San Luis Obispo; Robb
J. Muirhead, University of Michigan; David Heath, Cornell University; M. Samuels,
Purdue University; I.R. Savage, Yale University; R. Müller, Stanford University.
K. B. Athreya, Iowa State University; Phillip Beckwith, Michigan Tech; Howard
Bird, St. Cloud State University; Steven Chiappari, Santa Clara University; James
Clay, University of Arizona at Tucson; Francis Conlan, University of Santa Clara;
Fred Leysieffer, Florida State University; Ian McKeague, Florida State University;
Helmut Mayer, University of Georgia; N. U. Prabhu, Cornell University; Art
Schwartz, University of Michigan at Ann Arbor; Therese Shelton, Southwestern
University; and Allen Webster, Bradley University.
1
Seulement dans la version anglaise. Pour l'obtenir, s'adresser directement à Macmillan
Publishing Company 866 Third Avenue, New York, New York 10 022.
Table des matières
PRÉFACE VII
CHAPITRE 10 SIMULATION
10.1 Introduction 425
10.2 Techniques générales pour la simulation de variables
aléatoires continues 428
10.3 Simulation de variables aléatoires discrètes 436
10.4 Techniques de la réduction de la variance 438
10.5 Problèmes 442
INDEX 453
CHAPITRE 1
Analyse combinatoire
1.1 INTRODUCTION
Examinons d'emblée un problème typique de ceux mettant en jeu la notion de
probabilité. Un système de communication est composé de n antennes identiques
alignées. Ce système ne pourra alors capter de signal incident - il sera alors qualifié
de fonctionnel - qu'aussi longtemps que deux antennes consécutives ne seront pas
défectueuses. Si on découvre qu'exactement m des n antennes sont défectueuses, quelle
est la probabilité que ce système reste fonctionnel?
Etudions par exemple le cas particulier où n = 4 et m = 2. Le système peut alors
se trouver dans l'une des 6 configurations suivantes:
0 1 1 0
0 1 0 1
1 0 1 0
0 0 1 1
1 0 0 1
1 1 0 0
où 1 signifie que l'antenne fonctionne et 0 qu'elle est défectueuse. Comme notre
système sera fonctionnel dans les trois premières configurations mais pas dans les trois
dernières, il semble raisonnable d'attribuer à la probabilité cherchée la valeur3/6=1/2
On pourrait de manière similaire calculer la probabilité que le système fonctionne
pour des valeurs quelconques de m et de n. Plus précisément il faudrait calculer le
nombre de configurations qui maintiennent le système fonctionnel et le diviser par
le nombre de toutes les configurations possibles.
Cet exemple permet de réaliser qu'il est souhaitable de disposer d'une méthode
efficace pour dénombrer les différentes situations pouvant se présenter lors d'une
expérience. En fait, bien des problèmes en théorie des probabilités peuvent être résolus
simplement en comptant le nombre de manières différentes selon lesquelles un certain
événement peut se réaliser. Par convention on appelle analyse combinatoire la théorie
mathématique du dénombrement.
2 Initiation aux probabilités
Théorème 1.1
Supposons qu'il faille réaliser deux expériences. Si l'expérience 1 peut produire l'un
quelconque de m résultats et si, pour chacun d'entre eux, il y a n résultats possibles
pour l'expérience 2, alors il existe mn résultats pour les deux expériences prises
ensemble.
(1,1),(1,2) (1,n)
(2,l),(2,2),...,(2,n)
Dans ce tableau un résultat a été noté (i,j) si l'expérience 1 a produit le /-ème de ses
résultats et si l'expérience 2 a produit le j-ème des siens. On voit que l'ensemble des
résultats possibles est composé de m lignes de n éléments chacune, ce qui démontre
le résultat annoncé. •
Exemple 1.1 Une petite communauté se compose de dix hommes et de leurs fils,
chaque homme ayant trois fils. Si un homme et l'un de ses fils doivent être désignés
«père et fils exemplaires», combien y a-t-il de choix différents possibles?
Théorème 1.2
Si r expériences doivent être réalisées et sont telles que la première peut produire l'un
quelconque de n1 résultats, et si pour chacun d'entre eux il y a n2 résultats possibles
pour la 2e expérience, et si pour chaque résultat des deux premières expériences il
y en an3pour la3eexpérience, et ainsi de suite, il y aura alors au total n1 n2 .... -nr
résultats pour les r expériences prises ensemble.
Analyse combinatoire 3
Exemple 1.4 Combien de fonctions définies sur n points peut-on construire si ces
fonctions ne peuvent prendre pour valeur que 0 ou 1?
SOLUTION. Numérotons de 1 à M les points. Puisque f(i) ne peut prendre pour chaque
i = 1, 2,..., n que deux valeurs, il y a 2n de ces fonctions. •
1.3 PERMUTATIONS
Théorème 1.3
Le nombre de permutations de n objets est n! .
Exemple 1.6 Combien d'ordres à la batte peut-on avoir pour une équipe de baseball
de 9 joueurs'?
SOLUTION. Il existe 9! = 362 880 ordres selon lesquels les joueurs peuvent se succéder
à la batte. •
Exemple 1.7 Un cours de théorie des probabilités est suivi par 6 hommes et 4 femmes.
Un examen a lieu, puis les étudiants sont classés selon leur note. On suppose exclu
que deux étudiants obtiennent la même note.
• Combien de classements peut-on avoir?
• Si les hommes sont classés entre eux uniquement et les femmes entre elles, combien
de classements globaux peut-on avoir?
SOLUTION.
• Comme chaque classement correspond à un certain arrangement ordonné de 10
personnes, on voit que la réponse à cette partie du problème est 10! = 3 628 800.
• Comme il y a 6! classements des hommes entre eux et 4! classements des femmes
entre elles, il résulte par application du principe fondamental qu'il y aura dans ce
cas (6!)(4!) = (720)(24) = 17 280 classements possibles. •
Ndt: A tour de rôle, tous les joueurs doivent servir à la batte lors du jeu, sans répétition.
Analyse combinatoire 5
Exemple 1.9 Combien d'arrangements différents peut-on former avec les lettres
P E PPER ?
P, P2 E, P , E2 R F, P2 E2 P3 E1 R
P, P3 Et P2 E2 R P, P3 E2 P 2 E1 R
P2 P1 E1 P3 E2 R P2 P, E2 P3 E1 R
P2 P3 E1 Pi E2 R P2 P 3 E2 P1 E1 R
P3 P1 E1 P2 E2 R P 3 P, E2 P2 E1 R
P3 P2 E1 P1 E2 R P3 P2 E2 P1 E1 R
Plus généralement, grâce au même raisonnement que celui utilisé dans l'exemple
1.9, on établit le théorème suivant:
Théorème 1.4
Il y a
n,!n2!---n,! (1.2)
permutations différentes de n objets parmi lesquels n, sont indistinguables entre eux,
n2 autres entre eux également, ..., nr entre eux.
SOLUTION. Il y a
10!
4!3!2!1 = 12,600
classements possibles.
Exemple 1.11 On compose des signaux en alignant des drapeaux suspendus. Combien
de ces signaux peut-on former si parmi les drapeaux à disposition 4 sont blancs, 3 sont
rouges, 2 sont bleus et si tous les drapeaux d'une même couleur sont indistinguables?
6 Initiation aux probabilités
SOLUTION. Il y a
9!
1260
4!3!2!
signaux différents. •
1.4 COMBINAISONS
1.4.1 Définitions
(r) (n-r)!r!
Une combinaison de r objets pris parmi n est tout sous-ensemble de r objets choisis
sans répétition dans un ensemble en contenant n.
Théorème 1.5
(") est le nombre de combinaisons de r objets pris parmi n, ou encore le nombre de
groupes de taille r si, dans le choix, l'ordre n'est pas considéré comme significatif.
'' Par convention 0! a pour valeur 1. Donc (fj) = (") = 1. De plus ( " ) = 0 lorsque i < 0 ou i > n.
Analyse combinatoire 7
Exemple 1.12 On veut former un comité comprenant 3 des 20 personnes d'un groupe.
Combien y a-t-il de ces comités?
SOLUTION. Il y a (23°) = 20 l 9 18
3'. 2 .'| = 1 140 comités possibles. •
CK-XV) —
8 Initiation aux probabilités
Les nombres (") sont souvent appelés coefficients binomiauxen raison de leur rôle
dans le théorème du binôme.
Théorème 1.7
(x + y)n= (x + y)(x + y) n - 1
-"•»Ê(VK-'
k=o\ k / k=o\ k /
n , v i l i n—i . n
+ xy +y
-" l{i)
Analyse combinatoire 9
SOLUTION.
(,+,)'-QA'+(>V+(^+Q,V
= y3 + 3xy2 + 3x2y + x3 m
.tC;)-"*1»"-2"
On pourrait aussi obtenir ce résultat en assignant à chaque élément de l'ensemble
soit le nombre 0 soit le nombre 1. A chaque assignation complète correspond de
manière biunivoque un sous-ensemble: celui constitué de tous les éléments auxquels
a été attribuée la valeur 1. Comme il y a 2" jeux d'assignations possibles, on obtient
bien le résultat précédent. Notons que nous avons admis comme sous-ensemble celui
ne contenant aucun élément (c'est-à-dire l'ensemble vide). Par conséquent, le nombre
de sous-ensembles non-vides est 2"— 1. •
10 Initiation aux probabilités
1.5.1 Introduction
divisions possibles.
Soit r nombres n„ n2, ..., nr tels que n1+n2 + ... + nr = n. Le terme (n„ n2,..., nj
est défini par l'équation
(1.6)
Théorème 1.8
Le coefficient f „, „" „rJ représente le nombre de répartitions possibles de n objets en
r groupes distincts de tailles respectives «,, n2, .... nr.
Exemple 1.17 Le poste de police d'une petite ville compte 10 agents. Si l'organisation
de ce poste est d'avoir 5 agents en patrouille, 2 au poste travaillant activement et les
3 autres au poste également mais de réserve, à combien de répartitions de ces agents
en trois groupes ainsi définis peut-on procéder?
SOLUTION. Il y en a | | = 252. •
SOLUTION. Il faut remarquer que cet exemple est différent du précédent car ici l'ordre
des deux équipes n'a pas d'importance: plus précisément il n'y a pas d'équipe A se
distinguant d'une équipe B, mais seulement 2 groupes de 5 garçons. Par conséquent,
la solution est
Théorème 1.9
Exemple 1.20
+
(O,O>*KM>W*S
t
(,,».,)' 1 *- + (.,u)* !li
= x\ + xl + x\ + 2x,X2 + 2*1X3 + 2*2X3 •
12 Initiation aux probabilités
Théorème 1.10
Il y a ("Z'i) vecteurs distincts à composantes entières et positives satisfaisant à la
relation
x1 + x2 + ... + xr = n, x, > 0, i = 1.. . , r
Pour obtenir le nombre des solutions non négatives (et non plus positives) il suffit
de remarquer que le nombre de solutions non négatives de xt + x2 + ... + xr = n
est le même que celui des solutions positives de yx + y2 + ... + y, = n + r (on le
voit en posant yi, = x,+ l, i = 1, ..., r). Ceci permet de démontrer la proposition
suivante, en utilisant la précédente:
Théorème 1.11
Il y a ("+rn~l) vecteurs distincts à composantes entières et non négatives satisfaisant
à la relation
Xi + x2 + - • • + xr = n (1.8)
Exemple 1.22 Une personne dispose de 20 000 dollars à investir sur quatre placements
potentiels. Chaque mise doit se monter à un nombre entier de milliers de dollars. Entre
combien de stratégies d'investissement cette personne a-t-elle le choix si elle décide
de risquer la totalité des 20 000 dollars? Qu'en est-il si on admet qu'elle puisse
n'investir qu'une partie seulement de la somme?
xt + x2 + x3 + x4 = 20 Xi > 0
Xi + x2 + x3 + x4 + x5 = 20
SOLUTION.
Exemple 1.24 Reprenons l'exemple 1.14 dans lequel nous avions un ensemble de n
objets dont m étaient défectueux et indiscernables entre eux tandis que les n — m autres
étaient en bon état (et également indiscernables entre eux). Notre but est toujours de
déterminer le nombre de séquences dans lesquelles deux objets défectueux ne sont
jamais voisins. Pour cela, imaginons qu'on aligne d'abord les seuls objets défectueux
et qu'il va ensuite falloir placer les objets en état de marche. Désignons par xt le
nombre d'objets en bon état à gauche du premier objet endommagé, x2 le nombre
d'objets en bon état entre les deux premiers objets endommagés et ainsi de suite. On
peut construire un schéma:
xi 0 x2 0 ... xm 0 xm+l
Il y aura ainsi au moins un objet en bon état entre une paire d'objets défectueux si
xi > 0 pour ; = 2, ..., m. Le nombre de configurations acceptables sera donc égal
au nombre de vecteurs (x,, ..., xm+l) qui satisfont à x, + ... + xm+l = n-m et à
x, S* 0, xm+l S; 0, xi > 0 pour i = 2, ..., m.
14 Initiation aux probabilités
1.7.3 De combien de manières peut-on choisir r objets parmi n si l'ordre de tirage est
significatif?
1.7.4 Donner un argument d'analyse combinatoire pour justifier l'égalité (") = („"r).
(rKXTMX-.)--- (:)(")
lorsque r =n, r = m.
Analyse combinatoire 15
(?)
Présenter ensuite un argument d'analyse combinatoire en faveur de cette équation.
Auparavant on considérera un groupe de n+1 objets desquels un est jugé spécial.
Montrer que les deux membres de l'identité ci-dessus représentent le nombre de
sous-groupes de taille 4. Pour l'expression de droite, supposer qu'on mette initiale-
ment de côté l'objet spécial et choisir alors deux des ( ) sous-groupes de taille 2 par-
mi les n objets restants. Si les deux sous-groupes choisis n'ont pas d'objet commun,
utiliser alors leur union comme sous-groupe de taille 4; s'ils ont un objet commun,
utiliser alors les 3 objets distincts de leur union plus l'objet spécial comme sous-
groupe de taille 4. En utilisant cette approche pour obtenir tous les sous-groupes de
taille 4, combien de fois apparaît chaque sous-groupe?
1.7.9 Fournir un argument d'analyse combinatoire pour expliquer que (") est égal
a
(r.n-r)-
1.7.13
a) Démontrer l'identité suivante par induction:
16 Initiation aux probabilités
2 2
fc?,(k)* - ""2"(l, + 1)
î (£)fc3 = 2-V(,i + 3)
1.7.17 On considère une fonction f(x1t ..., xn) de n variables. Combien de dérivées
partielles d'ordre r y a-t-il?
Analyse combinatoire 17
(2;kt(;y
1.7.19
a) En utilisant un raisonnement par induction et l'identité suivante
montrer que
(r)=(r:;Mv)
b) Donner une seconde démonstration en montrant que chacun des deux membres de
l'égalité précédente est égal au nombre de solutions distinctes entières et non
négatives de l'inégalité
x
\ + x2 + ' " " + xr s n
Pour voir que (" r ) est égal au nombre de solutions non négatives, voir que le
nombre de solutions non négatives de x\ +...+ xr= n est le même que le nombre de
solutions non négatives de xx +...+ xr + xr+ 1 = n .
Î(;)(0«-»-'-O. -
1.8 PROBLÈMES
1.8.2 John, Jim, Jay et Jack ont formé un orchestre à 4 instruments. Si chacun des
garçons peut jouer des 4 instruments, combien d'arrangements peut-on concevoir?
Que se passe-t-il si John et Jim peuvent jouer des 4 instruments mais si Jay et Jack
ne savent jouer qu'au piano ou à la batterie?
1.8.3 Les indicatifs téléphoniques des Etats-Unis et du Canada sont composés de trois
chiffres. Le premier chiffre est un entier compris entre 2 et 9; le deuxième est soit 0
soit 1; le troisième est un entier compris entre 1 et 9. Combien y a-t-il d'indicatifs
possibles? Combien y a-t-il d'indicatifs commençant par 4?
En allant à St Ives
J'ai rencontré un homme avec 7 femmes.
Chaque femme avait 7 sacs.
Chaque sac contenait 7 chats.
Chaque chat avait 7 chatons.
1.8.5 On doit asseoir sur un rang 4 Américains, 3 Français et 3 Anglais. Les gens de
même nationalité doivent rester ensemble. Combien de dispositions peut-on imaginer?
1.8.7 Combien d'arrangements différents peut-on faire avec les lettres des mots
suivants:
a) PINTE
b) PROPOSE
c) MISSISSIPPI
d) ARRANGE?
1.8.8 Un enfant possède 12 cahiers: 6 noirs, 4 rouges, 1 blanc et 1 bleu. S'il tient à
placer les noirs les uns derrière les autres, de combien de manières peut-il les ranger?
1.8.12 Cinq prix doivent être décernés à des étudiants méritants choisis dans une
classe de 30 personnes (par exemple «meilleure performance académique», «meilleur
leadership», etc). Combien de résultats peut-on avoir si:
a) le cumul des prix est admis;
b) le cumul n'est pas possible?
1.8.14 Combien de mains de poker existe-t-il? Le jeu comprend 52 cartes, une main
en contient 5.
1.8.20 Dans le problème 1.8.19, combien de chemins passant par le point encerclé ci-
dessous peut-on prendre pour aller de A à B?
1.8.23 Pour une partie de bridge chacun des 4 joueurs reçoit 13 cartes. Le jeu en
compte 52. Combien y a-t-il de donnes possibles?
1.8.26 Un homme veut offrir un total de 7 cadeaux à ses 3 enfants. L'aîné en recevra
3 et les autres 2. De combien de manières peut-il procéder?
1.8.30 Lors d'une vente aux enchères, une collection de 4 Dali, 5 Van Gogh et
6 Picasso fait face à 5 collectionneurs. Toutes les oeuvres partent. La journaliste en
charge de couvrir l'événement n'a à noter que le nombre des Dali, Van Gogh et
Picasso acquis par chaque collectionneur. Combien de résultats sont-ils possibles dans
ces conditions?
1.8.31 Dix haltérophiles sont engagés dans une compétition par équipe. L'équipe
américaine compte 3 champions, l'équipe soviétique 4, l'équipe de Chine populaire
2 et le dernier homme est canadien. Le score publié n'indique que la nationalité des
haltérophiles, sans leur nom.
a) Dans ce cas, combien y a-t-il de listes de scores possibles?
b) Combien y en a-t-il si les Etats-Unis ont un concurrent placé dans les trois
meilleurs et deux dans les trois derniers?
1.8.33 Une personne a 20000 dollars à placer sur 4 affaires potentielles. Chaque
investissement doit être un nombre entier de milliers de dollars et il existe un engage-
ment minimum pour chaque affaire que l'on retiendra. Ces minima sont respective-
ment 2, 2, 3 et 4 milliers de dollars. Combien de stratégies d'investissement y a-t-il
si:
a) un investissement doit être fait sur chaque affaire;
b) au moins 3 des 4 affaires doivent être couvertes?
2.1 INTRODUCTION
2.2.1 Définitions
Considérons une expérience dont l'issue n'est pas prévisible. Bien que l'issue de
l'expérience ne soit pas connue d'avance, admettons cependant que l'ensemble des
issues possibles est connu, lui. Cet ensemble des issues possibles à l'expérience est
désigné comme l'ensemble fondamental de l'expérience et est noté S. Quelques exem-
ples suivent.
• Si le résultat de l'expérience équivaut à la détermination du sexe d'un nouveau-
né, alors
S = {g,f}
où le résultat g signifie que l'enfant est un garçon tandis que/désigne une fille.
• Si l'issue de l'expérience est l'ordre d'arrivée à une course entre 7 chevaux ayant
les positions de départ 1,2, 3, ..., 7, alors
S = {toutes les permutations de (1, 2, ..., 7)}
soit 7! au total.
• Si l'expérience consiste à jeter deux pièces, alors l'ensemble fondamental est
constitué des 4 points suivants:
24 Initiation aux probabilités
S = {(i,j) i, y = 1 , 2 , 3 , 4 , 5 , 6 }
Evénement vide
Dans le quatrième exemple, si E = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} est
l'événement «la somme des dés est 7» et F = {(1,5), (2,4), (3,3), (4,2), (5,1)} est «la
somme des dés est 6», alors l'événement EF ne contient aucune réalisation et par
conséquent ne peut survenir. Puisqu'il faut donner un nom à un tel événement, on
l'appellera l'événement vide et on le notera 0 . ( 0 désigne donc l'événement ne
contenant aucun point). Si EF = 0 , alors E et F sont dits mutuellement exclusifs.
si F,, E2, ... sont des événements, leur union, notée U En est par définition l'événe-
ment qui contient chaque point qui se trouve dans En pour au moins une valeur de
00
n = 1, 2,.... De même l'intersection des événements En, notée D En, est par définition
n=1
l'événement comprenant tous les points qui sont dans tous les événements En à la fois,
n = 1,2, ....
Troisième opération: complémentation
Finalement, pour chaque événement E le nouvel événement Ee devra par définition
contenir tous les points de l'ensemble fondamental S qui ne sont pas dans E. Dans
le quatrième exemple, si l'événement E = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}, alors
Ec sera réalisé lorsque la somme des dés n'est pas égale à 7. On notera par ailleurs
que Sc = 0 puisqu'il faut bien que l'expérience débouche sur une réalisation.
Pour toute paire d'événements £ et F, si tous les points de F sont aussi dans F alors
on dit que E est contenu dans F et on écrit E <= F (ou, ce qui est équivalent, F 3 E).
Ainsi, si E a Fia réalisation de F entraîne automatiquement celle de F. Si E a F et
F c= F, nous dirons que E et F sont égaux et écrirons E = F.
Une représentation graphique très utile pour l'illustration des relations logiques
entre les événements est le diagramme de Venn. L'ensemble S est représenté par tous
26 Initiation aux probabilités
les points d'un grand rectangle et les événements E, F, G ... sont représentés par tous
les points situés à l'intérieur de cercles inclus dans le rectangle. Des événements
d'intérêt particulier peuvent ensuite être mis en évidence en ombrant les aires appro-
priées du diagramme. Par exemple, dans les trois diagrammes de Venn montrés sur
la figure 2.1, les zones ombrées représentent respectivement les événements EVJ F, EF
et Ee. Le diagramme de Venn de la figure 2.2 indique que E a F.
Fig. 2.3
Les relations suivantes entre les trois opérations de base consistant à former des
unions, des intersections ou des complémentations, sont connues sous le nom de lois
de DeMorgan et sont très utilisées.
Pour démontrer la première de ces lois de DeMorgan, supposons d'abord que x soit
n n
un point de (U E;)e. Alors x n'est pas dans U E-„ ce qui signifie que x n'est contenu
dans aucun des événements E,, / = 1, 2,..., n. Ceci implique que x est contenu à son
n
tour dans E\ pour chaque i = 1,...,n et donc contenu dans D E\. Pour la réciproque,
28 Initiation aux probabilités
n
supposons que x soit un point de D Ecr Alors x appartient à chaque E)', i = 1, 2,..., n.
1=1
Cela signifie que x n'est pas contenu dans U Eh ce qui entraîne enfin que x est
contenu dans (U E,Y- Ceci prouve la première des lois de DeMorgan. Pour prouver
la deuxième loi de DeMorgan, nous utilisons la première pour obtenir
\i=l / i=l
{ÙEIJ =r\Ei
En prenant le complément des deux membres de l'équation ci-dessus, on obtient
précisément le résultat voulu:
P(E) = lim
Cela veut dire que P(E) est définie comme la limite du pourcentage du nombre de
fois où E survient par rapport au nombre total des répétitions. C'est donc la fréquence
limite de E.
Bien que la définition précédente soit intuitivement commode, et qu'elle doive
toujours rester à l'esprit du lecteur, elle possède un sérieux inconvénient. Nous ne
savons en fait pas si n(E) va converger vers une limite constante qui sera la même pour
chaque séquence de répétitions de l'expérience. Dans le cas du jet d'une pièce par
exemple, peut-on être sûr que la proportion de piles sur les n premiers jets va tendre
vers une limite donnée lorsque n grandit à l'infini? En plus, même si elle converge vers
une certaine valeur, peut-on être sûr que nous obtiendrons de nouveau la même
proportion limite de piles si l'expérience est entièrement répétée une deuxième fois?
Axiomes des probabilités 29
Axiome 2.1
0<P(£)< 1
Axiome 2.2
P(S) = 1
Axiome 2.3
Pour chaque séquence d'événements mutuellement exclusifs Ex, E2, ... (c'est-à-dire
d'événements pour lesquels EjEj = 0 si i 9E j),
L'axiome 2.1 énonce ainsi «la probabilité que le résultat de l'expérience soit un
point de Zsest un certain nombre compris entre 0 et 1». L'axiome 2.2 énonce que le
résultat sera un point de S avec une probabilité de 1. L'axiome 2.3 énonce que pour
chaque séquence d'événements mutuellement exclusifs la probabilité qu'au moins l'un
de ces événements survienne est simplement la somme de leurs probabilités respec-
tives.
30 Initiation aux probabilités
ce qui implique
P(0)=O
Cela veut dire que l'événement vide ou toujours faux a pour probabilité 0.
Autre conséquence remarquable, il en découle également que pour toute suite finie
d'événements mutuellement exclusifs E1, E2, ..., En
I P{Ei) (2.1)
Ceci résulte de l'axiome 2.3 en posant Ej = 0 pour toutes les valeurs de i supérieures
à n. L'axiome 2.3 équivaut à l'équation (2.1) quand l'ensemble fondamental est fini
(expliquer pourquoi). Cependant, lorsque l'ensemble fondamental contient un nom-
bre infini de points, la formulation plus générale que donne l'axiome 2.3 devient
nécessaire.
Exemple 2.1 Notre expérience consiste à jeter une pièce. En admettant que pile a
autant de chances d'apparaître que face, les axiomes nous donnent
Si par contre la pièce est biaisée et si nous estimons que pile a deux fois plus de chances
d'apparaître que face, on aura
Exemple 2.2 En jetant un dé et en supposant que les six faces ont les mêmes chances
d'apparaître, on aura P({1}) = P({2}) = F({3}) = P({4}) = P({5}) = P({6}) =1/6.De
l'axiome 2.3 il résulte que la probabilité de tirer un nombre pair est
Dans cette section nous allons démontrer quelques théorèmes simples concernant
les probabilités. Nous remarquons d'abord que E et Ee sont toujours mutuellement
exclusifs et puisque E u Ee = S, nous avons grâce aux axiomes 2.2 et 2.3:
1 = P(S) = P(EuEc) = P(E) + P(EC)
Ceci équivaut encore à l'énoncé du théorème 2.4 suivant:
Théorème 2.4
P(EC) = l-P(E)
On peut commenter ce théorème comme suit: la probabilité qu'un événement
n'arrive pas est 1 moins la probabilité qu'il survienne. Par exemple, si la proba-
bilité d'obtenir pile lors du lancer d'une pièce est jj, la probabilité d'obtenir face doit
être 5. •
Notre second théorème affirme que si l'événement F est contenu dans l'événement
F, alors la probabilité de E n'est pas plus grande que celle de E.
Théorème 2.5
Si E c F, alors P(E) = P(F).
Théorème 2.6
PREUVE. Pour obtenir une formule donnant P(E u F), remarquons d'abord que
E u F peut être écrit comme l'union de deux éléments disjoints E et ECF. Nous tirons
alors de l'axiome 2.3 que
P(£uF) = P(EuEcF)
= P(E) + P(ECF)
De plus, comme F = EF u EL'F, nous tirons de nouveau de cet axiome
P(F) = P(EF) + P(ECF)
ou encore
P(ECF) = P(F) - P(EF)
Fig. 2.4
Fig. 2.5
La section I représente tous les points de E qui ne sont pas dans F (c'est-à-dire EF1');
la section II représente tous ceux qui sont dans £et dans F (c'est-à-dire EF); la section
III représente tous ceux de F qui ne sont pas dans E (c'est-à-dire ECF).
Axiomes des probabilités 33
Exemple 2.3 Supposons que l'on jette deux pièces et que chacun des quatre points
de l'ensemble fondamental S = {(P,P), (P,F), (F,P), (F,F)} soit de même probabilité
i. Soient E = {(P,P), (P,F)} et F = {(P,P), (F,P)}, c'est-à-dire que £ est l'événement
«la première pièce tombe sur pile» et F l'événement «la deuxième pièce tombe sur
pile». Le théorème 2.6 nous donne la probabilité P(EvF) que soit la première soit la
deuxième pièce tombe sur pile
_ 3
4
Nous pouvons aussi calculer la probabilité que l'un quelconque des trois événe-
ments E, F ou G survienne:
P(£uFuG) = P[(£uF)uG]
qui vaut par le théorème 2.6:
P(EuF) + P(G) - F [ ( E u F ) G ]
A ce point, l'équivalence des événements (E u F)G et EG u FG résulte de la distribu-
tivité des opérations, ce qui permet d'écrire
F(FuFuG)
= P(E) + P(F) - P(EF) + P(G) - P ( F G u F G )
= P(E) + P(F) - P(EF) + P(G) - P(EG) - P(FG) + P(EGFG)
= P(E) + P(F) + P(G) - P(EF) - P{EG) - P(FG) + P(EFG)
Théorème 2.7
La somme P(EiEi ... Eir) est prise sur les (") sous-ensembles possibles
i\<i2 <...<ir
de taille r de l'ensemble {1, 2, .... n}.
REMARQUE. Pour donner un argument non inductif pour le théorème 2.7, notons d'a-
bord que si un point de l'ensemble fondamental S n'est membre d'aucun ensemble E„
alors sa probabilité ne contribue en rien aux deux membres de l'égalité. Au contraire,
supposons qu'un point appartienne à exactement m ensembles £,, où m > 0. Alors,
puisqu'il se trouve dans U E, sa probabilité est comptée une fois dans P(U £,); mais
comme ce point est contenu dans ( ^ ) sous-groupes du type E,, E-n ... Eik, sa
probabilité est comptée
0 = (-1 + l) m =
Axiomes des probabilités 35
P({i))=jj i=l,2,...,N
De ceci et de l'axiome 2.3 il résulte que pour tout événement E
„ . „, nombre de points dans E
r(t) = .
nombre de points dans S
En clair, si nous admettons que toutes les issues d'une expérience ont la même proba-
bilité de survenir, la probabilité d'un événement E quelconque est égale à la propor-
tion dans l'ensemble de définition de points qui sont contenus dans E.
2.5.2 Exemples
Exemple 2.4 Si deux dés sont jetés, quelle est la probabilité que la somme des faces
soit 7?
SOLUTION. Nous résoudrons ce problème en faisant l'hypothèse que les 36 issues
possibles sont équiprobables. Puisqu'il y a 6 issues, à savoir (1,6), (2,5), (3,4), (4,3),
(5,2) et (6,1), qui donnent une somme de 7 pour les deux dés, la probabilité est
6/39 = 1/6. •
36 6
Exemple 2.5 Si deux boules sont tirées au hasard d'un bol en contenant 6 blanches
et 5 noires, quelle est la probabilité qu'une des boules tirées soit blanche et l'autre
noire?
SOLUTION. Si nous considérons l'ordre dans lequel les boules sont choisies comme
significatif, l'ensemble fondamental comprend 11 • 10 = 110 points. De plus, il y a
6 • 5 = 30 manières de tirer pour lesquelles la première boule est blanche et la seconde
noire. On compte de même 5 • 6 = 30 manières de tirer pour lesquelles la première
boule est noire et la seconde blanche. De ce fait, si tirer au hasard signifie que chacun
des 110 points de l'ensemble fondamental a la même probabilité de survenir, nous
voyons que la probabilité cherchée est
30 + 30 6
110 11
36 Initiation aux probabilités
11
Exemple 2.6 Un comité de 5 personnes doit être choisi parmi les 6 hommes et 9
femmes d'un groupe. Si le choix est le résultat du hasard, quelle est la probabilité que
le comité soit composé de 3 hommes et 2 femmes?
SOLUTION. Admettons que «choix dû au hasard» signifie que chacune des ('55) combi-
naisons possibles a les mêmes chances d'apparaître. La probabilité cherchée sera donc
égale à:
1001
(1)
Exemple 2.7 Une main de poker comprend 5 cartes1. Si celles-ci ont des valeurs
consécutives et ne sont pas de la même couleur, nous dirons que la main est une suite.
Par exemple, une main comprenant le cinq, le six, le sept, le huit de pique et le neuf
de cœur est une suite. Quelle est la probabilité de se voir distribuer une suite?
SOLUTION. On commence par admettre que les (552) mains possibles au poker sont
toutes equiprobables. Pour déterminer le nombre de tirages qui sont des suites, on
va déterminer en premier lieu le nombre de tirages pour lesquels la main comprendra
un as, un deux, un trois, un quatre et un cinq (sans s'intéresser à la question de savoir
si l'on a une suite). Du fait que l'as peut être l'un des quatre as du jeu, qu'il en est
de même pour le deux, le trois, le quatre et le cinq, il découle qu'il y a 45 tirages livrant
exactement un as, un deux, un trois, un quatre et un cinq.
Donc, puisque dans 4 de ces tirages toutes les cartes seront de la même couleur (une
telle main est appelée suite royale), il résulte qu'il y a 45 - 4 mains qui sont des suites
1
Ndt: il s'agil ici d'un jeu de 52 cartes où l'on distingue 4 couleurs.
Axiomes des probabilités 37
10(45-4) n _
- .0039
Exemple 2.8 Une main de poker de 5 cartes est appelée main pleine si elle comprend
3 cartes de la même valeur et 2 autres, mais de même valeur entre elles également.
Une main pleine comprend donc trois cartes d'une sorte plus une paire. Quelle est
la probabilité de se voir distribuer une main pleine?
SOLUTION. De nouveau nous admettons que chacune des (552) mains possibles est de
même probabilité. Pour déterminer le nombre de mains pleines possibles, nous
noterons d'abord qu'il yaf*)- (3) combinaisons différentes de, disons, deux 10 et trois
valets. Comme il y a 13 choix différents pour le choix de la paire et après ce choix
12 autres possibilités pour la valeur des 3 cartes restantes, il résulte que la probabilité
d'une main pleine est
Exemple 2.9 Lors d'une partie de bridge, les 52 cartes du paquet sont réparties entre
les 4 joueurs.
a) Quelle est la probabilité qu'un joueur reçoive les 13 piques?
b) Quelle est la probabilité que chaque joueur reçoive un as?
52
SOLUTION,a) Il y a ( 13 13 13i )3 ) répartitions possibles des cartes entre les 4 joueurs.
Comme il y a (,, ^ ,,) répartitions possibles des cartes pour lesquelles un joueur
donné détient les 13 piques, il en résulte que la probabilité désirée est donnée par
b) Pour déterminer le nombre de tirages dans lesquels chaque joueur reçoit exacte-
ment un as, mettons les as de côté et notons qu'il y a ( 12,12,12,12) répartitions pos-
sibles des 48 cartes restantes lorsque chaque joueur en reçoit 12. Comme il y a 4!
38 Initiation aux probabilités
manières de répartir les 4 as pour que chaque joueur en reçoive 1, nous voyons que le
nombre de tirages possibles où chaque joueur reçoit exactement 1 as est 4!(12,12,12,12)-
Donc la probabilité désirée est
48
4!,
12, 12, 12, 12
52
13, 13, 13, 13
L'exemple suivant illustre le fait que les résultats en probabilité peuvent être tout à
fait surprenants au premier abord.
Exemple 2.10 Si n personnes sont présentes dans une pièce, quelle est la probabilité
que leurs anniversaires tombent sur des jours tous différents? Quelle valeur faut-il
donner à n pour que cette probabilité descende en dessous de |?
SOLUTION. Comme chaque personne peut célébrer son anniversaire lors de n'importe
lequel des 365 jours de l'an, il y a au total (365)" situations possibles (on exclut le cas
des gens nés un 29 février). En admettant que chaque situation est équiprobable, on
voit que la probabilité cherchée est (365)(364)(363)...(365-n+l)/(365)". On sera
surpris d'apprendre que lorsque n vaut 23, cette probabilité est inférieure à i Cela veut
dire que si 23 personnes se trouvent dans une pièce, la probabilité qu'au moins deux
d'entre elles aient leur anniversaire le même jour dépasse j . Beaucoup de gens sont
surpris par un tel résultat. Peut-être encore plus surprenant cependant est que cette
probabilité augmente à 0,97 quand il y a 50 personnes dans la pièce. Et avec 100
personnes dans la pièce, les chances sont à plus de 3 000 000 contre 1 (ou encore: la
probabilité est supérieure à (3 x 106)/(3x 106 + 1)) pour qu'au moins 2 personnes
aient leur anniversaire le même jour. •
SOLUTION. Il y a
(40)!
manières de répartir les 40 joueurs en 20 paires ordonnées. Cela veut dire qu'il y a
(40)!/22° manières de répartir les joueurs en une paire numéro 1, une paire numéro
2 et ainsi de suite. De ce fait, il y a 40!/220(20)! manières de répartir les joueurs en
paires non ordonnées. De plus, puisqu'une répartition ne livrera pas de paire mixte
si les attaquants (resp. les défenseurs) sont appariés entre eux, il s'ensuit qu'il y a
Axiomes des probabilités 39
Po =
Pour déterminer P2i, la probabilité qu'il y ait 2J paires mixtes, remarquons d'abord
qu'il y a (2() manières de choisir les 2/ défenseurs et les 2i attaquants qui com-
poseront les paires mixtes. Les 4/ joueurs peuvent être appariés en (2i)! paires mixtes.
Ceci du fait que le premier attaquant peut être apparié avec n'importe lequel des 2i
défenseurs, le second attaquant avec n'importe lequel des 2i - 1 défenseurs restants, et
ainsi de suite. Comme les 20 - 2i défenseurs (resp. attaquants) restants doivent être
appariés entre eux, il s'ensuit qu'il y a
'(10-0!
Les trois prochains exemples illustrent l'utilité du théorème 2.7. Dans l'exemple 2.12,
l'introduction des probabilités nous permet d'obtenir une solution rapide à un
problème de dénombrement.
Maintenant, Tétant l'ensemble des membres qui jouent au tennis, S celui de ceux qui
pratiquent le squash et B celui de ceux qui jouent au badminton, le théorème 2.7
entraîne que
D'où nous pouvons conclure que 43 membres pratiquent au moins un des sports.
L'exemple qui suit possède deux avantages: non seulement il donne lieu à un
résultat quelque peu étonnant, mais il est aussi d'intérêt théorique.
+ --- + (-l)N+1P(ElE2---EN)
chacun des n hommes i\,i2,—,i„ choisisse son propre chapeau, peut survenir de
(N — n)[N - (n+ 1)] ... 3 • 2 • 1 = (N — «)! manières possibles; car, pour les N — «
hommes restants, le premier peut choisir n'importe lequel parmi N — n chapeaux,
le second peut choisir parmi N —(n+l) chapeaux et ainsi de suite. Ainsi, en admettant
que les N\ tirages possibles soient équiprobables, nous voyons que
{N n)]
P(F F r) ~
N\(N-n)\ _ 1
i,<i2-<i„ (N-n)\n\N\ n\
et par conséquent
, , 1 1 (-1)"
1 1+ + +
- iï-3ï --- -^r
Cette probabilité est, pour N grand, approximativement égale à e-1 « 0,36788. En
d'autres termes, pour des grandes valeurs de N, la probabilité qu'aucun des hommes
ne sélectionne son propre chapeau est d'environ 0,37 (bien des lecteurs auront sans
doute plutôt pensé à tort que cette probabilité tendrait vers 1 lorsque N devient infini),
b) Pour obtenir la probabilité qu'exactement k des N hommes choisissent leur
propre chapeau, fixons dans un premier temps notre attention sur un groupe particulier
de k hommes. Le nombre de manières pour que ces k hommes et eux seulement choi-
sissent leur propre chapeau est égal au nombre de manières pour que les N - k autres
hommes choisissent parmi leurs chapeaux sans qu'aucun d'entre eux ne tombe sur le
sien. Mais comme
N!
, , 1 1 (-l)N~k
1 1+ + +
- 2!-5i --- ^^)!
fc!
qui, pour N grand, devient approximativement e */k\. Ces valeurs <•>""'/&!, À- = 0,1,...,
ont une importance théorique. Elles représentent en effet les valeurs associées à la
distribution de Poisson. Ce point sera développé au chapitre 4. ' •
Pour illustrer autrement encore l'utilité du théorème 2.7, on peut citer l'exemple
suivant.
Exemple2.14 Si 10 couples mariés sont assis au hasard autour d'une table, calculer
la probabilité qu'aucune femme ne soit assise à côté de son mari.
SOLUTION. Si nous désignons par Ei, i = 1,2,...,10 l'événement que le couple /est réuni,
10
il en résulte que la probabilité cherchée est 1 - P([J E). Mais en vertu du théorème
;=l
2.7
+ P(EIE2---E10)
1
Voir l'exemple 3.30 pour une autre approche de ce problème.
Axiomes des probabilités 43
dispositions qui aboutissent à ce qu'un groupe fixé de n hommes soient assis à côté
de leur femme. Donc
p{ r(19-n)l
1 2 ;
" (19)!
De ce fait, le théorème 2.7 livre que la probabilité de trouver au moins un couple réuni
est
Exemple 2.15 Considérons une équipe d'athlétisme qui vient de terminer sa saison
avec un palmarès final de n victoires et m défaites. En examinant la séquence
des victoires et défaites nous espérons déterminer si l'équipe a eu des suites
d'épreuves pendant lesquelles elle avait une chance plus grande de gagner que pendant
les autres. Un moyen d'éclairer un peu cette question est de compter le nombre de
chaînes de victoires et de voir ensuite quelle probabilité aurait ce résultat en admet-
tant que les (n + m)\/(n\m\) séquences possibles comprenant n victoires et m défaites
sont équiprobables. Par «chaîne de victoires» nous entendons une séquence ininter-
rompue de victoires. Par exemple, si n = 10, m = 6 et si la séquence des résultats est
V V D D V V V D V D D D V V V V , alors il y a eu 4 chaînes de victoires - la première
de longueur 2, la seconde de 3, la troisième de 1 et la quatrième de 4.
Supposons maintenant qu'une équipe enregistre n victoires et m défaites. En
admettant que les (n + m)!/(n!m!) = (n+„m) séquences sont équiprobables, déterminons
la probabilité qu'il y ait exactement r chaînes de victoires. Pour l'obtenir, considérons
d'abord n'importe quel vecteur d'entiers positifs xl,x2,...,xr avec xl+x2+..-+xr = n,
et voyons combien de séquences comprennent r suites de victoires dans lesquelles la
z'-ème chaîne est de taille xit i = \,...,r. Pour toute telle séquence, si nous désignons
par yx le nombre de défaites avant la première chaîne de victoires, y2 celui avant la
deuxième chaîne de victoires, yr+l celui après la dernière chaîne de victoires, alors les
yt satisfont
x x x
y\ i yi z r yr+\
qui satisfont
y, + y2 + • • • + yr+1 = m + 2
Si {£„, n ^ 1} est une suite croissante d'événements, alors nous définissons un nouvel
événement noté lim E„:
n-»oc
00
lim En = U Et
lim En = f i Ei,
Théorème 2.8
Si {E„, n = 1) est une suite soit croissante, soit décroissante d'événements, alors
PREUVE: Supposons d'abord que {E„, n = 1} est une suite croissante et définissons les
événements Fn, n > 1 par
F1=El
où nous avons utilisé le fait que U Ei = E t, puisque les événements sont emboîtés.
;=l
En d'autres termes, F„ comprend les points de E„ qui ne sont dans aucun des £, qui
le précèdent. Il est facile de voir que les Fn sont des événements s'excluant mutuelle-
ment et tels que
Ainsi
= lim i P{Fi)
= limp(ÛF()
{ÙE)
= lim P(En)
n-*oo
ce qui prouve le résultat lorsque {En, n ^ 1} est croissante.
Si {En,n > 1 ( est une suite décroissante, alors {E„c, n > 1} est croissante; de ce fait,
d'après les équations précédentes,
^((ÔE,) ) = lim/'(£;)
46 Initiation aux probabilités
P[ H E f ) = lim P(Ê„)
\ i / "^^
SOLUTION. Nous montrerons qu'avec une probabilité 1 l'urne est vide à minuit.
Considérons d'abord la boule 1. Définissons par E„ l'événement «la boule 1 est encore
dans l'urne après que les n premiers retraits ont été effectués». Clairement,
9
P(E„) = -18-27-"-^
10 1 9 - 2 8 - - ( 9 n + l)
Pour comprendre cette équation, il suffit de voir que si la boule 1 est encore dans
l'urne après les n premiers retraits, la première boule retirée peut être choisie parmi
Axiomes des probabilités 47
Or, l'événement «la boule 1 est dans l'urne à minuit» est précisément fi En. Comme
n- I
les événements E„, n = 1, forment une suite décroissante, il résulte du théorème 2.8
que:
P {la boule numéro 1 se trouve dans l'urne à minuit}
- p (.ô, £ -)
= lim P(En)
n-*oo
.Û.(,+s)-
Or, pour tout m^ 1
n(> + fUn(. + f)
„=i\ 9n/ „=i\ 9nJ
1 1 1 î
> - + — + — + ••• + —
9 18 27 9m
=1y i
9 ih i
Par conséquent, en faisant tendre m vers l'infini et en utilisant le fait que Z \ji = oo,
l=l
on obtient
oo
48 Initiation aux probabilités
Donc, en notant F, l'événement «la boule i est dans l'urne à minuit», nous avons
montré que Pl^) = 0. On peut alors montrer que P(Fj) = 0 pour tout i (le même
00
raisonnement établit par exemple que P(Fj) = U [9n/(9n+ 1)] pour i = 11,12,...,20).
2
OO " =
Ainsi, la probabilité P(U Fj) que l'urne ne soit pas vide à minuit satisfait
/ oo \ oo
P\UFtJslP(Fi)=0
en vertu de l'inégalité de Boole (voir exercices 2.8.8 et 2.8.20). Aussi l'urne sera-t-elle
vide à minuit, avec une probabilité de 1. •
Jusqu'à présent nous avons interprété la probabilité d'un événement d'une expé-
rience donnée comme étant une mesure de la fréquence d'apparition de l'événement
lorsque l'expérience est répétée sans fin. Cependant, il existe d'autres usages du terme
probabilité. Par exemple, nous avons tous entendu des déclarations du genre «il est
probable à 90% que Shakespeare ait écrit Hamlet», ou «la probabilité qu'Oswald ait
agi seul lors de l'assassinat de Kennedy est 0,8». Comment devons-nous interpréter
ces affirmations?
L'interprétation la plus simple et naturelle est que les probabilités citées sont des
mesures du crédit qu'un individu porte à la déclaration qu'il fait. En d'autres termes,
un individu prononçant les déclarations ci-dessus est assez certain qu'Oswald a agi
seul et plus certain encore que Shakespeare a écrit Hamlet. Cette interprétation des
probabilités comme mesure d'une croyance est qualifiée d'approche personnelle ou
subjective des probabilités.
Il semble logique de supposer qu'une telle mesure du crédit porté aux choses doive
satisfaire tous les axiomes des probabilités. Par exemple, si nous sommes certains à
70% que Shakespeare ait écrit Jules César et certains à 10% que l'auteur ait en fait
été Marlowe, alors il est logique de supposer que nous sommes certains à 80% que
l'auteur ait été soit Shakespeare soit Marlowe. Aussi, que nous interprétions les
probabilités comme mesure de croyance ou comme fréquence d'apparition à long
terme, leurs propriétés mathématiques sont inchangées.
Exemple 2.17 Supposons que dans une course disputée par 7 chevaux vous sentiez
que chacun des 2 premiers a 20% de chances de gagner, que les chevaux 3 et 4 ont
chacun 15% de chance et que les 3 derniers ont 10% de chance chacun. Avez-vous
avantage à parier à 1 contre 1 que le gagnant sera l'un des 3 premiers chevaux ou de
parier, à 1 contre 1 toujours, que le vainqueur sera l'un des chevaux 1, 5, 6, 7?
SOLUTION. Calculée d'après vos probabilités personnelles sur l'issue de la course, votre
probabilité de gagner le premier pari est 0,2 + 0,2 + 0,15 = 0,55 tandis qu'elle est
de 0,2 + 0,1 + 0 , 1 + 0 , 1 = 0,5 pour le second. La première mise est donc plus
intéressante. •
Axiomes des probabilités 49
il est bien possible qu'après quelques réflexions cette personne puisse donner respecti-
vement 30%, 40%, 20% et 60% comme réponses. Mais malheureusement de telles
réponses (ou de telles probabilités subjectives) ne sont pas cohérentes avec les axiomes
de probabilité (pourquoi ne le sont-elles pas?). Nous espérons bien naturellement
qu'après le lui avoir fait remarquer le répondeur finira par modifier ses réponses (une
possibilité acceptable est respectivement 30%, 40%,10% et 60%).
2.8.2 Pour toute suite d'événements E\,E2,.--, définir une nouvelle suite F,,F2,...
d'événements s'excluant mutuellement (c'est-à-dire tels que F,F; = 0 dès que / # j)
et tels que pour tout n > 1
UFi = \jEi
2.8.3 Soient E, F et G trois événements. Trouver des expressions pour les événements
suivants que l'on dira réalisés lorsque, de E, F et G,
• E seul l'est
• E et G le sont mais pas F
• au moins l'un des trois l'est
• au moins deux d'entre eux le sont
• les trois le sont
• aucun ne l'est
• au plus l'un des trois l'est
• au plus deux d'entre eux le sont
• exactement deux le sont
• au plus trois le sont.
50 Initiation aux probabilités
a) (EuF)(EuFc);
b) ( £ u F ) ( Ê c u F ) ( £ u F f ) ;
c) ( E u F ) ( F u G ) .
2.8.5 Soit S un ensemble donné. Si pour un certain k > 0, S,,S2,...,S£ sont des
k
sous-ensembles disjoints non vides de S tels que U S, = S, alors nous appelons
<= i
l'ensemble {St,...,Sk} une partition de S. Désignons par Tn le nombre de partitions
différentes de {1,2,...,«}. On aura T1 = 1 (puisque la seule partition est St = {1} et
T2= 2 (puisque les deux partitions possibles sont {{1,2}},{{ 1 },{2}}). Montrer que
r 3 = 5, T4 = 15 en exhibant toutes les partitions
T
»'",+.Ç,(*")7V
et appliquer ce résultat au calcul de Tl0.
Une façon de choisir une partition de n + 1 objets est de nommer un des objets
«spécial». Nous obtenons alors différentes partitions en choisissant tout d'abord k,
k = 0, 1,..., n , puis un sous-ensemble de taille n-k parmi les objets non spéciaux et
en choisissant ensuite n'importe quelle partition Tk des k objets non spéciaux restants.
En ajoutant l'objet spécial au sous-ensemble de taille n-k, nous obtenons une
partition des n + 1 objets.
2.8.6 On suppose qu'une expérience est répétée n fois. Pour chaque événement E de
l'ensemble fondamental, soit n(E) le nombre de fois où l'événement E survient; on
définit/(Zs) par f[E) = n(E)/n. Montrer que f( • ) satisfait aux axiomes 2.1, 2.2 et 2.3.
2.8.9 Si P{E) = 0,9 et P(F) = 0,8, montrer que P(EF) > 0,7. De manière plus
générale, démontrer l'inégalité de Bonferroni, à savoir
AN = (N - l)(i4 N _, + A N _ 2 )
2.8.17 Désignons par/„ le nombre de manières de jeter une pièce n fois sans que deux
piles successifs n'apparaissent. Montrer que
fn = fn-1 + fn-2 n ≥ 2, OÙ f0 = 1, f1 = 2
Si Pn désigne la probabilité que des piles successifs n'apparaissent jamais lors de «jets,
trouver Pn (en fonction de fn lorsqu'on admet que toutes les séquences de «jets sont
équiprobables. Calculer Pi0.
10
RÉPONSE. Pm = 144/2 = 0,141.
même probabilité. Est-ce que tous les points peuvent avoir une probabilité strictement
positive?
2.8.20 A partir de l'inégalité de Boole pour un nombre fini d'événements, montrer que
pour toute suite infinie d'événements Eh i = 1,
P{C)E^IP(E,)
2.8.22 Pour une suite d'événements Eh i > 1, on définit un nouvel événement, appelé
lim sup £,, comprenant tous les événements contenus dans un nombre infini de £,,
/ ^ 1. Montrer que
X X
lim sup E, = Pi U Ei
i n = ) i = n
2.8.23 Montrer que si S P(E,) < oo, alors P(lim sup E,) = 0.
;=1 '
x
Ceci est un résultat important qui énonce que si L P (E)<oo, alors la probabilité
qu'un nombre infini de E survienne est 0.
Pour ce calcul, utiliser l'inclusion
Axiomes des probabilités 53
2.9 PROBLÈMES
Les problèmes 2.9.1 à 2.9.4 portent sur les sections 2.1 et 2.2.
2.9.1 Une boîte contient 3 jetons, un rouge, un vert et un bleu. On considère l'expé-
rience consistant à tirer au hasard un jeton dans la boîte, à l'y remettre puis à en tirer
un second. Décrire l'ensemble fondamental. Même question si le second jeton est tiré
sans qu'on ait remis le premier.
2.9.2 Un dé est jeté jusqu'à ce qu'un 6 sorte, ce qui marque la fin de l'expérience. Quel
est l'ensemble fondamental pour cette expérience? Notons par E l'événement ««jets
sont nécessaires pour obtenir le premier 6». Quels points de l'espace fondamental sont
contenus dans £„? Décrire (U £„)'•
2.9.3 On jette deux dés. On note par E l'événement «la somme des dés est impaire»,
par F l'événement «au moins l'un des dés montre 1», et par G «la somme des dés est
5». Décrire EF, EKJF, FG, EF1 et EFG.
2.9A Trois joueurs, A, fl et C, jettent une pièce à tour de rôle. Le premier qui obtient
pile a gagné. L'ensemble fondamental S de cette expérience peut être décrit comme
suit:
fl,01,001,0001,...,
loooo--
2.9.5 Une cafétéria propose un menu composé de trois plats. On choisit un plat prin-
cipal, un féculent et un dessert. Les choix possibles sont donnés ci-dessous.
Choix
Plat principal poulet ou rosbif
Féculent pâtes ou riz ou pommes de terre
Dessert glace ou gelée ou tarte aux pommes ou pêches
Les problèmes 2.9.5 à 2.9.36 portent sur les sections 2.3 à 2.6.
2.9.6 Un magasin accepte les cartes de crédit American Express ou VISA. 24% de
ses clients possèdent une carte American Express, 61% une carte VISA et 11% pos-
sèdent les deux. Quel est le pourcentage de clients possédant une carte de crédit ac-
ceptée par le magasin?
2.9.7 60% des élèves d'une école ne portent ni bague ni collier. 20% portent une
bague et 30% ont un collier. Si un des élèves est choisi au hasard, quelle est la proba-
bilité qu'il porte
a) une bague ou un collier?
b) une bague et un collier?
2.9.8 Un client du rayon costumes d'un magasin achètera un costume avec une pro-
babilité .22, une chemise avec une probabilité .30 et une cravate avec une probabilité
.28. Le client achètera un costume et une chemise avec une probabilité .11, un cos-
tume et une cravate avec une probabilité .14 et une chemise et une cravate avec une
probabilité .10. Un client achètera les trois vêtements avec une probabilité .06. Quelle
est la probabilité qu'un client achète
a) aucun vêtement;
b) exactement un des vêtements?
2.9.10 Une ville de 100000 habitants compte trois journaux locaux: I, II et III. Les
proportions de lecteurs pour ces journaux sont:
I : 10% I et II : 8% I et II et III : 1%
II : 30% I et III : 2%
III : 5% II et III : 4%.
Ces proportions nous indiquent par exemple que 8 000 personnes lisent à la fois les
journaux I et II.
a) Trouver le nombre de personnes ne lisant qu'un journal.
Axiomes des probabilités 55
2.9.11 Les données suivantes ont été fournies par l'étude d'un groupe de 1000
abonnés d'un certain magazine. Concernant leur emploi, état civil et niveau d'éduca-
tion les réponses furent: 312 actifs, 470 personnes mariées, 525 bacheliers dont 42
actifs, 147 bacheliers mariés, 86 actifs mariés dont 25 bacheliers. Montrer que les ef-
fectifs compilés lors de cette étude sont inexacts. Pour cela, désigner par A, M et B
respectivement l'ensemble des gens actifs, celui des gens mariés et celui des bache-
liers. Supposer qu'une des 1 000 personnes est tirée au hasard et utiliser le théorème
2.7 pour montrer que si ces nombres sont corrects, alors P(A u Mu B) > 1.
2.9.12 On distribue les cartes d'un paquet en comptant 52. Quelle est la probabilité que
la 14ème carte distribuée soit un as? Quelle est la probabilité que le premier as
survienne à la 14ème carte?
52
2.9.13 On admet que les (5 ) mains possibles au poker sont équiprobables. Quelle est
la probabilité de recevoir:
a) une couleur? (Une main est appelée couleur lorsque les 5 cartes sont des piques
seulement, ou des trèfles, ou des cœurs, ou des carreaux)
b) Une paire? (C'est le cas lorsqu'on reçoit a, a, b, c, doit a, b, c et dsonX de différentes
valeurs)
c) Deux paires (correspondant à a, a, b, b, c)l
d) Un brelan (a, a, a, b, c)?
e) Un carré (a, a, a, a, b)?
2.9.14 On peut jouer au poker en jetant simultanément 5 dés '. Montrer que:
a) P{5 cartes différentes) = 0,0926
b) P{1 paire} = 0,4630
c) P{2 paires} = 0,2315
d) P{brelan} = 0,1543
e) P{main pleine: 3 + 2 } = 0,0386
0 Pjcarré} = 0,0193
g) P{poker de 5} = 0,0008
2.9.15 Huit tours sont disposées au hasard sur un jeu d'échec. Calculer la probabilité
qu'aucune ne puisse en prendre une autre, donc qu'aucune ligne ni colonne ne
contienne plus qu'une tour.
2.9.16 On tire d'un paquet de cartes normal (52 cartes) deux cartes au hasard. Quelle
est la probabilité qu'elles forment un black jack, ou autrement dit, que l'une soit un
as et l'autre un dix, un valet, une dame ou un roi?
Ndt : ces dés sont identiques entre eux et leurs six faces sont toutes différentes.
56 Initiation aux probabilités
2.9.17 On jette deux dés. Quelle est la probabilité que la somme des points soit i?
Faire le calcul pour i = 2,3,. ..,11,12.
2.9.19 On joue au «craps» comme suit: un joueur lance deux dés. Si la somme
résultante est 2, 3 ou 12, le joueur a perdu. Si la somme est 7 ou 11, il gagne. Dans
les autres cas, le joueur continue à lancer les dés jusqu'à ce qu'il sorte soit le premier
résultat qu'il a tiré soit 7. Si c'est 7, il perd. Si c'est son résultat initial, il gagne.
Calculer la probabilité de gagner sur un jeu.
On pourra pour cela poser E{ = «le résultat initial est /' et le joueur finit par gagner».
12
La probabilité cherchée est £ ^(E,). Pour calculer P(E), poser Ein = «la somme
'=2 ' oc
initiale est / et le joueur gagne au n-ième coup». Montrer que P(E) = P(Ei„)-
2.9.20 Une urne contient trois boules rouges et sept noires. Les joueurs A et B tirent
une boule à tour de rôle jusqu'à ce qu'une rouge sorte, A commençant. Trouver la
probabilité que A tire la première boule rouge. On ne remet pas les boules tirées.
2.9.21 Une urne contient cinq boules rouges, six bleues et huit vertes. Si un groupe
de trois boules est tiré au hasard, quelle est la probabilité que celles-ci soient toutes
de la même couleur? Ou de couleurs différentes? Même question si chaque boule tirée
est remise après qu'on ait noté sa couleur (cette méthode s'appelle échantillonnage
avec remise).
2.9.22 Une urne A contient trois boules noires et trois rouges, alors que l'urne B en
contient six et quatre respectivement. On tire une boule dans chaque urne. Quelle est
la probabilité que les boules soient de la même couleur?
2.9.23 Une équipe de basket-ball réduite à trois joueurs comprend un arrière, un avant
et un centre. On choisit trois hommes dans autant d'équipes de cette composition à
raison d'un homme par équipe. Quelle est la probabilité d'obtenir une nouvelle équipe
complète? Et celle de tirer trois joueurs de la même spécialisation?
2.9.24 Un groupe est formé de g garçons et / filles. Tous sont alignés au hasard,
c'est-à-dire que chacune des (g + f)! permutations possibles est de même probabilité.
Quelle est la probabilité que la personne occupant la i-ème position soit une fille,
1 = i = g+f ?
2.9.25 Une forêt abrite vingt cerfs. Cinq sont capturés, marqués et relâchés. Un peu
plus tard, quatre sont de nouveau capturés. Quelle est la probabilité que deux d'entre
eux soient marqués? Quelles hypothèses faites-vous?
Axiomes des probabilités 57
2.9.26 Dans une loterie, un joueur doit choisir 8 nombres entre 1 et 40. Le tirage sé-
lectionne 8 numéros parmi ces 40 nombres. En admettant que le tirage est équipro-
bable pour les ( ) combinaisons, quelle est la probabilité que le joueur ait
a) les 8 bons numéros;
b) 7 numéros parmi les 8 bons;
c) au moins 6 numéros parmi les 8 bons?
2.9.29 Deux cartes sont choisies aléatoirement parmi un jeu de 52 cartes. Quelle est
la probabilité
a) que ce soient 2 as;
b) qu'elles aient la même valeur?
2.9.31 Un tiroir contient n chaussettes dont 3 rouges. Quelle doit être la valeur de n
pour que, si on choisit 2 chaussettes aléatoirement, la probabilité qu'elles soient les
deux rouges soit 1/2?
2.9.32 Une ville compte cinq hôtels. Si lors d'une journée trois personnes louent une
chambre, quelle est la probabilité qu'elles le fassent dans trois hôtels différents?
Quelles hypothèses faites-vous?
2.9.33 II y a quatre réparateurs de télévision dans une ville. Quatre appareils tombent
en panne. Quelle est la probabilité que / exactement des réparateurs soient appelés?
Résoudre le problème pour / = 1, 2, 3, 4. Quelles hypothèses faites-vous?
2.9.35 On répète n fois le lancer de deux dés. Calculer la probabilité que le six
apparaisse au moins une fois. Quelle valeur donner à n pour que cette probabilité
atteigne1/2?
58 Initiation aux probabilités
2.9.38 Une personne possède n clés dont une seule ouvre sa porte, a) Si elle les essaie
au hasard en éliminant celles qui ne marchent pas, quelle est la probabilité que
la porte s'ouvre au &-ième essai? b) Qu'en est-il si elle n'élimine pas les clés essa-
yées?
2.9.39 Combien de personnes faut-il pour que la probabilité qu'au moins deux d'entre
elles aient leur anniversaire le même mois soit au moins 1/2? Admettre que tous les
mois sont équiprobables.
2.9.40 Si 12 personnes sont dans une même pièce, quelle est la probabilité qu'aucune
d'entre elles ne soit née le même mois?
2.9.42 Un groupe de six hommes et six femmes est divisé au hasard en deux sous-
groupes de même taille. Quelle est la probabilité que chaque sous-groupe ait la même
composition?
2.9.43 Lors d'une donnée de bridge1, quelle est la probabilité que vous ayez cinq
piques et votre partenaire les huit autres?
2.9.46 Une équipe de basket-ball compte 6 joueurs noirs et 4 blancs. Si les joueurs
sont répartis en chambrées de deux personnes, quelle est la probabilité qu'on trouve
deux chambrées mixtes?
2.9.47 On dispose sur un rang 4 couples mariés au hasard. Quelle est la probabilité
qu'aucun mari ne soit situé à côté de sa femme?
2.9.48 Calculer, en utilisant le théorème 2.7, la probabilité qu'une main de bridge soit
dépourvue d'au moins une des quatre couleurs. On remarquera que la probabilité
n'est pas
Pourquoi pas?
2.9.49 Calculer la probabilité qu'une main de 13 cartes (tirées parmi 52) contienne
a) l'as et le roi de l'une des quatre couleurs;
b) les quatre cartes de l'une des treize valeurs.
2.9.50 Deux personnes jouent au jeu suivant. Le joueur A choisit une des trois roues
ci-dessous et le joueur B choisit une des deux restantes. Les deux joueurs font tourner
leur roue et celui qui tombe sur le numéro le plus grand gagne. En admettant que les
trois régions de chaque roue sont équiprobables, préféreriez-vous être le joueur A ou
le joueur B? Expliquer votre réponse!
CHAPITRE 3
3.1 INTRODUCTION
Nous allons présenter dans ce chapitre l'un des plus importants concepts de la
théorie des probabilités, celui de probabilité conditionnelle. L'importance de ce con-
cept est de deux ordres. En premier lieu on s'intéresse souvent à calculer des probabili-
tés lorsqu'une partie de l'information concernant le résultat de l'expérience est dispo-
nible; dans une telle situation les probabilités cherchées sont justement des probabili-
tés conditionnelles. Deuxièmement, même lorsqu'aucune information partielle n'est
disponible, il est souvent avantageux d'utiliser un détour par certaines probabilités
conditionnelles pour réussir le calcul des probabilités cherchées.
Supposons que nous jetions deux dés et que chacun des 36 événements élémentai-
res ait la même probabilité de survenir, soit1/36.Supposons encore que nous puissions
observer le premier dé, qui donne un 3. Sur la base de cette information, quelle est
dès lors la probabilité que la somme des deux dés donne 8? Pour calculer cette
probabilité on peut procéder comme suit: le dé initial étant un 3, il ne peut plus y avoir
que 6 événements dans notre expérience, à savoir: (3,1), (3,2), (3,3), (3,4), (3,5) et (3,6).
Puisque chacun de ces événements a originellement la même probabilité d'apparaître,
ils auront encore des probabilités égales. Autrement dit, étant donné que le premier
dé est un 3, la probabilité (conditionnelle) de chacun des événements (3,1 ), (3,2), (3,3),
(3,4), (3,5) et (3,6) devient £, tandis que la probabilité (conditionnelle) des 30 autres
événements de l'ensemble fondamental devient 0. Aussi la probabilité cherchée est-elle
ici 1/6.
62 Initiation aux probabilités
Si nous désignons respectivement par E et Fies événements «la somme des dés est
8» et «le premier dé donne 3», une probabilité comme celle calculée dans l'exemple
ci-dessus est appelée probabilité conditionnelle que E apparaisse sachant que F est
réalisé et est notée P(E\F).
3.2.2 Généralisation
1
' ' P(F) (3.1)
Exemple 3.1 Une pièce de monnaie est lancée deux fois. Si nous supposons que les
quatre points de l'ensemble fondamental 5 = {(F,F),(F,F),(F,F),(F,F)} sont équipro-
bables, quelle est la probabilité conditionnelle que les deux jets amènent «face»
sachant que le premier est déjà un «face»?
SOLUTION.En désignant par F = {(F,F)} l'événement «les 2 jets amènent face» et par
F = {(F,F),(F,F)[ «le premier jet donne face», la probabilité voulue est donnée par
P({F, F})
F({(F, F), (F, P)})
Exemple 3.2 Une urne contient 10 billes blanches, 5 jaunes et 10 noires. Une bille est
tirée au hasard de l'urne et l'on constate qu'elle n'est pas noire. Quelle est la probabi-
lité qu'elle soit jaune?
SOLUTION. Soit J l'événement «la bille tirée est jaune» et soit N'' l'événement «elle n'est
pas noire». De (3.1) on tire
F ( W = ^
• P(N')
Probabilité conditionnelle et indépendance 63
Cependant, JN' = J puisque la bille sera à la fois jaune et non noire, si et seulement
si elle est jaune. Nous obtenons ainsi, en supposant que chacune des 25 billes a la
même chance d'être choisie:
h 1
P(J\N') = T; =
25
Il faut noter qu'on aurait aussi pu déduire cette probabilité en travaillant directement
avec l'ensemble fondamental réduit. Comme nous savons en effet que la bille choisie
n'est pas noire, le problème se réduit à calculer la probabilité qu'une bille soit jaune
lorsqu'elle est choisie au hasard dans une urne en contenant 10 blanches et 5 jaunes.
Cette probabilité est évidemment ^ = 1/3. •
Si on sait les événements équiprobables, il est souvent plus facile de calculer une
probabilité conditionnelle en considérant l'ensemble fondamental réduit qu'en invo-
quant (3.1).
Exemple 3.3 Dans un jeu de bridge chacun des quatre joueurs - appelés Est, Ouest,
Nord et Sud - reçoit 13 des 52 cartes. Si Nord et Sud ont un total de 8 piques entre
eux, quelle est la probabilité qu'Est ait 3 des 5 piques restants? •
SOLUTION. La méthode de calcul la plus rapide est probablement ici de travailler avec
l'ensemble fondamental réduit. Plus précisément, Nord et Sud ont un total de 8 piques
parmi leurs 26 cartes. Il reste donc 26 cartes dont 5 piques exactement à répartir entre
les mains d'Est et d'Ouest. Toutes les répartitions étant équiprobables, la probabilité
conditionnelle qu'Est ait exactement 3 piques parmi ses 13 cartes sera donc
m = .339
Exemple 3.4 L'entreprise pour laquelle travaille M. Jones organise un dîner pour ceux
de ses employés ayant au moins un fils. Chacun de ces employés est invité à se
présenter avec son aîné. On sait que Jones a deux enfants et il est invité au dîner.
Quelle est alors la probabilité que ses enfants soient tous deux des garçons? On
suppose que l'ensemble fondamental est S = {(g,g),(g/),(/',g),(/,/)} et que tous ces
événements sont équiprobables. [(gj) par exemple signifie que l'enfant le plus âgé est
un garçon et que l'autre est une fille.]
SOLUTION. Le fait de savoir que Jones a été invité au dîner est équivalent à savoir qu'il
a au moins un fils. Ainsi, en désignant par E l'événement «les deux enfants sont des
garçons» et par F l'événement «au moins l'un des deux enfants est un garçon», la
probabilité P(E\F) cherchée est
P(EF)
P(E\F) =
P(F)
P({(g, g)))
P({(g,g)Ag,A(f,g)\) 3/4 3
64 Initiation aux probabilités
Bien des gens se trompent en évaluant cette probabilité à 'A; ils admettent dans
leur raisonnement que l'enfant non présent au dîner a autant de chances d'être un
garçon qu'une fille. L'hypothèse que ces deux probabilités sont identiques est fausse:
initialement en effet, il y avait quatre événements d'égale probabilité. Dès l'informa-
tion «au moins l'un des enfants est un garçon» connue, on sait que l'événement final
n'est pas (f,f). Il nous reste ainsi trois événements équiprobables (g,g), (f,g), (gf)-
Ceci montre que l'événement «l'enfant de Jones non présent au dîner est une fille»
est deux foix plus probable que son contraire. •
3.2.3 Applications
Cette équation signifie en clair: la probabilité que Zset F apparaissent à la fois est égale
à la probabilité que F apparaisse multipliée par la probabilité conditionnelle de E si
on sait que F est survenu. L'équation (3.2) est ainsi assez souvent utilisée pour calculer
des probabilités d'intersections.
Exemple 3.5 Céline hésite entre suivre un cours de français et en suivre un de chimie.
Bien qu'à vrai dire, elle préfère la chimie, elle estime à 'A la probabilité d'obtenir la
note A au cours de français contre2/3seulement pour la chimie. Céline décide de baser
sa décision sur le jet d'une pièce de monnaie équilibrée; quelle est la probabilité qu'elle
obtienne la note A en chimie?
P(CA) = P(C)P{A\C)
= ( î ) ( ï ) = 1/3
Exemple 3.6 Une urne contient 8 boules rouges et 4 blanches. On tire sans remise
deux boules de l'urne et admet qu'à chaque étape tous les tirages possibles sont
équiprobables. Quelle est la probabilité que les deux boules tirées soient rouges?
P(RlR2) = P(Rl)P(R2\Rl)
Probabilité conditionnelle et indépendance 65
Une généralisation de l'équation (3.2), qui donne une expression pour la proba-
bilité de l'intersection d'un nombre arbitraire d'événements, est parfois appelée la
règle de multiplication.
La règle de multiplication :
P(E-, ! £ , £ , ) = —
50
puisque les piles contenant les as de pique et cœur recevront 24 des 50 cartes
restantes; et finalement
P(E4\E,E2E3) = —
49
De là, nous obtenons la probabilité que chaque pile possède exactement un as:
39 26 13
P(£,£',£,£,) = = .105
51-50-49
Ceci signifie qu'il y a environ 10.5% de chances que chaque pile contienne un as (le
problème 20 utilise la règle de multiplication d'une autre façon pour résoudre ce pro-
blème).
Fig. 3.1
EF : zone en gris
EF' : zone hachurée
E = EF(J EFC
L'équation (3.3), appelée formule des probabilités totales, peut être interprétée de la
façon suivante: la probabilité de l'événement E est une moyenne pondérée de la
probabilité conditionnelle de E lorsque Fest apparu et de la probabilité conditionnelle
du même £ lorsque F n'est pas apparu, les poids étant les probabilités des événements
conditionnants.
Cette formule est extrêmement utile puisqu'elle nous permet dans bien des cas de
déterminer la probabilité d'un événement en commençant par le conditionner selon
l'apparition ou non d'un autre événement. En d'autres mots, il existe de nombreuses
situations où il est difficile de calculer directement la probabilité d'un événement mais
où il est par contre possible de la calculer connaissant ses probabilités conditionnelles
si certains événements sont réalisés. Quelques exemples illustrent cette démarche.
Exemple3.8 (l r e partie) Une compagnie d'assurance estime que les gens peuvent être
répartis en deux classes: ceux qui sont enclins aux accidents et ceux qui ne le sont pas.
Ses statistiques montrent qu'un individu enclin aux accidents a une probabilité de 0,4
d'en avoir un dans l'espace d'un an; cette probabilité tombe à 0,2 pour les gens à
risque modéré. On suppose que 30% de la population appartient à la classe à haut
risque. Quelle est alors la probabilité qu'un nouvel assuré soit victime d'un accident
durant l'année qui suit la signature de son contrat?
P(AA,)
P(A\A1) =
P(AX)
P(A)P(A1\A)
P(A1)
(-3K.4) _ 6
.26 13
P ( / C | C )
" P(C)
P(C\K)P(K)
P(C\K)P(K) + P(C\KC)P(KC
P
p+ (l/m)(l-p)
_ mp
~ 1 +{m - \)p
malade une fois sur cent). Si 0,5% de la population porte effectivement la maladie,
quelle est la probabilité qu'une personne soit vraiment malade lorsqu'on la déclare
telle sur la base du test?
SOLUTION. Soit D l'événement «la personne soumise au test est porteuse de la maladie»
et E l'événement «le résultat du test est positif». La probabilité P{D\E) voulue est
donnée par
P(E\D)P(D)
~ P(E | D)P(D) + P(E | DC)P(DC)
(.95)(.005)
(.95)(.005) + (.01)(.995)
= ^-.323
294
Ainsi 32% seulement des personnes dont les résultats au test sont positifs ont vrai-
ment la maladie. Comme beaucoup d'étudiants sont surpris de ce résultat (ils s'atten-
dent souvent à une valeur beaucoup plus élevée puisque le test sanguin semble être
bon), il n'est pas inutile de donner un autre argument moins rigoureux que le
précédent mais plus parlant.
Puisque 0,5% de la population est réellement affectée par cette maladie, sur 200
personnes testées 1 en moyenne l'aura. Le test décèlera ce cas avec une probabilité
de 0,95. En moyenne donc, sur 200 personnes testées, on détectera correctement 0,95
cas. D'autre part, parmi les 199 personnes saines le test va à tort détecter (199)(0,01)
cas de maladie. Si l'on résume, à 0,95 cas de maladie correctement détectés s'ajoutent
en moyenne 1,99 cas faussement positifs (cas de personnes saines en réalité). Dès lors,
la proportion de résultats corrects quand le test est positif n'est que de
95 95
L'équation (3.3) est également utile lorsqu'on cherche à réévaluer des probabilités
à la lumière d'informations supplémentaires. On peut illustrer cela au moyen des
exemples suivants.
maladie avec 60% de risques, cela affecte par contre l'interprétation du résultat du
test A. Ce test en effet, alors qu'il ne donne jamais de résultat positif si le patient est
sain, conduit malheureusement à un tel résultat - erroné - chez 30% des diabétiques
ne souffrant pas de la maladie. A partir de là, que faire? Encore des tests ou une
opération immédiate?»
SOLUTION. En vue de décider si oui ou non, il faut recourir à une opération chirurgi-
cale, le médecin doit premièrement calculer la nouvelle probabilité que Jones soit
malade dès lors qu'on sait le test A positif. Soit D l'événement «Jones a cette maladie»
et E «le résultat du test est positif». La probabilité conditionnelle P(D\E) cherchée
est calculable ainsi:
P (VD | £ ); = WË>
' P(E)
= P(D)P(E\D)
~ P(E | D)P(D) + P(E | DC)P(DC)
(-6)1
l(.6) + (.3)(.4)
= .833
Notons que nous avons calculé la probabilité d'avoir un résultat de test positif en
conditionnant par les événements que Jones a ou n'a pas la maladie et en utilisant
alors l'information que, Jones étant diabétique, sa probabilité conditionnelle P(E\DC)
de donner un résultat positif s'il n'est pas malade est 0,3. Ainsi, comme le médecin
estime à présent à plus de 80% les risques pour Jones d'être atteint, il recommandera
d'opérer. •
SOLUTION.Désignons par G l'événement «le suspect est coupable» et par C «il possède
le même attribut que le criminel». Nous aurons
P(G|C) = ^ >
P(C\G)P{G)
P(C\G)P(G) + P(C\ GC)P(GC]
K.6)
l(.6) + (.2)(.4)
.882
Probabilité conditionnelle et indépendance 71
où nous avons supposé que la probabilité pour le suspect d'avoir l'attribut s'il est en
fait innocent est 0,2, la proportion normale dans la population. •
P(HE)
rui\E)
P(H\E)- p{E)
P{E\H)P{H)
P(E\H)P(H) + P(E\HC)[1-P(H)] (3.4)
P(E\H)>P(E\HC)
En d'autres mots, une donnée nouvelle ne peut être retenue en faveur d'une hypothèse
donnée que si elle est plus vraisemblable en supposant l'hypothèse vraie qu'en la
supposant fausse. En fait, la nouvelle probabilité dépend de l'ancienne et du rapport
de ces deux probabilités conditionnelles, puisque (3.4) donne
PiH\E)= W)
P(E\H)
72 Initiation aux probabilités
L'équation (3.3) peut être généralisée de la manière suivante: supposons que F,,
F2,..., Fn soient des événements s'excluant mutuellement et tels que
ÙF^S
Cela revient à dire en d'autres termes qu'exactement un des événements F,, F2,..., F„
se produira. En écrivant
E = Û EFi
(3.5)
L'équation (3.5) montre ainsi qu'étant donné un jeu d'événements F1, F2,...,
tionner selon les F;. Ou encore, l'équation (3.5) établit que P(E) est une moyenne
pondérée des F(FjF,), les poids valant la probabilité des événements sur lesquels on
conditionne.
Théorème 3.1
n ll
' P(E)
P(E\Fj)P(Fj) (3.6)
Probabilité conditionnelle et indépendance 73
L'équation (3.6) est appelée formule de Bayes, du nom du philosophe anglais Thomas
Bayes. Si nous traitons les événements Fj comme les hypothèses possibles sur une
question donnée, la formule de Bayes joue un rôle utile en nous montrant comment
les opinions a priori sur ces hypothèses [à savoir, P(Fj)] doivent être modifiées à la
lumière du résultat de l'expérience.
Exemple 3.14 Un avion est porté disparu. On pense que l'accident a pu arriver aussi
bien dans n'importe laquelle de trois régions données. Notons par 1 - a, la probabilité
qu'on découvre l'avion dans la région /' s'il y est effectivement. Les valeurs a, représen-
tent donc la probabilité de manquer l'avion lors des recherches. On peut l'attribuer
à diverses causes d'ordre géographique ou à la végétation propre à la région. Quelle
est la probabilité que l'avion se trouve dans la j'-ème région si les recherches dans la
région 1 n'ont rien donné, / = 1, 2, 3?
SOLUTION. Soient Ri, i = 1,2,3 les événements «l'avion est tombé dans la région ;'».
Soit aussi E l'événement «les recherches dans la région 1 sont restées infructueuses».
On tire de la formule de Bayes, pour i = 1 :
P{ERX)
P(Ri\E)
P(E)
P(E\Rl)P(Ri)
t P(E\R,)P(R,)
i=l
("l)§
(«,)! + (1)5 + (Dl
Pour j = 2, 3
P(Ri\E)
L'exemple suivant a souvent été utilisé par de peu scrupuleux étudiants pour
abuser des camarades plus naïfs.
Exemple 3.15 On considère 3 cartes à jouer de même forme. Cependant, les deux faces
de la première carte ont été colorées en noir, les deux faces de la deuxième carte en
rouge tandis que la troisième porte une face noire et l'autre rouge. On mélange les
trois cartes au fond d'un chapeau puis une carte tirée au hasard en est extraite et
placée au sol. Si la face apparente est rouge, quelle est la probabilité que l'autre soit
noire?
SOLUTION. Soient RR, NN et RN respectivement les événements, «la carte choisie est
entièrement rouge», «entièrement noire» et «bicolore». Soit encore R l'événement, «la
face apparente de la carte tirée est rouge». On aura
P(RNnR)
P(RN\R) =
P(R)
_ P(R\RN)P(RN)
~ P(R\RR)P(RR) + P(R\RN)P(RN) + P{R\NN)P(NN)
(M) _ i
(D(5) + (5)(5) + 0rè) 3
Ainsi, la réponse est \. Certaines personnes pourtant estiment la réponse à lA, pensant
qu'à partir du moment où le côté rouge apparaît il reste 2 situations équiprobables:
soit la carte tirée est entièrement rouge, soit elle est bicolore. Leur erreur est ici
d'admettre cette hypothèse d'équiprobabilité. Il faut se souvenir en effet que chaque
carte possède deux faces que l'on distinguera pour la commodité. Il y a alors 6
événements élémentaires équiprobables pour cette expérience, que l'on appellera /?,,
R2, N{, N2, /?j, Ny L'événement /?, sera réalisé si c'est la première face de la carte
unicolore rouge qui est apparente. R2 le sera si c'est la seconde face de la même carte
qui est visible. R^ si c'est le côté rouge de la carte bicolore et ainsi de suite. La face
cachée de la carte tirée sera noire seulement si c'est /?_-, qui a lieu. La probabilité
cherchée est donc la probabilité conditionnelle de R3 sachant que /?,, R2 ou /?, a eu
lieu, laquelle est manifestement \. •
Exemple3.16 Les assistants sociaux travaillant pour une clinique psychiatrique sont
si occupés qu'en moyenne seuls 60% des patients prospectifs téléphonant pour la
première fois obtiendront une communication avec l'un de ces assistants. On demande
aux autres de laisser leur numéro de téléphone. Trois fois sur quatre un assistant
trouve le temps de rappeler encore le jour même, autrement le rappel a lieu le
Probabilité conditionnelle et indépendance 75
lendemain. L'expérience a montré que dans cette clinique, la probabilité que le patient
prospectif demande une consultation est 0,8 s'il a pu parler immédiatement à un
assistant, tandis qu'elle tombe à 0,6 et 0,4 respectivement s'il y a eu rappel du patient
le jour même ou le lendemain, a) Quel pourcentage parmi les gens qui appellent de-
manderont-ils une consultation? b) Quel pourcentage des gens en consultation n'ont
pas eu à attendre qu'on les rappelle ?
où nous avons utilisé le fait que P(M) = (0,4)(0,75) et que P(L) = (0,4)(0,25). Ceci
répond à la première question. Quant à la seconde, on remarquera que
m c ) = r(c\i)Pd)
P(C)
_ (-8)(.6)
.7
= .686
Les exemples vus dans ce chapitre jusqu'à présent ont montré que la probabilité
conditionnelle de E sachant que F est réalisé n'est en général pas égale à P{E), la
probabilité non conditionnelle de E. En d'autres termes, le fait de savoir que F est
survenu influence la probabilité de E. Dans les cas où P(E\F) est bien égal à P(E),
l'événement E est dit indépendant de F. Plus précisément, E est indépendant de F si
le fait de savoir que F est survenu ne change pas la probabilité de E.
Du fait que P(E\ F) = P(EF)/P(F), on voit que l'indépendance de E et F équivaut
à
P{EF) = P(E)P(F) (3.7)
76 Initiation aux probabilités
Deux événements E et F sont dits indépendants si l'équation (3.7) est vérifiée. Deux
événements sont dépendants s'ils ne sont pas indépendants.
Exemple3.170n tire au hasard une carte d'un paquet de 52 cartes à jouer ordinaires.
Désignons par E l'événement «la carte tirée est un as» et par F «elle est un pique».
Alors F et F sont indépendants. En effet, P(EF) =1/52- d'une part, alors que d'autre
part P(E) = £ et P(F) = 13/52 •
Exemple 3.18 On jette deux pièces et suppose que les 4 résultats possibles sont
équiprobables. On désigne par A «la première pièce montre pile» et par B «la seconde
montre face». A et B sont indépendants puisque P(AB) = P({(P,F)}) = '- d'une part,
et P(A) = P({(P,Pl(P,F)}) =1/2,/>(B) = P({(P,F),(F,F)}) = ± d'autre part. •
Exemple3.19 On jette deux dés équilibrés. F, est l'événement «la somme des dés est
6» et F désigne «le premier dé donne 4». Dans ce cas
P(E,F) = P({(4,2)})=à
alors que
P ( £ , ) P ( F ) = (à)Û) = 5/216
P(E2F) = P({(4,3)})=à
alors que
P(E2)P(F) = (M) = 1/36
Nous laissons au lecteur le soin de découvrir un argument intuitif justifiant
l'indépendance entre «la somme des dés est 7» et le résultat donné par le premier dé.
•
Exemple3.20 Soit E l'événement «le prochain président des U.S.A. sera un Républi-
cain» et soit F «il y aura un tremblement de terre important d'ici un an». La plupart
des personnes accepteraient d'admettre qu'ici F et F sont indépendants. Par contre
il n'en serait pas nécessairement de même concernant E et G, où G est «un conflit
majeur éclatera dans les deux ans suivant l'élection de ce président». •
Probabilité conditionnelle et indépendance 77
Nous allons maintenant montrer que si £est indépendant de F, il l'est aussi de F'.
Théorème 3.2
Si E et F sont indépendants, E et Fc le sont aussi.
DÉMONSTRATION. D'une part E = EF\J EF'\ d'autre part EFet EF' sont mutuelle-
ment exclusifs. On peut donc écrire
Exemple 3.21 On jette deux dés équilibrés. Soient E l'événement «la somme est 7»,
F l'événement «le premier dé montre 4» et G «le second dé donne 3». On a vu dans
l'exemple 3.18 que E et F sont indépendants, le même raisonnement permettant
d'affirmer que E et G le sont. Cependant E n'est manifestement pas indépendant de
FG puisque P{E\FG) = 1. •
P(EFG) = P(E)P{F)P(G)
P(EF) = P(E)P(F)
P(EG) = P(E)P(G)
P(FG) = P(F)P(G)
78 Initiation aux probabilités
3.4.6 Conséquence
P [ £ ( F u G ) ] = P(EFuEG)
= P(EF) + P(EG) - P(EFG)
= P(E)P(F) + P(E)P(G) - P(E)P(FG)
= P(E)[P(F) + P(G) - P(FG)]
= P(E)P(FvG)
Enfin nous dirons que par définition un ensemble infini d'événements est totale-
ment indépendant si tout sous-ensemble fini d'entre eux est totalement indépendant.
Il arrive parfois que l'expérience étudiée consiste à effectuer une suite d'expériences
partielles. Si par exemple l'expérience de base consiste à répéter le jet d'une pièce, on
peut considérer chaque jet comme l'une de ces expériences partielles. Comme dans
bien des cas il est raisonnable d'admettre que l'issue de tout groupe d'expériences
partielles n'a aucun effet sur celle des autres, on considérera que ces expériences
partielles sont totalement indépendantes. De ceci on peut donner une formulation
plus rigoureuse: considérons tout jeu d'événements El,E2,...,E„ tels que £, soit complè-
tement déterminé quant à sa réalisation par le résultat de la i-ème expérience partielle.
Si un tel ensemble est nécessairement totalement indépendant, alors les expériences
partielles sont dites ensemble totalement indépendant d'événements.
Si toutes ces expériences partielles sont identiques - c'est-à-dire si elles ont toutes
le même (sous-)ensemble fondamental et sont toutes affectées de la même fonction
de probabilité -, alors ces expériences partielles sont appelées épreuves.
Quant à c), par analogie avec a), on peut dans un premier temps écrire que la
probabilité de n'avoir que des succès lors des n premières épreuves sera
0 si /> < 1
1 si p = 1 •
Figure 3.2 Système en parallèle fonctionnant dès que le courant peut passer de A à B
= 1-P\
P(En)
Par ailleurs, P (5 sort lors d'une épreuve quelconque) =4/36et P (7 sort lors d'une
épreuve quelconque) =6/36.Du fait de l'indépendance des épreuves, on obtient donc
et donc
5
Probabilité conditionnelle et indépendance 81
Ces deux premières probabilités sont évidentes. La troisième égalité résulte du fait que
si la première épreuve ne donne ni 5 ni 7, on se retrouve exactement dans la situation
de départ: l'expérimentateur va répéter le jet des deux dés jusqu'à ce qu'un 5 ou un
7 apparaisse. On peut également remarquer que du fait de l'indépendance des épreu-
ves le résultat de la première d'entre elles n'affecte pas celui des autres. Pour conclure,
comme P(F) = ^, P(G) = ~ et P(H) = | , il vient
P(E)=k + P(E)\î
ou
P(E) = 2/5
Le lecteur remarquera que cette réponse est conforme à l'intuition basée sur les
probabilités4/36pour un 5 et6/36pour un 7: on peut en effet penser que les chances sont
à 4 contre 6 pour le premier, ce qui donne bien une probabilité de 4/10.
Le même argument montre que si E et F sont des événements s'excluant mutuelle-
ment lors d'une expérience donnée, en répétant cette expérience pour réaliser une
séquence d'épreuves indépendantes, on aura pour probabilité que E survienne avant
F
P(E)
P(E) + P(F)
L'exemple suivant illustre un problème qui a pris une place d'honneur dans la
théorie des probabilités, le célèbre problème des points. En termes généraux, voici de
quoi il s'agit: deux joueurs engagent des mises et participent à un jeu quelconque; le
gagnant empochera les mises. Mais ils sont interrompus avant la fin du jeu, alors
qu'ils n'ont pour l'instant que des scores «intermédiaires» ou partiels. Comment
doit-on partager les mises?
Le problème a été soumis pour la première fois au mathématicien français Biaise
Pascal en 1654 par le Chevalier de Méré, alors joueur professionnel. Pour attaquer
le problème, Pascal introduisit une idée importante: celle que la proportion des mises
82 Initiation aux probabilités
SOLUTION (de Fermat). Désignons par Pnm la probabilité que n succès apparaissent
avant que m échecs ne le fassent. En conditionnant sur le résultat de la première
épreuve, on obtient (expliquer pourquoi):
Pour Pnm on peut résoudre cette équation grâce aux conditions limites évidentes
Pn.o = 0 et Pç>,m = 1. Mais plutôt que de s'enfoncer dans les détails ennuyeux de cette
solution, voyons celle proposée par Pascal.
SOLUTION (de Pascal). Celui-ci donna l'argument que pour obtenir n succès sans que
m échecs aient eu lieu, il est nécessaire et suffisant qu'il y ait eu au moins n succès
parmi les m + n — 1 premières épreuves. (On supposera que même si le jeu est terminé
avant le dernier de ces essais, on continue jusqu'à compléter la séquence.) Cet
argument est fondé. En effet, s'il y a eu au moins n succès lors des m + n — 1 premiers
essais, il y a également au plus m — 1 échecs et l'on obtient bien n succès avant m
échecs. Inversement, s'il y a moins de n succès lors des m + n — 1 premiers essais,
il y a nécessairement au moins m échecs. Dans ce cas on n'observera pas les n succès
voulus avant le m-ième échec.
La probabilité d'avoir k succès sur m + n — 1 essais est, d'après l'exemple 3.21,
{m + n l
k" )p\l-p) — .
Probabilité conditionnelle et indépendance 83
Une autre solution au problème des points est présentée dans l'exercice théorique
3.6.10.
Pour illustrer le problème des points, on supposera que lors d'un jeu chacun de
deux joueurs misera A francs et que chacun a la même probabilité d'emporter un essai
donné (p =1/2).On dira qu'un joueur a gagné s'il a n points. A un moment donné le
premier joueur a 1 point et l'autre 0. Celui-là a donc droit à
Maintenant,
m-2 /2n - 2 \ =
2n 2
~ ( 2n - 2 \
-,.IT;2)
où la dernière identité résulte de la substitution de / à 2n - 2 - k. Ainsi,
2 2 2
<l( T)-l( \ H;::)
- < > • » - • (2;:.2)
4-(rT;:>)
3.4.13 Problème de la ruine du joueur
Exemple 3.26 Deux joueurs A et B misent sur les résultats successifs du jet répété d'une
pièce. A chaque jet A reçoit une unité de la part de B si pile est sorti tandis qu'il paie
une unité à B dans le cas contraire. Ils poursuivent le jeu tant qu'aucun des deux n'est
ruiné. On suppose que les jets sont indépendants et que le côté pile de la pièce apparaît
avec une probabilité p. Soient encore i et N — / les fortunes initiales de A et B
respectivement. Quelle est la probabilité que A gagne?
84 Initiation aux probabilités
SOLUTION. Désignons par E l'événement «A finit par tout gagner, étant parti avec i
unités alors que B en avait N — i». Pour marquer clairement l'influence de la fortune
initiale de A, on notera par Pi la probabilité de E. Nous allons obtenir une expression
de P(E) en conditionnant suivant le résultat du premier jet comme suit: soit H
l'événement «le premier jet donne pile». Alors,
Si le premier jet donne pile, la situation à l'issue du premier pari est: A possède
/ + 1 unités et B en a N — (i + 1). Du fait de l'indépendance de jets ayant tous la
même probabilité p de donner pile, la situation est du point de vue de A exactement
la même que si le jeu allait commencer avec comme conditions initiales ; 4- 1 unités
pour A et N - (i + 1) pour B. Donc
P(E\H) = Pl+l
et similairement
P(£|Hf) = iV,
P2-P,=î(Pi-Po)=-Pl
p P
p3-p2 = 3.(P2-pl) = (£) p,
P \p/
Pi-pj.1=5(p._1-pj_2) = (^) P,
p \pl
- Pi (3.10)
PI
Probabilité conditionnelle et indépendance 85
P,-Pt
ou
Pi =
iP,
et ainsi
(3.11)
Soit Qi la probabilité que B finisse par tout gagner, étant parti avec N — i unités
tandis que A en possédait ;'. Par symétrie avec la situation traitée ci-dessus, mais en
remplaçant p par q et i par N — i on obtient
P.+Q.-I^SÙÙ**1—^''
86 Initiation aux probabilités
Pi + O, = 1
ce qui, en d'autres mots, établit que la probabilité qu'il y ait un gagnant est 1. Ou
encore que la probabilité que le jeu se poursuive indéfiniment, la fortune de A oscillant
constamment entre 1 et N — 1, est 0. (Le lecteur doit être attentif au fait qu'il existe
a priori trois issues à ce jeu: A gagne, B gagne, ni l'un ni l'autre ne l'emporte et le jeu
se poursuit indéfiniment. Nous venons de montrer que ce dernier événement est de
probabilité nulle).
A titre d'illustration numérique des résultats qui précèdent, si A partait avec 5
unités et B avec 10, il aurait une chance sur trois de l'emporter lorque p =1/2.La
probabilité qu'il gagne sauterait à
l-(§)15 " 87
si p valait 0,6. •
X 1 + --- + X „ - ( Y , + - - - + Yn) = M
ou
X , + ••• + * „ - ( y, + - • • + Y„) = - M
Dans le premier cas, on décide que P, > P2 et dans le second, c'est l'inverse.
Pour déterminer si ce test est bon, nous aimerions connaître la probabilité qu'il
amène à une décision fausse. Plus précisément, />, et P2 étant fixés et Pt étant supérieur
à P2, quelle est la probabilité que le test fasse déclarer à tort que P2 > Px? Pour
déterminer cette probabilité, il faut d'abord remarquer qu'après chaque test portant
sur une paire la différence des succès cumulés de chaque médicament peut augmenter
de 1 avec probabilité Px(1 — P2), puisque telle est la probabilité que le médicament
1 amène une guérison sans que le médicament 2 en fasse autant. Cette différence peut
diminuer de 1 avec probabilité (1 — Pi)P2 ou encore rester inchangée avec probabilité
PtP2+ (1 — P1)(l — P2)- Négligeons ces dernières paires. Avec les autres la différence
augmentera de 1 avec une probabilité
Pl{1-P2) + {1-P,)P2
Ainsi, la probabilité que le test fasse déclarer que P2 > P, est égale à celle qu'un joueur
pouvant gagner une unité avec probabilité P perde M de ces unités avant qu'il ait pu
en accumuler M de plus qu'au départ. Mais l'équation (3.11) donne cette probabilité,
avec ici i = M, N = 2M:
88 Initiation aux probabilités
"'-(s-r
1
1+ y
où
P
_Pi(l-P2)
P2(l-P.)
Par exemple, si P1= 0,6 et P 2 = 0,4, la probabilité de décision erronée est de 0,017
lorsqu'on fixe M à 5, diminuant à 0,0003 si l'on prend M = 10.
Supposons que nous ayons un ensemble d'éléments et que nous voulions déter-
miner si au moins un des éléments a une certaine propriété. Nous pouvons démarrer
ce problème de manière probabiliste en choisissant aléatoirement un élément de l'en-
semble de telle sorte que chaque élément ait une probabilité positive d'être choisi. On
peut répondre à la question en calculant la probabilité que l'élément sélectionné au
hasard ait la propriété voulue. Si cette probabilité est positive, nous avons alors établi
qu'au moins un des éléments de l'ensemble possède la propriété et si elle vaut zéro,
alors aucun des éléments ne l'a.
Le dernier exemple de la section illustre cette technique.
Exemple 3.27 Un graphe complet à n sommets est défini comme étant un ensemble
de n points (appelés sommets) dans le plan et de ( ) segments (appelés arêtes) reliant
chaque paire de sommets. La figure 3.3 montre un graphe complet à 3 sommets.
Supposons que chaque arête d'un graphe complet à n sommets doit être colorée soit
en rouge soit en bleu. Pour un entier k fixé, la question est de savoir s'il existe une
façon de colorier les arêtes de telle sorte qu'aucun ensemble de k sommets n'ait ses
( ) arêtes de la même couleur. On peut montrer, de manière probabiliste, que si n
n est pas trop grand la réponse est oui.
Figure 3.3
Probabilité conditionnelle et indépendance 89
SOLUTION. Supposons que chaque arête peut, de manière indépendante, être coloriée
soit en rouge soit en bleu de manière équiprobable. Ainsi, chaque arête a une probabi-
lité 1/2 d'être rouge. On numérote les ( ) ensembles de k sommets et on définit les
événements Ei, i = 1,..., (n/k) de la façon suivante:
Ej = {Toutes les arêtes du i-ième ensemble de k sommets ont la même couleur}
Maintenant, puisque chacune des (k/2)arêtes d'un ensemble de k sommets a autant de
chance d'être bleue ou rouge, la probabilité.qu'elles soient toutes de la même couleur
est
. *(*-D
**,)«2(j
Par conséquent, puisque
P(\J Et, ) < I P(Et ) (inégalité de Boole)
i i
*(*-!)
Si | , I — I < 1 ou, de manière équivalente, si
\ k(k-l)
n » 2-1
alors la probabilité qu'au moins un des ( ) ensembles de k sommets ait toutes ses
arêtes de la même couleur est inférieure à 1. Par conséquent, sous la condition pré-
cédente sur n et k, il y a une probabilité positive qu'aucun ensemble de k sommets
n'ait toutes ses arêtes de la même couleur. Mais ceci implique qu'il y a au moins une
façon de colorier les arêtes de telle sorte qu'aucun ensemble de k sommets n'ait toutes
ses arêtes de la même couleur. •
REMARQUES, a) Bien que la discussion ci-dessus établisse une condition sur n et k qui
garantit l'existence d'une combinaison de couleurs satisfaisant la propriété désirée,
elle ne donne aucune information sur la façon d'obtenir une telle combinaison. (Une
possibilité serait tout simplement de choisir les couleurs au hasard, de voir si le
résultat satisfait la propriété et de recommencer jusqu'à ce que la propriété soit satis-
faite.)
b) La méthode utilisant les probabilités pour résoudre un problème à la base purement
déterministe est appelée la méthode probabiliste1.
D'autres exemples de cette méthode sont donnés dans l'exercice théorique 19 et dans
l'exemple 7.18 du chapitre 7.
1
Voir N. Alon, J. Spencer, and P. Erdos, The Probabilistic Method (New York: John Wiley & Sons, Inc.,
1992).
90 Initiation aux probabilités
Théorème 3.3
(a)0^P{E\F)s 1.
(b)P(S\F) = l.
(c) Si £,, ( = 1,2,...,n sont des événements qui s'excluent mutuellement, alors
P ( 5 | F )
~ P(F) 'P(F)-1
La partie (c) l'est également car
P(F)
P(F)
où l'avant-dernière égalité est justifiée par le fait que EiEi = 0 entraîne que
EfFEjF = 0. m
Si nous posons Q(E) = P(E\F), Q{E) peut être considérée grâce au théorème 3.3
comme une fonction de probabilité sur les événements de S. Aussi toutes les proposi-
tions établies jusque-là pour des fonctions de probabilité s'appliquent à Q(E). Par
exemple,
° ( £ , | £ 2 ) - Q(E2)
_P(E1E2\F)
P(E2\F)
P(£.£2F)
P(F)
P(E2F)
P(F)
= P(El\E2F)
3.5.2 Exemples
SOLUTION. Soit A l'événement «le client est à haut risque» et soient A-„ i = 1,2 «il a
eu un accident durant la z'-ème année». On peut calculer la probabilité P(A2\A[)
demandée en conditionnant sur le fait que le client est ou n'est pas à haut risque de
la manière suivante:
On avait supposé P(A) égal à |0 et montré que P{A\) = 0,26 (dans l'exemple3.8).
Donc
1
.26 13
et donc
P{Ac\Al) = l-P{A\Al)=&
c
Puisque P(A2\AAl) = A et P(A2\A Al) = .2, on voit que
P ( A 2 | A , ) = (.4)è + (.2) 1 7 3-.29
SOLUTION. Soit E l'événement étudié. Pour calculer P(E), nous commençons par
conditionner suivant l'issue de la première épreuve. On obtient alors, en posant que
H désigne l'événement «la première épreuve livre un succès»
Admettons que la première épreuve ait été un succès. A partir de là l'une des
possibilités d'obtenir n succès avant que n'apparaissent m échecs serait de n'avoir que
des succès sur les n — 1 épreuves suivantes. Aussi conditionnerons-nous sur le fait
que cela arrive ou n'arrive pas. Notons par F l'événement «les épreuves 2 à n sont
toutes des succès». On obtient
Or, P(E\FH) est clairement égal à 1, et d'autre part si F'H survient, c'est que la
première épreuve fut un succès mais l'une au moins des n — 1 suivantes fut un échec.
Mais lorsque cet échec se réalise, on se trouve dans la même situation que si on
commençait l'expérience avec un échec car la chaîne de succès est brisée. Donc
P(E\FCH) = P(E\HC)
Comme l'indépendance des épreuves entraîne celle de F et H et comme P(F) = p" ',
on tire de (3.14)
On peut obtenir d'une manière très similaire une expression de P(E\HC). Plus
précisément soit G l'événement «les épreuves 2 à m sont toutes des échecs». Dans ce
cas
Or GH1 est l'événement «les m premières épreuves donnent toutes des échecs» et par
conséquent P(E\ GH') = 0. De plus si Gc H' se réalise, la première épreuve est un échec,
mais il y a au moins un succès parmi les m — 1 épreuves suivantes. Comme ce succès
brise la chaîne des échecs, on peut dire que
P{E\GCHC) = P(E\H)
et
et donc
(3.18)
On peut d'ailleurs noter que, du fait de la symétrie du problème, cette formule livre
la probabilité d'obtenir une chaîne de m échecs avant l'apparition d'une chaîne de n
succès. Il suffit d'intervertir dans (3.18) p et q d'une part, n et m de l'autre. Cette
probabilité serait donc
_ g (i - p )
~ m-\ \ n^l m-1 n-\ (3.19)
q +p -q p
De plus, comme on voit que la somme des probabilités données par (3.18) et (3.19)
est 1, il est certain qu'il finira par se produire soit une chaîne de n succès soit une autre
de m échecs.
94 Initiation aux probabilités
A titre d'illustration de (3.18), on peut dire que lors du jet répété d'une pièce
équilibrée la probabilité de voir sortir une chaîne de 2 piles avant que n'apparaisse
une chaîne de 3 faces est ^ ; cette probabilité monte à | pour des chaînes de 2 piles
contre 4 faces. •
Exemple 3.30 Lors d'une réunion de n hommes chacun enlève son chapeau. Les
chapeaux sont mélangés et chacun en tire un au hasard. On dira qu'il y a rencontre
lorsque quelqu'un a tiré son propre chapeau.
a) Quelle est la probabilité qu'il n'y ait pas de rencontre ?
b) Quelle est celle qu'il y ait exactement k rencontres ?
SOLUTION, a) Désignons par E l'événement «il n'y a aucune rencontre»; pour faire
clairement apparaître l'influence de n nous écrirons P„ = P(E). L'idée de départ est
de conditionner sur le fait que le premier homme a ou n'a pas tiré son propre chapeau,
événements que nous noterons R et Rc. Alors:
~~ (3.20)
Ceci dit, P(E\RC) est la probabilité qu'il n'y ait pas de rencontre lorsque n — 1
hommes tirent chacun un chapeau d'un tas en comptant n — 1 mais ne comprenant
pas le chapeau de l'un de ces hommes (le chapeau tiré par le premier individu).
Lorsqu'il n'y a pas de rencontre, deux cas de figure peuvent se présenter: soit l'homme
«en trop» (son chapeau n'est pas dans le tas) ne tire pas le chapeau «en trop» (celui
du premier homme), soit il le tire. La probabilité d'absence de rencontre dans le
premier cas est simplement P„_{, on peut s'en convaincre en considérant que le
chapeau «appartient» à l'homme en trop. Comme la probabilité de l'alternative est
[l/(« — l)]Pn_2> nous avons maintenant
P = — P +-P
n n
ou, de manière équivalente,
P\ = 0 P2 = 1/2
Probabilité conditionnelle et indépendance 95
l l 1
P P - i^zIA- P
P 4 -P 3= _i^) = l ou P4 = ±-± + L
4 4! 2! 3! 4!
On peut voir que la formule générale est
Pn=i-l+i-...+tir
2! 3! 4! n!
b) Pour obtenir la réponse à la question, à savoir la probabilité d'observer exacte-
ment k rencontres, considérons un groupe quelconque de k hommes. La probabilité
qu'eux et eux seulement choisissent leur propre chapeau est
i ^ L_p _(n-k)\
n n— 1 n — (k — 1) n!
±_1 (-!)"""
+ +
Pn-k_2ï 3! "" (n-fc)!
k\ k\ m
indépendants selon que cet individu était à faible ou haut risque. [On avait utilisé cette
hypothèse pour pouvoir attribuer à P(A1\AA]) et P(A2\AcAl) respectivement les
valeurs 0,4 et 0,2]. L'exemple suivant illustre la notion d'indépendance conditionnelle.
On l'intitule parfois règle de succession de Laplace.
Si l'on admet que c'est la /-ème pièce qui a été tirée, les issues des jets seront
conditionnellement indépendantes, pile apparaissant avec la probabilité i/k. Donc,
P{F\F„E,) = P(F\Ei)=j
k
Aussi
P(E,FH)
P(E,\Fn)=-
P(Fn)
P(F n |F,)P(E,)
I P(Fn\E,)P(Ej)
; = ()
(i/fc)"[l/(fc + l)]
l (;'//c)"[l/(/c + l)]
P(F|F„)=^
;=0
3.6.1 Une boule peut se trouver dans n'importe laquelle de n boîtes. Elle se trouve
dans la boîte / avec probabilité P,, Si elle se trouve dans la boîte i, elle ne sera détectée
au cours d'une fouille de cette boîte qu'avec la probabilité et,. Montrer que la
probabilité conditionnelle que la boule se trouve dans la boîtey, sachant qu'une fouille
de la boîte i n'a rien donné, est:
3.6.2 Pour chacune des assertions suivantes donner soit une preuve, soit un contre-
exemple:
a) si E est indépendant de F et G, il l'est de F U G;
b) si E est indépendant de F et G et si FG = 0 , E est indépendant de F \J G;
c) si E est indépendant de F et si F l'est de G et si en plus E l'est de FG, alors G est
indépendant de EF.
3.6.3 L'événement F est porteur d'une information négative sur E, ce que nous
écrirons F \ E, si
P(£|F)sP(E)
Pour chacune des assertions suivantes, donner soit une preuve soit un contre-exemple:
• si F \ E alors E \ F;
• si F \ E et E \ G, alors F \ G;
• si F \ E et G \ F, alors FG \ F.
Répondre aux mêmes questions lorsqu'on remplace \ par S, F S E signifiant
P{E\F) ^ P(E): autrement dit, F est porteur d'information positive sur E.
3.6.4 Soient {E„, n > 1} et {F„, n > 1} des suites croissantes d'événements ayant pour
limites E et F respectivement. Montrer que F est indépendant de F si, pour tout n,
En l'est de F„.
3.6.6
a) Une urne contient n boules blanches et m noires. On retire les boules une à une,
jusqu'à ce que l'on soit sûr que toutes celles qui restent sont de la même couleur.
Montrer que la probabilité que cette couleur soit le blanc est «/(« + m). On imaginera
que l'expérience est poursuivie jusqu'à la dernière boule et on considérera la couleur
de celle-ci.
b) Un étang est peuplé de trois espèces de poissons, qu'on appellera poissons rouges,
bleus et verts. Les nombres des poissons de chaque espèce sont respectivement R, B
et V. On retire les poissons un à un, au hasard (ce qui signifie qu'à chaque étape tout
poisson restant a la même probabilité d'être tiré). Quelle est la probabilité que la
première espèce à disparaître de l'étang soit le poisson rouge?
On partira de l'égalité P{{R\) = P({RBV}) + P({RVB}), puis on calculera les
probabilités du membre de droite en conditionnant suivant la couleur de la dernière
espèce à disparaître.
3.6.7 On considère des nombres ait i = 1,2,... ; de plus 0 < a, < 1 V i. Montrer que
i U n d-fl>) + n u-aj) = i
i=l L ;'=1 J i=l
On peut pour cela imaginer qu'on lance un nombre infini de pièces et on considère
a, comme la probabilité que la i-ième pièce montre pile et considérer la première ap-
parition du pile.
3.6.8 Une pièce tombe sur face avec probabilité/?. Un joueur A commence à la lancer
et poursuit jusqu'à la première apparition de pile. A ce moment B la lance jusqu'à
ce que pile apparaisse pour la première fois, ce qui fait passer la pièce à A et ainsi de
suite. On note par Pnm la probabilité que A ait pu accumuler un total de n faces avant
que B en ait eu m. Montrer que
3.6.9 Vous jouez contre un adversaire infiniment riche, le jeu est divisé en parties.
A chaque partie, vous pouvez soit gagner soit perdre une unité avec pour probabilité
respectivement /? et 1 — p. Montrer que la probabilité que vous finissiez par vous
ruiner est
| 1 si p < i
\ Ullpï si p > \où q = 1 - p
Utiliser ce résultat pour résoudre le problème des points (exemple 3.25). On peut d'a-
bord se demander le nombre de succès qu'on doit avoir lors des n - 1 premiers essais
pour obtenir r succès en n épreuves.
D _ l + (l-2p)"
3.6.12 Soit Q„ la probabilité qu'il n'apparaisse aucune série de trois piles consécutifs
lors de l'expérience consistant à jeter n fois une pièce équilibrée. Montrer que
0„=|0„-,+ï0„-2+l0„-3
Oo = Oi = Q2 = 1
3.6.15 On considère deux urnes contenant chacune des boules blanches et des boules
noires. Les probabilités de tirer une boule blanche sont dep et//, respectivement pour
l'urne 1 et l'urne 2. On tire avec remplacement des boules, une à une, de la manière
suivante: on détermine d'abord l'urne de laquelle la première boule sera tirée; l'urne
1 est choisie avec probabilité a, l'autre avec 1 — a. Pour la suite, les tirages obéissent
à la règle suivante: lorsque la boule tirée est blanche, on la replace dans son urne, de
laquelle on tire également la boule suivante; lorsqu'elle est noire au contraire, le tirage
suivant est fait dans l'autre urne. Soit an la probabilité que la «-ème boule soit choisie
dans l'urne 1. Montrer que
2-p-p \ 2-p-p /
Pn = ( 2 p - l ) P „ - , + ( l - p ) nsl
P..= 1
Montrer que
Pn = i+l2(2p-l)H n>0
3.6.18 Un sac contient a boules blanches et b noires. On tire des boules du sac selon
le principe suivant:
a) une boule est tirée au hasard et mise de côté;
b) une seconde est également tirée au hasard. Si sa couleur diffère de celle de la
première, on la réintroduit dans le sac et on recommence le processus depuis le
début. Dans le cas contraire, on la met de côté et répète le point b).
En d'autres termes, les boules sont tirées et mises de côté jusqu'à ce qu'un changement
de couleur intervienne, à partir de quoi la dernière boule tirée est réintroduite dans
le sac et le processus réinitialisé. Désignons par Pllh la probabilité que la dernière boule
du sac soit blanche. Montrer que
Probabilité conditionnelle et indépendance 101
Raisonner par induction sur k = a + b, le nombre de boules dans le sac aux différents
stades de l'expérience.
3.6.25 Dans le cas de la loi de succession de Laplace, on suppose que les n premiers
jets ont donné r fois pile et n — r fois face au total. Montrer que la probabilité que
le (n + l)-ième jet livre pile est (r + !)/(« + 2). Pour ce faire, démontrer puis utiliser
'identité
y ( 1 - y ) dy=— ——
;o (n + m + 1)!
Pour démontrer cette identité, poser C(n,m) = fQ y"(\ — y)m dy et intégrer cette
quantité par parties pour obtenir
C(n, m) = C(n + 1, m - 1)
n +1
Démontrer l'identité proposée par induction sur m en partant de C(«,0) = \/(n + 1).
102 Initiation aux probabilités
3.6.26 L'un de vos amis, d'esprit peu mathématicien mais plutôt philosophe, soutient
que la loi de succession de Laplace est infondée, car elle peut mener à ces conclusions
ridicules. «Par exemple», dit-il, «cette loi prétend qu'un enfant de 10 ans vivra une
onzième année avec une probabilité j | . La même loi appliquée au grand-père de cet
enfant et qui a déjà 80 ans lui donne 81 chances sur 82 de vivre un an de plus. Ce
résultat est ridicule, l'enfant ayant clairement plus de chances de vivre un an de plus
que son grand-père». Que répondriez-vous à votre ami?
3.7 PROBLÈMES
3.7.1 On jette deux dés équilibrés. Quelle est la probabilité qu'au moins l'un d'entre
eux montre 6, sachant que les deux résultats sont différents?
3.7.2 On jette deux dés équilibrés. Quelle est la probabilité que le premier montre 6,
sachant que la somme des deux est il Calculer le résultat pour toutes les valeurs de
/ comprises entre 2 et 12.
3.7.3 Utiliser l'équation (3.1) pour calculer la probabilité que, lors d'une partie de
bridge, Est ait 3 piques, sachant que Nord et Sud en possèdent 8.
3.7.4 On jette deux dés équilibrés. Quelle est la probabilité qu'au moins l'un d'entre
eux montre 6, sachant que la somme des deux est /', i = 2,3,..., 12?
3.7.5 Une urne contient 6 boules blanches et 9 noires. On en tire 4 sans remise et au
hasard. Quelle est la probabilité que les deux premières soient blanches et les deux
autres noires?
3.7.6 On considère une urne contenant 12 boules desquelles 8 sont blanches. On tire
un échantillon de 4 boules avec remise (respectivement sans remise). Quelle est dans
chaque cas la probabilité conditionnelle que la première et la troisième boule soient
blanches, sachant que l'échantillon contient exactement 3 boules blanches?
3.7.7 Le roi vient d'une famille de 2 enfants. Quelle est la probabilité que l'autre soit
une sœur?
3.7.8 Un couple a deux enfants. Quelle est la probabilité que les deux soient des filles
sachant que l'aînée en est une ?
3.7.9 On considère trois urnes. L'urne A contient 2 boules blanches et 4 rouges; l'urne
B, 8 blanches et 4 rouges; l'urne C, 1 blanche et 3 rouges. On tire une boule de chacune
des urnes. Quelle est la probabilité que la boule tirée de l'urne A soit blanche, si l'on
sait que le tirage a livré deux boules blanches exactement?
3.7.10 Lors d'une partie de bridge, Ouest n'a reçu aucun as. Quelle est la probabilité
que son partenaire
a) n'ait reçu aucun as non plus;
b) en ait reçu deux ou plus?
c) Quels seraient ces résultats si Ouest avait reçu 1 as lors de la donne?
Probabilité conditionnelle et indépendance 103
3.7.11 On choisit trois cartes au hasard et sans remise dans un jeu ordinaire de 52
cartes. Calculer la probabilité que la première carte tirée soit un pique, sachant que
les deux dernières en sont?
3.7.12 Une grossesse ectopique a deux fois plus de chance de se développer lorsque
la femme enceinte fume que lorsqu'elle est non-fumeuse. Si 32% des femmes en âge
de maternité fument, quel pourcentage de femmes ayant une grossesse ectopique sont
fumeuses?
3.7.13 98% des bébés survivent à l'accouchement. Cependant, 15% des naissances
nécessitent une césarienne et lorsqu'une césarienne est pratiquée, les bébés survivent à
96%. Si une femme enceinte choisie aléatoirement ne fait pas de césarienne, quelle est
la probabilité que son bébé survive?
3.7.14 Dans une certaine ville, 36% des familles possèdent un chien et 22% de celles
qui ont un chien possèdent aussi un chat. De plus, 30% des familles ont un chat.
Quelle est
a) la probabilité qu'une famille sélectionnée au hasard possède un chien et un chat;
b) la probabilité conditionnelle qu'une famille choisie au hasard possède un chien
sachant qu'elle a un chat?
3.7.15 46% des électeurs d'une ville se déclarent indépendants alors que 30% se dé-
clarent libéraux et 24% conservateurs. Lors d'une récente élection locale, 35% des
indépendants, 62% des libéraux et 58% des conservateurs ont voté. Un électeur est
choisi au hasard. Sachant qu'il a voté lors de l'élection locale, quelle est la probabilité
qu'il soit
a) indépendant;
b) libéral;
c) conservateur?
d) Quelle fraction d'électeurs a participé à l'élection locale?
3.7.16 48% des femmes et 37% des hommes ayant suivi un programme pour arrêter
de fumer sont restés non-fumeurs pendant au moins un an après la fin du programme.
Ces personnes organisent une fête pour célébrer leur année sans fumer. Si 62% de
tous les gens ayant suivi le programme étaient des hommes,
a) quel pourcentage de femmes y aura-t-il à la fête?
b) quel pourcentage de gens ayant suivi le programme se rendront à la fête?
3.7.17 52% des élèves d'un collège sont des filles. 5% des élèves de ce collège sont
doués en informatique. 2% des élèves sont des filles douées en informatique. Si un
élève est choisi au hasard, trouver la probabilité conditionnelle que
a) cet élève soit une fille, sachant qu'il est doué en informatique;
b) cet élève soit doué en informatique, sachant que c'est une fille.
3.7.18 500 couples mariés actifs ont été sondés sur leur salaire annuel, donnant les
résultats suivants.
104 Initiation aux probabilités
Mari
Femme Moins de $25 000 Plus de $25 000
Moins de $25 000 212 198
Plus de $25 000 36 54
Ainsi, par exemple, dans 36 de ces couples la femme gagne plus et le mari moins de
$25 000. Si un des couples est choisi au hasard, quelle est
a) la probabilité que le mari gagne moins de $25 000;
b) la probabilité conditionnelle que la femme gagne plus de $25 000 sachant que son
mari gagne plus que cette somme;
c) la probabilité conditionnelle que la femme gagne plus de $25 000 sachant que son
mari gagne moins que cette somme?
3.7.19 La probabilité que la batterie d'une voiture neuve fonctionne plus de 10 000
miles est .8, la probabilité qu'elle fonctionne plus de 20 000 miles est .4 et la probabi-
lité qu'elle fonctionne plus de 30 000 miles est .1. Si la batterie d'une voiture neuve
fonctionne toujours après 10 000 miles, quelle est la probabilité que
a) sa durée de vie dépasse 20 000 miles;
b) sa durée de vie supplémentaire dépasse 20 000 miles?
3.7.21 Une urne contient au départ 5 boules blanches et 7 noires. Chaque fois que
l'on tire une boule, on note sa couleur, puis on la réintroduit ainsi que deux nouvelles
boules de la même couleur qu'elle.
• Quelle est la probabilité que les deux premières boules tirées soient noires, puis les
deux suivantes blanches?
• Quelle est la probabilité que deux exactement des 4 premières boules tirées soient
noires?
3.7.22 Une urne I contient 2 boules blanches et 4 rouges, tandis qu'une urne II
contient une boule de chacune de ces couleurs. Une boule est tirée au hasard de l'urne
I et placée dans l'urne II, puis on tire une boule de cette dernière urne.
• Quelle est la probabilité que cette deuxième boule soit blanche?
• Quelle est la probabilité que la boule transférée soit blanche, sachant que la
dernière boule était blanche?
3.7.23 Comment placer 20 boules, dont 10 sont blanches et 10 noires, dans deux urnes
de manière à maximiser la probabilité de tirer une boule blanche dans l'expérience
suivante: on choisit d'abord une urne au hasard, puis une boule dans cette urne?
3.7.24 On peint deux boules, soit en noir soit en rouge, au hasard; chaque boule est
peinte indépendamment de l'autre, le noir ayant une chance sur deux d'être utilisé.
Probabilité conditionnelle et indépendance 105
3.7.26 On admet que 5 % des hommes et 0,25 % des femmes sont daltoniens. On
sélectionne une personne daltonienne au hasard. Quelle est la probabilité qu'il s'agisse
d'un homme ? On admettra que les hommes sont aussi nombreux que les femmes. Si
au contraire il y en avait deux fois plus que de femmes, que deviendrait le résultat?
3.7.27 On considère deux boîtes, l'une contient une bille noire et une blanche, etl'autre
deux noires et une blanche. On désigne une boîte au hasard, de laquelle on tire une
bille. Quelle est la probabilité qu'elle soit noire? Si l'on sait que la bille est blanche,
quelle est la probabilité que ce soit la première boîte qui ait été désignée?
3.7.29 Deux urnes A et B contiennent respectivement deux boules blanches plus une
noire et une blanche plus cinq noires. On tire au hasard une boule dans l'urne A et
on la place dans B. On tire alors une boule de B, elle est blanche. Quelle est la
probabilité que la boule transférée ait aussi été blanche?
3.7.30 Dans l'exemple 3.12, on doit admettre que le nouvel indice est sujet à diffé-
rentes interprétations et n'apporte qu'une certitude à 90 % que le criminel possède la
caractéristique mentionnée. Quelle est alors la probabilité que le suspect soit coupable
(on admettra comme dans l'exemple qu'il porte cette caractéristique)?
hasard dans chaque classe et constate que l'étudiant de la classe A est moyen, tandis
que l'autre est mauvais. Quelle est la probabilité que la classe A soit la meilleure?
3.7.33 Un joueur professionnel garde dans sa poche 2 pièces, l'une normale et l'autre
ayant ses deux faces identiques, disons deux fois pile. Il en prend une au hasard et
la lance; elle montre pile.
a) Quelle est la probabilité qu'il s'agisse de la pièce normale?
b) Il jette la même pièce une seconde fois, elle montre de nouveau pile. Que devient
la probabilité précédente?
c) Il la lance une 3ème fois, mais obtient face cette fois. Quelle est maintenant la
probabilité qu'il s'agisse de la pièce normale?
3.7.35 Dans l'exemple 3.8, quelle est la probabilité qu'une personne ait un accident
durant la deuxième année, sachant qu'elle n'en a pas eu lors de la première?
3.7.37 Une urne contient b boules blanches et r rouges. L'une de ces boules est tirée
au hasard. Quand on la remet dans l'urne, on l'accompagne de c nouvelles boules
de la même couleur qu'elle. On tire une deuxième boule. Montrer que la probabilité
pour la première boule tirée d'être blanche, sachant que la deuxième est rouge, est
b/(b + r + c).
3.7.38 On mélange bien un paquet de 52 cartes puis on le divise en deux parties égales.
On choisit une carte de l'une des moitiés, qui se trouve être un as. On place cet as dans
le second paquet qui est alors mélangé. On tire alors de ce paquet augmenté une carte.
Calculer la probabilité que cette carte soit un as.
Conditionner sur le fait que la carte qui a changé de paquet est ou n'est pas tirée.
Probabilité conditionnelle et indépendance 107
3.7.40 Une boîte contient 3 pièces. La première est normale, la seconde porte deux
fois pile et la troisième est biaisée de telle manière que pile sorte trois fois sur 4. Une
pièce est tirée puis lancée et donne pile. Quelle est la probabilité qu'il s'agisse de celle
aux deux faces identiques?
3.7.41 Le geôlier informe trois prisonniers que l'un d'entre eux a été choisi au hasard
pour être exécuté, tandis que les deux autres seront libérés. Le prisonnier A lui
demande de lui dire discrètement lequel de ses camarades d'infortune sera libéré,
prétendant qu'il n'y a pas de mal à communiquer cette information puisqu'il sait déjà
qu'au moins l'un des deux sera libéré. Le geôlier refuse, argumentant que si A sait
lequel de ses camarades va être libéré, la probabilité que lui-même soit le condamné
augmentera de ^ à |, car il saura alors qu'il est parmi les deux personnes encore
menacées. Que pensez-vous du raisonnement du geôlier?
3.7.42 On dispose de lOpièces telles que, pour la i-ème d'entre elles, laprobabilité de
montrer pile lorsqu'on la lance est z'/lO, / = 1,2,...,10. Une pièce est tirée au hasard,
lancée, elle donne pile. Quelle est la probabilité qu'il s'agisse de la cinquième
pièce?
3.7.43 Une urne contient 5 boules blanches et 10 noires. Le chiffre donné par le jet
d'un dé équilibré indique le nombre de boules que l'on va tirer de l'urne. Quelle est
la probabilité que toutes les boules tirées soient blanches? Si toutes les boules sont
blanches, quelle la probabilité que le dé ait livré un 3?
3.7.44 Chacun de deux petits meubles identiques a deux tiroirs. Le meuble A contient
une pièce d'argent dans chaque tiroir, le meuble B ayant une pièce d'argent dans un
tiroir et une en or dans l'autre. On désigne l'un des petits meubles au hasard, ouvre
l'un de ses tiroirs et y trouve une pièce d'argent.
• Quelle est la probabilité qu'il y ait une pièce d'argent dans l'autre tiroir?
• Quelle est la probabilité que ce soit le meuble A qui ait été choisi?
3.7.45 On suppose qu'un test de dépistage de cancer est caractérisé par une fiabilité
de 95% aussi bien pour ceux qui portent que ceux qui n'ont pas cette maladie. Dans
la population, 0,4% des gens ont le cancer. Quelle est la probabilité qu'une personne
ait le cancer, sachant que son test l'indique?
3.7.46 Une compagnied'assurances répartit les gens en trois classes: personnes à bas
risque, risque moyen et haut risque. Ses statistiques indiquent que la probabilité que
des gens soient impliqués dans un accident sur une période d'un an est respectivement
0,05, 0,15 et 0,30. On estime que 20% de la population est à bas risque, 50% est à
risque moyen et 30% à haut risque. Quelle proportion des gens ont un accident ou
plus au cours d'une année donnée? Si l'assuré A n'a pas eu d'accident en 1972, quelle
108 Initiation aux probabilités
est la probabilité qu'il fasse partie de la classe à bas risque (respectivement à moyen
risque)?
3.7.48 Une classe compte 4 garçons et 6 filles de première année, 6 garçons de seconde
année. Combien doit-il y avoir de filles de deuxième année si l'on veut que sexe et
année soient des facteurs indépendants lors du choix au hasard d'un étudiant?
3.7.49 Supposons qu'on collecte des coupons de m types différents. Supposons aussi
qu'à chaque fois qu'on obtient un nouveau coupon, il est de type i avec probabilité/?,,
i = 1,..., m. Supposons qu'on vienne de collecter le n-ième coupon. Quelle est la
probabilité qu'il soit d'un nouveau type? Pour cela, conditionner sur le type de ce
coupon.
3.7.50 Un modèle simplifié pour la variation du prix d'un stock suppose que chaque
jour, le prix du stock grimpe d'une unité avec probabilité p ou chute d'une unité avec
probabilité 1 - p. Les variations quotidiennes sont indépendantes.
a) Quelle est la probabilité qu'après 2 jours, le stock soit au prix original?
b) Quelle est la probabilité qu'après 3 jours, le prix du stock ait augmenté d'une
unité?
c) Sachant qu'après 3 jours le prix du stock a augmenté d'une unité, quelle est la pro-
babilité qu'il ait grimpé le premier jour?
3.7.51 La couleur des yeux d'une personne est déterminée par une unique paire de
gènes. Si les deux sont des gènes yeux bleus, la personne aura les yeux bleus; si les
deux sont des gènes yeux marrons, la personne aura les yeux marrons; si l'un est un
gène œil bleu et l'autre un gène œil marron, la personne aura les yeux marrons. (A
cause du fait que le gène œil marron est dominant par rapport au gène œil bleu.) Un
nouveau-né reçoit indépendamment un gène œil de chacun de ses parents et le gène
qu'il reçoit d'un de ses parents a autant de chances d'être l'un des deux gènes œil de
ce parent. Supposons que Smith et ses deux parents ont les yeux marrons, mais que la
sœur de Smith a les yeux bleus.
a) Quelle est la probabilité que Smith ait un gène œil bleu?
Supposons que la femme de Smith a les yeux bleus.
b) Quelle est la probabilité que leur premier enfant ait les yeux bleus?
c) Si leur premier enfant a les yeux marrons, quelle est la probabilité que leur pro-
chain enfant ait aussi les yeux marrons?
Probabilité conditionnelle et indépendance 109
3.7.52 Barbara et Dianne vont faire du tir. Supposons que chaque tir de Barbara
touche la cible avec une probabilité p\ tandis que chaque tir de Dianne la touche avec
une probabilité pi- Supposons qu'elles tirent ensemble sur la même cible. Si la cible
est touchée, quelle est la probabilité que
a) les deux tirs l'aient touchée?
b) Barbara l'ait touchée?
Quelle hypothèse d'indépendance avez-vous faite?
3.7.53 A et fi se battent en duel. Les règles du duel sont les suivantes. Us ramassent
leur pistolet et se tirent dessus simultanément. Si l'un ou l'autre est touché, le duel est
fini. Si les deux tirs sont manques, ils répètent le processus. Supposons que les
résultats des tirs sont indépendants, que chaque tir de A touche B avec une probabilité
pA et que chaque tir de B touche A avec une probabilité pB. Quelle est
a) la probabilité que A ne soit pas touché;
b) la probabilité que les deux duellistes soient touchés;
c) la probabilité que le duel s'arrête après le n-ième tir;
d) la probabilité conditionnelle que le duel s'arrête après le n-ième tir sachant que A
n'est pas touché;
e) la probabilité conditionnelle que le duel s'arrête après le n-ième tir sachant que les
deux duellistes sont touchés?
3.7.54 Une question «vrai ou faux» est posée à un couple lors d'un jeu. Le mari et la
femme donneront, indépendamment, la bonne réponse avec une probabilité p. Parmi
les deux stratégies suivantes, quelle est la meilleure pour le couple?
a) Choisir l'un d'eux et le laisser répondre à la question; ou
b) Considérer la question tous les deux et alors soit donner la réponse commune s'ils
sont d'accord, soit, s'ils ne sont pas d'accord, lancer une pièce pour déterminer la
réponse à donner.
3.7.56 M. Jones a élaboré une stratégie pour gagner à la roulette: il ne mise que sur
rouge et seulement si les dix numéros sortis précédemment ont été noirs. Etant donné
la rareté des séquences de 11 numéros noirs, il pense que ses chances de gagner sont
grandes. Que pensez-vous de sa stratégie?
3.7.57 On dit qu'un système mécanique est un système k sur n s'il faut et suffit que
k des n composants du système soient fonctionnels pour que le système entier le soit.
On admettra que les composants travaillent indépendamment les uns des autres. On
désigne par Pt la probabilité que le ;'-ème composant soit opérationnel.
• Calculer la probabilité qu'un système 2 sur 4 fonctionne;
• même question pour un système 3 sur 5;
• même question pour un système k sur n où Z5, = p, Vi = l,2,...,n.
110 Initiation aux probabilités
3.7.58 Dans les schémas qui suivent la probabilité que le relais i soit fermé est p„
i = 1, 2, 3,4, 5. Les relais fonctionnent indépendamment les uns des autres. Quel est,
dans ce cas, la probabilité que le courant passe entre A et B1
1 2
5
/
3 4
3.7.59 Un organisme possède 5 paires de gènes; dans chaque paire, les deux gènes sont
presque identiques, aussi les désigne-t-on les deux par la même lettre, prise parmi les
cinq premières de l'alphabet. Les deux formes possibles de chaque gène ne seront
distinguées que par le détail suivant: le gène dominant sera écrit en majuscule, le gène
récessif en minuscule. Un gène X est dit dominant si, lorsqu'un organisme possède
la paire xX, son apparence extérieure est commandée par X. Par exemple, si X
commande la couleur brune pour les yeux et x la couleur bleue, une personne ayant
XX ou Xx aura les yeux bruns, tandis que seule une personne portant xx aura les yeux
bleus. L'apparence extérieure est qualifiée de phénotype, tandis que la configuration
génétique est dite génotype. Ainsi deux organismes porteurs des génotypes a A, bB,
ce, dD, ee et A A, BB, ce, DD, ee sont pourtant du même phénotype.
Lors de l'accouplement de deux individus, chacun apporte, au hasard, un gène
d'un certain type parmi les deux qu'il possède. Les cinq contributions d'un organisme
du genre considéré sont indépendantes entre elles et indépendantes de celles de son
partenaire. Consécutivement à l'accouplement de deux organismes de génotypes a A,
bB, cC, dD, eE et aa, bB, ce, Dd, ee, quelle est la probabilité que leur progéniture soit
(1) phénotypiquement et (2) génotypiquement identique
• au premier parent;
• au second;
• à l'un des deux parents;
• à aucun des deux parents.
3.7.60 La reine porte le gène de l'hémophilie avec une probabilité de 0,5. Si elle est
porteuse, chaque prince aura une chance sur deux de souffrir de cette maladie. La
Probabilité conditionnelle et indépendance 111
reine a eu trois fils non hémophiles. Quelle est la probabilité qu'elle soit porteuse du
gène? S'il naît un quatrième prince, avec quelle probabilité sera-t-il hémophile?
3.7.61 Le 30 septembre 1982 au matin, les scores des trois meilleures équipes de
baseball de la division occidentale de la Ligue Nationale des Etats-Unis étaient les
suivants:
Atlanta Braves 87 72
San Francisco Giants 86 73
Los Angeles Dodgers 86 73
Chaque équipe doit encore disputer 3 parties. Les Giants doivent jouer leurs trois
parties contre les Dodgers, tandis que les Braves joueront les leurs contre les Padres
de San Diego. On admettra que les résultats de ces jeux sont indépendants et que
toutes les équipes ont la même probabilité de gagner. Quelle est la probabilité pour
chacune de ces trois équipes d'emporter la première place de la division? Si deux
équipes se retrouvent à égalité pour cette place, elles disputent une unique partie qui
les départagera, chacune ayant une chance sur deux de la gagner.
3.7.63 On admet que le sexe du dernier enfant d'un couple est indépendant de celui
des autres enfants de la famille et qu'il y a autant de chances d'être masculin que
féminin. Calculer, pour un couple ayant 5 enfants, les probabilités des événements
suivants:
a) tous les enfants sont du même sexe;
b) les trois aînés sont des garçons, les deux autres des filles;
c) il y a exactement 3 garçons;
d) les deux aînés sont des garçons;
e) il y a au moins une fille.
3.7.64 La probabilité de gagner lors du jet d'un seul dé est p. Le joueur A commence,
puis passe le dé à B s'il n'a pas gagné. B joue à son tour et rend le dé à A si lui non
plus n'a pas gagné. Les deux joueurs alternent ainsi tant qu'aucun n'a encore gagné.
Quelles sont leurs probabilités de victoire respectives? Que devient ce résultat
lorsqu'on admet k joueurs?
112 Initiation aux probabilités
3.7.65 Mêmes questions que dans le problème 3.7.64 en admettant cependant que A
gagne avec probabilité P} tandis que cette probabilité est P2 pour B.
3.7.66 Chacun des trois joueurs lancent une pièce simultanément. La pièce lancée par
A, respectivement (B) et [C] montre pile avec probabilité P1,, (P2), [P3]. Si l'un des
joueurs obtient un résultat différent de celui commun aux deux autres, il est exclu.
Si personne n'est exclu, le jeu recommence jusqu'à ce qu'enfin quelqu'un le soit.
Quelle est la probabilité que ce soit A qui se voie exclure?
3.7.67 Dans une expérience donnée, les événements E et F sont mutuellement exclu-
sifs. Montrer que lors d'une suite d'épreuves indépendantes basée sur cette expérience,
£ apparaîtra avant F avec probabilité P(E)/[P(E) + P(F)].
3.7.68 Une ligne est tracée sur le sol et deux joueurs jettent leur pièce dans sa direc-
tion. Celui qui parvient le plus près gagne un sou de la part de l'autre. Le joueur A
débute avec 3 sous contre 7 au joueur B. Quelle est la probabilité que A finisse avec
tous les sous si aucun n'est plus habile que l'autre? Qu'en serait-il si A était un joueur
plus adroit gagnant 6 fois sur 10?
3.7.69 Quelle est la probabilité d'obtenir deux sommes de7 avant que n'apparaissent
6 nombres pairs lorsqu'on jette plusieurs fois une paire de dés équilibrés?
3.7.70 On considère 2" joueurs, tous de la même force, que l'on organise en paires
tirées au hasard. A l'issue du premier tour de jeu, on compose à nouveau des paires
au hasard avec les 2" _1 gagnants, et ainsi de suite, jusqu'à ce qu'il n'en reste qu'un.
Considérons deux participants donnés, A et B, ainsi que les événements ^,et £ définis
comme suit:
A,: «A joue exactement / fois», i = 1, 2,..., n,
E: «A et B ne jouent jamais l'un contre l'autre».
Trouver:
a) P(A), i = 1 n.
b) P(E).
c) On pose Pn = P(E). Montrer que
2
Pour ce faire, trouver P(E) en conditionnant sur l'événement A,, i = 1,..., n qui se
produit. Pour simplifier votre réponse, utiliser l'identité algébrique
Pour résoudre ce problème selon une autre approche, noter qu'il y a un total de 2" - l
matchs joués.
d) Expliquer pourquoi 2" - l matchs sont joués au total.
Probabilité conditionnelle et indépendance 113
Numéroter ces matchs et soit fi, l'événement que A et B jouent l'un contre l'autre au i-
ième match, i = 1,..., 2" - 1.
e) Quelle est />(#,)?
f) Utiliser la question e) pour trouver P(E).
3.7.71 Un spéculateur travaillant sur le marché boursier possède des actions cotées
25. Il a décidé de vendre ses titres si la cote tombe à 10 ou monte au-delà de 40. Les
variations de prix de l'action sont de 1 point, avec probabilité 0,55 vers le haut et 0,45
vers le bas. Ces variations dans le temps sont indépendantes. Quelle est la probabilité
que cet investisseur fasse une bonne affaire?
3.7.74 Dans une urne, on dispose 12 boules dont 4 sont blanches. Les trois joueurs
A, B, et C tirent dans l'ordre une boule chacun, puis A recommence et ainsi de suite.
Le gagnant est le premier à tirer une boule blanche. Trouver la probabilité pour
chaque joueur de gagner dans les deux cas suivants: avec remise, sans remise.
3.7.75 Refaire le problème 3.7.74 lorsqu'il y a trois urnes de 12 boules au lieu d'une,
chaque joueur tirant toujours dans la même.
3.7.77 On se place dans la situation de l'exemple 3.31. Quelle est la probabilité que
la f-ème pièce ait été choisie, sachant que les n premières épreuves ont toutes donné
pile?
3.7.78 Dans le cas de la loi de succession de Laplace, exemple 3.31, peut-on dire que
les résultats des différents jets sont indépendants? Expliquer votre réponse.
3.7.79 Un tribunal de 3 juges déclare un individu coupable lorsque deux au moins des
trois juges estiment que cette décision est fondée. On admettra que si l'accusé est
effectivement coupable, chaque juge se prononcera dans ce sens avec probabilité 0,7,
ceci indépendamment des 2 autres. Cette probabilité tombe à 0,2 dans le cas où
l'accusé est innocent. 70% des accusés sont coupables. Calculer la probabilité que le
juge n° 3 vote coupable dans chacune des situations suivantes:
• les juges 1 et 2 l'ont fait;
• les juges 1 et 2 sont partagés;
• les juges 1 et 2 votent tous deux non coupable.
On désigne par £,, i = 1, 2, 3 l'événement «le juge i vote coupable». Ces événements
sont-ils indépendants? Conditionnellement indépendants? Expliquer votre position.
CHAPITRE 4
Variables aléatoires
4.1.1 Définition
Après avoir réalisé une expérience, il arrive bien souvent qu'on s'intéresse plus à
une fonction du résultat qu'au résultat lui-même. Expliquons ceci au moyen des
exemples suivants: lorsqu'on joue aux dés, certains jeux accordent de l'importance à
la somme obtenue sur deux dés, 7 par exemple, plutôt qu'à la question de savoir si
c'est la paire (1,6) qui est apparue, ou (2,5), (3,4), (4,3), (5,2) ou plutôt (6,1). Dans
le cas du jet d'une pièce, il peut être plus intéressant de connaître le nombre de fois
où pile est apparu plutôt que la séquence détaillée des piles et faces. Ces grandeurs
auxquelles on s'intéresse sont en fait des fonctions réelles définies sur l'ensemble
fondamental et sont appelées variables aléatoires.
Du fait que la valeur d'une variable aléatoire est déterminée par le résultat de
l'expérience, il est possible d'attribuer une probabilité aux différentes valeurs que la
variable aléatoire peut prendre.
Exemple 4.1 Notre expérience consiste à jeter trois pièces équilibrées. Si l'on désigne
le nombre de piles par Y, Y est une variable aléatoire et peut prendre les valeurs 0,
1, 2, 3 avec pour probabilité respectivement
P{ Y = 0} = P{(P, P, P)} = i
P{ Y = 1} = P{(P, P, F), (P, F, P), (F, P, P)} = 3/8
P{ Y = 2} = />{(/>, F, F), (F, P, F), (F, F, P)} = 3/8
P{ Y = 3} = P{(F, F,F)} = 3/8
116 Initiation aux probabilités
Exemple 4.2 D'une urne contenant 20 boules numérotées de 1 à 20, on tire sans
remplacement 3 des boules. Quelqu'un parie qu'au moins une des boules tirées
portera un numéro égal ou supérieur à 17. Quelle est la probabilité qu'il gagne ?
SOLUTION. Disons que X représente le plus grand numéro tiré. X est une variable
aléatoire pouvant prendre les valeurs 3,4,..., 19 ou 20. En supposant que les (2°) tirages
sont tous équiprobables, on a:
IJU
.134
.119
Or, \X ^ 17} est la réunion disjointe des événements {X — /[, / = 17, 18, 19, 20. La
probabilité de gagner le pari est donc
Exemple 4.3 On répète le jet d'une pièce jusqu'à ce que face apparaisse, mais au plus
n fois. Les jets sont indépendants et face apparaît avec probabilité p. X désigne le
nombre de jets réalisés jusqu'à l'arrêt de l'expérience. C'est donc une variable aléatoire
et elle prendra les valeurs 1, 2, 3,..., n avec les probabilités respectives suivantes:
P{X = 1} = P{F) = p
P{X = 2} = P{(P, F)} = (1 - p)p
P{X = 3} = P{(P, P, F)) = (1 - Pfp
=nip(i-p)''i+d-p)'"1
= i-(i-p)n-,+(i-p)n"1
= i
Exemple 4.4 D'une urne contenant 3 boules blanches, 3 rouges et 5 noires, on tire
3 boules. Supposons que l'on reçoive 1 franc pour chaque boule blanche tirée et que
l'on doive au contraire payer 1 franc pour toute boule rouge. On désigne le bénéfice
net laissé par le tirage par X. X est une variable aléatoire pouvant prendre les valeurs
0, + 1, ±2, ± 3 avec pour probabilités respectives
(V)
P{x=i}=p{x=-!>=-
CXKXD ~'/t1r '" = ^
(V)
118 Initiation aux probabilités
(3)(5) 15
P{X = 2} = P{x = -2} = ^£r- = 165
\3 j
(3) ,
P{X = 3} = P{X = - 3 } =
165
iP{x = i}=M=j •
i= l
= lP(Aj)-Zï.P(AhAh) + ---
+ (-l)N+lP(AiA2---A„)
Or, Aj ne se produira que si chacun des n coupons n'est pas du type/. Comme cette
probabilité est (N — \)/N pour chaque coupon, notre hypothèse d'indépendance sur
les types obtenus successivement nous permet d'écrire
Variables aléatoires 119
Par ailleurs, l'événement AJlJ2 ne se produira que si aucun des n premiers coupons
n'est du type ji, ni du type j2. La même hypothèse d'indépendance permet d'écrire
P(AhAl2---Aik) = (^J
et on voit que, pour m >0,
La probabilité que T soit égale à n peut maintenant être déduite de ce qui précède
du fait que
Une autre variable aléatoire qui nous intéresse est le nombre de types représentés
dans les n premiers coupons rassemblés. Appelons-la Dn. Pour calculer P{D„ = k},
considérons d'abord un jeu bien particulier de k types et déterminons la probabilité
que ce jeu soit celui des types représentés dans les n premiers coupons. Pour que cela
soit le cas, il est nécessaire et suffisant que ces coupons vérifient les deux conditions
suivantes:
A: chacun des coupons appartient à l'un des k types fixés
B: chacun de ces k types est représenté.
Or, un nouveau coupon sera de l'un de ces k types avec probabilité k/N et de ce fait
P(A) = (k/N)". Par ailleurs, si l'on sait qu'un coupon est de l'un de ces k types, il
est facile de voir qu'il a autant de chances d'être de n'importe lequel de ces k types.
Aussi la probabilité que B soit vrai, sachant que A l'est, est-elle simplement la
probabilité de l'événement suivant: «un groupe de n coupons contient un jeu complet
des k types», chaque coupon pouvant être de n'importe quel type avec la même
probabilité. Mais ceci n'est autre que la probabilité qu'il faille n coupons au moins
pour former un jeu complet de k types, calculée dans (4.2) à condition de substituer
k à N. Aussi avons-nous
120 Initiation aux probabilités
,
«" A >- , -£0)( i i i )"<- i,w
Finalement, comme il y a (f) choix possibles du jeu de k types initialement considéré,
on obtient
P{Dn = k} = (Nk}p(AB)
4.2.1 Définition
F(b) «= P{X =£ b}
En d'autres termes, F(b) est la probabilité que la variable aléatoire X prenne une
valeur inférieure ou égale à b.
• lim F(b) = 1,
b-*QO
• lim F(b) = 0,
/ > - » —OC
• F est continue à droite, c'est-à-dire que, quel que soit b et quelle que soit une suite
décroissante b„, n ^ 1 convergeant vers b, on a lim F(b„) = F(b).
n-»oc
La première propriété repose sur le fait que si a < b, l'événement {X ^ a} est inclus
dans {A' < b}; la probabilité du premier est donc nécessairement plus petite que celle
du second. Quant aux propriétés suivantes, elles résultent toutes de la propriété de
continuité des probabilités (section 2.6).
Variables aléatoires 121
On peut s'en rendre mieux compte en écrivant {X < b] comme union des deux
événements mutuellement exclusifs {A' < a} et {a < X < b}, soit
P{X<*} = p ( l i m { x ^ - i
= lim P[x<b--)
= lim F(b--)
n^co \ n)
On remarquera que P{X < b] n'est pas nécessairement égal à F(b) puisque cette valeur
comprend également la probabilité P{X = b}.
122 Initiation aux probabilités
0 x<0
x
0< x< 1
2
2
F(x) l<x<2
3
n_ 2<x<3
12
1 3<x
Fig. 4.1
SOLUTION.
/ 1\ 2 1 1
= F(l)-lirnF(l--) = - - - = -
Variables aléatoires 123
0 r{*>i}-i-p{*«i}
= J_
~12
Cette loi de probabilité ne peut être positive que pour un ensemble au plus dénombra-
ble d'arguments. En d'autres termes, si X peut prendre les valeurs x{, x2,..., alors
pU)>0 i=l,2,...
p(x) = 0 pour toutes les autres valeurs de x
Du fait que X doit bien prendre l'une de ces valeurs x,, on aura
ï p(xd = i
i= l
P(x)
0 1
Figure 4.2
V A)
6
36
5
36
4
36
-
3
36
1
36
Exemple 4.7 La loi de probabilité d'une variable aléatoire X est donnée par
p(i) = cX'/il, i = 0, 1, 2,..., où X, est un réel positif. Trouver
a) P{X = 0};
b) P{ X > 2}.
ce = 1 ou c= e
Variables aléatoires 125
Donc
(a) P{X = 0} = e " V / 0 ! = e~K
(b) P{X > 2} = 1 - P{X < 2} = 1 - P{X = 0} - P{X = 1} - P{X = 2}
F(a) = 2 p(x)
Dans le cas précis où les valeurs possibles de la variable aléatoire sont xx, x2, x3,...,
avec x, < JC2 < JC3 < ..., la fonction F de répartition est une fonction en escalier. Ses
valeurs seront constantes sur les intervalles [*,-_,, *,•) et elle aura un saut de taille p{x)
en Xj, i = 1, 2,... Dans le cas par exemple d'une variable aléatoire X dont la loi est
donnée par
p(\) = \ p{2)=\ p(3)=t P(4) = è
Figure 4.4
126 Initiation aux probabilités
4.4 ESPÉRANCE
L'espérance d'une variable aléatoire est l'un des concepts les plus importants en
théorie des probabilités. Pour une variable aléatoire discrète X de loi de probabilité
p( . ), on définit Yespérance de X, notée E[X\, par l'expression
E[X] = xp(x)
En termes concrets, l'espérance de X est la moyenne pondérée des valeurs que X peut
prendre, les poids étant les probabilités que ces valeurs soient prises. Si, par exemple,
la loi de probabilité de X est
p(0) =1/2= />(D
alors
E[X] = 0(k) + l(i)=k
n'est autre que la simple moyenne des deux valeurs 0 et 1 que X peut prendre. Si, par
contre,
/KO) = i /Kl) = f
alors
£ [ X ] = 0(i) + l(f) = i
î xiP(Xi) = E[X]
i=l
Variables aléatoires 127
[1 si A se produit
[0 si A se produit
Trouver E[I\.
E[I]=P{A}
Ceci signifie que l'espérance de la variable indicatrice pour l'événement À est égale à
la probabilité que A se produise.
Exemple 4.10 On pose deux questions au participant d'un jeu télévisé. Il peut choisir
l'ordre dans lequel il va répondre à ces questions, numérotées 1 et 2. S'il répond juste
à la première, il est autorisé à continuer avec la seconde, sinon il doit s'arrêter. Il
recevra Vt francs pour une bonne réponse à la question i, i = 1,2. Par exemple, s'il
répond aux deux questions, il gagnera V{ + V2 francs. Supposons qu'il connaisse la
probabilité Pt, i = 1,2, avec laquelle il répondra juste à la question i. A quelle
question doit-il répondre d'abord pour maximiser son gain prospectif? On admet que
les deux questions sont indépendantes.
V , P , ( 1 - P 2 ) + ( V I + V2)P1P2
V 2 P 2 ( 1 - P , ) + (.V 1 + V2)P1P2
128 Initiation aux probabilités
ViPx V2P2
1 - Pt \-P2
• • _* #
- 1 0 1 2
Figure 4.5
Pour le montrer, il suffit d'établir que la somme des moments des forces gravitationnelles par
rapport au point d'abscisse E[X] est 0. En d'autres termes, il suffit de montrer que
0 = S (X; — E[X]) P(Xi), ce qui est immédiat.
Variables aléatoires 129
elle aussi, elle doit avoir une distribution que l'on devrait pouvoir déduire de celle de
X. Si on a pu déterminer la distribution de g(X), il suffit d'appliquer la définition de
l'espérance pour obtenir E[g(X)].
Exemple 4.11 Soit X une variable aléatoire qui prend une des trois valeurs - 1 , 0 , 1
avec les probabilités respectives
Calculer E [ x 2 ] .
Donc
.5 = E[X2]*(E[X])2=.01 •
Théorème 4.1
Si X est une variable aléatoire discrète pouvant prendre ses valeurs parmi les
valeurs xt, i > 1, avec des probabilités respectives pfxj, alors pour toute fonction
réelle g on aura
4s(*)] = Xs(*.M*;)
I
Xg(x,)/>(x,) = X I *(*,)/»(*,)
SOLUTION. Désignons par s la taille du stock. Le résultat net sera noté P{s) et son
expression est
P{s) = bX-(s- X)d si X < s
= sb si X > s
= sb + (b + d)Y. (i-s)p(i)
Pour déterminer la valeur optimale de s, voyons comment varie notre profit lorsque
5 augmente d'une unité. Par substitution, on obtient:
D'où
E[P(s + 1)] - E[P(s)] = b-(b+d)l p(i)
i=0
(4.4)
ipw<irh
i=o b +d
Comme le membre de gauche de (4.4) est croissant pour s tandis que celui de droite
est constant, l'inégalité (4.4) sera satisfaite pour toutes les valeurs de s inférieures ou
égales à s*, où s* est la plus grande des valeurs vérifiant encore (4.4). Ce qui donne
E[P(0)[ < ... < E[P(s*)] < E[P(s* + 1)] > E[P(s* +2)] > . . .
Théorème 4.2
Pour toute paire a, b de constantes, on peut écrire
E[aX + b] = aE[X] + b
DÉMONSTRATION.
= a Y. xp(x) + b Y. P(x)
x:p(x)>0 x:pU)>0
= aE[X] + b
132 Initiation aux probabilités
L'espérance d'une variable X, notée E[X], est parfois nommée premier moment par
rapport à l'origine. La quantité E[Xn], n > 1 est de manière générale appelée n-ième
moment de X par rapport à l'origine. D'après le théorème 4.1, on peut calculer ainsi
ces moments:
E[Xn] = I x"p(x)
*:p(j[)>0
4.6 VARIANCE
Si toutes ont la même espérance - à savoir 0 -, il y a de bien plus grands écarts entre
les différentes valeurs de Y qu'entre celle de W (qui est constante) et de plus grands
écarts entre celles de Z qu'entre celles de Y.
Comme on s'attend à voir toute variable X prendre ses valeurs autour de son
espérance E[X], il paraît raisonnable de mesurer les variations de X en considérant
l'écart moyen entre X et son espérance. Cela reviendrait à s'intéresser à la grandeur
E[ | X — u | ], où u = E[X\. Techniquement, cependant, il n'est pas facile de manipuler
cette quantité, aussi lui préfère-t-on d'habitude l'espérance du carré de l'écart entre
X et son espérance. On appelle variance de X, que l'on note Var(A"), la quantité
Var(X) = E [ ( X - M ) 2 ]
où u représente l'espérance de X.
On peut établir une autre formule pour le calcul de Var(A') en procédant ainsi:
Var(X) = E [ ( X - M ) 2 ]
= E [ X 2 - 2 M X + M2]
= E[X2]- E[2fiX] + E[fi2]
= E [ X 2 ] - 2 / x £ [ X ] + /t 2
= E[X2]-M2
Variables aléatoires 133
Var(X) = E[X2]-(E[X])2
Exemple 4.13 On cherche Var(A') où X est le nombre obtenu lors du jet d'un dé
équilibré.
Wzr{aX+b) = a2VM{X)
De même que l'espérance avait été comparée au centre de gravité d'un ensemble
de masses, la variance peut être rapprochée du concept mécanique de moment
d'inertie (par rapport à l'espérance).
4.6.5 Ecart-type
Les variables aléatoires discrètes sont souvent réparties en catégories selon le type
de leur loi. Les sections suivantes présentent quelques-uns de ces types.
On réalise une expérience dont le résultat sera interprété soit comme un succès soit
comme un échec. On définit alors la variable aléatoire X en lui donnant la valeur 1
lors d'un succès et 0 lors d'un échec. La loi de probabilité de X est alors
Pour établir (4.6) il faut tout d'abord remarquer que toute séquence donnée compor-
tant i succès et n — i échecs pour une longueur totale de n épreuves a pour probabilité
p'(\ — p)"~\ en vertu de l'indépendance de ces épreuves. Comme il y a (") de ces
séquences comptant i succès et n - i échecs, on aboutit bien à (4.6). On peut le voir
encore plus facilement si l'on remarque qu'il y a (") choix différents des / épreuves
donnant un succès. Plaçons-nous par exemple dans le cas où n = 4 et / = 2. Il y a
bien (2) = 6 manières d'obtenir deux succès parmi les 4 résultats, à savoir (s, s, e, e),
(s, e, s, e), (s, e, e, s), (e, s, s, e), (e, s, e, s) et (e, e, s, s). Par (s, s, e, e) on veut dire que
les deux premières épreuves ont donné des succès, au contraire des deux dernières.
Chacune de ces séquences ayant pour probabilité p2{\ — pf, la probabilité cherchée
est bien (ï) p2(l - p)2.
Variables aléatoires 135
ÎP(O= î (")p'(i-pr=[p+(i-p)r =i
Exemple 4.14 On jette cinq pièces équilibrées. Les résultats sont supposés indépen-
dants. Donner la loi de probabilité de la variable X qui compte le nombre de piles
obtenus.
SOLUTION. Soit X le nombre de piles (donc de succès) au total. X est une variable
aléatoire binomiale de paramètres (n = 5,p =1/2).Aussi a-t-on, en application de (4.6),
32
Exemple4.15 On sait que les vis fabriquées par une certaine société sont affectées d'un
défaut avec probabilité 0,01; l'état d'une vis est indépendant de celui des prédécentes
ou suivantes. Or, la société accepte de rembourser les paquets de 10 vis qu'elle vend
si plus d'une des vis présente un défaut. Quelle proportion des paquets vendus la
société s'expose-t-elle à devoir rembourser?
SOLUTION. Désignons par X le nombre de vis malformées d'un paquet donné. X est
une variable aléatoire binomiale de paramètres (10, 0,01). La probabilité qu'il faille
remplacer un paquet est
1 - P{X = 0} - P{X = 1} = 1 - ^ ( . O l A . o o ) 1 0 - (™ V . O l ) 1 ^ ) 9
x .004
Ainsi ne faudra-t-il remplacer que 0,4 pour cent seulement des paquets. •
136 Initiation aux probabilités
Exemple4.16 Le jeu d'argent décrit ci-dessous est appelé «roue de la fortune» et est
très populaire lors de bien des carnavals et dans les casinos; un joueur parie et mise
sur un numéro compris entre 1 et 6 inclusivement. On jette ensuite trois dés. Si le
nombre choisi par le joueur apparaît i fois (i = 1, 2, 3), celui-ci gagne / unités. Dans
le cas où ce nombre n'apparaît pas, le joueur perd une unité. Ce jeu est-il honnête
vis-à-vis du joueur? (En fait, on joue en lançant une roue qui s'immobilise en laissant
apparaître un jeu de trois nombres compris entre 1 et 6, mais tout revient du point
de vue mathématique à jeter trois dés).
SOLUTION. Admettons que les dés sont équilibrés et que leurs résultats sont indépen-
dants les uns des autres. Le nombre de fois qu'apparaît le nombre sur lequel le joueur
a misé est une variable aléatoire binomiale de paramètres (3, ^). Désignons par X les
gains du joueur lors d'une partie. On aura
« ~ Mo)G)°(lM
Pour déterminer si le jeu est équilibré, déterminons E[X]. D'après les probabilités
précédentes, on obtient
-125 + 75 + 3 0 + 3
E[X]
216
-17
216
Ainsi, sur un nombre infini de parties, le joueur perdra 17 unités par groupe de 216
parties.
Dans l'exemple suivant nous allons étudier une version simple de la théorie de
l'hérédité développée par Gregor Mendel (1822-1884).
Exemple4.17 On admet qu'un trait physique (telle la couleur des yeux ou le fait d'être
gaucher) chez un homme est déterminé par une paire de gènes. On désignera par d
le gène de la paire qui est dominant, et par r celui qui est récessif. Une personne portant
dd sera ainsi à dominance pure, une autre portant rr sera à caractère récessif, alors
que rd entraînera une dominance hybride. Les dominances pure et hybride ne se
distinguent pas extérieurement. Un enfant recevra un gène de chacun de ses parents.
Variables aléatoires 137
Si, par un trait particulier, les deux parents sont hybrides et s'ils ont 4 enfants, quelle
est la probabilité que 3 de ceux-ci manifestent extérieurement le trait dominant?
SOLUTION. Admettons que chaque enfant a autant de chances de recevoir chacun des
deux gènes de chacun de ses parents. Les probabilités que l'enfant de deux parents
hybrides porte les gènes dd, rr ou rd sont respectivement1/4,1/4et1/2.Comme un
descendant aura le trait dominant s'il porte les paires de gènes dd ou rd, le nombre
d'enfants ainsi conformés est réparti selon la loi binomiale avec pour paramètres
(4, ~) dans notre cas. La probabilité cherchée est donc
SOLUTION. Il est impossible de donner une solution au problème tel qu'il est énoncé
ci-dessus, par manque d'information. Si l'accusé est innocent par exemple, la probabi-
lité que le jury rende une sentence correcte est
ï^fje'd-e)12-'
alors que s'il est coupable cette probabilité devient
SOLUTION.
a) Comme le nombre de composants en bon état est une variable aléatoire binomiale
de paramètres (n, p), la probabilité qu'un système à 5 composants fonctionne est
5
p 3 (1 - p)2 + r ) p 4 (1 - p) + p$
3
tandis que la probabilité correspondante pour un système à 3 composants est
p2 (1 - p) + p\
qui se réduit à
3(p - l) 2 (2p - 1) > 0
ou
P > 1/2.
b) En général, un système à 2k + 1 composants est préférable à un système à 2& - 1
composants si (et seulement si)/? > Vi. Pour le montrer, considérons un système
à 2k + 1 composants et notons X le nombre de ceux qui fonctionnent parmi les
2k — 1 premiers composants. Alors
Nous allons examiner à présent les propriétés d'une variable aléatoire binomiale
de paramètres n et p. Pour commencer, calculons son espérance et sa variance.
ix'hîfltyï-pr
En utilisant l'identité
on obtient
n-1-j
avec j = i - 1
= nPE[(Y + l)k-i]
E[x2] = npE{Y + l]
= np[(n-l)p + l]
Var(x) = 4 x 2 ] - ( £ [ X ] ) 2
= np[(n-l)p + \]-(np)2
= np(\ - p)
En résumé, nous avons montré que:
140 Initiation aux probabilités
E{X] = np
Var(x) = n p ( l - p )
Théorème 4.3
Soit X une variable aléatoire binomiale de paramètres (n, p) avec 0 < p < 1.
Lorsque k croît de 0 à n, P(X = k ) grandit d'abord de manière monotone, puis
décroît également de manière monotone, le pic étant atteint lorsque k est égal à la
partie entière de (n + l)p.
Pk(l-p)"-k
P{X = k} (n-k)!fc!
P{X = k - 1} n\
Pk'l(l-PY
( n - k + l)!(fc-l)!
(n~k + \)p
fc(l-p)
Donc P{X = k} > P{X = k - 1} si et seulement si
(n-fc + l ) p > Jt(l-p)
1024 Xp(k)
252
210
120
45
10
1
0 1 2 3 4 5 6 7 8 9 10
-m® (2fc)!
fc!fc!22k
ndt: l'élection présidentielle américaine est organisée sur un mode particulier de suffrage
indirect, avec en général deux candidats seulement.
142 Initiation aux probabilités
où ak ~ bk signifie que le rapport ak/bk tend vers 1 lorsque k tend vers l'infini. De
ce fait
(2k)2k+l/2e-2kJ2Ï _ 1
~ k 2k+ V 2k (27r)2 2 '' Jklr
Comme cet électeur fait basculer ne votes du collège électoral s'il arbitre l'élection
dans son Etat, sa puissance moyenne de vote ncP est approximativement
ne
•Jnir/2
= cyJ2n/ir
NOTE HISTORIQUE
Les épreuves indépendantes ayant une probabilité p de succès ont été étudiées
pour la première fois par le mathématicien suisse Jacques Bernoulli (1654 - 1705).
Dans son livre «Ars Conjectandi» (l'Art de la Conjecture), publié en 1713 par son
neveu Nicholas huit ans après sa mort, Bernoulli montre que si on réalise un grand
nombre de telles épreuves, la proportion de celles où un succès se produit est proche
de p avec une probabilité proche de 1.
Jacques Bernoulli fait partie de la première génération de la famille de
mathématiciens la plus célèbre de tous les temps. Somme toute, entre huit et douze
Bernoulli, répartis sur trois générations, apportèrent des contributions fondamentales
aux probabilités, statistiques et mathématiques. Une difficulté pour connaître leur
nombre exact provient du fait que plusieurs d'entre eux portaient le même prénom.
(Par exemple, deux des fils de Jean, le frère de Jacques, s'appelaient Jacques et Jean.)
Une autre difficulté provient du fait que plusieurs Bernoulli étaient connus sous des
noms différents à des endroits différents. Notre Jacques (parfois écrit Jaques) était, par
exemple, aussi connu sous les noms de Jakob (parfois écrit Jacob) et de James
Bernoulli. Mais quel que soit leur nombre, leur influence et leur production sont
prodigieuses. Comme les Bach pour la musique, les Bernoulli resteront pour l'éternité
une grande famille pour les mathématiques!
Supposons que Zest une variable aléatoire binomiale de paramètres (n, p). L'idée
clé pour le calcul de sa fonction de répartition
Variables aléatoires 143
consiste à utiliser la relation suivante entre P{X = k + 1} et P{X = k}, formule qui
a été établie lors de la démonstration du théorème 4.3:
ifo-,i-n("-1)-"("-i+1V(i-i>r'
i!
puis en prenant
Exemple 4.22
a) Déterminer P{X ^ 145} où X est une variable aléatoire binomiale de paramètres
(250, 0,5).
b) Déterminer P\X < 90} où X est une variable aléatoire binomiale de paramètres
(1000,0,1).
144 Initiation aux probabilités
RUN
THE DISTRIBUTION FUNCTION OF A BINOMIAL(n,p) RANDOM VARIABLE
ENTER n
? 250
ENTER p
? .5
ENTER i
? 145
THE PROBABILITY IS .995255
Ok
RUN
THE DISTRIBUTION FUNCTION OF A BINOMIAL(n,p) RANDOM VARIABLE
ENTER n
? 1000
ENTER p
? .1
ENTER i
? 90
THE PROBABILITY IS .1582189
Ok •
4.8.1 Définition
Une variable aléatoire X pouvant prendre pour valeur 0, 1, 2,... est dite de Poisson
avec paramètre "k s'il existe un réel X > 0 tel que
La distribution poissonienne fut introduite par Siméon Denis Poisson dans un ou-
vrage traitant des applications de la théorie des probabilités aux problèmes juridiques
tels que des procès, des jugements en matière criminelle, etc. Son livre, publié en 1837,
était intitulé Recherches sur la probabilité des jugements en matière criminelle et en
matière civile}
(n-iy.i\\n)\ n)
n(n-l)-- • ( « - / + ! ) A'(l-A/n)"
n' i! (1 - À/n)'
Maintenant, pour n grand et X modéré
parce qu'on approxime par là une variable binomiale. Dans le premier cas par
exemple, on peut supposer que chacun des caractères composant une page a une
probabilité p d'être mal rendu. Aussi le nombre de coquilles par page sera-t-il
distribué approximativement suivant la loi de Poisson avec paramètre X = np où n
est le nombre de caractères par page. De la même manière, on peut supposer que toute
personne dans une communauté a la même probabilité de devenir centenaire. On peut
aussi attribuer une probabilité d'acheter des biscuits pour chien à toute personne
entrant dans une épicerie, et ainsi de suite.
Exemple 4.23 Admettons que le nombre d'erreurs par page dans ce livre suive une
distribution de Poisson avec paramètre X = Vi. Calculer la probabilité qu'il y ait au
moins une erreur sur cette page.
= .3799
Variables aléatoires 147
en posant
=A puisque
Donc, l'espérance d'une variable aléatoire de Poisson est en effet égale au paramètre
X. Pour déterminer sa variance, calculons d'abord EIX2]:
en posant j = i — 1
je
=A
r-
= A(A +1)
L'égalité finale provient du fait que la première somme est l'espérance d'une variable
aléatoire de Poisson de paramètre X et que la seconde est la somme des probabilités de
cette variable aléatoire. Donc, puisque nous avons montré que E[X] = X, on obtient
VaHX) = EÏX^-CEtX]) 2
= A
L'espérance et la variance d'une variable aléatoire de Poisson sont donc toutes les
deux égales à son paramètre X.
148 Initiation aux probabilités
Nous avons montré que la loi de Poisson de paramètre np est une très bonne
approximation de la distribution du nombre de succès obtenus dans n épreuves
indépendantes, où chaque épreuve a la probabilité/? d'aboutir à un succès, à condition
que n soit grand et p petit. En fait, cette approximation reste valable même lorsque
les épreuves ne sont pas indépendantes, pourvu que leur dépendance soit «faible».
Ainsi, bien que les événements E„ i = 1,..., n ne sont pas indépendants, on voit que,
pour « grand, leur dépendance est plutôt faible. De ce fait, on peut raisonnablement
espérer que le nombre de succès suive approximativement une loi de Poisson de
paramètre n x l/n = 1. L'exemple 2.13 du chapitre 2 le vérifie effectivement. •
J / 3 6 5 = « ( « - l)/730.
Par conséquent,
P{2 personnes différentes n'ont pas le même jour d'anniversaire} = P{0 succès}
« exp{-n(n - l)/730}
Pour déterminer le plus petit entier n pour lequel cette probabilité est inférieure à Vi,
notons que l'inégalité
exp{-/i(/i - l)/730}==è
est équivalente à
exp{n(n - l)/730} a 2
= n(n - l)(n - 2)
6 x (365)2
Par conséquent,
qui est équivalent à n ^ 84. Ainsi, la probabilité qu'au moins 3 personnes d'un groupe
de 84 personnes ou plus ont le même jour d'anniversaire dépasse Vi. •
150 Initiation aux probabilités
Nous allons montrer que sous les trois conditions précitées, le nombre d'événe-
ments survenant dans un laps de temps d'origine quelconque et de durée t est une
variable aléatoire de Poisson avec paramètre Xt. Pour plus de clarté, on notera
l'intervalle [0, t] et le nombre d'occurrences de l'événement N(t). Dans le but d'obtenir
une expression de P{N(t) = k] on va partitionner l'intervalle [0, t] en n intervalles
disjoints de longueur t/n chacun (cf. fig. 4.7).
M I 1^
(H-D- "
n
Figure 4.7
Or
P{N(t) = k) = P{k des n sous-intervalles contiennent exactement 1 événement et
les n — k autres 0}
+ P{N(t) = k et au moins un sous-intervalle contient 2 événe-
ments ou plus}. (4.9)
Ceci résulte du fait que les deux événements apparaissant dans le membre de droite
de (4.9) sont mutuellement exclusifs. Désignons-les par A et B respectivement. On
aura:
Variables aléatoires 151
P{B) < P{au moins l'un des sous-intervalles contient 2 occurrences ou plus de
l'événement}
— P(U {le i-ème sous-intervalle contient 2 occurrences ou plus}
n
< Z P{le i-ème sous-intervalle contient 2 occurrences ou plus}
/=i
(en vertu de l'inégalité de Boole)
= Z o(-) (en vertu de la condition 2)
/= î
Or, pour tout t, t/n tend vers 0 lorsque n tend vers l'infini et donc o(t/n)/(t/n) tend
vers 0 lorsque n tend vers l'infini, par définition de o(h). Par conséquent
-QMïï'-fô-fâ:
Cependant, puisque
•[r-fâ Xt quand n -» oo
Il en résulte l'équation suivante, en utilisant l'argument déjà connu qui établit que la
distribution binomiale peut être approximée par une distribution poissonienne:
1
La somme des deux fonctions o{h) est encore. o(h). Il en est ainsi du fait que si lim /[h)/h
= lim g(h)lh = 0. alors lim [/(/;) + g(h)]/h = 0.
Il M) /;-.()
152 Initiation aux probabilités
(Af)
P ( A ) - » e ^-^rf- lorsquen -* oo (4.11)
En exploitant (4.9), (4.10) et (4.11) on obtient donc, lorsque n tend vers l'infini
Exemple 4.28 Supposons que les secousses sismiques dans la moitié ouest des Etats-
Unis surviennent de manière telle que les conditions 1,2 et 3 soient satisfaites, X valant
2 et l'unité de temps étant la semaine. (Ceci revient à dire que des secousses se
produisent, en accord avec les trois conditions précitées, au rythme de 2 par semaine).
a) Trouver d'abord la probabilité qu'au moins 3 secousses aient lieu durant les 2 pro-
chaines semaines, b) Trouver ensuite la distribution de la durée entre maintenant et la
prochaine secousse.
P{X = i + l } _ e - x \ m / ( f + 1)! = X,
P{X = i} ~ e-k\'/il ~ i + f (4-13>
En commençant par P{X = 0} = e~x, nous pouvons utiliser la formule (4.13) pour
calculer successivement
P{X = 1} = \P{X = 0}
P{X = 2} = jP{X= 1}
ln(p{X = i}) = -A + i In A - î In k
k=\
puis en utilisant l'égalité
Exemple 4.29
a) Déterminer P{X < 100} quand X est une variable aléatoire de Poisson de
moyenne 90.
b) Déterminer P{X ^ 1075} quand X est une variable aléatoire de Poisson de
moyenne 1000.
154 Initiation aux probabilités
En effet, pour que X prenne n pour valeur, il faut et suffit que les n — 1 premières
épreuves soient des échecs tandis que la M-ième devra être un succès. (4.14) est alors
immédiate puisque les épreuves sont indépendantes.
Du fait que
I P{X = n} = p l (i-p)"-=—-L-=l
n=\ n=\ 1 - (1 - P)
Exemple 4.30 Une urne contient N boules blanches et M noires. On tire des boules
une par une avec remise jusqu'à l'apparition d'une noire, a) Quelle est la probabilité
qu'il faille exactement n tirages? b) Quelle est la probabilité qu'il faille au moins A: ti-
rages?
k-l
P{X>fe} = ( l - p ) k - 1 .
n-l
n=\
1 , 2(1-p)
=P
2 3
Var ( X) = ^
En effet, pour obtenir un r-ième succès lors de la n-ième épreuve il a fallu r — 1 succès
lors des n — 1 premières épreuves et il faut que la M-ième épreuve soit un succès. La
probabilité de la première condition est
et celle de la seconde est p. De ce fait (4.15) est établie puisque les épreuves sont
indépendantes.
Variables aléatoires 157
On peut établir que la probabilité d'obtenir r succès est 1. Il existe une démonstra-
tion analytique de l'équation
00
°° In — 1 \
1 P{X = n } = I pr(l-p)-r=l (4.16)
n=r n=r \ ' 1 /
mais on peut donner l'argument probabiliste suivant: le nombre d'épreuves nécessai-
res à l'obtention de r succès peut être écrit F, + Y2 + ... + Yr, Yt étant le nombre
d'épreuves nécessaires jusqu'au premier succès, Y2 le nombre d'épreuves supplémen-
taires nécessaires pour obtenir un deuxième succès, Y3 celui menant au 3ème et ainsi
de suite. Les tirages étant indépendants et ayant toujours la même probabilité de
succès, chacune des variables Yx, Y2,..., Yr est géométrique. On a vu que chacune est
finie avec probabilité 1 et par conséquent leur somme X l'est aussi, ce qui établit (4.16).
Une variable aléatoire dont la loi est donnée par (4.15) est dite variable aléatoire
binomiale négative de paramètres (r, p). On remarquera qu'une variable géométrique
est binomiale négative de paramètre (1, p).
Dans l'exemple suivant, le problème des points trouve une autre solution grâce à
l'emploi d'une variable binomiale négative.
r+m-l/n_l\
Comme la probabilité est la même que ce soit la poche gauche qui se vide tandis qu'il
reste k allumettes dans la droite, la probabilité voulue est
2P(E)
SOLUTION.
=— X n \pr+ (l - p)" r
comme n\ =r
pn=r \r) {r-lj {r
r
V ( ï\k-X(m~X\ "If. \m-(r+l)
en
= — 2, (m - U \P \}~ P) posant m = n +1
r
p m=r+l \ J
= LE[(r-itl]
où Y est une variable aléatoire binomiale négative de paramètres r + 1, p. En posant
fc = 1 dans l'équation précédente, on obtient
4*] = -
p
En posant k = 2 dans cette même équation et en utilisant la formule ci-dessus pour
l'espérance d'une variable aléatoire binomiale négative, on obtient
E[X2] = -E{Y-I]
P
Donc
\ f r .\
Var(x) = - 1
P\ P ./>/
r( 1 - P )
2
E[X] = 24
S'il existe certaines valeurs de n, N et m pour lesquelles la loi d'une variable aléatoire
vérifie (4.17), cette variable est dite variable aléatoire hypergéométrique.
REMARQUE. Bien que nous ayons écrit la distribution hypergéométrique avec i variant
de 0 à n,P{X = i} vaudra 0 à moins que i satisfasse les inégalités
n-(N-m) < i < min(n,m). Cependant, l'équation (4.17) est toujours valable à
cause de notre convention qui pose( J égal à 0 lorsque k < 0 ou r < k.
que lors de chaque capture tous les animaux restant à ce stade ont la même probabilité
d'être pris. X est alors une variable aléatoire hypergéométrique et
(N-m)(N-n) £ N(N-m-n + i)
N<ULH
i
Ainsi, P,(N) est-elle d'abord croissante puis décroissante, prenant son maximum
pour la partie entière de mn/i. Cette valeur est donc l'estimation du maximum de
vraisemblance de N. Si par exemple la première campagne de capture a livré m = 50
animaux marqués puis relâchés et la 2ème campagne a permis de capturer n = 40
animaux dont / = 4 sont marqués, on estimera que la population de ces animaux se
chiffre à 500 sur le territoire étudié. (On aurait aussi pu obtenir cette estimation en
faisant l'hypothèse que la proportion i/n d'animaux marqués lors de la 2ème campa-
gne de captures est égale à celle des animaux marqués dans toute la population, soit
m/N). •
Exemple 4.38 Un électricien achète des composants par paquets de 10. Sa technique
de contrôle est de n'examiner que 3 des composants, tirés au hasard dans le paquet,
et de n'accepter le lot des 10 que si les 3 composants examinés sont sans défaut. Si
30% des paquets contiennent 4 composants à malfaçon tandis que les 70% restants
n'en contiennent qu'un, quelle proportion des paquets notre électricien rejettera-t-il?
V0/V3//3\ VO/U// 7\
/10\ W /10\ \10J
_ 54
~100
46% des paquets seront donc refusés. •
Si n balles sont choisies au hasard sans remise dans un ensemble de N balles dont
la fraction p = m IN est blanche, alors le nombre de balles blanches choisies est
hypergéométrique. A présent, il semblerait que lorsque metN sont grands par rapport
à n, il ne devrait pas y avoir trop de différence entre les tirages avec et sans remise. Du
fait que les balles tirées précédemment n'ont pas une grosse importance, chaque
nouveau tirage, lorsque m et N sont grands, sera blanc avec une probabilité
approximativement égale à p. En d'autres termes, on sent intuitivement lorsque metN
sont grands par rapport à n, que la distribution de X doit approximativement être celle
d'une variable aléatoire binomiale de paramètres n et p. Pour vérifier cette intuition,
remarquons que si X est hypergéométrique, alors pour i < n,
p{x = ;} =
m]
(m-i)\i\(N — m — n + î)\(n-i)l NI
ri\m m-l m-i + \N-mN~m-\ N- m-(n-i-l)
i ) N N -1 "" N - i +1 N-i N - i -1 " ' N - i - (n - i -1)
£:[**]= îikP{X = i}
162 Initiation aux probabilités
on obtient
N i=1 n-l
E[X] = nm
N
En d'autres termes, si n balles sont choisies aléatoirement parmi un ensemble de N
balles dont m sont blanches, le nombre espéré de balles blanches sélectionnées est
nm/ N.
+1
N-l
(4.18)
REMARQUE. Nous avons montré dans l'exemple 4.39 que si n balles sont sélectionnées
au hasard sans remise parmi un ensemble de N balles dont une fraction p est blanche,
Variables aléatoires 163
le nombre espéré de balles blanches choisies est np. De plus, si N est grand par
rapport à n [et donc si (N - n) I (N- 1) est approximativement égal à 1], alors
Var(X) = np{\ - p)
En d'autres termes, E[X\ est la même que lorsque la sélection des balles se fait avec
remise (le nombre de balles blanches est alors binomial de paramètres n et p) et si le
nombre total de balles est grand, Var(X) est approximativement égale à ce qu'elle
vaudrait si la sélection était effectuée avec remise. Naturellement, ceci est exactement
ce que nous avions deviné à partir du résultat précédent, qui établissait que lorsque le
nombre de balles dans l'urne est grand, le nombre de balles blanches choisies suit
approximativement la distribution d'une variable aléatoire binomiale.
On dit qu'une variable aléatoire suit une distribution zêta (parfois aussi dite de
Zipf ) si sa loi de probabilité est
où a > 0. Du fait que la somme de ces probabilités doit donner 1, on peut cal-
culer C:
mari'
La loi zêta doit son nom au fait que la fonction
«-••©••©••••••G)'--
est appelée par les mathématiciens fonction zêta de Riemann (du nom du mathématicien
allemand G.F.B. Riemann). Cette distribution zêta a été utilisée par le célèbre
économiste italien Pareto pour décrire la répartition des revenus familiaux à travers
un pays donné. Ce fut G.K. Zipf cependant qui popularisa leur usage en les appli-
quant à des domaines très variés.
4.10.1 II existe des coupons de N sortes. On les obtient à raison d'un à la fois et dans
chaque cas, le coupon reçu sera du type i avec probabilité Ph i= 1,2, ...,N
indépendamment du type des coupons reçus auparavant. Soit T le nombre de coupons
164 Initiation aux probabilités
P{X<b}=limP{x<bn}
4.10.6 Pour une variable aléatoire N à valeurs entières non négatives, montrer que
E[N]=ÏP{N>i}
;—i
©o oo oo
Utiliser pour cela £ P{N > i} = I I P{N =k} en changeant l'ordre de sommation.
i'=l i=lk=i
4.10.7 Soit N une variable aléatoire entière non négative. Montrer que
4.10.11 On exécute une série de n épreuves indépendantes ayant chacune une proba-
bilité p d'aboutir à un succès. Montrer que les n! / [k\(n -k)\] séquences contenant
exactement k succès sont toutes équiprobables.
4.10.13 On considère une variable aléatoire binomiale de X de paramètres (n, p). Pour
quelle valeur de p la probabilité P{X = k] est-elle maximale, dans le cas où k = 1,
2,..., ni Ce résultat est utilisé en statistique pour estimer/? lorsqu'on a observé que
X = k. Le paramètre n étant connu, cette valeur de p qui rend maximale P{X = k}
est appelée estimation de p par la méthode du maximum de vraisemblance.
4.10.14 On admet que la probabilité qu'une famille ait n enfants est apn, n > 1,
a < (1 - P)lp-
a) Quelle est la proportion parmi toutes les familles de celles qui n'auront aucun
enfant?
b) Les enfants ont autant de chances d'être des garçons que des filles, indépendam-
ment du sexe de leurs aînés. Quelle est la proportion parmi toutes les familles de
celles ayant exactement k filles, le nombre de garçons n'étant pas fixé?
4.10.15 On jette n fois une pièce, pile sortant avec probabilité p à chaque tirage
indépendamment de ce qui a précédé. Montrer que la probabilité d'obtenir un nombre
pair de piles est ^[1 + (q — /?)"], où q = 1 —p. Utiliser pour cela l'identité suivante,
après l'avoir démontrée:
[n/2] / „ \ „. „. 1
où [n/2] désigne la partie entière de n/2. Comparer cet exercice à l'exercice 3.6.11.
4.10.16 Soit X une variable aléatoire de Poisson avec paramètre X. Montrer que
P{X = i\ est une fonction monotone croissante puis décroissante de / prenant son
maximum lorsque / = [A.].
Etudier pour cela P{X = i}/P{X = i - \\.
4.10.18 Soit X une variable aléatoire de Poisson avec paramètre X. Quelle est la valeur
de À. qui maximise P',X = Al. k ^ 0?
166 Initiation aux probabilités
i{xn] = te[(x+i)n-1]
Utiliser ce résultat pour calculer E\X I.
4.10.20 Soit X une variable aléatoire de Poisson de paramètre X, où 0 < X < 1. Trou-
ver E[X\].
4.10.22 Une urne contient 2n boules, dont 2 sont numérotées 1, 2 numérotées 2, ..., 2
numérotées n. Des couples de boules sont tirées successivement sans remise. Soit T\e
premier tirage lors duquel les boules obtenues ont le même numéro (T vaut infini si
aucun couple de boules tirées n'ont le même numéro). Pour 0 < a < 1, on veut
montrer que
lim P{T > an} = e'"12
n
Pour le vérifier, posons Mk le nombre de paires obtenues dans les k premiers tirages,
k = !,...,«.
a) Justifier pourquoi, lorsque n est grand, Mk peut être associé au nombre de succès
dans k épreuves (approximativement) indépendantes.
b) Dans le cas où n est grand, approximer P{Mk = 0}.
c) Décrire l'événement «T > an» en fonction de la valeur prise par l'une des variables
Mk.
d) Vérifier la probabilité limite ci-dessus.
4.10.23 On admet que le nombre d'événements d'un certain type survenant pendant
un laps de temps donné est une variable aléatoire de paramètre X. Ces événements
sont enregistrés avec probabilité p (certains passent inaperçus), les enregistrements
étant indépendants les uns des autres. Montrer que le nombre d'événements enregis-
trés est une variable aléatoire de Poisson de paramètre Xp. Donner une explication
intuitive soutenant ce résultat.
En application de ce qui précède, on étudie une campagne de prospection pour
découvrir des gisements d'uranium supposés clairement séparés les uns des autres.
Dans une région donnée, le nombre de tels gisements distincts est une variable
aléatoire de Poisson avec paramètre X. = 10. Pendant la durée de la campagne la
probabilité qu'un gisement donné soit découvert est ^-. Trouver la probabilité que
Variables aléatoires 167
a) exactement un gisement,
b) au moins un gisement,
c) au plus un gisement
soit découvert lors de cette campagne.
4.10.25 Soit X une variable aléatoire géométrique. Montrer par un calcul analytique
que
P{X = n + k\X> n} = P{X = k}
£f;"iV(.-pr=i("V(.-pr
ou on pourra tenter une preuve utilisant l'interprétation probabiliste de ces variables
aléatoires. Autrement dit, dans ce dernier cas, on commencera par considérer une
séquence d'épreuves indépendantes ayant toutes une probabilité p de succès. Essayer
alors d'exprimer les événements {X> n} et [Y< r] en termes de résultats de cette
séquence.
4.10.28 Une urne contient des boules numérotées de 1 à N. Supposons qu'on en tire
n, n < N, au hasard et sans remise. Y désigne le plus grand numéro tiré. Donner la
loi de Y.
4.10.30 Un bocal contient n jetons. Un garçon tire les jetons un à un avec remise jus-
qu'à ce qu'il obtienne un jeton déjà tiré. X désigne le nombre de tirages. Donner la loi
de probabilité de X.
168 Initiation aux probabilités
2
-(i)
, , n22n-2-n(n + l)2n-2
(2"-l)
Montrer aussi que lorsque n est grand, Var(X) est d'ordren/4en ce sens que le rapport
donnant la variance s'approche de 1 lorsque n tend vers l'infini. Comparer ce résultat
avec la forme limite que prend Var(J0 quand P{ Y= i} = 1 / n, i = 1,..., n.
4.11 PROBLÈMES
4.11.1 On choisit deux boules au hasard d'une urne en contenant 8 blanches, 4 noires
et 2 oranges. Supposons que l'on reçoive 2 $ pour chaque boule noire tirée et que l'on
perde 1 $ pour chaque boule blanche tirée. Désignons les gains nets par X. Quelles
sont les valeurs possibles pour Xet quelles sont les probabilités associées à ces valeurs?
4.11.2 On jette deux dés équilibrés et X désigne le produit des deux nombres obtenus.
Calculer P{X = /}, i = 1, 2,...
4.11.3 On jette 3 dés et on admet que les 6 3 = 216 résultats possibles sont tous
équiprobables. X désigne la somme des 3 nombres obtenus. Donner les probabilités
attachées aux différentes valeurs que X peut prendre.
4.11.4 On classe cinq hommes et cinq femmes selon leurs résultats lors d'un examen.
On fait l'hypothèse que tous les scores sont différents et que les 10! classements
possibles ont tous la même probabilité. On désigne le rang de la meilleure femme par
X (par exemple X vaudra 2 si le meilleur résultat a été obtenu par un homme et le
suivant par une femme). Trouver P{X = ;'}, / = 1, 2,..., 10.
4.11.5 Soit X la variable aléatoire comptant la différence entre les nombres de faces et
de piles lors d'une répétition de n jets d'une pièce. Quelles sont les valeurs que peut
prendre XI
411.6 En admettant que dans le problème 4.11.5 la pièce ait été équilibrée, quelles sont
les probabilités associées aux valeurs que X peut prendre lorsque n = 3?
Variables aléatoires 169
4.11.7 On jette deux fois un dé. Quelles sont les valeurs que peuvent prendre les
variables aléatoires suivantes:
a) le plus grand des deux chiffres obtenus,
b) le plus petit des deux chiffres obtenus,
c) la somme des deux chiffres,
d) la différence entre le premier chiffre et le second?
4.11.8 Si le dé utilisé pour le problème 4.11.7 est biaisé, calculer les probabilités as-
sociées aux valeurs des quatre variables aléatoires citées à ce même exercice.
4.11.9 Traiter l'exemple 4.2 dans le cas où les boules sont tirées avec remise.
4.11.11
a) On choisit au hasard un nombre entier N entre 1 et 1 000. Quelle est la probabilité
que le nombre tiré soit divisible par 3? par 5? par 7? par 15? par 105? Que devient
la réponse lorsqu'on remplace 1 000 par 10* et que k devient de plus en plus grand?
b) La fonction U(M) de Môbius est importante en théorie des nombres. On peut
montrer que ses propriétés sont en relation avec le problème non résolu sans doute
le plus important en mathématiques, à savoir l'hypothèse de Riemann. Cette
fonction est définie comme suit sur l'ensemble des entiers positifs: pour tout tel
entier n, on considère sa décomposition en facteurs premiers. Si dans cette décom-
position un facteur se répète, comme dans 12 = 2 • 2 • 3 ou 49 = 7-7, U(M) est
déclaré nul. Si tous les facteurs sont distincts on affecte à \i(n) la valeur 1 dans le
cas où ces facteurs sont en nombre impair et -1 s'ils sont en nombre pair. Par
exemple u(6) = -1 car 6 = 2 • 3, mais u(30) = 1 car 30 = 2 • 3 • 5. Soit donc un
entier N choisi au hasard entre 1 et 10* où k est grand. Donner la loi de probabilité
de n(N) lorsque k tend vers l'infini.
Pour calculer P{\i(N) # 0} on peut utiliser l'identité
où Pj est le /-ème nombre premier en partant des plus petits, 1 n'étant pas considéré
comme un nombre premier.
4.11.12 Dans le jeu «pair - impair» les deux participants montrent chacun un ou deux
doigts et en même temps annoncent combien de doigts ils pensent que leur adversaire
va montrer. Si l'un seulement des joueurs devine juste il gagne un nombre de francs
égal au total des doigts montrés par lui et son concurrent. Si les deux devinent
correctement ou si les deux se trompent aucun argent n'est échangé. On considère l'un
des deux joueurs et désigne par X le montant qu'il gagnera lors d'une unique partie
de «pair - impair»,
a) Si les joueurs agissent indépendamment l'un de l'autre et si les 4 issues possibles
au jeu sont équiprobables, quelles valeurs X peut-elle prendre et quelles sont les
probabilités qui leur sont associées?
170 Initiation aux probabilités
4.11.13 Un vendeur a fixé deux rendez-vous pour vendre des encyclopédies. Au pre-
mier rendez-vous, il vendra un livre avec une probabilité .3 alors qu'au second, il en
vendra un avec une probabilité .6. A chaque vente, il y a autant de chances de vendre
le modèle de luxe qui coûte 1 000 Frs que le modèle standard qui coûte 500 Frs. Dé-
terminer la distribution de X, la valeur totale en francs de toutes les ventes.
4.11.14 Cinq nombres distincts sont distribués aléatoirement à des joueurs numérotés
de 1 à 5. Lorsque deux joueurs comparent leur numéro, celui qui a le plus grand est
déclaré vainqueur. Au départ, les joueurs 1 et 2 comparent leur numéro; le vainqueur
compare le sien avec le joueur 3, etc. Soit X le nombre de fois où le joueur 1 gagne.
Trouver P{X = i}, i = 0, 1,2, 3, 4.
4.11.16 Dans le problème 4.11.15, soit l'équipe 1 celle ayant le plus mauvais score,
soit l'équipe 2 celle ayant le deuxième plus mauvais score, etc. Soit F, l'équipe qui
peut choisir en i-ième position. Donc 1^ = 3 si la première balle choisie représente
l'équipe 3. Trouver la distribution de
a)ri;
b)Y2;
c)Y3.
Variables aléatoires 171
0 b<0
b
0<fc<l
4
1 b-\
F(b) - + l<fc<2
2 4
11 2<b<3
12
3<b
4.11.18 On lance quatre fois une pièce équilibrée. X désigne le nombre de piles obte-
nus. Représenter graphiquement la loi de probabilité de X - 2.
b < 0
2 0 < b< 1
3
5 1<6<2
F(b) 4
5 2<ft<3
_9_
10 3<6<3.5
2>>3.5
4.11.21 Quatre bus transportant 148 élèves de la même école arrivent à un stade de
football. Les bus transportent respectivement 40, 33, 25 et 50 élèves. Un des étudiants
est choisi au hasard. Soit X le nombre d'étudiants qui était dans le bus de cet élève
choisi aléatoirement. Un des quatre chauffeurs de bus est également choisi au hasard.
Soit Y le nombre d'élèves dans son bus.
a) Entre E[X] et E[Y], de laquelle diriez-vous qu'elle est la plus grande? Pourquoi?
b) Calculer E[X] et E[Y].
172 Initiation aux probabilités
4.11.22 Supposer que deux équipes jouent une série de matchs qui se termine
lorsqu'une des deux a gagné i matchs. Supposer que chaque match joué est,
indépendamment, gagné par le joueur A avec probabilité p. Trouver l'espérance du
nombre de matchs joués lorsque
a) i = 2;
b) i = 3.
Montrer aussi dans les deux cas que ce nombre est maximisé lorsque p = 112.
4.11.23 On sait qu'une boîte de 5 composants électriques en comporte deux qui sont
défectueux. Les composants sont choisis au hasard et testés l'un après l'autre. Trouver
l'espérance du nombre de test qu'il faudra effectuer pour trouver les deux éléments
défectueux.
4.11.25 On choisit au hasard un nombre compris entre 1 et 10. Vous devez deviner ce
nombre en posant des questions auxquelles il ne sera répondu que par oui ou non.
Calculer l'espérance du nombre de questions nécessaires dans les deux cas suivants:
a) votre i'-ème question est du type «Est-ce *'?», i' = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10;
b) avec chaque question, vous essayez d'éliminer à peu près la moitié des nombres
encore possibles.
4.11.26 Une compagnie d'assurance établit un contrat stipulant qu'une somme d'ar-
gent A doit être versée si un événement E se produit dans un intervalle d'un an. La
compagnie estime que la probabilité que E se produise en l'espace d'un an est p.
Comment calculer la prime d'assurance de façon que le bénéfice représente 10%
de/1?
Variables aléatoires 173
4.11.27 Le type le plus répandu de machines à sous possède trois roues munies cha-
cune de 20 symboles (cerises, citrons, prunes, oranges, cloches et barres). Voici la
description d'un jeu typique de ces roues:
Cerises 7 7 0
Oranges 3 7 6
Citrons 3 0 4
Prunes 4 1 6
Cloches 2 2 3
Barres 1 3 1
20 20 20
Ce tableau indique que des 20 symboles de la roue n° 1, 7 sont des cerises, 3 des
oranges, etc.. Le gain ordinaire par pièce misée est indiqué dans le tableau suivant:
Calculer le gain que l'on peut espérer en jouant une partie avec une telle machine. On
admet que les roues se meuvent de manière indépendante.
4.11.28 Un échantillon de trois objets est choisi au hasard d'une boîte en contenant
20, dont 4 sont défectueux. Trouver l'espérance du nombre des objets défectueux dans
l'échantillon.
4.11.29 Une machine peut tomber en panne pour deux raisons. Le diagnostic de la
première cause coûte C, francs; s'il est positif, la réparation coûte alors /?, francs. De
façon analogue, la seconde cause de panne occasionne des coûts C2 et R2. Soient p
et (1 — p) respectivement les probabilités d'occurrence de la première et de la seconde
pannes. Quelles sont les conditions que doivent satisfaire/?, C„ Ri i = 1,2 pour qu'il
revienne en moyenne moins cher d'examiner la première cause de panne d'abord,
plutôt que de conduire l'examen de façon inverse? On admettra que si le premier
examen est négatif, le deuxième devra malgré tout être fait.
174 Initiation aux probabilités
4.11.30 Un individu jette une pièce de monnaie équilibrée jusqu'à ce que pile appa-
raisse pour la première fois. Si pile apparaît au «-ième jet, l'individu gagne 2" francs.
Soit X, le gain du joueur. Montrer que E[X] = + oo. Ce problème porte le nom de
paradoxe de St-Petersbourg.
a) Seriez-vous disposé à payer 1 million pour jouer une fois à ce jeu?
b) Seriez-vous disposé à payer 1 million par partie en admettant que vous puissiez
jouer aussi longtemps que vous le désirez et que vous n'ayez à régler les comptes
qu'au moment de l'arrêt du jeu?
4.11.32 Cent personnes subissent une analyse de sang pour qu'on puisse déterminer
si oui ou non elles souffrent d'une certaine maladie. Cependant, plutôt que de tester
chaque personne individuellement, il a été décidé de former des groupes de dix
personnes. Les échantillons de sang des dix personnes de chaque groupe seront
mélangés et analysés ensemble. Si le test est négatif, un seul test suffira pour ces dix
personnes; cependant, si le test est positif, chacune des dix personnes sera examinée
individuellement et en tout, 11 tests seront effectués pour ce groupe. On suppose que
la probabilité qu'une personne soit atteinte de la maladie est 0.1 et que la maladie
frappe les gens indépendamment les uns des autres. Calculer l'espérance du nombre
de tests qu'il faudra faire sur les cent personnes. On admet ici que l'échantillon
commun de 10 personnes sera positif dès qu'au moins une de ces personnes est
malade.
4.11.34 Supposons que le grand magasin décrit dans l'exemple 4.12 encoure un coût
additionnel c pour chaque demande non satisfaite (ceci est fréquemment appelé un
coût en «goodwill» car le magasin perd un peu de la confiance des clients dont la
demande n'est pas satisfaite). Calculer l'espérance de profit si le stock est de s unités
et déterminer la valeur de s qui maximise ce profit.
Variables aléatoires 175
4.11.35 Une boîte contient 5 billes rouges et 5 billes bleues. Deux billes sont tirées au
hasard. Si elles sont de la même couleur, vous gagnez 1.10 Frs; si elles sont de
couleurs différentes, vous perdez 1.00 Fr. Calculer
a) l'espérance du gain;
b) la variance du gain.
4.11.39 On tire une boule d'une urne en contenant 3 blanches et 3 noires. On la replace
après tirage, pour recommencer indéfiniment cette séquence d'opérations. Quelle est
la probabilité de trouver exactement deux boules blanches parmi les quatre premières
boules tirées?
4.11.42 Les moteurs d'un avion ont une probabilité 1 - p de défaillance en cours de
vol, et ce indépendamment les uns des autres. Un avion a besoin d'une majorité de
ses moteurs pour pouvoir terminer son vol. Pour quelles valeurs de/7 un avion à cinq
moteurs est-il préférable à un trimoteur?
pendamment des autres. De même par temps sec, mais avec une probabilité p2- Si a
désigne la probabilité qu'il pleuve demain, quelle est la probabilité que le système total
fonctionne alors?
4.11.46 Au moins 9 des 12 jurés réunis doivent estimer l'accusé coupable pour rendre
le jugement exécutoire. Supposons que la probabilité pour un juré d'estimer un
coupable innocent est 0,2 tandis qu'elle est de 0,1 de commettre l'erreur contraire. Les
jurés décident en toute indépendance et 65% des accusés sont coupables. Trouver la
probabilité que le jury rende une sentence correcte. Quel pourcentage des accusés sera
condamné?
4.11.47 Dans certains tribunaux militaires on désigne 9 juges pour une affaire. Cepen-
dant le procureur, autant que l'avocat de la défense, peuvent faire opposition à la
désignation de tout juge, auquel cas le juge écarté n'est pas remplacé. Un accusé est
déclaré coupable si la majorité des juges le déclarent coupable et est considéré comme
innocent sinon. On suppose que dans le cas d'un accusé réellement coupable chaque
juge votera la culpabilité (indépendamment des autres) avec probabilité 0,7; cette
probabilité n'est que 0,3 lorsque l'accusé est innocent.
a) Quelle est la probabilité qu'un accusé coupable soit jugé tel s'il y a 9 juges?
8 juges? 7 juges?
b) Qu'en est-il si l'accusé est innocent?
c) Dans un cas le procureur n'exerce pas son droit d'opposition. Par ailleurs l'avocat
de la défense est limité à 2 oppositions. Combien d'oppositions a-t-il intérêt à faire
s'il pense que son client a 60% de risques d'être coupable?
4.11.48 On sait que les disquettes produites par une certaine firme sont défectueuses
avec une probabilité de 0,01, indépendamment les unes des autres. La compagnie vend
les disquettes par lots de 10 et garantit contre remboursement qu'au plus 1 des 10
disquettes du lot est défectueuse. A l'achat de 3 lots, quelle est la probabilité qu'un
lot exactement doive être retourné?
4.11.49 On suppose que 10 % des puces produites par une usine de matériel d'ordina-
teurs sont défectueuses. Si l'on commande 100 puces, le nombre de puces défectueuses
suit-il une loi binomiale?
4.11.50 Supposer qu'on lance dix fois une pièce biaisée qui tombe sur face avec
probabilité p. Sachant qu'on a obtenu 6 faces, trouver la probabilité conditionnelle
que les 3 premiers tirages soient
a) F, P, P (signifiant que le premier tirage est face et que les deux autres sont pile);
b) P, F, P.
Variables aléatoires 177
4.11.51 L'espérance du nombre d'erreurs typographiques sur une page d'un certain
magazine est .2. Quelle est la probabilité que la prochaine page lue contienne a) 0,
b) 2 ou plus d'erreurs typographiques? Expliquer votre raisonnement!
4.11.53 On a célébré environ 80 000 mariages l'an dernier dans l'état de New-York.
Estimer la probabilité que pour au moins un de ces couples
a) les deux époux soient nés le 30 avril;
b) les deux époux célèbrent leurs anniversaires le même jour de l'année.
Poser vos hypothèses.
4.11.54 Supposer que le nombre moyen de voitures abandonnées chaque semaine sur
une certaine autoroute est 2.2. Calculer la probabilité qu'il y ait
a) aucune voiture abandonnée la semaine prochaine;
b) au moins 2 voitures abandonnées la semaine prochaine.
4.11.56 Combien de personnes faut-il pour que la probabilité qu'au moins une d'entre
elles soit née le même jour que vous soit supérieure à 1 / 2?
4.11.57 On admet que le nombre d'accidents survenant sur une autoroute quotidien-
nement est une variable aléatoire de Poisson de paramètre X = 3.
a) Quelle est la probabilité qu'il survienne 3 accidents ou plus lors d'un jour donné?
b) Même question si l'on sait qu'un accident au moins a eu lieu.
4.11.60 Le nombre de rhumes attrapés par un individu en l'espace d'un an est une
variable aléatoire de Poisson de paramètre X = 5. Admettons qu'un remède miracle
(basé sur l'effet de vitamine C à haute dose) ait été lancé sur le marché et qu'il abaisse
le paramètre X à 3 pour 75% de la population. Pour les 25 derniers pourcents de la
population le remède n'a pas d'effet appréciable. Un individu essaie ce médicament
pendant un an et attrape deux rhumes. Quelle est la probabilité que le remède ait un
effet sur lui?
4.11.61 Au poker, la probabilité de se voir distribuer une main pleine est approximati-
vement 0,0014. Calculer une approximation de la probabilité d'obtenir au moins deux
mains pleines sur 1 000 donnes.
4.11.62 Si l'on place n couples mariés autour d'une table, calculer la probabilité
approximative qu'aucune femme ne se trouve à côté de son mari. Lorsque n = 10
comparer le résultat avec la valeur exacte donnée dans l'exemple 2.14 du chapitre 2.
4.11.63 Les gens entrent dans un casino au rythme d'une personne toutes les deux
minutes.
a) Quelle est la probabilité qu'il n'entre personne entre 12 h et 12 h 05?
b) Quelle est la probabilité que 4 personnes au moins se présentent durant cette même
période?
4.11.64 Le taux de suicide pour un pays donné est de 1 personne pour 100000
habitants et par mois.
a) Quelle est la probabilité qu'il y ait 8 suicides ou plus en un mois dans une ville de
400 000 âmes?
b) Quelle est la probabilité qu'au cours d'une année le nombre de suicides mensuels
dépasse deux fois ou plus le niveau de 8?
c) Le mois en cours étant appelé mois 1, quelle est la probabilité que le premier mois
où l'on enregistre 8 suicides ou plus soit le mois /, / > 1?
Quelles hypothèses faites-vous?
4.11.65 Chacun des soldats d'une troupe de 500 hommes est porteur d'une certaine
maladie avec probabilité1/1000.Cette maladie est détectable à l'aide d'un test sanguin
et, pour faciliter les choses, on ne teste qu'un mélange du sang de chacun des 500 sol-
dats.
a) Quelle est la probabilité (approximative) que le test soit positif, indiquant par là
qu'au moins une des personnes est malade?
On suppose par la suite que le test a été positif.
b) Quelle est la probabilité que dans ce cas plus d'une personne soit malade?
c) L'une de ces 500 personnes s'appelle Jones, et Jones sait qu'il est porteur de la
maladie. Quelle doit être, de son point de vue, la probabilité qu'une autre personne
au moins soit porteuse de la maladie?
d) Le test étant positif, il est décidé que des tests individuels seront menés. Les / — 1
premiers de ces tests sont négatifs. Le i-ème est positif- c'est celui de Jones. Quelle
est la probabilité qu'une des personnes restantes au moins soit encore malade, en
fonction dei?
Variables aléatoires 179
4.11.67 Deux équipes de sportifs disputent une série de matchs. La première équipe à
enregistrer 4 victoires est déclarée gagnante de la série. On admet que l'une d'elles est
plus forte que l'autre et remporte un match avec probabilité 0,6, indépendamment de
l'issue des autres parties. Trouver la probabilité que cette équipe remporte la série en
/jeux exactement. Calculer ce résultat pour i = 4, 5, 6, 7. Comparer ces résultats avec
celui obtenu sous l'hypothèse que l'équipe gagnante est la première à enregistrer
2 victoires seulement.
4.11.68 Supposer dans le problème 4.11.67 que les deux équipes sont de force égale
et que chacune a une probabilité 1 / 2 de gagner chaque match. Trouver l'espérance du
nombre de matchs joués.
4.11.70 On jette une pièce de monnaie jusqu'à obtenir pile pour la deuxième fois. La
variable X compte le nombre d'apparitions de face. Quelle est la loi de XI
4.11.72 Dans le problème des boîtes d'allumettes de Banach, trouver la probabilité que
lorsque la première boîte est vidée (plutôt que trouvée vide), l'autre boîte contienne
exactement k allumettes.
4.11.73 Une urne contient 4 boules blanches et 4 noires. On tire 4 boules au hasard.
Si deux sont blanches et deux sont noires on s'arrête. Sinon on remet les boules dans
l'urne et recommence le tirage, jusqu'à obtenir deux blanches et deux noires. Quelle
est la probabilité qu'il faille exactement n tirages avant de s'arrêter?
4.11.75 Keno est le nom d'un jeu populaire dans les maisons de jeux du Nevada. On
y joue comme suit: la banque choisit au hasard 20 nombres parmi l'ensemble des
nombres compris entre 1 et 80. Un joueur peut choisir entre 1 et 15 de ces 80 nombres.
Un gain survient lorsqu'une certaine fraction des nombres du joueur correspond à
certains de ceux choisis par la banque. Le montant du gain dépend du nombre
d'éléments dans le jeu du joueur et du nombre de correspondances. Par exemple, si
le joueur ne prend qu'un nombre il gagnera si ce nombre est dans le lot des 20 nombres
de la banque; le rapport sera dans ce cas 2,2 : 1, soit 2,20 dollars par dollar de mise.
(Comme la probabilité de gagner dans cette situation est |, le rapport juste serait
3 : 1 ) . Lorsqu'un joueur prend deux nombres, le rapport est 12 : 1 dans le cas où
les deux nombres sont gagnants.
a) Quel serait le juste rapport dans ce dernier cas?
On note par Pnk la probabilité que k exactement des n nombres pris par le joueur
soient gagnants.
b) Calculer Pnk.
c) La mise la plus courante au Keno consiste à prendre 10 nombres. Le tableau 4.7
indique les rapports payés par la banque. Construire la dernière colonne de ce
tableau.
0-4 -1
5 1
6 17
7 179
8 1,299
9 2,599
10 24,999
4.11.77 Un industriel achète les transistors par lots de 20. Sa stratégie consiste à tester
seulement 4 transistors par lot, pris au hasard, et à n'accepter le lot que si tous sont
en bon état. Si la probabilité pour un transistor isolé d'être malformé est 0,1, ceci
indépendamment de l'état des autres transistors, quelle proportion des lots sera
refusée par l'industriel?
Variables aléatoires 181
210 L=EXP(L)
220 F-l
230 FOR K=l TO J
240 F«F*(J+1-K)/C
250 T=T+F
260 NEXT K
270 IF J=I GOTO 330
280 F»l
290 FOR K=l TO I-J
300 F=F*C/(K+J)
310 T=T+F
320 NEXT K
330 T=(T+1)*L
340 PRINT "THE PROBABILITY IS";T
350 END
CHAPITRE 5
5.1 INTRODUCTION
5.1.1 Définitions
Dans le chapitre 4 nous avons traité des variables aléatoires discrètes, c'est-à-dire
de variables dont l'ensemble des états est fini ou infini dénombrable. Il existe
cependant des variables dont l'ensemble des états possibles est infini non dé-
nombrable. On peut citer par exemple l'heure d'arrivée d'un train à une gare donnée
ou encore la durée de vie d'un transistor. Désignons par X une telle variable. On
qualifiera X de variable aléatoire continue1 s'il existe une fonction f non négative
définie pour tout x e R et vérifiant pour tout ensemble B de nombres réels la propriété:
l = P { X e (-00,00)} = f(x)dx
Tous les problèmes de probabilité relatifs à X peuvent être traités grâce à / Par
exemple pour B = [a, b] on obtient grâce à (5.1):
P{X = a} = f(X) dx = 0
Ceci signifie en clair que la probabilité qu'une variable aléatoire continue prenne une
valeur isolée fixe est toujours nulle. Aussi peut-on écrire pour une telle variable
Exemple 5.1 Supposons que X soit une variable aléatoire continue dont la densité est
SOLUTION, a) Du fait que/est une densité, elle vérifie la relation \+_^f(x)dx= l,ce
qui entraîne à son tour que
C
i (4x - 2xz) dx = 1
/(X) =
10 x<0
Variables aléatoires continues 185
a) Quelle est la probabilité que cette durée de fonctionnement soit comprise entre 50
et 150 heures? b) Quelle est la probabilité que l'ordinateur fonctionne moins de 100
heures?
SOLUTION, a) Comme
-A/lOO
dx
on obtient
1 = - À ( 1 0 0 ) e -x/100 = 100A ou À =
100
Ainsi la probabilité que la durée de fonctionnement de l'ordinateur soit comprise
entre 50 et 150 heures est donnée par
•150
P{50 < X < 150} =1/100- ^ e-x/10° dx = -e-xno°
50
.383
b) De la même manière
Exemple 5.3 La durée de vie d'un certain type de diode de radio est une variable
aléatoire de densité donnée par
0 x<100
/(•OHlOO
x > 100
Quelle est la probabilité qu'exactement 2 des 5 diodes de ce type doivent être rempla-
cées lors des 150 premières heures de service de la radio? On admettra que les
événements E;. «la /'-ème diode doit être remplacée avant la 150-ième heure de
service», /' = 1, 2, 3, 4, 5, sont indépendants.
SOLUTION. On a
186 Initiation aux probabilités
Autrement dit, la densité d'une variable aléatoire continue est la dérivée de la fonction
de répartition.
Dans le chapitre 4, nous avons défini l'espérance d'une variable aléatoire discrète
Xpar
Ê[x] = ïxP{x = x}
X
Si X est une variable aléatoire continue ayant pour densité ./(je), alors comrhe
Variables aléatoires continues 187
E[x] = ]xf[x)dx
—oo
SOLUTION.
1 si 0 < x £ l
f
^ 10 sinon
Trouver fl e I.
y
SOLUTION.
SOLUTION.
Soit
Soit yY = e . Commençons par déterminer la fonction de distribution Fy de
F. Pour 1 < x < e.
FY(x) = P{Y<x}
= p{eX<x}
= />{x<log(*)}
log(*)
= lf(y)dy
0
= log(x)
Donc
E[eX] = E[Y]=]xfY(x)dx
= ]dx
= e-l
Bien que la méthode employée dans l'exemple 5.5 pour calculer l'espérance d'une
fonction de X soit toujours applicable, il existe, comme dans le cas discret, une autre
façon de procéder. Le théorème suivant est une analogie directe du théorème 4.1 du
chapitre 4.
Théorème 5.1
Si X est une variable aléatoire continue de densité f(x), alors pour toute fonction
réelle g on aura
4g{x)] = jg(x)f(x)dx
Théorème 5.2
Pour une variable aléatoire Y non négative,
E[Y] = ]p{Y>y}dy
o
DÉMONSTRATION. Nous présentons ici une preuve pour le cas où Y est une variable
aléatoire continue de densité/y. On a
]p{Y>y}dy = T\fy{x)dxdy
0 0v
Variables aléatoires continues 189
où nous avons utilisé le fait que P{Y > y} = j fY(x)dx. En changeant l'ordre
d'intégration dans l'équation précédente, on a
DÉMONSTRATION DU THÉORÈME 5.1. Pour toute fonction g telle que g(x) > 0, on a d'après
le théorème 5.2 que
4g(x)] = ]p{g(x)>y}dy
SOLUTION. Soit X le temps de trajet. Si vous partez t minutes avant votre rendez-vous,
alors votre coûtC,(x) est donné par
[c(t-X) si X<t
' [Jt(X-f) si X>t
Par conséquent,
190 Initiation aux probabilités
La valeur de t qui minimise Zs[c,(x)] peut être obtenue par calcul. On obtient en
dérivant
4 E[C, (X)] = ctf (t) + cF(t) - ctf(t) - ktf{t) + ktf(t) - k[l - F(t)]
dt
= (k + c)F(t) - k
En égalant ceci à zéro, on voit que l'espérance minimale du coût est obtenue en
partant t* minutes avant le rendez-vous, où t* satisfait
k +c
Comme dans le chapitre 4, nous pouvons utiliser le théorème 5.1 pour montrer le
théorème suivant.
Théorème 5.3
Pour toute paire a,bde constantes, on a
E[aX + b} = aE[x] + b
La variance d'une variable aléatoire continue est définie exactement comme celle
d'une variable discrète. C'est à dire que si X est une variable aléatoire d'espérance |J.,
la variance de X est définie (pour tous les types de variables aléatoires) par
Var(X) = £[(X-^) 2 ]
Variables aléatoires continues 191
L'autre formule
Var(X) = £[X2]-(£[X]) 2
E[x2]=]x2f(x)dx
= \2xidx
0
_ 1_
2
On peut montrer, par une preuve imitant celle donnée pour les variables aléatoires
discrètes, que pour les constantes a et b
Var(aX + è) = a2Var(X)
Une variable aléatoire est dite uniformément distribuée sur l'intervalle (0, 1 ) si sa
densité est
,. , fl 0<x<l
/(X) =
l0 sinon <5.3>
192 Initiation aux probabilités
F{a) =
13- a
u
La figure 5.1 représente les graphes d e / e t F dans le cas général.
Ha)
SOLUTION a)
E{x]=°jxf(x)dx
Donc
, v p2+ap + a2 (a + pf
l L
Var(x) = -i --
3 4
= {P-af_
12
Par conséquent, la variance d'une variable aléatoire uniformément distribuée sur un
intervalle est le carré de la longueur de l'intervalle divisé par 12. •
Exemple 5.9 Soit X une variable uniforme sur (0, 10). Calculer les probabilités
suivantes: a) P{X< 3}, b) P{X> 6}, c) P{3 <X<&}.
194 Initiation aux probabilités
SOLUTION.
3
a) P{X < 3} = I1/10dx = 3
Jo
rio
b) P{X > 6} = I à <fc = T104
Exemple 5.10 A partir de 7 heures, les bus passent toutes les 15 minutes à un arrêt
donné. Ils passent donc à 7 h 00, 7 h 15, 7 h 30 et ainsi de suite. Un usager se présente
entre 7 h 00 et 7 h 30 à cet arrêt, l'heure exacte de son arrivée étant une variable
uniforme sur cette période, a) Trouver la probabilité qu'il doive attendre moins de 5
minutes, b) puis plus de 10 minutes.
P{0<X<5} + P{15<X<20}=1/3 •
L'exemple suivant fut étudié pour la première fois par le mathématicien français
L.F. Bertrand en 1889. Il est souvent appelé paradoxe de Bertrand. Il servira d'intro-
duction à la notion de probabilité géométrique.
Exemple 5.11 Choisissons au hasard une corde dans un cercle. Quelle est la probabi-
lité que la longueur de cette corde dépasse le côté du triangle équilatéral inscrit dans
le même cercle?
SOLUTION. Le problème tel qu'énoncé ne peut être résolu car l'expression «choisir une
corde au hasard» n'est pas claire. Pour qu'elle le devienne il faut reformuler le
problème, ce que nous ferons de deux manières différentes.
Voici la première: ce n'est pas la corde, mais la distance de la corde au centre du
cercle de rayon r qui est choisie au hasard. Si cette distance est inférieure à r/2, la corde
sera d'une longueur supérieure à celle du côté du triangle équilatéral inscrit dans le
cercle. Admettons maintenant que D, la distance de la corde au centre, soit une
variable uniformément distribuée entre 0 et r. La probabilité cherchée est
'Hl-f-i
Variables aléatoires continues 195
1
180 3
Figure 5.2
5.4.1 Définition
2
f(x) = JL e-<*-M) /2«^ -oo < x < CXD
V27TO-
Le graphe de cette densité est une courbe en forme de cloche avec un axe de symétrie
vertical en u (voir figure 5.3).
La distribution normale fut introduite par le mathématicien français De Moivre
en 1733; celui-ci l'utilisa pour approximer les probabilités associées à toute variable
aléatoire binomiale, pourvu que le paramètre « de celle-ci soit assez grand. Ce résultat
196 Initiation aux probabilités
399
fut ensuite progressivement généralisé par Laplace et d'autres pour devenir le théo-
rème actuellement connu sous le nom de théorème central limite, qui sera discuté au
chapitre 8. Ce théorème, l'un des deux résultats les plus importants de la théorie des
probabilités ', sert de base théorique pour expliquer un fait empirique souvent relevé,
à savoir qu'en pratique de très nombreux phénomènes aléatoires suivent approximati-
vement une distribution normale. On peut citer à titre d'exemple de variables qui
illustrent ce comportement la taille d'un individu choisi au hasard, la vitesse en norme
d'une molécule de gaz ou encore l'erreur lors de la mesure d'une quantité physique.
Il faut, en fait, prouver que / est bien une densité de probabilité, c'est-à-dire
montrer que
72
En effectuant le changement de variable y = (x — u )/o, on obtient
"*2/2 dy
721
I=r^e~^dy.
On aura
= —27TC
= 2TT
Ceci établit bien que / vaut v27u, et le résultat annoncé est ainsi démontré.
Nous allons montrer à présent que les paramètres \i et a 2 d'une variable aléatoire
normale représentent respectivement son espérance et sa variance.
Exemple 5.12 Si X est une variable aléatoire normale de paramètres <l et a 2 , trouver
a)£[X];
b) Var(X).
SOLUTION, a) , „ 2/
E{x] = -r^fxe'{x-,lU2a dx
•42na —
En écrivant A: comme Qt - n) + |J., on a
198 Initiation aux probabilités
1
I2na — -~
où f(x) est la densité normale. Par symétrie, la première intégrale est nulle, d'où
E[x] = n°jj{x)dx = »
Var(X) = £[(X-/<)2]
(5.5)
dx
= CT
Une propriété importante de la famille des variables normales est que si X est
normalement distribuée avec paramètres |i et a2, alors Y = aA' + p est normalement
distribuée avec paramètres au + P et a2a2. Ceci résulte du fait que FY ', la fonction
de répartition de la variable Y, est donnée par (lorsque a > 0):
Fy(a) = P { y < a }
= P{aX + /3 < a}
La fonction de répartition de Z sera notée F dès qu'il y aura plus d'une variable aléatoire
en considération. De même, la densité de Z sera notée fz.
Variables aléatoires continues 199
lira
V277-ao- 2(«<r)
V27T J.»
Les valeurs <t>(x) pour des arguments x non négatifs sont données dans le tableau 5.4.
Pour les arguments x négatifs, on calcule O(x) grâce à l'équation
Tableau 5.4 Aire O(x) située sous la densité normale standard à gauche de x
.00 .01 .02 .03 .04 .05 .06 .07 .08 .09
.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 8413 .8438 .8461 .8485 .8508 .8531 .8554 .8557 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7' .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
Variables aléatoires continues 201
Fx(a) = P{X^a}
SOLUTION.
a)
= l-*(-l)
= *(D
= .8413
Exemple 5.14 II est courant d'admettre qu'un examen est bien construit (dans le sens
où il permet de construire une fourchette serrée et fiable pour la note d'un candidat)
si la répartition des scores obtenus par les participants se rapproche de la densité d'une
variable normale. En d'autres mots, cette répartition devrait affecter la forme en
cloche des densités normales. L'enseignant utilise alors les scores pour évaluer les
paramètres u et a 2 puis assigne souvent des notes selon le principe que voici: ceux dont
le score est supérieur à u + a reçoivent la note A; ceux dont le score est compris entre
u et u + a reçoivent B; ceux dont le score est entre u - a et u reçoivent C, tandis que
ceux qui tombent entre u - 2a et |x - a reçoivent D. En dessous de u - 2a la note est
F. Il s'agit d'une espèce d'évaluation «à échelle mobile» basée sur des divisions fixes
de la courbe de répartition. On aura:
Il en résulte que 16% des candidats recevront la note A, 34% recevront B, autant
auront C, 14% recevant D et 2% F. •
Exemple 5.15 Lors d'un procès en attribution de paternité, un expert témoigne que la
durée de la grossesse, en jours, c'est-à-dire le laps de temps entre la conception et la
naissance de l'enfant, est de distribution approximativement normale avec paramètres
u = 270 et a 2 = 100. L'un des pères putatifs est en mesure de prouver son absence
du pays pendant une période s'étendant entre le 290-ième et le 240-ième jour précé-
dant l'accouchement. Quelle est la probabilité que la conception de l'enfant ait eu lieu
plus de 290 jours avant sa naissance ou moins de 240 jours avant?
SOLUTION. Soit X la durée de la grossesse et admettons que le père putatif soit bien
le géniteur. La probabilité cherchée est alors
P{X > 290 ou X < 240} = P{X > 290} + P{X < 240}
fX-270
-{
Variables aléatoires continues 203
-j== ( -) e-*1'2 < i - $,(*) < - L - e~xl/2 pour tout x > 0 (5.8)
V27r\x x3/ •Jlïr x
Or
-dy[ ( y - 1 - y - V y V 2 ] = - U - 3y~V y 2 / 2
-[y-V'1/2]«-(l + y-V,'a
dy
ou
x
pour de grandes valeurs de x [la notation a(x) ~ />(J<-) lorsque x est grand signifie
que lim a(x)lb(x) = 1].
lorsque n -* oo .
(30,0.7)
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.0
10 15 20 25 30
Figure 5.5 La loi de probabilité d'une variable aléatoire binomiale (n, p) devient de
plus en plus «normale» à mesure que n augmente.
Exemple 5.17 Soit A'la variable aléatoire comptant le nombre d'occurrences de pile
lors d'une série de 40 jets. On veut calculer P{X = 20} par approximation normale
puis comparer le résultat à la valeur exacte.
SOLUTION. Comme X est une variable discrète tandis qu'une variable normale est
continue, la meilleure approximation de la probabilité cherchée sera
10 10
m
206 Initiation aux probabilités
Exemple 5.18 La taille idéale pour une classe de première année dans un collège
donné est de 150 étudiants. La politique de ce collège est d'admettre 450 étudiants
et est basée sur la constatation expérimentale que 30% seulement des étudiants admis
suivront vraiment le cours. Quelle est la probabilité que le collège se retrouve avec
une première classe de plus de 150 étudiants lors d'une année donnée ?
SOLUTION. On désigne par X\e nombre d'étudiants qui suivent effectivement le cours.
Cette variable A*est donc binomiale de paramètres n — 450 et/? = 0,3. L'approxima-
tion normale livre
Ainsi, dans moins de 6% des cas seulement la première année aura un effectif
supérieur à l'optimum. (On remarque que ce calcul est basé sur une hypothèse
d'indépendance. Laquelle?). •
SOLUTION. Admettons que dans le cas où le régime est sans effet, une personne donnée
verra son taux de cholestérol baisser lors du régime sous le seul effet du hasard et avec
une probabilité de %. Désignons par X le nombre de personnes dont le taux s'est
abaissé. La probabilité de recommander un régime qui n'a en réalité pas d'effet du
tout est alors:
100
/100\/1\100
_ fX-(100)(i)
> 2.9
1 Vioo(M)
» 1 - <D(2.9)
= .0019
Variables aléatoires continues 207
5.5.1 Définition
Une variable aléatoire dont la densité est donnée par l'équation suivante, où X est
positif,
., , \\e~Kx si x > 0
/ W =
l0 six<0
est dite variable aléatoire exponentielle (ou plus simplement est dite de distribution
exponentielle) de paramètre "k. La fonction de répartition F d'une variable exponen-
tielle est donnée par
F{a) = P{X < a}
= I Àe~A* dx
Jo
= 1 - c"Aa a> 0
[0 x<0
on obtient
£•[*] = Ixte'^dx
o
Une intégration par parties (Xe dx = dv , u = x) donne
-A*
e
=0
A
Variables aléatoires continues 209
E{x2] = ]x2Xe-**dx
—Àx 2
Une intégration par parties (Xe dx = dv , u- x ) donne
Donc
20
x/10
On dira qu'une variable aléatoire non négative X est sans mémoire lorsque
Représentons-nous X comme la durée de vie d'un certain instrument. Dans ce cas (5.10)
signifie que la probabilité pour l'instrument de durer au moins s + t heures sachant
qu'il en a déjà vécu t est la même que la probabilité non conditionnelle qu'il dure 5
heures à partir de la mise en fonction initiale. En d'autres termes, si l'instrument
fonctionne encore après / heures de service, la distribution de sa durée de vie à partir
de là est la même que la distribution de la durée de vie de l'appareil neuf. On peut
dire que l'appareil fonctionne sans mémoire du temps d'usage déjà écoulé.
Or, (5.10) est équivalent à
P{X>s + t,X>t}_
X > s
P{X>t} -^ >
ou
P{X > s + t} = P{X > s}P{X > t} (5.11)
Comme (5.11) est vérifiée par toute variable exponentielle X (puisque e~ ( i + ' ' =
e e ) la classe des variables exponentielles est sans mémoire.
Exemple 5.22 Dans un bureau de poste, le service est assuré par deux employés.
Lorsque Smith y entre, l'un des employés sert Jones tandis que l'autre répond à
Brown. On admettra que Smith sera à son tour servi dès le départ de Jones ou de
Brown. Le temps passé par un employé de poste pour chaque client est distribué
exponentiellement avec paramètre X. Quelle est la probabilité que Smith soit le dernier
des trois clients à sortir de ce bureau de poste?
Exemple5.23 Le nombre de miles couvert par une batterie de voiture avant défail-
lance est distribuée exponentiellement et sa valeur moyenne est de 10 000 miles. Une
personne souhaite se lancer dans un voyage de 5 000 miles. Avec quelle probabilité
terminera-t-elle son voyage sans avarie de batterie? Que devient cette probabilité si
la distribution n'est pas exponentielle?
SOLUTION. Du fait que les variables exponentielles sont sans mémoire, la durée de vie
résiduelle de la batterie sera distribuée exponentiellement avec paramètre X = -f- en
prenant comme unité le millier de miles. La probabilité voulue est donc
Si, par contre, la distribution de cette durée résiduelle n'est pas exponentielle, ce que
l'on cherche peut être écrit
1-F(t + S)
Ffduree résiduelle > t + 51 durée résiduelle > t}
1 - F(t)
où t est la durée de service de la batterie jusqu'au moment où le voyage commence.
Et l'on voit que dans ce cas une information supplémentaire (à savoir /) est nécessaire
au calcul de la réponse. •
F(s + t) = F(s)F(t)
Cela veut dire que F satisfait l'équation fonctionnelle
g(s + t) = g(s)g(t)
1
On obtient (5.12) de la manière suivante: si g(s +1) = g(s) • g(t), alors
La continuité à droite des solutions peut être supposée puisque toutes les fonctions
de répartition le sont. Il reste que
oo
ke dx x<0
Exemple5.24 Revenons à l'exemple 5.16 qui traitait de l'émission d'un signal binaire
de A à B\ lorsque le signal valait 1 on émettait avec une intensité de + 2, tandis que
s'il valait 0 on émettait avec une intensité de — 2. On suppose cependant maintenant
que le bruit du canal de transmission est une variable aléatoire laplacienne de
paramètre X, = 1. Comme auparavant, R désigne le signal reçu en B et la convention
de décodage reste
2
Pour cette raison, une variable laplacienne est parfois dite exponentielle double.
Variables aléatoires continues 213
Dans le cas présent, où le bruit est laplacien de paramètre k = 1, les probabilités des
deux types d'erreurs sont respectivement
En comparant ces résultats avec ceux de l'exemple 5.16, on constate que les probabi-
lités d'erreur sont plus élevées si le bruit est laplacien de paramètre X. = 1, plutôt que
de distribution normale centrée réduite. •
Considérons une variable aléatoire continue à valeurs positives qui puisse repré-
senter la durée de vie d'un certain composant, de fonction de répartition F et de
densité/. La fonction taux de panne \(t) de F est définie par l'équation
Pour obtenir une interprétation de X(/), supposons que notre composant ait déjà
/ heures de service et que l'on veuille calculer la probabilité de sa défaillance
dans l'espace de temps dt qui suit. En d'autres termes, on cherche à calculer
P{Xe(t, t + dt)\X > t}. Or,
t)
ce qui peut s'interpréter comme suit: X(t) représente un taux de panne conditionnel
instantané, la condition étant que le composant ait pu assurer déjà t heures de service.
Dans le cas d'une durée de vie exponentielle, l'absence de mémoire de cette
distribution signifie que la durée de vie résiduelle d'un composant conditionnellement
à une durée de service /jusque-là est de même distribution que la durée de vie initiale.
Aussi X devrait-elle être une fonction constante. Cela est confirmé par le calcul
suivant:
214 Initiation aux probabilités
=A
Ainsi, le taux de panne d'une variable exponentielle est-il constant. C'est la raison
pour laquelle le paramètre X est souvent appelé le taux d'une telle distribution.
On peut par ailleurs établir que la fonction taux de panne X détermine de manière
univoque la fonction de répartition F des variables aléatoires obéissant à ce taux. En
effet, par définition
ln(l-F(0) = - ( \(t)dt+k
Jo
ou
F(t) = 1 - e x p (5.13)
\(t) = a + bt
F(f) = 1 - e--b,2/2
Exemple 5.25 On entend souvent dire que le taux de mortalité chez les fumeurs, à tout
âge, est le double de celui des non-fumeurs. Qu'est-ce que cela veut dire? Cela
signifie-t-il qu'un non-fumeur a une probabilité deux fois plus grande de survivre à
un nombre d'années donné qu'un fumeur du même âge?
SOLUTION. Soit Xf(t) le taux de mortalité pour un fumeur âgé de t années et Xn(t) celui
d'un non-fumeur du même âge. Alors l'affirmation ci-dessus équivaut à dire que
Xf(t) = 2Xn(t).
1 - Fnon(A)
exp
grâce à (5.13)
alors que la probabilité correspondante pour un fumeur est, par le même raisonne-
ment,
exp
exp
En d'autres termes, si l'on a deux individus de même âge, dont l'un est fumeur et
l'autre pas, la probabilité que le fumeur survive à un âge donné est le carré (non la
moitié) de celle du non-fumeur. Par exemple, si X„(t) = i , 50 =% / < 60, alors la
probabilité qu'un non-fumeur âgé de 50 ans atteigne l'âge de 60 ans est e~'/j = 0,7165
alors que pour un fumeur elle vaut e~'A = 0,5134. •
216 Initiation aux probabilités
On dira qu'une variable aléatoire suit une loi gamma de paramètres (t, X),X>0
et t > 0 si sa densité est
,0 x<0
où r(f), appelée fonction gamma, est définie par
HO = [ e - y 1 dy
Jo
Une intégration par parties de l'intégrale donnant T(f) livre
+ e-y(t-l)y'-2dy
o Jo
/•oo
= (r-l) e-y~2dy
Jo
= (t-l)T(t-l) (5.14)
Pour des valeurs n entières de t, l'utilisation itérée de (5.14) donne
r(n) = ( n - l ) r ( n - l )
= (n-l)(n-2)r(n-2)
= (n-l)(«-2)---3-2r(l)
x
Comme T(l) = Ce~ dx = 1, on aura pour tout entier n
T(n) = ( « - ! ) !
Lorsque t prend des valeurs entières positives, disons t = n, la loi gamma de
paramètres (/, X) représente fréquemment la distribution du temps d'attente avant la
H-ième occurrence d'un certain type d'événements. Plus précisément, supposons que
des événements se répètent au hasard dans le temps et satisfassent aux trois conditions
exposées dans la section 4.8. Dans ce cas, le temps d'attente avant la n-ième occur-
rence suivra une répartition gamma de paramètres (n, X). Pour s'en assurer, notons
par Tn l'heure à laquelle le /j-ième événement se produit. On remarquera que Tn < t
si et seulement si le nombre d'occurrences enregistrées au temps t est de n au moins.
En posant que ce nombre d'événements dans l'intervalle [0, /] est N(t), on aura
P{T„ < t} = P{N(t) s n}
OO
= Z P{N(t) = /}
Variables aléatoires continues 217
La dernière de ces équations résulte du fait que le nombre d'événements dans [0, /]
suit une loi de Poisson de paramètre Xt, et sa dérivation donne la densité/de Tn:
SOLUTION a)
\Xe-**{kc)'dx
XT{t) o
xr(t)
— selon l'équation (5.14)
A
F(x) = (5.15)
Une variable ayant une telle fonction de répartition est dite variable de Weibull avec
paramètres v, a et |3. Par dérivation on obtient sa densité:
0
/(*)
1 1
axe des x
Figure 5.6
Exemple 5.27 Un projecteur à faisceau fin est mis en rotation autour de son axe,
lequel est situé à une unité de distance de l'axe des abscisses (figure 5.6). X représente
l'abscisse de l'intersection du faisceau avec l'axe Ox une fois que le projecteur s'est
arrêté de tourner. (Si le faisceau n'est pas dirigé vers l'axe, on recommence l'expé-
rience).
Variables aléatoires continues 219
Comme on peut le constater sur la figure 5.6, X est déterminée par la valeur de
l'angle 0 entre le faisceau lumineux et l'axe Oy. On admettra l'hypothèse de nature
physique que 0 est uniformément distribuée entre -Jt/2 et 7t/2. La fonction de réparti-
tion de X sera alors
F(x) = P{X < x}
= /'{tg e < x]
= P{9 < Arc tg x}
1 1 A
= — I — Arc tg x
2 n
Cette dernière équation résulte de la suivante, valide en raison de l'uniformité de la
distribution de 9 entre — TI/2 et ;t/2:
„r a — ( —7r/2) 1 a 77 7T
P{6^a} = * — =- +- , --<a<-
tt 2 IT 2 2
Aussi la densité de X est-elle
On dit qu'une variable aléatoire suit une loi bêta si sa densité est
r, x 1 * , x"-\\-x)b-* 0<x<l
f(x) = J B(a, Lb)
10 sinon
ou
1
La relation d/dx Arc tg x = 1/(1 + x2) est établie comme suit: si y = Arc tg x, alors tg y = x
et par conséquent
1 = ±{tf,y) = ±{tf,y)dl = lL(É!UL\fty
dx dy dx dy 1 cos y I dx
(
cos2 y + sin2 y\ dy
cos2 y ) dx
OU
dy 2 cos2 y 1 1
— = cos y = = =
2 2
dx Sm y + cos y tg1 y + 1 x2 + \
220 Initiation aux probabilités
La loi bêta s'applique à des phénomènes lors desquels la variable aléatoire peut
prendre les valeurs comprises dans un certain intervalle [c, d\. En déclarant que c
représente l'origine et en adoptant d — c comme unité, cela revient à s'intéresser à
l'intervalle [0, 1].
f(x)
Figure 5.7
Densités bêta lorsque les paramètres a et b sont égaux
Comme le montre la figure 5.7, les densités bêta sont symétriques autour de Vi
lorsque a = b et donnent de plus en plus de poids à cette région centrale au fur et
à mesure que a augmente. La figure 5.8 montre que lorsque b > a les densités sont
ramassées à gauche, ce qui signifie que les petites valeurs de la variable sont plus
probables. Lorsque a > b, les densités, inversement, sont ramassées à droite.
Figure 5.8
Densités bêta de paramètres (a, b) tels que
q 1
a + b ~ 20
Variables aléatoires continues 221
B{a,b) = )xa-\\-x)b~ldx
o
et la fonction gamma:
r(a)T(b)
B ab
\') = —, T (516>
r ( a + b)
En utilisant l'équation (5.14) avec l'identité ci-dessus, il est facile de montrer que si X
est une variable aléatoire bêta de paramètres a et b, alors
a
r n
E[X] = a + b
ab
Var(x) =
(a + b) (a + b + l)
REMARQUE. Une vérification de l'équation (5.16) est donnée dans l'exemple 6.29 du
chapitre 6.
Il arrive souvent que la distribution d'une variable aléatoire soit connue mais que
l'on s'intéresse plutôt à celle d'une fonction de cette variable. En d'autres termes, on
connaîtrait la distribution de X mais souhaiterait connaître celle de g(X). Pour y
parvenir, il faut exprimer l'événement g(X) < y sous forme d'une condition où X
appartient à un certain ensemble, comme l'illustrent les exemples suivants.
Exemple 5.28 Soit A'uniformément distribuée dans l'intervalle (0, 1). On obtiendra
la distribution de Y = X" de la manière suivante: pour 0 ^ y < 1,
fv(y)=.
0 sinon
222 Initiation aux probabilités
Fy(y) = P { Y < y }
= P{X2 < y}
= P{-J~y~ < X < Vy}
= Fx(Vy)-F x (-V7)
M y ) = -7=[/x(>/y)+/x(->/y)]
2Vy •
Exemple5.30 Soit X d e densité fx. La densité de F = \X\ peut être calculée ainsi:
pour y ^ 0
FY(y)=P{ysy}
= P{|X| ^ y}
= P{-y s X < y}
= -r7x(y)-Fx(-y)
/y(y)=/x(y)+/x(-y) y^o •
La méthode utilisée pour traiter les exemples 5.28 à 5.30 peut servir de démonstra-
tion au théorème général suivant:
Théorème 5.4
Soit X une variable aléatoire continue de densité fx. Soit g une fonction stricte-
ment monotone (croissante ou décroissante) et dérivable, donc continue. La densité
de la variable aléatoire Y = g(X) est alors
-i a
-i
fx[g (y)] ~r g (y) si y = g(x) pour un x quelconque
dy
0 si y + g(x) pour tout x
°ù g' (y) est défini comme étant égal à x tel que g(x) = y.
La démonstration de ce théorème est laissée en exercice.
Variables aléatoires continues 223
8 W =y
et
dy n
fï(y) = -y"'if{y1/n)
Si n = 2, cela donne
5.&1 La vitesse d'une molécule au sein d'un gaz homogène en état d'équilibre est une
variable aléatoire, dont la fonction de densité est donnée par
x<0
oùb = mllkTti k, T, m sont respectivement la constante de Boltzmann, la tempéra-
ture absolue et la masse de la molécule. Evaluer a en termes de b.
E[g(x)]=~!g{x)f{x)dx
—oo
et procéder comme dans la preuve donnée dans le texte lorsque g(X) > 0.
5.8.5 Utiliser le fait qu'une variable aléatoire non négative Y ait pour espérance
E[Y]= \P{Y>t)dt
o
E\xn] = ]nxn~lP{X>x}dx
o
Commencer avec
n
E\x
1
\J = ]p{xn >t\dt
o
a = VVar(x)
5.8.8 Soit X une variable aléatoire prenant ses valeurs entre 0 et c, c'est à dire
P{0 < X < c) = 1. Montrer que
2
Var(x) < —
4
Variables aléatoires continues 225
E[X2]<CE[X]
Var(x)<c2[a(l-a)] oùa = - L J
c
5.8.9 Si Z est une variable aléatoire normale standard, montrer que pour x > 0,
a)P{Z>x}=P{Z<-x};
b)P{\z\>x} = 2P{z>x};
c)P{\z\<x} = 2P{Z<x}-l.
5.8.11 Utiliser l'identité de l'exercice théorique 5.8.5 pour dériver E\x I lorsque X
est une variable aléatoire exponentielle de paramètre X.
5.8.12 La médiane d'une variable aléatoire continue ayant une fonction de répartition
F est la valeur m, telle que F(m) = ^ En d'autres termes une variable aléatoire a autant
de chances d'être plus grande ou plus petite que sa médiane. Trouver la médiane de
X si X est une variable:
a) uniformément distribuée sur (a, b);
b) normale de paramètres u, a2;
c) exponentielle de paramètre X.
5.8.13 Le mode d'une variable aléatoire continue ayant une densité/est la valeur x
pour laquelle/(x) atteint son maximum. Calculer le mode de X dans les cas a), b) et
c) de l'exercice théorique 5.8.12.
5.8.16 Si X a un taux de panne Xx(t), calculer le taux de panne de aX, où a est une
constante positive.
r *l *!
4*1 =7 *=1.2,.-.
Utiliser la densité de gamma pour évaluer ceci.
. . t
5.8.19 Vérifier que Var(X) = — lorsque X est une variable aléatoire gamma de
paramètres t et X. *•
rW-jr-xi.
Effectuer alors le changement de variable y = -Jlx et relier l'expression obtenue à la
distribution normale.
5.8.21 Calculer la fonction taux de panne d'une variable aléatoire gamma de para-
mètre (/, X) et montrer qu'elle est croissante quand t > 1 et décroissante quand t ^ 1.
5.8.23 Montrer que le graphe de ln(ln ( 1 — F(x))~ ' ) en fonction de ln(jc) est une droite
de pente P quand F( . ) est une fonction de répartition de Weibull. Montrer également
qu'approximativement 63,2% de toutes les observations d'une telle distribution sont
inférieures à a. Supposer que v = 0.
5.8.24 Soit
Montrer que si X est une variable aléatoire de Weibull dont les paramètres sont v,
a, p, alors Kest une variable aléatoire exponentielle de paramètre X = 1 et vice versa.
E[X) = , Var(;r)= 2
a+b (a + b) {a + b + \)
5.8.26 Si X est uniformément distribuée sur l'intervalle (a, b), quelle est la variable
aléatoire dépendant linéairement de X qui admet une distribution uniforme sur
l'intervalle (0, 1)?
Variables aléatoires continues 227
5.8.28 Soit X une variable aléatoire continue ayant une fonction de répartition F. On
définit la variable aléatoire Y par Y = F(X). Montrer que Y est uniformément
distribuée sur l'intervalle (0, 1).
5.830 Trouver la fonction de densité de Y = ex quand X est distribuée selon une loi
normale de paramètres u et a2. La variable aléatoire Y suit une distribution dite
log-normale (puisque In y a une distribution normale) de paramètres u et a2.
5.831 Soit XetY des variables aléatoires indépendantes qui toutes deux ont la même
chance d'être égales à 1, 2,..., (10)^, où N est très grand. Appelons D le plus grand
commun diviseur de A' et Y et soit Qk = P{D = k}.
a) Montrer par un argument heuristique que Qk = l/k2 Qx. On peut remarquer que
pour que D soit égal à k, k doit diviser X et Y et X/k et Y/k doivent être premiers
entre eux (c'est-à-dire que leur plus grand commun diviseur doit être égal à 1).
b) Utiliser a) pour montrer que
Qx = P{X et Y soient premiers entre eux} =
î l/k2
x
En vertu d'une identité bien connue selon laquelle S l/k2 = n2/6, il s'ensuit que
e, = 6/n2.
(En théorie des nombres ceci est connu sous le nom de théorème de Legendre).
c) Maintenant établir que
où P, est le i-ème des nombres premiers rangés dans l'ordre de croissance, P, étant
2. A titre d'indication, on peut noter que A'et Y seront premiers entre eux s'ils n'ont
pas de facteurs premiers communs.
* P2 - 1 ,
Ainsi de b) on voit que n (—'•—-—) = 6/rc ; ce résultat a déjà été mentionné sans
/=i P2
explication dans le problème 4.11.11 (la relation entre ce problème et le problème
4.11.11 réside dans le fait que X et Y sont premiers entre eux si leur produit XY n'a pas
de facteur premier répété).
228 Initiation aux probabilités
5.9 PROBLEMES
,, . \c(\~x2) -\<x<\
10 sinon
tf s {exe-* x>0
/ W =
l0 x^O
quelle est la probabilité que le système fonctionne pendant au moins 5 mois?
(c(2x-X2) 0<x<§
(.0 sinon
x> 10
x < 10
a) Trouver P{X > 20}.
b) Quelle est la fonction de répartition de XI
c) Quelle est la probabilité que parmi 6 composants au moins 3 d'entre eux fonction-
nent durant au moins 15 heures? Quelles hypothèses faites-vous?
5.9.5 Une station service est approvisionnée en essence une fois par semaine. Si son
volume de vente hebdomadaire, en milliers de litres, est une variable aléatoire de
fonction de densité:
„ . j5(l-x)4 0<*<1
10 sinon
Variables aléatoires continues 229
quelle est la capacité que doit avoir le réservoir pour que la probabilité d'épuiser
l'approvisionnement d'une semaine soit égal à 0,01?
1 --i
— xe JC>0
»)/(*) =
4
0 sinon
[0 sinon
— x> 5
c)/(*) = <x
0 x<5
| a + &c 0<JC<1
/(*) =
lo sinon
5.9.8 La durée de vie en heures d'un tube électronique est une variable aléatoire ayant
pour densité
f{x) = xe~x x>0
où b est le profit net par unité vendue, l est la perte nette par unité invendue et F est la
fonction de distribution cumulative de la demande saisonnière.
5.9.10 Les trains à destination de A arrivent à la gare toutes les 15 min. à partir de
7 h. du matin, et les trains à destination de B arrivent toutes les 15 min. également,
mais à partir de 7 h 05 du matin. Un certain passager arrive à la gare à une
230 Initiation aux probabilités
5.9.11 Un point est choisi au hasard sur un segment de longueur L. Interpréter cet
énoncé et trouver la probabilité que le rapport entre le plus petit et le plus grand
segment soit inférieure à \.
5.9.12 Un bus circule entre 2 villes A, B distantes de 100 miles. On admet que lorsque
le bus tombe en panne, la distance de l'endroit de la panne à la ville A a une
distribution uniforme sur l'intervalle (0, 100). Il y a une station de réparation en A,
une en B et une autre à mi-distance entre A et B. On suggère qu'il serait plus efficace
d'avoir les 3 stations localisées respectivement à 25, 50 et 75 miles de A. Etes-vous
de cet avis? Pourquoi?
5.9.13 Vous arrivez à un arrêt de bus à 10 h sachant que le bus arrivera à un certain
instant qui est distribué uniformément entre 10 h et 10 h 30. a) Quelle est la probabilité
que vous deviez attendre plus de 10 min.? b) Si à 10 h 15 le bus n'est pas encore arri-
vé, quelle est la probabilité que vous deviez attendre au moins 10 min. supplémen-
taires?
5.9.14 SoitX une variable aléatoire uniforme (0, 1). Calculer £ | x " I en utilisant le
théorème 5.1 et vérifier le résultat en utilisant la définition de l'espérance.
5.9.16 La quantité annuelle de précipitations (en cm) dans une certaine région est
distribuée selon une loi normale avec u = 140 et a 2 = 16. Quelle est la probabilité
qu'à partir de cette année, il faille attendre plus de 10 ans avant d'obtenir une année
avec une quantité annuelle de pluie supérieure à 150 cm? Quelles hypothèses faites-
vous?
5.9.17 Un homme tirant sur une cible reçoit 10 points si son coup est à moins de 1 cm
du centre de la cible, 5 points s'il s'en éloigne de 1 à 3 cm et 3 points s'il s'en éloigne
de 3 à 5 cm. Trouver l'espérance du nombre de points si la distance du tir au centre de
la cible est uniformément distribuée entre 0 et 10.
5.9.21 On suppose que la taille, en centimètres, d'un homme âgé de 25 ans est une
variable aléatoire normale de paramètres u = 175 et a2 = 36. Quel est le pourcentage
d'hommes de 25 ans ayant une taille supérieure à 185 cm? Parmi les hommes mesurant
plus de 180 cm, quel pourcentage d'entre eux dépassent 192 cm?
5.9.22 La largeur (en cm) d'une fente entaillée dans une pièce fabriquée en aluminium
est distribuée selon une loi normale de paramètres u = 2 et a = 0,007. Les limites
de tolérance sont données comme étant 2,0000 ± 0,0120. a) Quel sera le pourcentage
de pièces défectueuses? b) Quelle est la valeur maximale que peut prendre a afin que le
pourcentage de pièces défectueuses ne dépasse pas 1 %, si la largeur des fentes suit une
distribution normale de paramètres u = 2 et CT?
5.9.23 On considère 1000 jets indépendants d'un dé homogène. Calculer une approxi-
mation de la probabilité que la face 6 apparaisse entre 150 et 200 fois. Si la face 6
apparaît exactement 200 fois, trouver la probabilité que la face 5 apparaisse moins
de 150 fois.
5.9.24 La durée de vie des puces d'ordinateur interactif produites par un fabricant de
semi-conducteurs est distribuée normalement de paramètres u = 1,4 x 106 heures et
a = 3 x 105 heures. Quelle est la probabilité approximative qu'un lot de 100 puces
contienne au moins 20 puces dont la durée de vie ne dépasse pas 1,8 x 106?
5.9.25 Utiliser un programme pour calculer P{X < 25}, quand X est une variable
aléatoire binomiale de paramètres n = 300, p = 0,1. Comparer le résultat avec son
approximation
a) poissonienne et
b) normale.
En utilisant l'approximation normale, écrire la probabilité cherchée sous la forme
P[X < 25,5} afin d'introduire la correction de continuité. (Vous aurez besoin d'un
programme pour calculer l'approximation de Poisson.)
5.9.26 Deux types de pièces de monnaie sont produites dans une fabrique: des pièces
homogènes et des pièces biaisées, lesquelles montrent la face pile dans 55% des cas.
Supposons que nous possédions une pièce de cette fabrique et que nous ignorions si
elle est homogène ou biaisée. Pour pouvoir déterminer de quelle pièce il s'agit, nous
effectuons le test statistique suivant: la pièce est lancée 1000 fois; si l'on obtient pile
525 fois ou plus, alors on conclut que c'est une pièce biaisée, tandis que si l'on obtient
pile moins de 525 fois, alors on conclut que c'est une pièce homogène. Si la pièce est
réellement homogène, quelle est la probabilité que l'on aboutisse à une conclusion
fausse? Qu'en est-il si la pièce est biaisée?
232 Initiation aux probabilités
5L9.27 Sur 10 000 jets indépendants, une pièce de monnaie donne 5800 fois pile. Est-il
raisonnable de présumer que la pièce n'est pas homogène? Expliquer pourquoi.
5.9.28 Une image est composée de 2 régions, l'une blanche et l'autre noire. Lors d'une
lecture digitale, un point choisi aléatoirement dans la zone blanche donnera une
valeur qui est distribuée selon une loi normale de paramètres (4, 4). Un point choisi
aléatoirement dans la partie noire aura une valeur distribuée selon la même loi, mais
de paramètres (6, 9). Considérons un point choisi aléatoirement sur l'image et qui
présente une valeur égale à 5. Désignons par a la fraction de l'image qui est noire.
Pour quelle valeur de a a-t-on la même probabilité de se tromper en concluant que
le point choisi provient de la zone noire ou le contraire?
5.9.29 a) Une caserne de pompiers doit être construite sur une route de longueur A,
A < «>. Si un incendie se déclare en des points uniformément distribués entre (0, A), où
doit être située la caserne pour minimiser l'espérance de la distance jusqu'au feu?
Autrement dit, trouver a tel que £[|X - a\\ soit minimisée lorsque X est distribué
uniformément sur (0, A).
b) Supposer à présent que la route soit de longueur infinie - partant du point 0 vers oo.
Si la distance d'un incendie au point 0 est distribuée selon une loi exponentielle de
paramètre X, où doit se trouver la caserne? Ici, on cherche à minimiser £[|X - a\\ où X
est exponentielle de paramètre X.
5.9.30 Le temps (en heures) nécessaire pour réparer une machine est une variable
aléatoire exponentiellement distribuée de paramètre X = i.
a) Quelle est la probabilité que le temps de réparation excède 2 heures?
b) Quelle est la probabilité conditionnelle qu'une réparation prenne au moins 10
heures, étant donné que sa durée a déjà dépassé 9 heures?
5.9.31 Le nombre d'années de fonctionnement d'une radio est distribué selon une loi
exponentielle de paramètre X = |. Si Jones achète une radio d'occasion, quelle est la
probabilité qu'elle fonctionne encore après 8 nouvelles années d'usage?
5.9.32 Jones estime que le nombre total de milliers de miles que peut parcourir une
voiture avant qu'elle ne soit mise à la ferraille est une variable aléatoire exponentielle
de paramètre X = ±. Smith a une voiture dont il prétend qu'elle n'a roulé que 10 000
miles. Si Jones achète la voiture, quelle est la probabilité qu'il puisse encore l'utiliser
pendant au moins 20 000 miles? Refaire le problème en considérant l'hypothèse que
la durée de vie de la voiture (exprimée en milliers de miles) suit une distribution
uniforme sur l'intervalle (0, 40) et non plus une loi exponentielle.
5.9.33 Le taux de cancer des poumons chez les fumeurs âgés de / années, X(t), est tel
que
MO = 027 + .00025(f - 40)2, t s 40
En supposant qu'un fumeur de 40 ans survive à toute autre maladie, quelle est la
probabilité qu'il survive à l'âge de
Variables aléatoires continues 233
a) 50 ans,
b) 60 ans
sans contracter un cancer des poumons.
5.9.34 Supposons que la distribution de la durée de vie d'un élément a une fonction
taux de panne X(t) = t\ t > 0.
a) Quelle est la probabilité que l'élément survive à l'âge de 2 ans?
b) Quelle est la probabilité que la durée de vie de l'élément se situe entre 0,4 et 1,4?
c) Quelle est la probabilité qu'un élément âgé de 1 année survive à l'âge de 2 ans?
519.36 Si Y est de distribution uniforme sur l'intervalle (0, 5), quelle est la probabilité
que les racines de l'équation Ax1 + 4xY + Y + 2 = 0 soient toutes deux réelles?
Nous n'avons traité jusqu'ici que de distributions de variables isolées. Or, il est
souvent nécessaire de considérer des événements relatifs à deux variables simultané-
ment, ou même à plus de deux variables. On définit pour traiter de tels problèmes une
fonction F de répartition simultanée, ou conjointe, pour toute paire de variables
aléatoires X et Y:
Fx{a)=P{X<a}
= P{X < a, Y < oo}
= lim F (a, b)
b-*oo
= Fia, oo)
236 Initiation aux probabilités
Le lecteur remarquera qu'il a une fois de plus été fait usage, dans les équations
ci-dessus, de la propriété de continuité des fonctions de probabilité. On obtient par
ailleurs de manière similaire la fonction de répartition de Y:
Fy(b)=P{Ysb}
= lim F{a, b)
a-»oo
• F(œ, b)
= l-P({X<a}u{Y<6})
= 1 - [P{X < a} + P{Y < b} - P{X < a, y < b}]
= l-Fx(a)-FY(b) + F(a,b) (6.1)
Cette dernière formule est un cas particulier de (6.2) ci-dessous, dont la démonstration
est laissée en exercice.
Dans le cas où A' et Y sont deux variables discrètes, il est commode de définir la
fonction p suivante, dite loi de probabilité simultanée ou conjointe de X et Y:
Px(x) = P{X = x}
I p(x, y)
y:p(x,y)>0
Variables aléatoires simultanées 237
De façon similaire
Pr(y) = I P(x, y)
x:p(x,y)>0
Exemple 6.1 On tire au hasard 3 boules d'une urne en contenant 3 rouges, 4 blanches
et 5 bleues. X et Y désignent respectivement le nombre de boules rouges et celui de
boules blanches tirées. La loi de probabilité simultanée p(i, j) = P{X = ;', Y = j] de
X et Y est alors:
**»-G)/(32)-£
4
220
30
220
60
220
220
Il est commode d'exprimer ces probabilités à l'aide d'un tableau à deux entrées tel
que le tableau 6.1.
238 Initiation aux probabilités
Tableau 6.1
Somme de
ligne
0 1 2 3 = P{X = i)
10 40 30 4 84
0
220 220 220 220 220
30 60 18 108
1 220 22Ô" 220 0 220
15 12 27
2 0 0
220 220 220
1 1
3 0 0 0
220 22Ô"
Somme de 56 112 48 4
colonne = P{Y = j} 220 220 220 220
Le lecteur remarquera que la loi marginale de X est calculée en faisant les totaux par
ligne, tandis que celle de Y l'est en faisant les totaux par colonne. C'est le fait que les
lois de X et Y individuellement puissent être lues dans les marges du tableau qui leur
vaut leur nom de lois marginales. •
Exemple 6.2 On sait que 15% des familles d'une certaine localité n'ont pas d'enfant,
20% d'entre elles en ont 1, 35% en ont 2 et 30% en ont 3. On sait de plus que pour
chaque famille un enfant a autant de chances d'être un garçon qu'une fille, indépen-
damment du sexe de ses frères et soeurs. La loi de probabilité conjointe de G, le
nombre de garçons d'une famille tirée au hasard, et de F, le nombre de filles dans cette
famille, est donnée dans le tableau 6.2.
Tableau 6.2
Somme de
ligne =
i ^\^^ 0 1 2 3
P{G = i
0 .15 .10 .0875 .0375 .3750
3 .0375 0 0 0 .0375
Somme de
colonne =
.375 .3875 .2000 .0375
P{F = j]
Les variables X et Y sont dites conjointement continues s'il existe une fonction f
de deux arguments réels ayant pour tout sous-ensemble C du plan la propriété
suivante:
Comme
pour autant que les dérivées partielles soient définies. Au-delà de cette propriété on
peut donner une interprétation intuitive à une densité conjointe en partant de (6.4)
et grâce au calcul suivant:
f b + db Ça + da
P{a<X<a + da, b< Y < b + db} = \ f(x,y)dxdy
J b Ja
- f(a, b) da db
240 Initiation aux probabilités
à condition que da et db soient petits et que/soit continue au point (a,b). Aussi f(a,b)
est-elle une indication de la probabilité avec laquelle (X, Y) sera dans le voisinage du
point (a, b).
Enfin, si X et Y sont des variables aléatoires conjointement continues, alors elles
sont individuellement continues, également. On obtient leurs densités marginales
ainsi:
-Il f(x, y) dy dx
OU
On veut calculer:
a) P{X > 1, Y < 1},
b) P{X < Y) et
c) P{X < a}.
Variables aléatoires simultanées 241
SOLUTION.
= e'1 | 2e~2ydy
Jo
= e-\\-e-2)
b) F{A:<y}=jj 2e~xe-2ydxdy
(x,y):x<y
Jo Jo
On veut
a) trouver c,
b) trouver les densités marginales de X et Y et
c) calculer la probabilité que la distance du point choisi au centre soit inférieure ou
égale à a.
il suit que
b)
Variables aléatoires simultanées 243
Lorsque x2 > R2, cette densité est nulle. La densité marginale de Y est donnée pour
des raisons de symétrie par
où il a de nouveau été fait usage de la formule de l'aire d'un cercle de rayon a pour
calculer la dernière intégrale. •
Hx+y)
0<x<oo,0<y<oo
(.0 sinon
a +1
1
a +1
On obtient la densité de X/ Y par dérivation de ce dernier résultat, ce qui donne
X/Y '
Par ailleurs, ces n variables seront dites conjointement continues, s'il existe une fonc-
t i o n / d e n arguments, appelée densité conjointe de ces variables, telle que pour tout
sous-ensemble C de l'espace à n dimensions
P{XleA1,X2eA2,...,XneAn}
dx„
3!2!2!1!1!0!\6/ W W W W W 3!2!2!\6/
Deux variables aléatoires Xet Y sont dites indépendantes si, pour tout choix d'une
paire d'ensembles A et B de nombres réels, on a
F(a,b) = Fx(a)FY(b)
pour tout x et tout y. L'équivalence résulte d'une part du fait qu'en choisissant
A = {x\ et B = {>'} dans (6.6), on obtient (6.7); d'autre part du fait qu'en supposant
(6.7) vraie, on aura pour toute paire d'ensembles A et B
246 Initiation aux probabilités
P{X e A, Y e B} = I I p(x, y)
yeB xeA
= 1 1 Px(x)pY(y)
yeB xeA
= I Pr(y) I Px(x)
yeB xeA
= P{Y B}P{X e A}
f(x,y)=fx(x)fY(y)
Exemple 6.8 On admet que le nombre de clients d'un bureau de poste en l'espace d'un
jour est une variable aléatoire poissonienne de paramètre X. On note par/? la probabi-
lité qu'une personne pénétrant dans ce bureau de poste soit un homme. On veut
montrer que, dans ce cas, le nombre des hommes et celui des femmes parmi les clients
quotidiens sont des variables aléatoires poissoniennes de paramètres respectifs Xp et
X.(l — p) et qu'elles sont indépendantes.
être vérifiée. Pour obtenir une expression de P{X = i, Y = j], on peut conditionner
selon les valeurs prises par X + F de la manière suivante:
[Le lecteur remarquera que cette équation n'est qu'une illustration de la formule
P(E) = P(E\F) • P(F) + P{E\F') • P(F')]. Comme manifestement
P{X = i, Y = j\X + Y ï i + j] = 0, il reste
Comme maintenant X + Y n'est autre que le nombre total des clients, on peut écrire
par hypothèse que
Par ailleurs, si l'on sait que / + j personnes sont venues au bureau de poste, la
probabilité que / d'entre elles soient des hommes et j des femmes n'est autre que la
probabilité binomiale (' "J" •') p' (1 — p) '. Donc,
+J
P{X = i, Y = ;} = ( ' t )p'(l ~p)'e
('+;•)!
-e-^W-p)y
_ e"Ap(Ap)' - x ( 1 - P ) [ A ( l - p ) ] y
(6.11)
i! ' j\
Donc
[A(1
P{X = «} = e->p(-^ Y e-Ml-p) " P ) ] , = e-»i±EÏ- (6.12)
i! j ;'! i!
et de façon analogue
L'exemple qui suit est le plus ancien des problèmes traitant de probabilité en
relation avec des modèles géométriques. Le naturaliste français Buffon fut le premier
au dix-huitième siècle à s'intéresser à ce problème et il lui donna une solution. Aussi
ce problème est-il dit «de l'aiguille de Buffon».
X L „ L
<— ou X < — cos 6
Variables aléatoires simultanées 249
Figure 6.4
La variable X varie entre 0 et D/2 tandis que 0 varie entre 0 et n/2. Il est raisonnable
d'admettre que, dans ces limites, X et 0 sont de distributions indépendantes et
uniformes. Aussi aura-t-on
p{x<|cose}= JJ fx(x)fe(y)dxdy
x<L/2cosy
A Cv/2 rL/Zcosy
=^Jo Je ^
En gros, la seconde hypothèse indique que la probabilité d'impact sur une zone
minuscule entourant un point donné de la cible ne dépend que de la distance entre
ce point et le centre de la cible mais pas de l'orientation de ce point. On peut encore
exprimer cette propriété en disant que la densité conjointe est invariante par rotation.
Ces deux hypothèses entraînent une conséquence tout à fait remarquable: X et Y
sont normalement distribuées. La démonstration s'appuie d'abord sur une consé-
quence directe des hypothèses, à savoir qu'il existe une fonction g telle que
Dans (6.16), le membre de gauche est constant car il ne dépend que de x, tandis que
celui de droite dépend de x2 + y2; ceci permet en effet d'écrire, en choisissant pour
tout couple x,, x2 deux valeurs yx, y2 telles que x] + y] = x\ + y\, et en utilisant
(6.16):
fx(xi) = g'Ui+ y]) _g'(xl + y\) ___ f'x{x2)
2xtfx(xi) g(x\ + y\) g(x22 + y22) 2x2fx(x2)
f'x(x) d
, , , = c ou — (\nfx(x)) = ex
xfx(x) dx
ce qui donne, après intégration des deux membres,
ex2
lnfx(x) = a + — ou fx{x) = ke"!1
fx(x) = ke-*2/2°2
/ Y (y)=-=L- e -^ 2
v 2TTa
La seconde hypothèse du problème entraîne par ailleurs que o 2 = ô2. Les variables
Xtt Y sont donc identiquement distribuées, en plus d'être indépendantes et normales
de paramètres u = 0 et a2. m
P{X,A 1,X2eA2,...,XneAn}= f[ P { X , e A }
i=1
On peut comme plus haut montrer que cette dernière égalité est équivalente à
P{I = 1} = p = 1 - P{I = 0}
si U ^ p
si U> p
sinon
252 Initiation aux probabilités
J1 si Ui+i < :
4M H n-i
(0 sinon
La preuve que les sous-ensembles ainsi choisis sont tous équiprobables peut être faite
par induction sur k + n. Elle est immédiate lorsque k + n = 2, donc lorsque
k = 1 et n = 1. Supposons donc qu'elle soit établie pour k + n 4 /• Montrons
qu'elle le sera pour k + n = l + 1. On considère un sous-ensemble de taille k
quelconque, /, < i2... ^ ik par exemple, et distingue les deux cas suivants:
• Cas 1: ;', = 1.
Etant donné que /, = 1, le reste des éléments du sous-ensemble sera choisi comme
s'il fallait tirer un sous-ensemble de taille k — 1 parmi n — 1 éléments, nommément
les nombres 2, 3,..., n. En vertu de l'hypothèse d'induction, la probabilité condition-
nelle d'obtenir un sous-ensemble bien déterminé de taille k — 1 sera \/("k Z ',)• Aussi
• Cas 2: /, # 1.
P{Ih = 4 = • • • = 4 = 1, /, = 0 ailleurs}
= P{Ih = • • • = 4 = 1, Ij = 0 ailleurs 14 = 0}F{4 = 0}
REMARQUE. Cette méthode pour générer un sous-ensemble aléatoire nécessite une très
faible quantité de mémoire. Un algorithme plus rapide mais qui requiert plus de
mémoire est présenté dans la section 10.1.2 du chapitre 10. (Cette dernière méthode
utilise les k derniers éléments d'une permutation aléatoire de 1,2, ..., n.)
= dxdydz
Jo Jo J yz
= I I (l-yz)dydz
Jo Jo
=I'H) dz
3
4
(Remarquer que N(h) = N(0)/2.) Puisque l'égalité ci-dessus implique que pour tous
5 et t non négatifs
N(t + s) = 2- (i+,) /"Af(0) = 2-'/hN(s)
il s'ensuit que, indépendamment du temps 5 écoulé, pendant un temps additionnel /,
le nombre de noyaux restants sera diminué d'un facteur 2~'lh.
Comme la relation déterministe précédente résulte d'observations de masses ra-
dioactives contenant une grande quantité de noyaux, elle pourrait bien être consis-
tante avec une interprétation probabiliste. La clé pour la déduction du modèle
probabiliste approprié pour la demi-vie réside dans l'observation empirique suivante:
la proportion de désintégration dans un intervalle de temps donné ne dépend ni du
nombre total de noyaux au début de l'intervalle ni de la location de cet intervalle (vu
que N(t + s)/N(s) ne dépend ni de N(s) ni de s). Par conséquent, il apparaît que
chaque noyau individuel réagit indépendamment des autres et selon une distribution
de durée de vie sans mémoire. Etant donné que l'unique distribution sans mémoire
est la distribution exponentielle et qu'exactement la moitié de la quantité de masse
donnée disparaît toutes les h unités de temps, on propose le modèle probabiliste
suivant pour la désintégration radioactive.
Interprétation probabiliste de la demi-vie h: Les durées de vie des noyaux individuels
sont des variables aléatoires indépendantes de distribution exponentielle dont la
médiane est égale à h. En d'autres termes, si L représente la durée de vie d'un noyau
donné, alors
P{L < t} = 1 -2~'/h
(Comme P{L < h} = Vi et que l'égalité précédente peut être écrite sous la forme
P{L < t} = 1 — expi — / >, on voit que L suit effectivement une distribution
exponentielle de médiane h.)
On notera qu'avec cette interprétation probabiliste de la demi-vie, si l'on compte
A'(O) noyaux au temps 0, alors N(t), le nombre de noyaux restants au temps t, suivra
une loi binomiale de paramètres n = N(0) et p = 2~"\ Des résultats du chapitre 8
montreront que cette interprétation de la demi-vie est consistante avec le modèle
déterministe lorsque l'on considère la proportion d'un grand nombre de noyaux qui
se désintègrent pendant un laps de temps donné. Cependant, la différence entre
l'interprétation déterministe et probabiliste devient apparente au moment où l'on
considère le nombre actuel de noyaux désintégrés. Nous allons maintenant mention-
ner ce fait par rapport à la question relative à la désintégration des protons.
Il y a une controverse sur la désintégration ou non des protons. Une théorie prévoit
la disparition des protons avec une demi-vie d'environ h = 1030 années. Une vérifica-
tion empirique consiste à suivre un grand nombre de protons pendant, disons, 1 ou
2 ans, et à déterminer s'il y a une diminution pendant cette période. (Il est clair qu'il
n'est pas possible de suivre une masse de protons pendant 1030 années pour vérifier si la
moitié d'entre eux disparaît.) Supposons que l'on puisse garder trace de 1030 protons
pendant c années. Le nombre de désintégration prédit par le modèle déterministe
serait donné par
Variables aléatoires simultanées 255
Ainsi, bien que le nombre moyen de disparitions sur 2 ans soit (selon le modèle
déterministe) 1,3863, il y a une chance sur 4 qu'aucun proton ne meure, indiquant par
là qu'un tel résultat ne peut en aucune façon valider l'hypothèse originale sur la
désintégration des protons. •
6.3.1 Convolution
x+y-^a
/•oo Ça —y
fx(x)fy(y)dxdy
J —OO J — OO
(6.17)
Çœ Ça-y
fx(x)dxfY{y)dy
J — OO J —OO
r oo
Fx(a-y)fY(y) dy
J — OO
j r°o
/ x + y(a) = — J Fx(a-y)fY{y)dy
-J: /x(a-y)/y(y) ^
SOLUTION. On a
< a< 1
sinon
En application de (6.18), on peut écrire
fx+Y(a) =
Pour 0 ^ a ^ 1, on obtient
Variables aléatoires simultanées 257
Ainsi
(a 0<a<l
fx+Y{a)=h- a \<a<2
(0 sinon •
6.3.2 Additivité de la loi Gamma
On se souvient que la densité d'une variable aléatoire suivant une loi gamma est
de la forme
où (k,t) est le couple des paramètres spécifiques à cette variable. La famille des
distributions gamma possède une importante propriété d'additivité lorsque X est
constant. Enoncé autrement, lorsque X est constant, la famille est stable pour la
convolution; ce qu'explicite le théorème suivant:
Théorème 6.1
Si X et Y sont deux variables indépendantes suivant des lois gamma de paramètres
respectifs (s, X.) et (t, X,), X + Y sera également une variable de loi gamma avec
paramètres (s + t, K).
= Ce a
Il est à partir de là facile de démontrer par induction que si Xt, i = 1,..., n sont
des variables indépendantes suivant des lois gamma de paramètres respectifs (?,, X),
i = 1,..., n, alors £ Xl suivra aussi une loi gamma de paramètres (S f-, X). Ce travail
;=1 i=l
_|e-1/2y(|y)1/2-1
V 77
SOLUTION. Sans faire le moindre calcul, on peut déterminer que X + Y suit une loi
binomiale de paramètre (n + m, p). Il suffit de revenir à l'interprétation qui présente
une variable binomiale X de loi notée b(n, p) comme le nombre de succès obtenus lors
de la répétition de n épreuves indépendantes ayant chacune une probabilité p de
succès. Si Y compte le nombre de succès de probabilité p lors d'une suite de m
épreuves, et si de plus X et Y sont indépendantes, alors X + Y peut représenter le
nombre de succès de probabilité p lors d'une suite de n + m épreuves. Il s'agit bien
là d'une variable de loi binomiale b(n + m, p). Mais on peut établir ce même résultat
de manière analytique:
- £ P{X = i}P{Y = k - i}
1=0
P(EF)
P(E\F) = —
(
' ' P(F)
Il est naturel à partir de là de définir la loi de probabilité de X sous la condition
Y = y:
Variables aléatoires simultanées 261
P{X = x,Y = y}
P{Y = y}
_ p(x, y)
Pviy)
pour tous les cas où pY(y) > 0. On définit également la fonction de répartition
conditionnelle de X, sachant que Y = y, pour autant que py(y) > 0 toujours:
FxlY(x\y) = P{Xsx\Y = y}
= I Px\Y(a]y)
On constate donc que les définitions sont exactement les mêmes que dans le cas où
il n'existe pas de condition. Simplement, les probabilités sont toutes modifiées par le
fait que l'on sache que Y = y.
Lorsque X et Y sont indépendantes, les lois conditionnelles et non conditionnelles
sont identiques. On peut se convaincre de cette évidence grâce au calcul suivant:
Pxiy{x\y)=P{X = x\Y = y}
P{X = x,Y = y}
P{Y = y}
P{X = x}P{Y = y}
P{Y = y}
= P{X = x}
p(0,0) = .4 p ( 0 , l ) = .2 p ( l , 0 ) = .l p ( l , l ) = .3
M D = I PU 1) = p(0,1) + p(l, 1) = .5
X
Ainsi
Pxiv(0|l) = — - — = -
PY(1) 5
et
PX|Y(1|1) = „ n , =7
PYW 5 •
262 Initiation aux probabilités
Soient A' et F des variables de densité conjointe J[x, y). On définit la densité
conditionnelle de X sous la condition Y = y, et lorsque fY(y) > 0 par la relation
/
^ (x|y) = 7^ô
On peut donner un fondement intuitif à cette définition en multipliant le membre de
gauche par dx et celui de droite par (dx dy)/dy pour obtenir
f(x,y)dxdy
M*\y)dx= fY{y)dy
P{x < X < x + <jjç y < Y s y + dy}
P{y < F < y + dy}
= F { x < A ' < x + rfx!y< Y < y + dy}
Variables aléatoires simultanées 263
P { X e A | y = y} = J fxlY(x\y)dx
! >
Si en particulier on choisit A = ( — oo, a], on aboutit à la définition de la fonction de
répartition conditionnelle de X sous la condition Y = y:
Il faut noter le fait que les notions qui viennent d'être présentées permettent le
calcul de probabilités conditionnelles même dans les cas où la probabilité de la
condition (à savoir Y = y) est nulle, ce qui est assez remarquable.
,. , fêx(2-x-y) 0<x<l,0<y<l
(.0 sinon
fx\Y(x\y) ~
/y (y)
y)
dx
- x
- x - y) dx
y)
x -
264 Initiation aux probabilités
f{x,y)=\ y
^0 sinon
fx\Y(x\y) -
h (y)
e~x/ye-y/y
e-yfî{\/y)e~x/ydx
= - e~x/y
y
Ainsi
P{X>l\Y = y}= -e~xlydx
Ji y
= -e~x/y
/y
= e
Comme dans le cas discret, X et Y ont une même densité conditionnelle et non
conditionnelle en cas d'indépendance. En effet, sous cette hypothèse
JX\Y(X\y) - — - - - fx(x) m
/y (y) /y (y)
P{N = n\X = x} tl
/*,*(*!*) = p{N = n} f(x)
6.5.1 Définition
~ e
fx ,X„ (-^i, > • • • ) *i„)
= e"f(Xl) • • • f(xn)
f e e e et
P\xl--<Xll)<x1+-,...,xn--< X(n) < xn + - j
~ «!*"/(*,) •••/(*„)
Il existe une justification intuitive à (6.19): dès que (A",, X2,..., X„) prend pour valeur
l'une des n\ permutations de (x,, x2,..., xn), les variables conjointes (X{]), A"(2),..., XM)
Variables aléatoires simultanées 267
prennent pour valeur (je,, x2,—, xn) précisément. Il y a d'ailleurs équivalence. Comme
la densité de probabilité pour toute permutation de (xt, x2,..., xn) est/fa,) ...f(xn),
(6.19) se trouve expliquée.
Exemple 6.23 Trois personnes sont échelonnées «au hasard» sur une route de un
kilomètre de longueur. On se demande la probabilité que les personnes soient espacées
d'au moins d kilomètre, d étant inférieur ou égal à 0,5.
/x (1) ,x (2) ,x (3) (*i, x2, x3) = 3! 0 < Xi < x2 < x3 < 1
on peut écrire
La probabilité cherchée, à savoir celle que les personnes soient espacées d'au moins
d kilomètre, est donc (1 — 2df lorsque d < 0,5. Grâce à un calcul analogue, on peut
établir que la probabilité correspondante lorsqu'on place n personnes au hasard sur
une route mesurant un kilomètre de longueur est
268 Initiation aux probabilités
partitions de n nombres en trois groupes tels que ceux décrits. Par conséquent la
densité de X(j) sera
3!
Ainsi
16
F
«»w= (H-y^'y-t), J jFwy^n - Fwrw dx (6.21)
Mais il existe une autre méthode assez directe pour le calcul de Fx . En effet, X(j)
prendra une valeur inférieure à un nombre y si et seulement si7 des variables au moins
prennent des valeurs inférieures ou égales à y. Comme le nombre des variables Xt à
valeur inférieure ou égale à y est une variable binomiale de paramètres {n, p = F(y)),
on peut écrire
f ( \= "!
(i-l)!(/-i-l)!(n-y)!
x [F(x i )] i " 1 [F(x ; ) - F ( x 1 ) r ' " I [ l - F(jc y )r"'/U,)/(*/) (6-24)
P{i?<a} = P{X(„)-X(1)<a}
• JJ
x—x, ^a
fxnhx{„)(xi,xn)dxldxn
270 Initiation aux probabilités
et donc
P{R (6.25)
L'évaluation explicite de (6.25) n'est possible que dans quelques cas particuliers. Par
exemple, celui où les Xt sont uniformément distribuées dans (0, 1). On obtient alors
en appliquant (6.25) et pour 0 < a < 1:
a}=n\
Jo
— a)a +a
5*0
Sous ces conditions, on peut montrer que les variables Y{ et Y2 sont conjointe-
ment continues et de densité
/VI.Y-2 (yi. Ï2) = /x,.x 2 (*i, x2)\J(Xi, x 2 ) r ' (6.26)
1 1
1 -1
Comme la solution du système _V|= * , + x2, y2= xt— x2 est xt= (yt + y2)/2,
2 07! — >,2)/2, l'application de (6.26) livre
x =
/ t ^- 1 / (y±±li yi - y 2 \
/vi.v 2 ^yi» yi) - ^jxi.Xi 1 2 ' 2 /
Dans le cas où A', et X2 sont indépendantes et uniformes sur (0, 1), ce dernier résultat
devient
, , v .z „-y1 + y2s2,0<y1-y2<2
/y„v2(yi,y2)= n
1n
sinon
Si, par contre, X{ et X2 sont indépendantes et exponentielles de paramètres Xt et X2
respectivement, on obtient
/y„y2(yi.y2)
741
Exemple 6.27 On désigne par (X, Y) les coordonnées d'un point aléatoirement choisi
dans le plan. On suppose que X et Y sont de distribution normale centrée et réduite.
On voudrait connaître la distribution de R et 9, les coordonnées polaires du même
point (voir figure 6.5).
agi x Sgj y
Variables aléatoires simultanées 273
2TT
•rVl
A titre d'illustration, lors du tir sur une cible bidimensionnelle, il peut arriver que les
erreurs verticale et horizontale soient de distribution normale centrée réduite. Dans
ce cas, la distance entre le centre de la cible et l'impact du tir suit une distribution de
Rayleigh.
Ces résultats sont remarquables. Il n'est en effet pas évident a priori que le vecteur
des erreurs, dont les coordonnées aléatoires sont de distribution normale centrée
réduite et indépendantes, soit d'orientation uniformément répartie, et ce, de plus, à
n'importe quelle distance du centre.
On peut ainsi s'intéresser à la distribution conjointe de .R2 et 9: le Jacobien de la
transformation d = gx{x, y) = x2 + y2, 9 = g2(x, y) = Arc tg (y/x) étant
J = = 2
on voit que
passage aux coordonnées polaires. On vient de voir que si Xt, X2 sont indépendantes
et normales standard, alors R2 = X\ + X\ et 0 seront indépendantes, R2 étant de plus
de distribution exponentielle avec paramètre A. = j . Or, — 21n (7, suit une telle
distribution puisque, lorsque x > 0,
= 1
Par ailleurs, on peut utiliser pour simuler 0 la variable 2nU2 qui suit une loi uniforme
sur (0, 2TC). De ce fait, en posant
R2
peut être considéré comme le carré de la distance à l'origine et 0 l'angle donnant
l'orientation du point (A'l, X2). Comme Xx = R cos 0 et X2 = R sin 0, les deux variables
seront bien indépendantes et normales centrées réduites. •
Exemple 6.29 Soient X et Y deux variables aléatoires indépendantes suivant des lois
gamma de paramètres respectifs (a, A.) et (P, A.). On veut connaître la densité conjointe
de U = X + y e t K = X/(X + Y).
T(a)T(P)
Mais, si g^x, y) = x + y, g2(x, y) = x/(x + y), alors
9g i = ^gi = l agi dgi
dx dy dx (x + y) Sy (x + y)
et ainsi
1 1
J(x, y) = y x
(x + y)1 (x + yY x+y
r(a + p) rwnp)
On constate que X + Y et X/(X + Y) sont indépendantes; de plus, X + Y suit une
loi gamma de paramètres (a + P, X) tandis que X/(X + Y) suit une loi bêta de
paramètres (a, p). On peut de plus en tirer que B(a, P), le facteur d'ajustement dans
l'expression de la densité des variables bêta, est
L'approche du cas général est similaire. On a ici n variables A',, X2,..., Xn de densité
conjointe connue et l'on s'intéresse à la densité conjointe de Yt, Y2,..., Yn où
dgi
dgn dgn
276 Initiation aux probabilités
On admettra encore que le système d'équations j>, = g,(jC|,..., x„), y2= g2(xi,..., x„),...,
y„ = gn(xi,..., x„) a une solution unique notée x, = hx(yu..., y„),..., xn = h„(yt,..., y„).
Si ces conditions sont réalisées, la densité conjointe des variables Yi est
Exemple 6.30 Les trois variables Xx, X2, et X^ sont normales centrées réduites et
indépendantes. On cherche ici la densité conjointe de Yx= Xl+ X2+ X3, Y2= X{ —
X2, F3 = X]— Xy
1 1 1
J= 1 -1 0 = 3
1 0 -1
Yl + Y2 + Y3 _ Y1-2Y2+Y3 _ Yl+Y2-2Y3
Xl Xl X
~ 3 ~ 3 '~ 3
et par conséquent, d'après (6.28), la densité cherchée est
/y,,y2.y3(yi,y2.y3)
= lf / y , + y2 + y3 yx - 2y 2 + y3 y, + y2 - 2y 3 \
3 /x,.x 2 .x 3 ^ 3 ' 3 ' 3 /
Ainsi, comme
1
/x, .x2,x3 (Xi,X2,X3)
-!?.,«?/
T.f.,xî/2
(2,r) 3 ' 2 '
on voit que
,-0(y,.y 2 .y,)/2
/v1.v2.y,(yi,y2,y.->) = ,V2
3(2TT-
Q(yi,y2,y3) = (^^)2 +(
yi 2y 2 + y + y + y 2y
~ 3 "Ï { ' 3 " /^
y, 2 2 2 2 . 2
=
7+3y2 + 3y3~3y2*-
Variables aléatoires simultanées 277
6.7.3 Proposer une méthode utilisant le problème de l'aiguille de Buffon afin d'estimer n.
Il est assez surprenant de noter que c'était une méthode commune autrefois pour
estimer n.
6.7.7
a) Si X suit une distribution gamma de paramètres (t, X), quelle est la distribution
de cX, c > 0?
b) Montrer que
2A* 2 "
6.7.8 Soient X et Y des variables aléatoires continues indépendantes avec des fonctions
taux de panne respectives Xx(t) et XY(t), et soit W = min (X, Y).
278 Initiation aux probabilités
6.7.10 Les durées de vie de batteries sont des variables aléatoires indépendantes
exponentielles de même paramètre X. Une torche électrique a besoin de 2 batteries
pour fonctionner. Si l'on a une torche et n batteries de réserve, quelle est la distribu-
tion du temps de fonctionnement de la torche?
6.7.11 Soient X{, X2, X3, X^ et X5 des variables aléatoires continues indépendantes
identiquement distribuées de fonction de répartition F et de densité/et soit
/ = P{X, < X2 > X3 < X4 > X5}
a) Montrer que / ne dépend pas de F. Pour cela, exprimer / comme une intégrale à
5 dimensions et effectuer le changement de variables u, = F(x:), / = 1,..., 5.
b) Evaluer /.
6.7.13 Dans l'exemple 6.22, nous avons calculé la densité conditionnelle de la proba-
bilité d'obtenir un succès, qui était variable, ceci sachant qu'une suite de n + m
premières épreuves avait donné n succès. Est-ce que cette densité conditionnelle aurait
changé si, parmi toutes les épreuves, nous avions spécifié celles représentant les n
succès?
6.7.17 Soit Xt, X2, X3 trois variables aléatoires continues indépendantes et identique-
ment distribuées. Calculer:
6.7.18 Soit U une variable aléatoire uniformément distribuée sur l'intervalle (0, 1).
Calculer la distribution conditionnelle de U étant donné que:
• U > a;
• U <a
où 0 < a < 1.
6.7.19 Supposons que W, le taux d'humidité de l'air un jour donné, soit une varia-
ble aléatoire gamma de paramètres (t, P). Cela veut dire que sa densité est
j\w) = Pe~p"(PH>)'~'/r(0, w > 0. Supposons également qu'étant donné que W = w, le
nombre d'accidents durant ce jour - appelons le N - suit une distribution de Poisson
de moyenne w. Montrer que la distribution conditionnelle de W, étant donné que
N = n, est la distribution bêta de paramètres (t + n, P + 1).
6.7.20 Soit W une variable aléatoire gamma de paramètres (t, p) et supposons que
conditionnellement à W = w, A',,..., Xn sont des variables aléatoires exponentielles
indépendantes de paramètre w. Montrer que la distribution conditionnelle de W, étant
donné que A"|= x„ X2= x2,..., Xn = x„, est la distribution gamma de paramètres
(t + n, P + Z Xi).
1 3 2
0 - 2 6
.5 12 3
6.7.22 On dit que les variables aléatoires A'et y ont une distribution normale bivariée
si leur fonction de densité conjointe est donnée par:
Zncrxay\/1 — p
P
l 2(l-p2)L\ crx ) \ ay ) P
axay Jj
Px + p— (y-fiy) et a2x(\ - p 2 )
• Montrer que X et Y sont toutes deux des variables aléatoires normales de paramè-
tres |i v , a 2 v et \iy, a2y respectivement.
• Montrer que X et Y sont indépendantes quand p = 0.
6.7.24 Montrer que si n personnes sont réparties au hasard le long d'une route de L
km, alors la probabilité de ne jamais rencontrer deux personnes situées à une distance
inférieure à D km est [1 — (n — \)DjL\", dans le cas où D < L/(n — 1). Qu'en est-il
si D > L/(n - 1)?
6.7.27 Vérifier l'équation (6.24) qui donne la densité conjointe de X(i) et X^.
6.7.29 Soient Xm ^ X(2) ^ ... ^ X(n) les valeurs ordonnées de n variables aléatoires
uniformes sur l'intervalle (0, 1). Prouver que pour 1 < k < n + 1
P{X{k)-X{k-l)>t} = (l-tf
où X0 s 0, Xn+1 = t.
6.7.32 Soient A',,..., Xn des variables aléatoires indépendantes et uniformes sur l'inter-
valle (0, 1). Soit/? = X{n) — X(V) l'étendue et M = [X{n) + X(i)]/2 le milieu de l'étendue.
Calculer la fonction de densité conjointe de R et M.
6.8 PROBLÈMES
6.8.2 Supposer que 3 balles sont tirées sans remise d'une urne contenant 5 balles
blanches et 8 balles rouges. Soit X, égal à 1 si la j-ème balle sélectionnée est blanche
et égal à 0 sinon. Donner la loi de probabilité conjointe de
a)X,,X 2 ;
b)X 1( X 2 , X3.
6.8.3 Dans le problème 6.8.2, supposer que les balles blanches sont numérotées et soit
y, égal à 1 si la j'-ème balle blanche est tirée et égal à 0 sinon. Trouver la loi de
probabilité conjointe de
a)y,,K 2 ;
b) Yh Y2, y 3 .
6.8.4 Recommencer le problème 6.8.2 lorsque chaque balle tirée est remise dans
l'urne avant le tirage suivant.
6.8.5 Recommencer le problème 6.8.3 lorsque chaque balle tirée est remise dans
l'urne avant le tirage suivant.
68.7 On considère une suite d'épreuves de Bernoulli indépendantes avec une probabi-
lité de succès p pour chacune d'entre elles. Soit X{ le nombre d'échecs avant le premier
succès et X2 le nombre d'échecs entre le premier et le second succès. Trouver la loi
de probabilité simultanée de Xt et X2.
/U,>0=^(* 2 + y ) 0<x<l,0<y<2
Trouver:
a) P{X < Y};
b) P{X < a).
6.8.11 Le propriétaire d'un magasin de télévision évalue que 45 % des clients entrant
dans son magasin achètent un appareil de télévision ordinaire, 15% achètent un
appareil de télévision couleur et 40% d'entre eux font juste du lèche-vitrine. Si cinq
clients entrent.dans son magasin un jour donné, quelle est la probabilité qu'il vende
exactement 2 appareils ordinaires et 1 poste TV couleur ce jour-là?
6.8.12 Le nombre de personnes qui entrent dans un magasin durant une heure donnée
est une variable aléatoire de Poisson de paramètre X = 10. Déterminer la probabilité
conditionnelle qu'au plus 3 hommes entrent dans ce magasin, étant donné que 10
femmes y sont entrées durant cette heure-là. Quelles hypothèses faites-vous?
6.8.14 Une ambulance fait la navette à vitesse constante le long d'une route de
longueur L. A un certain moment, un accident se produit en un point aléatoire qui
est uniformément distribué sur la route (c'est-à-dire que la distance de ce point à une
extrémité de la route servant de référence est uniformément distribuée sur l'intervalle
(0, L)). En supposant que l'emplacement de l'ambulance, au moment de l'accident,
est aussi uniformément distribué, calculer, en admettant les hypothèses d'indépen-
dance nécessaires, la distribution de la distance de l'ambulance au point de l'accident.
6.8.15 Le vecteur aléatoire (X, Y) est distribué uniformément dans une région R du
plan si, pour une constante c, sa densité conjointe est
, x je si {x,y)eR
[0 sinon
6.8.16 Supposer que n points sont indépendamment choisis au hasard sur le périmètre
d'un cercle et qu'on cherche la probabilité qu'ils se trouvent tous sur le même demi-
cercle. (Autrement dit, on cherche la probabilité qu'il y ait une ligne passant par le
centre du cercle de telle sorte que tous les points choisis soient du même côté de cette
ligne.)
284 Initiation aux probabilités
Soient P\, ..., Pn les n points choisis. Soit A l'événement «tous les points sont situés
sur un demi-cercle», et soit A, l'événement «tous les points sont dans le demi-cercle
commençant au point P, et partant dans le sens des aiguilles d'une montre à 180°, i -
1,..., n».
a) Exprimer A en termes de Aj.
b) Les A, sont-ils mutuellement exclusifs?
c) Trouver P{A).
6.8.17 Trois points Xs, X2, Xi sont choisis au hasard sur une droite de longueur L.
Quelle est la probabilité que X2 se trouve entre Xt et X{!
6.8.18 Deux points sont choisis sur un segment de longueur L, de manière à ce qu'ils
soient de part et d'autre du milieu du segment. En d'autres termes, les deux points
J e t y sont des variables aléatoires indépendantes telles que X soit uniformément
distribué sur (0, L/2) et Y soit uniformément distribué sur (L/2, L). Trouver la
probabilité que la distance entre les deux points soit plus grande que L/3.
6.8.19 Dans 6.8.18, trouver la probabilité que les trois segments de droite, de 0 à X,
de X à y et de Y à L, puissent constituer les trois côtés d'un triangle (noter que trois
segments de droite peuvent former un triangle si la longueur de chacun d'entre eux
est inférieure à la somme des longueurs des deux autres).
,, , \xe~{x+y) x>0,y>0
/(*. y) = n
10 sinon
[2 0<x<y,0<y<l
f(x y)
' [0 sinon
6.8.21 Supposons que 106 personnes arrivent à une station-service à des temps qui sont
des variables aléatoires indépendantes, chacune de ces variables étant uniformément
Variables aléatoires simultanées 285
distribuée sur l'intervalle (0, 106). Soit TV le nombre de personnes qui arrivent pendant
la première heure. Trouver une approximation pour P{N = i).
Déterminer la densité de W.
6.8.26 L'espérance du nombre d'erreurs typographiques sur une page d'un magazine
est .2. Quelle est la probabilité qu'un article de 10 pages contienne a) 0 et b) 2 ou plus
erreurs typographiques? Expliquer votre raisonnement!
6.8.27 Le nombre moyen d'accidents d'avion par mois dans le monde est 2.2. Quelle
est la probabilité qu'il y ait
a) plus de 2 accidents le mois prochain;
b) plus de 4 accidents les deux prochains mois;
c) plus de 5 accidents les trois prochains mois?
Expliquer votre raisonnement!
6.8.28 La recette hebdomadaire d'un restaurant est une variable aléatoire normale de
moyenne $2200 et d'écart-type $230. Quelle est la probabilité que
a) la recette totale des deux prochaines semaines dépasse $5000;
b) la recette hebdomadaire dépasse $2000 lors d'au moins deux des trois prochaines
semaines?
Quelle hypothèse d'indépendance avez-vous faite?
286 Initiation aux probabilités
6.8.33 Choisissons un nombre X au hasard dans l'ensemble des nombres {1, 2, 3, 4, 5}.
Puis choisissons au hasard un nombre du sous-ensemble {1, 2,..., X}. Appelons Y ce
second nombre.
a) Trouver la loi de probabilité simultanée de X et Y.
b) Trouver la loi de probabilité conditionnelle de X, étant donné que Y = /. Le faire
pour / = 1, 2, 3, 4, 5.
c) X et Y sont-elles indépendantes? Pourquoi?
6.8.34 On jette deux dés. Soient X et Y respectivement la plus grande et la plus petite
des valeurs obtenues. Calculer la loi de probabilité conditionnelle de Y, étant donné
que X = i pour ; = 1, 2,..., 6. X et Y sont-elles indépendantes? Pourquoi?
6.8.38 Si Xx, X2, X3 sont des variables aléatoires indépendantes uniformément distri-
buées sur l'intervalle (a, b), calculer la probabilité que la plus grande des trois soit
plus élevée que la somme des deux autres.
6.8.39 Une machine complexe est effectivement opérationnelle tant que trois au moins
de ses cinq moteurs fonctionnent. Si pour chaque moteur la durée de fonctionnement
est une variable aléatoire indépendante, dont la densité est/(A:) = xex, x > 0, calculer
la densité du temps de fonctionnement de la machine.
6.8.40 Si trois camions tombent en panne en des endroits aléatoirement distribués sur
une route de longueur L, trouver la probabilité que chaque camion soit à une distance
supérieure à d des deux autres lorsque d ^ L/2.
6.8.42 Si Xx, X2, X3, X4, X5 sont des variables aléatoires exponentielles indépendantes,
identiquement distribuées et de paramètre X, calculer:
a) P{mm(Xh..., Xs) «c a} et
b) P{max(Xly..., X5) < a}.
6.8.44 Soient X et Y les coordonnées d'un point choisi de façon uniforme dans un
cercle de rayon 1 centré à l'origine, c'est-à-dire que leur densité conjointe est:
/(*, y) = - x2 + y2 < 1
6.8.45 Si A'et Ksont des variables aléatoires indépendantes toutes deux uniformément
distribuées sur l'intervalle (0, 1), trouver la densité conjointe de R = \jx2 + Y2 et
9 = Arctg(Y/X).
6.8.46 Si U est uniforme sur l'intervalle (0, 2TT) et Z, indépendante de U, est exponen-
tielle de paramètre 1, montrer directement (sans utiliser les résultats de l'exemple 6.27)
que X et Y définies par:
288 Initiation aux probabilités
X = yJlZ cos U
Y = y/ÏZ sin U
/Uy)=-T-2 *>l,y>l
x y
a) U = X + Y, V = X/Y;
b) U = X, V = X/Y;
c) U = X + Y, V = X/(X + Y).
6.8.49 Refaire le problème 6.8.48 quand X et Y sont des variables aléatoires indépen-
dantes exponentielles, chacune de paramètre X = 1.
6.8.52 Dans l'exemple 6.30, montrer que Y2 et y3 ont une distribution normale
bi variée.
6.8.53 Les âges de futurs parents contrôlés dans un hôpital sont approximativement
distribués suivant une loi normale bivariée de paramètres ux = 28,4, o\ = 6,8,
u, = 31,6, a, = 7,4 et p = 0,82. (Les paramètres avec l'indice x se réfèrent à l'âge de
la future mère et ceux indicés par y à l'âge du futur père.) En utilisant les résultats de
l'exercice théorique 6.7.22, déterminer
a) la proportion de femmes enceintes âgées de plus de 30 ans,
b) la proportion de futurs pères âgés de 35 ans dont la femme a plus de 30 ans.
CHAPITRE 7
Propriétés de l'espérance
7.1 INTRODUCTION
7.1.1 Rappel
lorsque X est une variable aléatoire discrète de fonction de répartition p(x) et par
E[X] = ]xf{x)dx
Puisque E[X] est une moyenne pondérée des valeurs possibles de X, alors, si X est
compris entre a et b, son espérance l'est aussi.
Si
P{a < X < b} = 1
alors
a < E[X] < b
Pour vérifier ce qui précède, on suppose que X est une variable aléatoire discrète
pour laquelle P{a < X < b} = 1. Puisque ceci implique que p(x) - 0 pour tout x
290 Initiation aux probabilités
£[*]= I xp(x)
x:p(x)>0
> Z ap(x)
*:p(x)>0
x:p(i)>0
=a
De la même manière, on peut montrer que E[X] < b et le résultat est donc montré
pour les variables aléatoires discrètes. Comme la preuve dans le cas continu est
similaire, le résultat est démontré.
Théorème 7.1
Si X et Y sont discrètes et ont pour loip(x, y) alors
E[g{X,Y)] = ^g{x,y)p{x,y)
x
y
E[g(X,Y)]=] ]g(x,y)f(x,y)dxdy
—oo —oo
On a
-x)
Donc
dx
Admettons que deux variables X et Y ont des espérances E[X] et E[Y] finies. On
pose g(X, Y) = X + Y. En appliquant le théorème 7.1, on obtient, dans le cas continu,
= \ZoXfx{x)dx + \ZayfY{y)dy
= E[X] + E[Y]
X>Y
292 Initiation aux probabilités
Ceci signifie que pour tout résultat d'une expérience, la valeur de la variable X est
supérieure ou égale à celle de la variable Y. Puisque l'inégalité précédente est
équivalente à X - Y > 0, on a E[X - Y] > 0 ou, de manière équivalente,
En utilisant l'équation (7.1), une démonstration par induction permet d'établir sans
difficulté que si E[Xt] est finie pour tout i = 1, .... n, alors
L'équation (7.2) est d'une grande utilité comme le montrent les exemples du
paragraphe suivant.
SOLUTION.
E[x] = E
.1=1 n .
= -£ ixi
n U=i
1i r i
n i=i
puisque £[*,] = H
SoitX = IX,..
i=i
X> Y
Donc
E[X] > E[Y]
Mais puisque
£M=i4 x .] = ^(A)
et « • = ' ' • = '
pfÙA^ÎpiA,)
\i=\ J 1=1 _
Les trois prochains exemples montrent comment on peut utiliser l'équation (7.2)
pour calculer l'espérance des variables aléatoires binomiale, binomiale négative et
hypergéométrique. Ces méthodes peuvent être comparées à celles présentées au
chapitre 4.
X = X, + X2 +... + Xn
où
1 si la i - ième épreuve est un succès
X: = ,
[0 si la i - ième épreuve est un échec
Chaque variable X, est une variable de Bernoulli ayant par conséquent pour espérance
£[*,•] = l(p) + 0(1-/7)= p. D'où
X=Xl+X2+... + Xr
X = Xl + X2+... + Xm
où
[1 si la i - ième boule blanche a été tirée
[0 si elle ne l'a pas été
Or
£[X,.] = P{X,.=1}
= P{la i - ième boule blanche a été tirée }
n
N
Propriétés de l'espérance 295
Et donc
X=Y1 + ... + Yn
où
1 si la i - ième boule tirée est blanche
[0 sinon
Or les chances pour chacune des N boules d'être tirée en j'-ème position sont les
mêmes. Par conséquent,
4^1=-
L J
et par suite N
E[Xi] = P{Xi = l} = jj
On conclut qu'en moyenne un participant seulement aura ramassé son propre cha-
peau. •
296 Initiation aux probabilités
Exemple 7.9 Le problème ci-dessous fut posé pour la première fois et résolu par
Daniel Bernoulli au 18e siècle. On suppose qu'une urne contient 27V cartes, deux
d'entre elles portant le numéro 1, deux autres le 2, deux autres le 3, etc. On tire m
cartes au hasard. Quel est le nombre moyen de paires encore présentes dans l'urne
après ce tirage? (Il est intéressant de savoir que Bernoulli a proposé ce modèle comme
l'un de ceux permettant de déterminer combien de couples mariés il reste après la mort
de m personnes dans un groupe composé exclusivement de couples au départ, au
nombre de AB-
SOLUTION. On définit pour /' = 1, 2,..., N
{ 1
0
si la î'-ème paire est intacte
si elle a disparu, totalement ou en partie
Or
E[X{\ = P{Xt = 1}
=
e:)
(2N-2)!
m!(2N-2-m)!
(2AQ!
m!(2JV-m)!
(2N - m)(2N - m - 1)
(2JV)(2N-1)
SOLUTION.
a) Soit X le nombre de sortes différentes représentées dans le lot de taille n considéré.
On calcule E[X] en utilisant la décomposition
X = X, + • • • + XN
ou
1 si la sorte i est représentée dans le lot
X,=
.0 si elle ne l'est pas
Or
E[X,] = P{Xt = 1}
= 1 — f{la sorte i n'est pas représentée dans le lot}
=1
•m'
Donc
y = Y0+Yi + ---+YN.l
Lorsque / sortes sont déjà représentées, un nouveau bon sera d'une nouvelle sorte avec
probabilité (N — i)/N. Par conséquent,
N-i
ce qui entraîne
298 Initiation aux probabilités
Exemple 7.11 Dix chasseurs guettent le passage d'un vol de canards. Lorsque les
canards passent en groupe, les chasseurs font tous feu en même temps, mais chacun
choisit sa cible au hasard, indépendamment des autres. On admet que chaque chas-
seur touche son canard avec la même probabilité/?. Combien de canards survivront-ils
au tir lorsque le vol se compose de 10 oiseaux?
SOLUTION. Disons que la variable A", vaudra 1 si le z'-ème canard survit et 0 sinon,
i = 1, 2,..., 10. Le nombre moyen de canards épargnés sera
Pour le calcul de E[XS] = P{Xj = 1}, on remarque que chacun des tireurs atteindra
indépendamment des autres le i-ème canard avec la probabilité p/\0. Aussi,
Et donc
B[X]-10(l-£)"
et par conséquent
n+ m
£[c(i)]= I £[/,]
1= 1
Or
E[Ii) = P{\e premier caractère est un 1}
n
n+ m
Propriétés de l'espérance 299
E [ C ( l ) j > ^ - + (n + m - l ) ""*
n+m (n + m)(n + m — 1)
De manière similaire, E[C(0)], le nombre moyen de séquences de 0, sera
£[C(0) = — - + ^ —
n+ m n+m
2nm
E[C(1) + C ( 0 ) ] = 1 +
Exemple 7.13 On pose une à une les cartes d'un jeu ordinaire sur une table, ouvertes
et côte à côte. On se demande combien il faut poser de cartes en moyenne pour obtenir
a) le premier as;
b) le premier pique.
SOLUTION. Les questions a) et b) ne sont que des cas particuliers du problème plus
général suivant: une urne contient n boules blanches et m noires. On prélève ces boules
une à une jusqu'à ce que la première boule blanche apparaisse. Si on désigne par X
le nombre des boules alors prélevées, quelle est l'espérance de XI
Pour résoudre la version générale du problème, on va rendre distinguables les
boules noires de l'urne en les baptisant Nx, N2,..., Nm. Posons encore
Donc
Or, Xj vaudra 1 si la boule JV, est tirée avant toutes les boules blanches. Mais chacune
de ces n + 1 boules (à savoir les n blanches et la boule N,) a la même probabilité d'être
la première dans l'ordre des prélèvements, ce qui permet d'écrire
300 Initiation aux probabilités
et ainsi
m
Figure 7.1
où les 8„ j = 1, 2,..., n sont par hypothèse des variables uniformes sur (0, 2n). La
Propriétés de l'espérance 301
n n
position au bout de n sauts aura pour coordonnées (L Xh £ Y^). On voit donc que
/= i ;= i
la grandeur D2 cherchée, le carré de la distance de la particule à l'origine, est
r 2,r
E[sm 0,] = sin M du = cos 0 - cos 2TT = 0
on trouve Jo
2
£[£> ] = n
Pour déterminer dans quel cas (7.3) est valable, on calcule son premier membre en
x n
s'appuyant sur la relation S Xi = lim S Xi
i= 1 n-*x /= 1
= lim î E[X,]
= I £[*,] (7.4)
;=i
302 Initiation aux probabilités
Ces calculs - et par conséquent (7.3) - ne sont fondés que lorsque la permutation
de l'espérance et de la prise de limite est correcte à la deuxième ligne du calcul de
(7.4). Dans le cas général, cette permutation n'est pas justifiée. Cependant, on peut
montrer que dans les deux cas particuliers suivants elle est néanmoins acceptable:
a) les variables X, sont toutes à valeurs non négatives, ce qui signifie que P{Xi ^ 0} = 1 ;
b) ï E[\X,\] < oo.
«-{; si X < i
Alors
OO X OO
I X,; = I X, + I Xt
i= l 1= 1 i=X + l
X oo
= 11+ I 0
i=l i= X+l
=x
De ce fait, les A", étant toutes à valeurs non négatives,
00
E[X] = I E[Xi
SOLUTION. On numérote les éléments de telle manière que P(\) ^ P(2) ^ ... > P(n).
Nous allons montrer que 1, 2,..., n est la permutation optimale. Pour ce faire,
désignons par X la position de l'élément consulté. Pour toute permutation envisagea-
ble O = (',, ;2,..., /„
Propriétés de l'espérance 303
* L J»(y)
= Pia„..,n{X * fc>
ce qui montre bien que disposer les éléments dans l'ordre des probabilités décroissan-
tes minimise effectivement le temps moyen d'accès à un élément demandé. •
i - n (i - x,) HUA,
i=i W=i
Mais, puisque
S
A, a lieu
v X • • • X - < l
' Ai A
' '
A, A,. Aik - < Q sinon
on voit que
Ainsi (7.6) n'établit rien d'autre que la formule bien connue pour la réunion d'événe-
ments
P(IM,.) = 2P(Ai) - E E P(A,Aj) + X 2 2 P{AtAjAk)
i<j i<j<k
- • • • + (-1)" + , P(A, • • -An) m
304 Initiation aux probabilités
Le dernier exemple de cette section montre d'une autre façon que l'introduction du
hasard peut parfois être employée avantageusement.
On a
i
donc
E[x] = JdE[xi]
i
Mais
EyXij = P{ la permutation i est hamiltonienne}
Propriétés de l'espérance 305
Cette égalité est vraie car la probabilité qu'une permutation ilt ..., in soit
hamiltonienne est, par indépendance, la probabilité que ix batte i2 multipliée par la
probabilité que i2 batte i3, etc. On obtient donc
r -i ni
4*1-pr
Puisque, pour n > 2, X n'est pas une variable aléatoire constante, il existe au moins
une valeur possible dépassant n\/2n~ .
Théorème 7.2
Soient X et Y deux variables aléatoires indépendantes et h et g deux fonctions.
Alors
E[g(X)h(Y)] = E[g(X)]E[h(Y)]
E[g(X)h(Y)]=\ g(x)h(y)f(x,y)dxdy
J — oo J — oo
roo r ao
g(x)h(y)fx(x)fY(y)dxdy
J—oo J —
/•oo roo
= h(y)fY(y) dy \ g(x)fx(x) dx
J — oo J —oo
= E[/i( Y)]E[g(X)]
7.3.2 Covariance
La covariance de deux variables aléatoires quelconques X et Y est notée
Cov(X, Y) et est définie par l'expression:
306 Initiation aux probabilités
0 si X * 0
.1 siX = 0
Or XY est clairement nulle, donc ZsfA'F] aussi. Comme E[X] l'est aussi, il reste
Théorème 7.3
i) cov(x,y) = cov(y,x)
ii) Cov(X,X) = Var(x)
iii) Cov(aX, Y) = aCo\(X, Y)
f n m \ n m i ^
iv) cov ix,., i y, = Iicov x,,y.
n n m
i=i
E xy
£"'
Propriétés de l'espérance 307
et
f n n \f m m
Co nx m
E XX.--Z/U Xç-Sv,
\l ^r Vi=i 1=1 A/'=i ;'=i
= E\î{xi-ni)î(Yj-vj)
où la dernière égalité provient du fait que l'espérance d'une somme de variables est
égale à la somme des espérances. •
Les parties ii) et iv) du théorème 7.3, en prenant K, = Xj,j = 1,..., n, entraînent que
= XXCov(x,.,X,)
= XVar(x,.)+XXCov(x,.,r.)
i'=l i*j
Puisque chaque paire d'indice i,j, i *j, apparaît deux fois dans la double sommation,
l'expression ci-dessus est équivalente à
Var[ X X , ) = X V a r ( x . )
\I=1 J !=1
Exemple 7.19 Soient X\, ..., X„ des variables aléatoires indépendantes et identique-
ment^ distribuées de moyenne \i et de vanancecr , et, comme dans l'exemple 7.3,
soitX = XXj/ n l a moyenne de l'échantillon. Les quantités X, - X, i = l,...,n, sont
i=i
308 Initiation aux probabilités
appelées déviations car elles sont égales aux différences entre une donnée individuelle
et la moyenne de l'échantillon. Soit S2 la somme des carrés des déviations
S2
Hxi-x)
La variable aléatoire S21 {n - 1) est appelée la variance de l'échantillon. Trouver
a)Var(x);
b)E{s2/(n-l)].
SOLUTION.
a)
Var(x) = Q)var(£x,;
riY » f v
= — ZVar^XJ par indépendance
\nj i=i
a2
par indépendance
s2 = ï(xi-ti + n-x)
= î{xi-nf + ï(x-n)2-2(x-n)î(xi-n)
1=1 1=1 1=1
= î(xi-nf-n(x-nf
1=1
= (n-l)<7 2
L'exemple suivant présente une autre méthode que celle utilisée dans le chapitre 4
pour obtenir la variance d'une variable aléatoire binomiale.
X = X, + • • • + X„
où chaque A", est une variable de Bernoulli indépendante des autres et telle que
et donc
Var(X) = n p ( l - p ) •
De plus
Cov {Xi, X,) = £[X f X ; ] - £[X,]£[X y ]
Or
'1 si le i-ème et le j'-ème hommes récupèrent leurs propres chapeaux
<*> - {o
XJC, ...
sinon
et par conséquent
E[XiXi] = P{Xi = l,Xj = l}
= P{Xi = l}P{A} = l | X , = l}
1 1
N N-l
,, , v . N-l „/N\ 1
Var(X) = — + 2 ( 2 ) ^ - 1)
= Nj-J. J_
AT N
= 1
On constate donc que la variance du nombre de rencontres aussi bien que son
espérance valent 1. Ce résultat était d'une certaine manière prévisible puisqu'on a
montré à la section 2.5 que lorsque N est grand, la probabilité d'obtenir / rencontres
est approximativement e~ '/<!• Ceci revient à dire que pour A' grand toujours le nombre
de rencontres suit approximativement une loi de Poisson d'espérance 1. Comme
on a l'égalité de l'espérance et de la variance pour une variable poissonnienne, le
résultat obtenu est sans surprise. •
H:
Dès lors, S peut être écrite
sinon
donc
Comme
on voit que
Alors
312 Initiation aux probabilités
N
CTCI - - P
E[S\ = nv = np puisque v = — = p
n(N-n)
Si par ailleurs, plutôt qu'à S, on s'intéresse à S/n, la proportion dans l'échantillon des
électeurs favorables à notre condidat, on aura
7.3.5 Corrélation
La corrélation entre deux variables aléatoires X et Y est notée p(X, Y) et est définie
ainsi, pour autant que Var(A') Var(F) soit non nul:
Cov<x i ,
,«n- •'
vVar (X) Var ( Y)
Pour établir (7.9), admettons que X et Y aient des variances q? et aj, respectivement.
Propriétés de l'espérance
313
On a
0 < Var
D'autre part
entraîne
Alors
E[IA] = P(A)
E[IB] = P(B)
E[IAIB] = P(AB)
et ainsi
Cov (IA, IB) = P{AB) - P(A)P(B)
= P(B)[P(A\B)-P(A)]
On vient d'obtenir un résultat annoncé par une approche intuitive de la situation: les
variables indicatrices de A et B sont positivement corrélées, non corrélées ou négative-
ment corrélées selon que, respectivement, P(A \ B) est plus grande, égale ou inférieure
&P(A). •
Exemple 7.24 Soient Xi, .... Xn des variables aléatoires indépendantes et identique-
ment distribuées de variance a . Montrer que
Cov(x,. - X , x ) = 0
SOLUTION. _
Cov(x,. - X,X) = Cov(x,, x ) - C o v ( x , x )
= Cov(x,.,-î-£x.)-Var(x)
= -icov(xi>X.)-
n ;=i n
1 2
rr T
n n
par indépendance
résultat sera_établi dans la section 9 où nous montrerons aussi que, dans ce cas, la
moyenne X de l'échantillon et la variance de l'échantillon S / ( n - l ) sont
indépendantes et que S fa a une distribution chi-carrée avec n - l degrés de liberté.
(Voir l'exemple 7.19 pour la définition de S1.) u
résultats de probabilités Pt, P2,-, Pr avec £ Pt, = 1. On désigne par Njt i = 1,..., r
1=1
le nombre parmi ces m épreuves de celles qui aboutissent au résultat i. Nx, N2,—, Nr
suit alors une distribution multinomiale
P{Ni = n1,N2 = n2,...,N, = nr}
r
_ Hl p", rD»2 . . . r D", L n, = m
il irl 2 r
itil n2\... nr\ i= l
OÙ
Or, lorsque k J= l
Cov (/,(*), /.(/)) = 0
où l'on a utilisé la relation /,-(/)/.(/) = 0, puisque l'épreuve / ne peut donner les deux
résultats /' et j à la fois. On obtient donc
316 Initiation aux probabilités
Il est dès lors naturel de vouloir définir dans le cas discret l'espérance conditionnelle
de X sous la condition Y — y, pour autant que pY(y) > 0, par
E[X\ Y = y] = I xP{X = x| Y = y}
x
= IxPx\y(x\y)
X
, P{X = k,X+Y = m}
P{X = k\X+Y = m}= p { x + y = m}
où l'on a utilisé le fait que X + Y est une variable aléatoire binomiale de paramètres
2« et p (voir l'exemple 6.17). On conclut que la distribution conditionnelle de X,
sachant que X + Y = m, est hypergéométrique. D'après le résultat de l'exemple 7.7,
on sait que
E[X\X+Y = m~\ = ^
A-(y)
Il est donc naturel de définir l'espérance conditionnelle de X, dans le cas continu et
sous la condition Y = y, par
E[X\Y = y] = xfx]Y(x\y)dx
J —oo
Jo
On sait que les probabilités conditionnelles satisfont toutes les propriétés des
probabilités simples. De la même manière, les espérances conditionnelles ont toutes
les propriétés des espérances ordinaires, en particulier
!
g(*)/x|v(*l y) àx dans le cas continu
J —oo
et
Théorème 7.4
E[X] = E[E[X\Y]] (7.10)
DÉMONSTRATION. On suppose pour cette démonstration que A'et y sont deux variables
discrètes. On doit établir (7.11). Or, le membre de droite de (7.11) peut être réécrit
= I X xP{X = x, Y = y}
y *
= ZxZP{X = x,Y = y}
x y
= I xP{X = x}
X
= E[X]
Exemple 7.28 Un mineur est prisonnier dans un puits d'où partent trois tunnels. Le
premier de ces tunnels le mènerait à la sortie au bout de 3 heures de marche. Le second
le ramènerait à son point de départ au bout de 5 heures de marche, ainsi que le
troisième au bout de 7 heures. Si à chaque choix qu'il fait le mineur emprunte
n'importe quel tunnel avec la même probabilité, quelle sera la durée moyenne de sa
tentative de sortie?
Pour comprendre les équations (7.13), voyons le cas particulier E[X\ Y = 2]: si le
mineur emprunte le deuxième tunnel, il y passera 5 heures puis reviendra à son point
de départ. Une fois là, le problème est exactement le même qu'à l'origine. A ce point,
la durée moyenne de sa recherche est E[X]. C'est pourquoi E[X\ Y = 2) = 5 + E[X\.
Les arguments à la base des deux autres équations sont semblables. On a donc
finalement:
E[X] = 1(3 + 5 + E[X] + 7 + E[X])
ou
E[X] = 15
SOLUTION. Le nombre de clients par jour sera noté N, tandis que le montant dépensé
A»
par le client / est X{. Le chiffre d'affaires du magasin est donc X À",. Or
E^X,] = £^[1**1^
Mais
E [îxi N = n j|x,|JV = n
= nE[X]
où l'on a désigné par E[X\ l'espérance commune à tous les Xr Dès lors la variable
N
aléatoire notée E[L X(\ N] a pour expression ici
= NE[X]
[ï
E\ÏX;\N
ce qui entraîne
Dans notre exemple, le chiffre d'affaires moyen du magasin est donc de 50 x 8 = 400
francs par jour. •
Propriétés de l'espérance 321
Exemple 7.30 Une urne contient b boules blanches et n boules noires. On retire les
boules une à une jusqu'à ce que la première blanche apparaisse. Quel sera le nombre
moyen des boules noires tirées?
SOLUTION. On a déjà résolu ce problème dans l'exemple 7.13. Nous allons voir ici une
solution faisant appel à la technique du conditionnement. Désignons par X le nombre
des boules noires qu'il faut tirer. On notera E[X] = Mhn pour rendre explicite la
dépendance de cette espérance envers b et n. On va obtenir une expression de Mhn
en conditionnant sur la couleur de la première boule retirée de l'urne. On définit pour
cela Y ainsi:
c
si la première boule tirée est blanche
si elle est noire.
Conditionnons selon Y:
Mais
E[X\Y = 1] = 0
E[X\Y = 0] = 1 + Mhj_l (7.14)
Pour se convaincre de la validité de (7.14), supposons que la première boule tirée soit
noire. Après le premier tirage, la situation est exactement ce qu'elle aurait été au
départ si nous avions eu b boules blanches et n — 1 boules noires. D'où l'expression
de droite dans (7.14).
On connaît par ailleurs P{Y = 0} = nj{b + n), ce qui permet d'écrire
Mh,„ = [1 +A/fe,„-,]
b + n
Or Mh0 est évidemment nulle, à partir de quoi on peut faire les calculs suivants:
1
Mh [1 + MhJ = l
b +1 b +1
2 2 1 H
Mh [1 + A/,,,] 1+
b + 2 b + 2 b +1 b +1
3 3 2 3
Mh [1 + A/fti2] = 1 +
b + 3 ' b + 3 b +1 b +1
M'h,n
.b + 1
322 Initiation aux probabilités
Ces deux équations sont fondées. Si en effet la première épreuve est un succès, N
vaut évidemment 1, /V2 aussi. Si par contre cette épreuve est un échec, le nombre total
d'épreuves jusqu'à obtenir un succès suivra la même distribution que la variable A'
augmentée de 1 (le premier échec). On peut donc écrire E[N2\ Y = 0] = E[(N + l) 2 ],
puis
E[N2] = E[N2\ Y = l]P{Y = 1} + E[N2\ Y = 0]P{Y = 0}
=p+ (l-p)E[(l+N)2]
= 1 + (1 - p)E[2N + N2]
On a par ailleurs montré dans l'exemple 4.31 que E[N] = ï/p. Il reste donc
E[N2] = 1 + 2 ( 1 ~ P ) + (1 - p)E[N2]
P
ou encore
£[N2] = ^
Par conséquent
Var(N) = £ [ N 2 ] - ( £ [ N ] ) 2
i-P
~ 2
P •
Propriétés de l'espérance 323
Exemple 7.32 Soit U\, U2, ... une séquence de variables aléatoires uniformes (0, 1)
indépendantes. Trouver E[N] lorsque
et posons
m(x) = 4M*)]
N(x) est le nombre de variables aléatoires uniformes (0, 1) qu'on doit additionner pour
que leur somme dépasse x, et m(x) est son espérance. Nous allons maintenant donner
une équation pour m(x) en conditionnant sur U\. Cela donne, à partir de l'équation
(7.12),
On a
S1 y
4iV(*)fa
1 1 1
=?]J = {!., / \ lX (7-16)
[l + m(x-y) si y < x
La formule précédente est évidente lorsque y > x car si la première valeur uniforme est
y, alors le nombre restant d'uniformes à additionner est le même que si nous
commencions et que nous additionnions des uniformes jusqu'à ce que leur somme
dépasse x - y. En substituant (7.16) dans (7.15), on a
X
= l + j m(u)du en posant u = x - y
o
En dérivant cette équation, on a
m'(x) = m(x)
ou, de manière équivalente,
"'(*) _ t
m(x)
324 Initiation aux probabilités
ln[m(*)j = x + c
ou
m(x) = kex
m(x)=ex
Donc m(l), l'espérance du nombre de variables aléatoires uniformes (0, 1) qu'on doit
additionner pour que leur somme dépasse 1, est égale à e. m
f1 si E est réalisé
X =\
10 sinon
En conséquence de la définition de X, on aura:
E[X] = P(E)
E[X \ Y = y] = P(E | Y = y) pour toute variable Y.
On remarquera que si Y est une variable discrète pouvant prendre les valeurs v,,.r2,...,
>'„, et si on définit les événements F, pour i allant de 1 à « par F,• = { Y = v,}, (7.17)
se réduit à l'équation déjà connue
P ( E ) = £ F(£|F;)P(F,)
où F,,..., F„ sont des événements mutuellement exclusifs dont l'union est l'ensemble
fondamental.
Propriétés de l'espérance 325
P{X<y\Y = y}fY(y)dy
co
= I Fx(y)fY{y) dy
ou
/•co
Exemple 7.35 On admet qu'à toute heure I, le nombre de personnes qui se sont
rendues à une gare suit une loi de Poisson de paramètre croissant Xt. Si le premier
train s'arrêtant à cette gare repart à une heure aléatoire uniformément distribuée dans
l'intervalle (0, T) et indépendante de l'arrivée des passagers, quelles seront l'espérance
et la variance du nombre de passagers qui pourront prendre le train?
E [ N ( Y ) ] = AE[Y] = y
NE[X]
Ces relations sont valables, car lorsque N est connue, Z AT, n'est autre que la somme
;=i
d'un nombre fixe de variables aléatoires indépendantes. Dans ce cas, l'espérance et
la variance d'une telle somme sont simplement la somme des espérances et des
variances, respectivement. On applique maintenant la formule de variance condition-
nelle pour obtenir
Il arrive que l'on puisse observer la valeur d'une variable aléatoire X et qu'ensuite,
on souhaite prédire la valeur d'une autre variable Y en se basant sur ce que l'on sait
de X. Désignons parg(A') le prédicteur de Y, au sens où si éprend x pour valeur alors
g(x) est la valeur prédite de Y. On souhaite évidemment choisir g de telle manière que
la variable g(X) soit aussi proche que possible de Y. Un critère de qualité en matière
de prédiction est d'avoir minimisé E[(Y— g(X))2]. Nous allons montrer ci-dessous
que selon ce critère, le meilleur prédicteur de Kest g(X) = E[Y\X].
Théorème 7.6
Pour toute fonction g
DÉMONSTRATION.
A ce point, si A'est connue, on peut considérer E[Y\ X] — g(X) comme une constante.
Aussi a-t-on
E[(Y ~ E[Y\X])(E[Y\X]~ g(X))\X]
= ( £ [ Y \ X ] - g(X))E[Y- E[Y\X]\X]
= ( £ [ Y \ X ] - g(X))(E[Y\X] - E[Y\X])
=0 (7.21)
On tire de (7.20) et (7.21)
E[( Y - g ( X ) ) 2 | X ] a E[( Y - E[Y\X])2\X]
le pas final consistant à prendre l'espérance des deux membres de l'inégalité ci-dessus.
•
On peut donner un argument plus intuitif, quoique moins rigoureux, pour faire
comprendre le théorème 7.6. Il n'est pas difficile de montrer que E[(Y — c)2] est
minimale lorsque c = E[Y] (voir l'exercice théorique 7.10.5). Si donc, nous n'avons
aucune information, la meilleure prédiction de Y dans le sens de la minimisation du
carré moyen de l'erreur, est de déclarer que Y prendra comme valeur son espérance.
Si nous disposons d'une observation x de la variable X, le problème de prédiction se
pose exactement dans les mêmes termes qu'auparavant, à cela près qu'il faut considé-
rer toutes les probabilités et espérances comme conditionnelles, la condition étant
X = x. En résumé, la meilleure prédiction dans ce cas est de déclarer que Y prendra
pour valeur l'espérance conditionnelle de Y sous la condition X = x, ce qui est bien
ce qu'établit le théorème 7.6.
Propriétés de l'espérance 329
Exemple 7.37 On suppose que lefilsd'un homme de taille x (en centimètres) atteindra
une taille de distribution normale autour de x + 2 et de variance 10. Quelle est la
meilleure prédiction que l'on puisse donner sur la taille finale du fils d'un homme de
180 cm?
Y = X + 2 + e
Exemple 7.38 On suppose qu'un signal d'intensité s lors de son émission en A est
perçu en B avec une intensité aléatoire normalement distribuée, de paramètres (s, 1).
Or le signal émis en A est lui aussi une variable aléatoire 5, normale de paramètres
(u, G 2 ). On observe en B un signal que l'on note R. Quelle est la meilleure estimation
de l'intensité d'émission si l'on enregistre R = ri
/si (5|r)=
* i^r
_fs(s)fR\s(r\s)
(s--2
330 Initiation aux probabilités
fs\it(s\r) = C e x p
l (ï£)
où C ne dépend toujours pas de s. On en déduit que la distribution conditionnelle de
S, intensité du signal émis, sachant que l'intensité du signal reçu est r, est normale
de paramètres
E[S R = r] = ?——
1 + <T
2
Var (S\R=r)=-^—2
1+ a
D'après le théorème 7.6, la meilleure estimation de signal émis est, dans le sens d'un
carré moyen de l'erreur minimum et d'après l'observation de l'intensité r du signal
reçu
.. 2
E[S\R = r}^-—-2n+-^—2r
1 + (T 1 + <T
Exemple 7.39 Lors du traitement digital de données basées sur des mesures analogi-
ques brutes X, ces mesures doivent être rendues discrètes avant tout traitement. Pour
ce faire, on détermine de manière tout à fait générale un ensemble ordonné de bornes
a,, i' — 0, + 1, + 2,... telles que lim a, = oo et lim a, = — oo. Une mesure
analogique X est alors rendue discrète selon l'intervalle («,, ai+s) auquel elle appar-
tient. Notons par j„ la valeur attribuée à la variance X rendue discrète lorsque
X G (a„ ai+[); en d'autres termes
SOLUTION.
a) Pour tout quantificateur Y on obtient, en conditionnant selon les valeurs de Y
E[(X - Y)2] = Y. E[(X - yi)2\ai < X < al+i]P{a, < X < ai+l}
i
Posons maintenant
I =i si ai < X s a1+1
Alors
E[(X - y,) 2 |a, < X s fl|+1] = E[(X - ytf\l = i]
y, = £ [ X | / = J]
= £[X|a,<X<aj+1]
xfx(x) dx
-ï. Fx(ai+1) - Fx(ai)
b) E[Y] = E[X]
c) Var (X) = £[Var (X \ I)] + Var (E[X \ /])
= E[E[(X - Y)21 /]] + Var ( Y)
= E [ ( X - y ) 2 ] + Var (Y) •
Il arrive que la distribution conjointe de A' et Y ne soit pas connue, ou le soit mais
que le calcul de £ [ y | X = x] soit pratiquement hors de portée. Dans ce cas, on peut
cependant trouver le meilleur prédicteur linéaire de Y basé sur X si les espérances et
variances de ces deux variables sont connues, ainsi que leur corrélation.
Il s'agit alors de déterminer deux constantes a et b telles que E[(Y — (a + bX))2]
soit minimum. Or
My + (X - /Xj
<Tx
= <r2y(l-p2) (7.24)
Exemple 7.40 On va montrer qu'il existe une situation parmi d'autres dans laquelle
l'espérance conditionnelle de Y selon X est linéaire en X, ce qui signifie que le meilleur
predicteur linéaire de Y basé sur X, est le meilleur tout court: celle où X et Y sont des
variables conjointement normales.
/te,)- • exp{--^-[(^--)'
2 TT(Tx(Ty\l 1 — p l. 2(1— p ) L \ <JX I
E[ Y | X = x] = p,y + p -1 (x - p.x)
et de variance a\ (1 — p2), ce qui montre bien que le meilleur estimateur est linéaire.
On retrouve d'ailleurs l'expression du meilleur estimateur linéaire. •
On définit pour tout réel t, la fonction génératrice des moments Mac la variable
aléatoire X par
M(t) = E[e'x]
Y.e'xp(x) si X est discrète, de loi de probabilité p
X
Cette fonction M est appelée fonction génératrice des moments du fait que tous les
moments d'ordre n de X peuvent être calculés en dérivant n fois M puis en évaluant
le dérivée en t = 0. Par exemple,
M'(t)=jtE[e'x]
= E[Xe'x] (7.25)
où l'on a admis que la permutation des opérations de dérivation et de prise d'espé-
rance était légitime. Plus précisément on a admis que
dans le cas continu. Cette supposition est presque toujours fondée et d'ailleurs est
valable pour toutes les distributions considérées dans cet ouvrage. Ceci fait que
lorsqu'on évalue M'obtenue dans (7.25) en t = 0 on trouve bien
M'(0) = E[X]
Et de même
M"(t) = Jt Mît)
-4£<H
= E[X2e'x]
par conséquent
Af"(0) = E[X2]
Les exemples qui suivent étudient la fonction génératrice des moments de plusieurs
distributions courantes.
SOLUTION. On a
M(t) = E[e'x]
îoeik{n^pk(i-prk
k =
ce qui est bien en accord avec le résultat calculé dans l'exemple 7.5. Une seconde
dérivation donne
ce qui une fois encore confirme le calcul effectué dans l'exemple 7.20. •
SOLUTION. On a
M(t) = E[e,x)
e
= y '"e'^"
" n?o n!
-x s (A*r
n=o ni
— ,,-*„*«'
= e e
= exp{A(e'-l)}
On constate encore une fois que l'espérance et la variance d'une variable poissonienne
sont toutes deux égales à A.. •
SOLUTION. On a
M(t) = E[e'x]
-r e'x\e~Kx dx
{x )x
- dx
JoÀ
À - t pour t< À
Jo
On remarque ici que M n'est définie que pour des valeurs de / inférieures à X. Deux
dérivations livrent
Et donc
E[X]=M'(0)=~ £[X2]=M"(0)=-^
A A
et la variance de X est
Mz(t) = E[e'z]
c
e e dx
V2ïr J_
i r r (X2-2tx)}
^Lexpl—ri*
=i fex [ u-oy 2 l
V2TT J_ooeXPl 2 2J
Propriétés de l'espérance 337
= e' 2 / 2 -J=|
-JITT f
/•OO
e-(*-)2/2dx
e~y /2
dy en substituant y à x - t
= e"2
La fonction génératrice des moments d'une variable aléatoire Z normale centrée
réduite est donc M^t) = e . Pour obtenir la fonction génératrice des moments d'une
variable normale quelconque, il faut se souvenir que X = u + CTZ sera de
distribution normale avec paramètres u et a2 si Z est normale standard. On peut alors
calculer la fonction génératrice des moments de X ainsi
Mx(t) = E[e'x]
= £[c'("+aZ)]
= £[>'V^]
= e' M E[e' aZ ]
= e^MzW
=c Vw,2/2
= exp
{
2 2
t 1
+ /
^2~ )
donc
E[X] = M'(0) = fi
E[X2] = M"(0) = n2 + a2
et finalement
Var(X) = E [ X 2 ] - E ( [ X ] ) 2
2
= cr
Les tableaux 7.2 et 7.3 donnent la fonction génératrice des moments de plusieurs
distributions courantes.
Tableau 7.2
Fonction génératrice
Loi de probabilité des moments
Lois (discrètes) p(x) M(t) Espérance Variance
« = r, r + 1,...
Tableau 7.3
Fonction génératrice
des moments
Lois (continues) Densité f(x) M(t) Espérance Variance
1
Uniforme sur (a, b) a<x<b e,(,-e'a a +b (6-a)2
f(x) =<b-a
t(b-a) 2 12
0 sinon
Exponentielle de Kx
x>0 A 1 1
paramètre "k > 0 «'> = {«Ke' x <0 A -r A A2
Gamma de paramètres x aO s
(s, k) X>0 C4;)' A K~2
0 x < 0
Théorème 7.7
La fonction génératrice des moments d'une somme de variables aléatoires indépen-
dantes est égale au produit des fonctions génératrices des moments individuels de ces
variables.
Exemple 7.450n sait que la fonction génératrice des moments d'une variable X est
M(t) = eMe'-". Que vaudra P{X = 0}?
SOLUTION. Le tableau 7.2 indique que M est la fonction génératrice des moments d'une
variable de Poisson de paramètre 3. En vertu de l'unicité de la distribution associée
à une fonction génératrice, on conclut que X est une variable de Poisson de para-
mètre 3. Par conséquent, P{X = 0} = e~3. •
On reconnaît ici dans (pe' + 1 — p)'" + " la fonction génératrice des moments d'une
variable binomiale de paramètres m + n et p. Cette distribution est donc celle de
X + Y. m
Propriétés de l'espérance 341
SOLUTION.
Mx+Y(t) = Mx(t)MY(t)
= exp{À1(c'-l)}exp{A2(c'-l)}
= exp{(A, + À 2 ) ( e ' - l ) }
SOLUTION.
Mx+y(0= Mx{t)MY(t)
2.2
\<r\t2 1 \cr\t2 \
= exp | — + / M j exp | — + n2t |
que l'on reconnaît être la fonction génératrice des moments d'une variable normale
d'espérance u, + u2 et de variance a] + a\. Le résultat annoncé est donc acquis du
fait de l'unicité de la distribution associée à une fonction génératrice des moments.
Exemple 7.49 Calcul de la fonction génératrice des moments d'une variable aléatoire
chi-carrée à n degrés de liberté.
zf + ... + z2n
où Z\, ..., Z„ sont des variables aléatoires normales standard indépendantes. Soit M(t)
sa fonction génératrice des moments. D'après ce qui précède,
M(t) = (E[e'z2]J
où Z est normale standard. On a
342 Initiation aux probabilités
x
Ele
1 J = ,— Je* e dx
4ln -»
= ,— Je OÏ o a = (l - 2t )
4ln —
= (l-2fr1/2
où l'avant-dernière égalité utilise le fait que l'intégrale de la densité normale de
moyenne 0 et de variance a vaut 1. Donc
•n/2
M(t) = (l-2t)
Exemple 7.50 Fonction génératrice des moments d'une somme d'un nombre aléatoire
de variables aléatoires. On considère une collection X{, X2,... de variables aléatoires
indépendantes et identiquement distribuées. On considère également une variable N
à valeurs entières positives indépendantes des Xi7 i — 1, 2,.... On souhaite déterminer
la fonction génératrice des moments puis l'espérance de
ou
Mx(t) = E[e'x']
Par conséquent
E[e,Y\N] = (Mx(t))"
et donc
MY(t) = E[(Mx(t))N]
Propriétés de l'espérance 343
M'y(t) = £ [ N ( M x ( 0 ) N _ 1 M ' x ( 0 ]
et par suite
E[Y] = M'Y(0)
= E[N(Mx(0))"-1M'x(0)]
= E[NEX]
= E[N]E[X] (7.26)
et donc
E[Y2] = MY(0)
= E[N(N - l)(E[X])2 + NE[X2]]
= (E[X])2(E[N2] - E[N]) + E[N]E[X2~\
= E[N](E[X2] - (E[X])2) + (E[X])2E[N2]
= £[N]Var(X) + (£[X])2£[N2] (7.27)
Le concept de fonction génératrice des moments peut être étendu à des variables
conjointes. On procède comme suit: pour toute collection de n variables aléatoires Xi%
X2,..., X„ leur fonction génératrice des moments conjoints M est définie pour toute
collection de n arguments réels lt, t2,.--, t„ par
A / « „ . . . , r J = E[e''x'+ +
'" x "]
Théorème 7.8
n variables aléatoires Xu X2,— Xn seront indépendantes si et seulement si
M ( r 1 , . . . , ^ 1 ) = E[e('>x'+•••+,••x",]
= £[«''*• .••e'»x"]
= E[eh ' ] • • • E[e'n -] du fait de l'hypothèse précitée
= Mx,{tl)---Mx„(tn)
Dans l'autre sens, si (7.28) est vraie, la fonction génératrice des moments conjoints
M est identique à celle de n variables aléatoires indépendantes, la j'-ème desquelles aura
la même distribution que Xt. Comme la fonction génératrice des moments conjoints
détermine une distribution conjointe de manière unique, la distribution reconnue est
bien celle des A-, conjointement. Ces variables sont donc indépendantes. •
4*,.]= M ,
Var(X,)=Î4
7=1
Propriétés de l'espérance 345
Comme £f,A, est une combinaison linéaire des variables aléatoires normales
indépendantes Z\, ..., Z„, elle est aussi normalement distribuée. Sa moyenne et sa
variance sont
et
(m \ (m m
Varl IÏ.X,. I = Covl I f,X,., I tjXj
mm / \
= i=i>= ïïtitjCov(xi,Xj)
2
Si Y est une variable aléatoire normale de moyenne |i et de variance a , alors
a
4/]=A/ K (OL 1 = C
Nous voyons donc que
M
{h O = exp\ £tfo +-ÎÎVjCovfaXj) l
[ >=i 2 i'=i;'=i J
Soient Xit ..., Xn des variables aléatoires normales indépendantes, chacune ayant
2 - i X:
pour moyenne \x et pour variance a . SoitX = 2 , — la moyenne de l'échantillon.
1=1 n
Puisque la somme de variables aléatoires normales indépendantes est aussi une
variable aléatoire normale, X est donc une variable aléatoire normale d'espérance |J. et
de variance a fn (voir les exemples 7.3 et 7.19).
Rappelons que selon l'exemple 7.24
2
En divisant cette équation par a2 , on obtient
+ /=i
est la somme des carrés de n variables aléatoires normales standard et est donc une
variable aléatoire chi-carrée à n degrés de liberté. Donc, selon l'exemple 7.49, sa
fonction génératrice des moments est (l - 2f ) . Ainsi,
est le carré d'une normale standard et est donc une variable aléatoire chi-carrée à 1
degré de liberté dont la fonction génératrice des moments est(l - 2r) . Nous avons
vu précédemment que les deux variables aléatoires du membre gauche de l'équation
(7.30) sont indépendantes. Donc, comme la fonction génératrice des moments d'une
somme de variables indépendantes est égale au produit de leurs fonctions génératrices
des moments, on voit que
Propriétés de l'espérance 347
Mais comme (l - 2t) " est la fonction génératrice des moments d'une variable
aléatoire chi-carrée à n - 1 degrés de liberté, on peut conclure que, puisque la fonction
génératrice des moments détermine de manière unique la distribution de la variable
2 / 2
aléatoire, c'est la distribution de S /a .
En résumé, nous avons le théorème suivant.
Théorème 7.9
Si Xj, .... X„ sont des variables aléatoires normales indépendantes et
identiquement_distribuées de moyenne fi et de variance a , la moyenne^ de
l'échantillon X et la variance de l'échantillon S /(n - 1 ) sont indépendantes. X est
une variable aléatoire normale de moyenne fi et de variance a /n; S fa est une
variable aléatoire chi-carrée an-1 degrés de liberté.
Nous n'avons jusqu'à présent défini d'espérance que pour des variables discrètes
ou continues. Or il existe des variables qui n'appartiennent à aucune de ces deux
catégories et pour lesquelles il est malgré tout intéressant d'essayer de définir une
espérance. A titre d'exemple, considérons la variable aléatoire W construite ainsi:
soient X une variable de Bernoulli de paramètre p = ^ et Y une variable uniforme
sur [0, 1]. On pose
fX lorsque X = 1
W
•{ Y lorsque X * 1
1 i
g(x) dx = lim I g(x,)U - *,-i)
i= l
348 Initiation aux probabilités
où la limite est prise sur toutes les divisions a = xQ < .Y, < .v2< ... < .Y„ = b avec
n -> co et max (x, — x,_,) -• 0.
1=1 H
où comme précédemment, la limite est prise sur toutes les divisions a = ,v(l < v, <
x2 < ... < x„ = b de [a, A] avec n -• oo et max (.Y, - .Y,-_,) -* 0. On peut étendre
/=1 n
=
g(x) dF(x) = j +
g+g(x)( xdF(x)
) d F ( x-) - ^ g (x) dF(x)
et nous dirons que j ^ x g(x)dF(x) existe dès que j ^ ' g+ (x) dF(x)et J^ y g (x)dF(x)
ne sont pas toutes deux égales à + oc.
E[X]=
-j: J OC
xdF(x) (7.31)
On peut montrer que lorsque X est une variable discrète de loi de probabilité /;,
xdF(x)= X xp(x)
Propriétés de l'espérance 349
xdF(x) = xf(x)dx
J -OO J — oo
I x,[F(x.) - F(x^)]
i= \
on remarque que F\Xj) - f\A-;_|) n'est autre que la probabilité que X soit dans
l'intervalle (.v,-_,, x]. L'approximation citée revient donc à multiplier une valeur
approximative de X lorsque la variable prend une valeur dans (x,_|, x,] par la
probabilité que cet événement se produise. Il est prévisible que lorsque les intervalles
utilisés deviennent de plus en plus fins le résultat sera une bonne moyenne pondérée.
L'intégrale de Stieltjes présente un intérêt plutôt sur le plan théorique où elle
constitue un outil synthétique pour la définition et l'exploitation des propriétés de
l'espérance. Son usage dispense en particulier de l'élaboration de démonstrations
distinctes pour traiter les cas continu et discret. Comme par ailleurs, ses propriétés
sont assez voisines de celles de l'intégrale ordinaire, on peut facilement adapter les
démonstrations données dans ce chapitre pour leur donner une validité générale.
7.9.2 Supposer que X est une variable aléatoire continue de densité /. Montrer
que £[|X - a|J est minimisée lorsque a est égal à la médiane de F.
Pour cela, écrire
E[\X-a\] = j\x-a\f(x)dx
ïlMhM + ^a2
On pourra pour cela développer g en série de Taylor et négliger les termes au-delà du
troisième.
350 Initiation aux probabilités
7.9.5 Soient A\, A2, -.., An des événements quelconques et soit Ck = {au moins k
événements À, se produisent}. Montrer que
îp{Ck)=îp{Ak)
k=l k=\
Pour cela, soit X le nombre de A, qui se produisent. Montrer que les deux membres de
l'égalité ci-dessus sont égaux à E[X].
£[£*,]. £4*,]
lorsque les X, sont toutes des variables aléatoires non négatives. Puisqu'une intégrale
est une limite de sommes, on peut s'attendre à ce que
tant que X(t), 0 < t < °°, sont des variables aléatoires non négatives; et ce résultat est
effectivement vrai. Utilisez-le pour donner une autre preuve du résultat suivant: pour
une variable aléatoire non négative X,
1 si t<X
W
* -Ï0 sit>-X
E[/(X)]> E[/(Y)]
7.9.9 On lance n fois une pièce donnant face avec probabilité/?. Calculer l'espérance
du nombre de chaînes de faces dans le résultat dont la longueur soit 1, puis 2, puis
k, 1 < k < n.
7.9.10 Soient X\, X2,..., X„ des variables aléatoires positives indépendantes et identi-
quement distribuées. Calculer pour k ^ n
7.9.14 Pour l'exemple 7.10 montrer que la variance du nombre de bons nécessaires
pour obtenir une collection complète est égale à
N l
' ~ iN „
2
i-i (N-ï)
352 Initiation aux probabilités
Quand N est grand, on peut montrer que cette expression est approximativement
égale à N2K2/(> (c'est-à-dire que leur rapport tend vers 1 lorsque N -» co).
7.9.16 Supposons que des boules soient prélevées au hasard dans une urne contenant
initialement n boules blanches et m boules noires. On a montré, dans l'exemple 7.13,
que E[X] = 1 + m/(n+ 1) où X est le nombre de tirages nécessaires pour obtenir
une boule blanche.
a) Calculer Var(^);
b) montrer que l'espérance du nombre de boules qu'il faut tirer pour amasser un total
de k boules blanches est /c[l + m/(n+ 1)].
Pour cela considérer des variables aléatoires Yh i = 1,..., n + 1, qui représentent le
nombre de boules noires retirées après les (/'— 1) premières boules blanches et avant
la /-ème boule blanche. Utiliser le fait que les Yh i = 1,..., n + 1 sont identiquement
distribuées.
7.9.18 Dans l'exemple 7.25 nous avons montré que la covariance des variables
aléatoires multinomiales A', et A^ est égale à — mP,Pj. Pour cela, nous avons exprimé
A', et A', comme une somme de variables indicatrices. On peut aussi obtenir ce résultat
en utilisant la formule
a) Montrer que
Cov(X,y|Z) = E[XY\Z] - E[X\Z]E[Y\Z]
7.9.21 Soient XU), i = 1,..., n les statistiques d'ordre d'un ensemble de n variables
aléatoires uniformes sur (0,1). On sait que la densité de Xm est donnée par
+ 1 S l b > 0
n(XYï-l
p{Y z)
- "7P7ï?
7.9.24 Prouver l'inégalité de Cauchy-Schwarz, à savoir:
On remarquera qu'à moins qu'il existe une constante t telle que Y = ~ tX, auquel
cas, cette inégalité devient une égalité, on peut écrire que pour tout /,
E[g(X)Y\X] = g(X)E[Y\X].
7.9.27 Montrer que lorsque E[Y\X = x] = E[Y] pour tout x alors Xet Ksont non
corrélées, puis donner un contre-exemple établissant que la réciproque n'est pas vraie.
On pourra pour cela montrer puis utiliser la relation ZsfÀ'F] = ffA'.E'fKI X]].
7.9.30 On considère l'exemple 7.25 qui traite d'une distribution multinomiale. Utili-
ser l'espérance conditionnelle pour le calcul de E[NiN^ puis utiliser ce résultat pour
vérifier la formule donnant Cov (Nh N-) citée dans ce même exemple.
7.9.31 Une urne contient au départ n boules noires et b boules blanches. A chaque
étape on ajoute r boules noires puis retire r boules au hasard prises parmi les
n + b + r boules présentes. Montrer que
7.9.33 Une pièce est caractérisée par une probabilité/? de tomber sur face. On la lance
indéfiniment. Calculer l'espérance du nombre de jets qu'il faudra jusqu'à ce qu'une
chaîne de r résultats de type face consécutifs apparaisse.
On pourra conditionner sur la date d'apparition du premier pile, ce qui amène à
l'équation
7.9.34 Pour avoir une autre approche de l'exercice 7.9.33, appeler Tr le nombre de
jets nécessaires pour obtenir une série de r faces consécutives.
a) Déterminer E\ T^Tr_x I.
b) Déterminer E[Tr] en fonction de £"_| 7^-—1 ]•
Propriétés de l'espérance 355
Pour cela, définir une variable aléatoire appropriée et calculer E[X] en conditionnant
sur cette variable.
b) Utiliser la question a) pour démontrer l'inégalité de Markov, qui affirme que si
P{X > 0} = 1, alors pour a > 0
7.9.36 On tire une à une des boules dans une urne en contenant b blanches et n noires.
On continue jusqu'à ce que toutes les boules restantes soient de la même couleur. Soit
Mhn le nombre attendu de boules dans l'urne à la fin de l'expérience. Calculer une
formule récursive donnant Mhn et la résoudre pour b = 3 et n = 5.
7.9.37 Une urne contient b boules blanches et n boules noires. Lorsqu'une boule est
tirée, elle est remise dans l'urne s'il s'agit d'une boule blanche. S'il s'agit d'une noire,
elle est remplacée par une boule blanche provenant d'une autre urne. Soit Mh
l'espérance du nombre attendu de boules blanches restant dans l'urne après que
l'opération ait été répétée k fois.
a) Etablir l'équation de récurrence:
M,. = b + n - n [ 1
V b+n
c) Quelle est la probabilité que la (A: + l)-ième boule tirée soit blanche?
E[(Y - (a + bX + cX2))2].
Déterminer M, b et c.
356 Initiation aux probabilités
2(l-p
y = ( X si/ = 1
\-X si 7 = 0
7.9.42 Du théorème 7.6 et du fait que le meilleur prédicteur linéaire de Y basé sur
A'est u, + p(csJoK)(X ux) il résulte que si
E[Y\X] = a + bX
alors
o\, ay
a = fiy - p ^ M v b = p —
ax ax
(pourquoi?). Vérifier ceci par un calcul immédiat.
E[(X- Y) 2 ]= E[X2]~E[Y2]
où
Y = E[X\Z]
Propriétés de l'espérance 357
7.9.44 On considère une population dont les individus sont capables de produire
seuls une descendance identique à eux-mêmes. On admet que chaque individu a une
probabilité Pf,j > 0, d'avoir engendré y descendants au terme de sa vie, ceci indépen-
damment de l'activité des autres individus. Le nombre initial d'individus dans la
population est noté XQ et appelé taille de la 0-ième génération. Tous les descendants
de cette génération 0 sont de la première génération, de taille Xv De manière générale
Xn représente la taille de la n-ième génération. L'espérance et la variance de la
descendance immédiate d'un individu donné seront respectivement notées u = X jPf
et a 2 = Ë (j — u)2 P,. On admettra que X0 = 1, c'est-à-dire que la population provient
/=0
à l'origine d'un individu unique,
a) Montrer que
E[Xn] = nE[Xn^}
b) En déduire que
c) Montrer que
d) En déduire que
Ce que l'on vient d'étudier est appelé processus de ramification. Une question impor-
tante pour une population évoluant selon ces lois est de connaître la probabilité de
son extinction. Notons K, cette probabilité sous l'hypothèse que la population
descend d'un ancêtre initial unique; en clair,
7.9.46 Pour une variable aléatoire normale standard Z, soit/l n = Ej Z n I. Montrer que
0 si n est impair
358 Initiation aux probabilités
7=0 j \
2
7.9.47 Soit X une variable aléatoire normale de moyenne \i et de variance a . Utiliser
les résultats de l'exercice 7.9.46 pour montrer que
L J
;=o 2>j\
Dans cette expression, [n/2\ est le plus grand entier inférieur ou égal à n I 2. Vérifier
votre réponse pour n = 1 et n = 2.
V(0|,-o = Var(X)
7.9.53 Si Z est une variable aléatoire normale standard, que vaut Cov(Z, Z 2 )?
7.10 PROBLEMES
7.10.3 Un hôpital est situé au centre d'un parc dont les côtés mesurent 3 km. Si un
accident se produit dans le parc, l'hôpital envoie une ambulance. Le réseau de routes
est rectangulaire, donc la distance de l'hôpital, dont les coordonnées sont (0, 0), au
point (x, y) est |*| + \y\. Si un accident se produit en un point uniformément distribué
dans le parc, trouver l'espérance de la longueur du trajet de l'ambulance.
7.10.8 Considérer n lancers indépendants d'une pièce ayant une probabilité p de tom-
ber sur face. On dit qu'il y a un changement lorsqu'une sortie est différente de celle
qui la précède. Par exemple, si n = 5 et que les sorties sont FFPFP, il y a 3
changements. Trouver l'espérance du nombre de changements.
On pourra exprimer le nombre de changements comme la somme de n - 1 variables
aléatoires de Bernoulli.
7.10.10 Refaire le problème 7.10.9 lorsque le groupe est assis en rond autour d'une
table.
7.10.11 Une urne contient m balles noires. A chaque étape, on enlève une balle noire
et on met à sa place une nouvelle balle, qui est soit noire avec une probabilité p, soit
blanche avec une probabilité 1 - p. Trouver l'espérance du nombre d'étapes
nécessaires pour qu'il n'y ait plus de balle noire dans l'urne.
7.10.12 Cinq urnes contiennent des boules. On tire au hasard une boule de chaque
urne. Celles-ci contiennent respectivement 1 boule blanche et 5 noires; 3 blanches et
3 noires; 6 blanches et 4 noires; 2 blanches et 6 noires; 3 blanches et 7 noires. Calculer
l'espérance du nombre des boules blanches obtenues.
7.10.13 Soit Z une variable aléatoire normale standard. Pour une valeur x fixée, poser
x = \l siz>x
[0 sinon
1
Montrer que E[X] = -j==e~x'!1.
7.10.15 On retourne l'une après l'autre les cartes d'un jeu ordinaire de 52 cartes. Si
la première est un as, ou la seconde un deux, ou la troisième un trois,..., ou la treizième
un roi, ou la quatorzième un as, etc., nous disons qu'une rencontre a lieu. Remar-
quons que nous ne demandons pas que la (13« + l)-ième carte soit un as particulier
pour considérer qu'il y a rencontre, mais seulement que ce soit un as. Calculer
l'espérance du nombre de rencontres.
7.10.16 Une certaine région est habitée par r espèces d'insectes. Chaque insecte attrapé
sera de l'espèce / avec une probabilité donnée par
a) Calculer le nombre moyen d'insectes qui sont attrapés avant qu'un insecte de
l'espèce 1 soit pris;
b) calculer le nombre moyen d'espèces représentées parmi les captures jusqu'à ce
qu'un insecte d'espèce 1 soit pris.
7.10.17 Une urne contient «boules, la i-ème étant de poids W(i),i = 1,...,«. Les boules
sont prélevées une à une et sans remise, d'une manière telle que la propriété suivante
sera vérifiée: à chaque tirage, la probabilité qu'une boule donnée soit choisie sera égale
au rapport de son poids et de la somme des poids restant dans l'urne. Supposons par
exemple qu'à un moment donné, l'ensemble des boules restant dans l'urne soit /,,...,
ir; donc le prochain choix sera la boule zj avec une probabilité
mi,)/ 1 W(ik), y = l r.
/ k=l
Calculer l'espérance du nombre des boules qui seront prélevées avant que la boule
n° 1 n'apparaisse.
362 Initiation aux probabilités
7.10.19 Combien de fois vous attendez-vous à jeter un dé équilibré avant que chacune
des six faces soit apparue au moins une fois?
7.10.20 Une urne n° 1 contient 5 boules blanches et 6 boules noires, alors que l'urne
n° 2 en contient 8 blanches et 10 noires. Deux boules sont choisies au hasard de l'urne 1,
puis introduites dans l'urne 2. Si 3 boules sont ensuite prélevées au hasard de l'urne 2,
calculer l'espérance du nombre des boules blanches présentes parmi ces 3 boules.
Pour cela poser X; = 1 si la i-ème boule blanche initialement dans l'urne 1 est l'une
des trois boules tirées et poser X: = 0 si ce n'est pas le cas. De façon analogue, poser
Yj = 1 si la z'-ème boule blanche de l'urne 2 est une des 3 boules choisies et Yi = 0
sinon. Le nombre de boules blanches présentes dans le triplet peut alors s'exprimer
comme 5 x
I X; + X Y,
î i
7.10.22 Soient X\, X2, ••• une séquence de variables aléatoires continues indépen-
dantes et identiquement distribuées. Soit N > 2 tel que
x,>x2>...>xN_t<xN
N est le point à partir duquel la séquence cesse de décroître. Montrer que E[N] = e.
Trouver d'abord P{N > n}.
7.10.23 Soient Xt, X2, ..., Xn des variables aléatoires indépendantes et identiquement
distribuées selon une loi uniforme (0, 1 ).
a) TrouverZslmax(X,,...,Xn)|.
b) Trouver Ej min(X,,..., Xn ) I.
7.10.27 Si 10 couples mariés s'installent autour d'une table ronde, ceci au hasard,
calculer l'espérance et la variance du nombre de femmes qui seront assises à côté de
leur mari.
7.10.28 On retourne l'une après l'autre des cartes provenant d'un jeu ordinaire.
Calculer l'espérance du nombre de cartes à retourner avant d'obtenir
a) 2 as;
b) 5 piques;
c) les 13 cœurs.
7.10.30 Un dé est jeté 2 fois. Soit X la somme des résultats et soit Y la différence entre
le premier et le second résultat. Calculer Cov(A\ Y).
7.10.31 Les variables aléatoires X et Y ont une densité conjointe donnée par
, \2e~2x/x 0<x<oo,0<y<x
(0 sinon
Calculer Cov(À\ Y).
7.10.36 Soit A",, X2,..., Xn des variables aléatoires indépendantes ayant une distribu-
tion continue F inconnue; soit Yt, Y2,..., Ym des variables aléatoires indépendantes
ayant une distribution continue G inconnue. Ordonnons maintenant ces n + m
variables et posons
1
1 si la f'-ème plus petite des n + m variables est de
l'échantillon des X
0 sinon
La variable aléatoire R = Z //,- est la somme des rangs de l'échantillon des X; elle
/= r
est la base d'une méthode statistique classique (appelée test de la somme des rangs
de Wilcoxon) utilisée pour tester si les distributions F et G sont identiques. Ce test
accepte l'hypothèse que F — G si R n'est ni trop grand ni trop petit. En supposant
que cette égalité est en fait vérifiée, calculer la moyenne et la variance de R (utiliser
les résultats de l'exemple 7.22).
7.10.3711 existe deux procédés différents pour fabriquer une certaine pièce; supposons
que la qualité d'une pièce obtenue par le procédé / soit une variable aléatoire continue
de distribution F,, / = 1,2. Supposons encore que n pièces soient issues du procédé
1 et m du procédé 2. Ordonnons les n + m pièces par ordre de qualité et posons
I
l si la /-ème meilleure pièce est obtenue grâce au pro-
cédé 1
2 sinon
Pour le vecteur A" = (A",, X2,..., A"„+m) composés de H «1» et de m «2», soit R le nombre
de chaînes de «1». Par exemple, si « = 5, m = 2 et X = (1,2, 1, 1, 1, 1,2), alors
R = 2. Si F, = F2 (c'est-à-dire si les deux procédés produisent des articles dont la
qualité varie selon la même répartition), quelles sont l'espérance et la variance de RI
7.10.38 Si A",, X2, X3, XA sont des variables aléatoires deux à deux non corrélées ,
chacune d'espérance nulle et de variance 1, calculer les corrélations de
a) A-, + X2 et X2 + A\;
b) A-, + X2 et A-, + X4.
7.10.39 Considérons le jeu de dés suivant, pratiqué dans certains casinos: deux
joueurs, 1 et 2, jettent chacun à leur tour une paire de dés. Puis, la banque jette à son
tour les dés, après quoi on détermine qui a gagné selon la règle suivante: le joueur
/',/'= 1,2 gagne si la somme de ses deux dés donne un résultat strictement plus grand
que celui de la banque. Posons pour i = 1,2
11 si ; gagne
[0 sinon
7.10.41 Une urne contient 4 boules blanches et 6 boules noires. On en tire successive-
ment deux échantillons aléatoires de taille 3 et 5 respectivement, ceci sans remise.
Soient X et y le nombre de boules blanches dans chacun de ces échantillons; calculer
E[X\ Y = ;•] pour; = 1, 2, 3, 4.
7.10.44 Un prisonnier est enfermé dans une cellule contenant 3 portes. La première
ouvre un tunnel qui revient dans la cellule après une marche de 2 jours. La seconde
porte donne sur un tunnel qui revient aussi à la cellule au bout d'un voyage de 4 jours.
La troisième porte conduit à la liberté au bout d'un jour de marche. On suppose que
le prisonnier choisit à chaque tentative les portes 1, 2 et 3 avec des probabilités
respectives de 0,5, 0,3 et 0,2. Quelle est l'espérance du nombre de jours qu'il faudra
au prisonnier pour retrouver sa liberté?
7.10.45 Dix chasseurs attendent que des canards s'envolent. Lorsqu'un vol de canards
apparaît, les chasseurs tirent tous en même temps, chacun choisissant sa cible de façon
aléatoire et indépendamment des autres. Si chaque chasseur atteint sa cible indépen-
damment de la réussite des autres avec une probabilité de 0,6, calculer le nombre
moyen de canards qui seront touchés. On suppose que le nombre de canards dans un
vol est une variable aléatoire de Poisson de paramètre 6.
7.10.47 On admet que le nombre moyen d'accidents dans une installation industrielle
est de 5 par semaine. Supposons aussi que les nombres de travailleurs blessés dans
chaque accident sont des variables aléatoires indépendantes ayant une même espé-
rance égale à 2,5. Si le nombre de travailleurs blessés dans chaque accident est
indépendant du nombre d'accidents qui se produisent, calculer le nombre moyen de
travailleurs blessés au cours d'une semaine.
366 Initiation aux probabilités
7.10.48 On jette continuellement une pièce ayant pour probabilité p de tomber sur
face jusqu'à ce que pile et face soient apparues. Trouver
a) l'espérance du nombre de jets;
b) la probabilité que le dernier jet donne face.
7.10.49 Une personne jette continuellement une pièce jusqu'à ce que 3 faces consé-
cutives apparaissent. En admettant que chaque jet donne indépendamment face avec
une probabilité p, déterminer l'espérance du nombre de jets requis.
Pour cela, soit P le premier jet donnant pile, et soit P = 0 si tous les jets donnent face.
Conditionner ensuite sur P.
H+l
c) Calculer E[X] en conditionnant sur le fait que A gagne ou non et conclure que
3[(, + B)-]_lzfi^£
lorsque B est une variable aléatoire binomiale de paramètres n et p.
7.10.51 Chacun des m + 2 joueurs paye 1 unité dans une cagnotte pour jouer au jeu
suivant. Une pièce équilibrée est lancée successivement n fois, où n est un nombre
impair, et les sorties successives sont notées. Chaque joueur écrit, avant les jets, une
prédiction de sortie. Par exemple, si n = 3, un joueur peut écrire (F, F, P), ce qui
signifie qu'il prédit un face sur le premier jet, un face sur le deuxième et un pile sur le
troisième. Après les jets de la pièce, les joueurs comptent leur nombre de prédictions
correctes. Ainsi, si toutes les sorties montrent face, le joueur ayant écrit (F, F, P) a 2
prédictions correctes. La cagnotte de m + 2 unités est alors répartie équitablement
entre les joueurs ayant le plus grand nombre de prédictions correctes.
Puisque chaque jet a autant de chance de donner pile ou face, m joueurs ont décidé de
faire leurs prédictions d'une manière totalement aléatoire. En fait, ils lancent chacun
leur propre pièce n fois et utilisent les résultats comme prédictions. Cependant, les 2
derniers joueurs ont formé un groupe et utilisent la stratégie suivante. L'un d'eux fait
des prédictions de la même façon que les m autres joueurs, mais le second prédit
exactement le contraire du premier. En fait, lorsque le membre du groupe prédisant au
hasard prédit un F, l'autre membre prédit un P. Par exemple, si celui prédisant au
hasard prédit (F, F, P), l'autre prédit (P, P, F).
a) Argumenter le fait qu'exactement un des deux membres du groupe fait plus de n 12
prédictions correctes. (Rappelez-vous que n est impair.)
Propriétés de l'espérance 367
b) Soit X le nombre de joueurs parmi les m ne faisant pas partie du groupe qui ont plus
de n 12 prédictions correctes. Quelle est la distribution de X?
c) Avec X défini en b), argumenter le fait que
1
£[le groupe a une récompense] = (m + 2)E
X + l.
m+l
2(m + 2)
£[le groupe a une récompense] 1-1-
m+l
m+l
2(m + 2)
Comme on peut montrer que > 2, il s'ensuit que la stratégie
m+l
7.10.52 Soit U\, U2, ••• une séquence de variables aléatoires uniformes (0, 1) indépen-
dantes. Dans l'exemple 7.32, on a montré que pour 0 < x < 1, £[//(.*)] = ex où
E{N(x)] = e*
7.10.53 Une urne contient 30 balles dont 10 rouges et 8 bleues. On tire aléatoirement
12 balles de cette urne. Soit X le nombre de balles rouges tirées et Y le nombre de
balles bleues tirées. Trouver Cov(X, Y)
a) en définissant des variables aléatoires indicatrices (c'est-à-dire de Bernoulli) appro-
10 t
priées Xb Yj telles que X = I X , , Y = I Y. ;
b) en conditionnant (soit sur X, soit sur Y) pour déterminer E[XY\.
368 Initiation aux probabilités
7.10.54 Des ampoules de type i fonctionnent pendant une durée aléatoire de moyenne
(i, et d'écart-type a,, i = 1,2. Une ampoule choisie au hasard dans une boîte d'am-
poules est de type 1 avec une probabilité p et de type 2 avec une probabilité 1 -p. Soit
X la durée de vie de cette ampoule. Trouver
a)£[X];
b) Var(X).
7.10.55 Dans l'exemple 7.28, calculer la variance du temps qu'il faut au mineur pour
retrouver la sortie.
7.10.56 Les règles du jeu de dés nommé craps ont été définies au problème 2.9.14.
Calculer l'espérance et la variance du nombre de jets de dés qu'il faut pour terminer
une partie de craps.
7.10.57 Considérons un joueur qui, à chaque partie, gagne ou perd son pari avec des
probabilités p et (1 — p). Lorsque p > ^ la stratégie suivante, connue sous le nom
de stratégie de Kelley, est souvent utilisée. Elle consiste à toujours parier la fraction
2p — 1 de sa fortune restante. Calculer l'espérance de la fortune au bout de n parties
d'un joueur parti avec x unités et qui fait usage de la stratégie de Kelley.
7.10.58 Le nombre d'accidents touchant un individu lors d'une année donnée est une
variable aléatoire de Poisson d'espérance X. Supposons que cette espérance varie en
fonction des personnes, valant ainsi 2 pour 60% de la population et 3 pour les 40%
restants. On choisit une personne au hasard. Quelle est la probabilité qu'au cours
d'une année, elle n'ait aucun accident? Qu'elle en ait 3? Quelle est la probabilité
conditionnelle qu'elle ait 3 accidents dans l'année sachant qu'elle n'a pas eu d'acci-
dents l'année précédente?
7.10.61 Dans le problème 7.10.60, supposons que la pièce est lancée n fois. SoitX le
nombre de faces obtenues. Montrer que
p{X = i} = , i=0,l,...,n
n+1
Utiliser le fait que
V
o ' {a + b-\)\
où a et b sont des entiers positifs.
Propriétés de l'espérance 369
7.10.64 Dans l'exemple 7.39, supposons que X est uniformément distribuée sur (0, 1).
Si les régions discrètes sont déterminées par a0 = 0, a, = ]• et a2= 1, déterminer le
quantificateur optimal F et calculer E[(X — Y)2].
7.10.65 La fonction génératrice des moments de Xest donnée par Mx(r) = exp{2e' - 2}
et celle de Y par My(t) = 0) 10 (3 <?' + l) 10 . Si Xet Y sont indépendantes, que valent
a).P{X + Y = 2}, b) P{XY= 0} et c)E[XY]?
7.10.66 On jette deux dés. Soit X la valeur du premier dé et Y la somme des deux
valeurs. Calculer la fonction génératrice des moments conjoints de X et Y.
e~xe~y/x
f(x, y) = 0<JC<OO, 0 < y < o o
x
a) Calculer la fonction génératrice des moments conjoints de X et Y;
b) calculer les fonctions génératrices des moments individuels de X et Y.
7.10.68 Deux enveloppes, contenant chacune un chèque, sont placées devant vous.
Vous devez choisir une enveloppe, l'ouvrir et regarder le montant du chèque. A ce
moment-là, vous pouvez soit accepter le montant soit l'échanger contre le chèque de
l'enveloppe fermée. Que devez-vous faire? Est-il possible de trouver une stratégie
meilleure que d'accepter la première enveloppe?
Soient A et B, A < B, les montants (inconnus) des chèques, et remarquer que la
stratégie qui sélectionne une enveloppe au hasard et accepte toujours son chèque a une
espérance de (A + B) I 2. Considérer la stratégie suivante: soit F(.) une fonction de
distribution strictement croissante (donc continue). Choisir une enveloppe au hasard et
l'ouvrir. Si le chèque découvert a pour valeur x, alors accepter le avec probabilité F(x)
et changer le avec probabilité 1 - F(x).
a) Montrer que si vous employez cette stratégie, l'espérance de gain est supérieure à
(A + B) 12.
On pourra conditionner sur le fait que la première enveloppe contienne soit A soit B.
Considérer la stratégie qui fixe une valeur x puis accepte le premier chèque si sa
valeur est plus grande que x et l'échange sinon.
370 Initiation aux probabilités
b) Montrer que, pour tout x, l'espérance du gain sous la x-stratégie est toujours au
moins (A + B) I 2 et qu'elle est strictement plus grande que (A + B) 12 si x se trouve
entre A et B.
c) Soit X une variable aléatoire continue sur toute la ligne et considérer la stratégie
suivante: générer la valeur de X et si X = x, employer la ^-stratégie de la question b).
Montrer que l'espérance du gain sous cette stratégie est plus grande que (A+ B) 12.
CHAPITRE 8
Théorèmes limites
8.1 INTRODUCTION
Les théorèmes limites constituent les résultats théoriques les plus importants des
probabilités. Parmi eux, les principaux sont répertoriés sous deux dénominations: lois
des grands nombres d'une part, et théorèmes centraux limites d'autre part. On s'ac-
corde généralement à les considérer comme des lois des grands nombres s'ils énoncent
des conditions sous lesquelles la moyenne d'une suite de variables aléatoires converge
(dans un sens à définir) vers leur espérance commune. Les théorèmes centraux limites
par contre déterminent sous quelles hypothèses la somme d'un grand nombre de
variables aléatoires est de distribution approximativement normale.
a
372 Initiation aux probabilités
1 si X > a
0 sinon
p{(x-M)25^£[(X,TM)2] <81>
k~
2 2
Mais comme (X — u) > k équivaut à \X — u| > k, (8.1) peut être réécrite
E[(X-n)2] a2
P{|X-/i|>/c}<
Exemple 8.1 On suppose que le nombre de pièces sortant d'une usine donnée en
l'espace d'une semaine est une variable aléatoire d'espérance 50.
Théorèmes limites 373
Exemple 8.2 Soit X une variable uniforme sur l'intervalle (0, 10). On sait qu'alors
E[X] = 5 et Var(A') = ^, ce qui donne dans l'inégalité de Tchebychev
P{\X-5\>4}^r.52
On voit bien que si l'inégalité de Tchebychev est fondée, la borne qu'elle fournit est
ici loin d'être proche de la probabilité exacte.
A titre d'illustration supplémentaire, la borne calculée par l'inégalité de Tcheby-
chev pour une variable X normale d'espérance u et de variance a 2 est, lorsque
k = 2a,
P{|X-M|>2a}<j
Théorème 8.3
Soit X une variable aléatoire de variance nulle. A lors X est égale à son espérance avec
probabilité 1.
P{X = E[X]} = 1
pj|x - n\ > ±} = o
Faisons tendre n vers l'infini. La propriété de continuité des probabilités donne alors
0= l i m p f | X - M l > - | = p | l i m ( | X - / t | > - H
P{X * M}
X.+
H
Xn
M > e lorsque n -> oo
Xl + --- + XH
- ix et Var I = —
\ n I n
il résulte de l'inégalité de Tchebychev que
X, + • • • + X„
"{ ^ > e
ne
ce qui établit le résultat.
Théorèmes limites 375
La loi faible des grands nombres fut établie pour la première fois par Jacob
Bernoulli pour le cas particulier où les X-t ne prennent pour valeur que 0 ou 1 (et sont
donc des variables de Bernoulli). Son énoncé de ce théorème et la démonstration qu'il
en donne figurent dans son ouvrage Ars Conjectandi, publié en 1713 par son neveu
Nicolas Bernoulli, huit ans après sa mort. Il faut savoir que l'inégalité de Tchebychev
n'étant pas connue à l'époque, Bernoulli dut développer une démonstration extrême-
ment ingénieuse pour établir le résultat. La version générale de la loi faible des grands
nombres, telle que la présente le théorème 8.4, est attribuée au mathématicien russe
Khintchine.
Théorème 8.5
Soient Z,, Z2,... une suite de variables aléatoires dont les fonctions de répartition sont
notées F^ et les fonctions génératrices des moments MZn, n > 1; soit aussi une va-
riable aléatoire Z de fonction de répartition Fz et de fonction génératrice des
moments Mz. Si MZn (t) -» M^t) pour tout t, alors FzJt) -* F^t) pour toutes les
valeurs de tpour lesquelles Frft) est continue.
Xj + • • • + X„ - n/x
avn
tend vers la distribution normale lorsque n -> oo, ce qui veut dire que
376 Initiation aux probabilités
E
[^ ifn = M
v;
et par conséquent celle de Ë XJyJn sera M | -=
Posons
L(f) = lnM(0
et remarquons que
L(0) = 0
W
M(0)
=0
, »<n\ - M(0)M"(0)-[M'(0)]2
M
[M(0)f
= E[X2]
= 1
Or, pour démontrer le théorème, il nous faut établir que [M(tW n )]" -» et2/2 lorsque
n -» oo, ou, ce qui est équivalent, que nL(t/yfn) -+ r/2 lorsque n -* oo. On peut écrire
,. Ut/Jri) ,. -L'{t/s/n)n~V2t
hm r,— = hm en vertu de la règle de l'Hôpital
n-»oo fi n->ao -2n"z
-1™ 'L'(t/Jn)i
r ^
=
£2, L = 2 ^ — .en vertu de la même règle
Théorèmes limites 377
n-œ L W«/ 2 J
(Xl + ---+Xn-nfi
P\ j= < a [ -+<&(a)
l erVn J
on peut en fait démontrer que cette convergence est uniforme en a (on dit que
f„(a) -* f(a) uniformément en a si, pour tout e > 0, il existe un N tel que
\f„(a) — f(a)\ < e, pour tout a, dès que n ^ TV).
La première version du théorème central limite fut établie par De Moivre aux alen-
tours de 1733 pour le cas particulier des variables de Bernoulli de paramètre
p = Vi. Laplace en donna une extension à des variables de Bernoulli quelconques
(une variable binomiale pouvant être comprise comme une somme de n variables de
Bernoulli indépendantes et de même paramètre, cette démonstration de Laplace
justifie l'approximation normale donnée aux variables binomiales, par exemple dans
la section 5.4.7). Laplace énonça aussi la version plus générale donnée ici au
théorème 8.6. Sa démonstration n'était cependant pas totalement rigoureuse, et il n'est
d'ailleurs pas aisé de la compléter. Ce fut le mathématicien russe Liapounoff qui, le
premier, donna une démonstration absolument rigoureuse du théorème central limite,
et ce entre 1901 et 1902.
SOLUTION. Admettons que l'astronome fasse n observations que l'on désignera par Xx,
X2,—, Xn. Le théorème central limite établit que
L X, - nd
Z =!=1
2Vn
Si donc notre astronome souhaite que la probabilité que l'erreur soit de moins d'une
demi-année-lumière reste au-delà de 95 chances sur 100, il lui faudra prendre n*
mesures où n* vérifie
f~~*
-j-=1.96 ou n* = (7.84) 2 = 61.47
\i*\-é Va,(ï*)-*
Li=i n \ \ i = i nj n
lh =i n | J n(.5) n
L'astronome devra donc faire n = — = 320 observations pour avoir 95 chances sur
100 de maintenir l'erreur en dessous d'une demi-année lumière. •
Théorèmes limites 379
'100 '100
= 1-<D(2)
» .0228
* 2<D(V6/7) - 1
«.65
Exemple 8.6 Soient X-„ i — 1,..., 10 des variables aléatoires uniformes sur l'intervalle
i?,* > 6 -
10
(0, 1). On cherche à évaluer approximativement P\
10
ce qui signifie que 16 fois sur 100 seulement, en moyenne, la somme X Xi sera
i=i
supérieure à 6. •
Dans l'exemple 8.7 nous allons utiliser le théorème central limite pour obtenir
l'approximation de Stirling de n\.
P{Sn = n) = e~»^
Théorème 8.7 Théorème central limite relatif à des variables indépendantes seulement
Soit Xh X2,... une suite de variables aléatoires d'espérances u, et de variâmes 07,
i = ], 2,... . Si
a) les variables Xt sont uniformément bornées, ce qui signifie qu'il existe un réel
M tel que P{ \X,\ < M} = 1 pour tout i et
b) I aj = oo,
alors
i=l
P <t>(a) quand n -» oo
La loi forte des grands nombres est sans doute le résultat le plus célèbre en théorie
des probabilités. Il établit que la moyenne d'une suite de variables aléatoires identi-
quement distribuées tendra avec probabilité 1 vers l'espérance de cette distribution
commune.
Xl + X2 + • • • + Xn ,
* fi quand n -> oo
n
Il est inutile de démontrer ce théorème, car on en prouvera plus loin une version
plus générale. On peut cependant ici présenter une application très importante de la
loi forte des grands nombres. Supposons qu'on réalise une série d'épreuves indépen-
dantes. Soit E un événement donné relatif à l'expérience ainsi répétée et P(E) sa
probabilité, constante au cours des tirages. On pose
Hi
si E survient lors du i'-ème tirage
sinon
Xl +
--- + X
"-»E[X] = P(E) (8.2)
Comme Xt+ X2+ ... + Xn représente le nombre des occurrences de E au cours des
« premiers tirages, (8.2) peut recevoir l'interprétation suivante: la fréquence relative
limite d'apparition de l'événement E est P(E) avec probabilité 1.
Bien que le théorème puisse être démontré sans cette hypothèse, notre preuve de
la loi forte des grands nombres admet que les variables aléatoires X, ont un quatrième
moment fini, ce qui signifie que E[Xf ] = K<°°.
DÉMONSTRATION DE LA LOI FORTE DES GRANDS NOMBRES. Pour commencer, admettons que
n
il, la moyenne des X„ est égale à 0. Soit S„ = £X, et considérons
i= î
où i,j, k, l, sont tous différents. Comme tous les X, ont pour moyenne 0, on obtient par
indépendance que
£[5J] = nE[X?]+6Ci)E[XjXj]
= nK + 3n(n-\)E[Xj] E[Xj]
'«4 1 E »4 < oo
n= 1
Mais ceci implique avec une probabilité égale à 1 que Ï S } / n 4 < oo . (S'il y a une
probabilité positive que la somme soit infinie, alors son espérance est infinie.) Mais la
convergence d'une série implique que son «-ièrne terme tend vers 0; et nous pouvons
donc conclure, avec une probabilité égale à 1 que
53
lim = 0
Mais si S*/n4 = (S„/n)4 tend vers 0, alors Snln doit aussi; nous avons donc prouvé
avec une probabilité égale à 1 que
-» 0 lorsque n -> oo
Lorsque \i, la moyenne des X„ n'est pas égale à 0, on peut appliquer l'argument
précédent aux variables aléatoires X, - \L pour obtenir avec une probabilité égale à 1
que
(Xj-H)
lim = 0
ou de manière équivalente,
lim
Sï = M
La loi forte des grands nombres fut démontrée pour la première fois et dans le
cas particulier de variables de Bernoulli par le mathématicien français Borel. La
version générale du théorème 8.8 est due au mathématicien russe A.N. Kolmogorov.
,= i n
DÉMONSTRATION. Soit b > 0 et notons que X > a est équivalent hX+ b>a + b .
Donc
P[X>a] =P{X+b>a + b]
<P{(X+b ) >(a + b)2}
2
L
' (a + b)2 (a + b)2
Exemple8.8 Le nombre de pièces produites par une usine en une semaine est une
variable aléatoire d'espérance 100 et de variance 400. On cherche une borne supé-
rieure pour la probabilité que la production dépasse 120 pièces lors d'une semaine
donnée.
386 Initiation aux probabilités
4 0 C
P{X > 120}= P{X - 100 a 20} < V2 = -
1
400 + (20) 2 2
où l'on voit que la probabilité de dépasser une production de 120 pièces en une
semaine ne dépasse pas ^.
Il était possible d'obtenir une borne grâce à l'inégalité de Markov, qui aurait
donné
Théorème 8.10
Soit X une variable aléatoire, avec E[X] — u et Var {X) = cr. On aura pour tout
réel a > 0,
2
P{Xzfi + a}s 2°" 2
o- + a
2
P{X s n - a) s / 2
cr + a
2
a
P{X - n> a}
a + a2
2
et
2
F{ M - X < a} < 2°" 2
a +a
ceci pour / = 1, 2,..., 100. On peut exprimer le nombre de couples mixtes comme
la somme
100
i= 1
Comme l'homme / a autant de chances d'être associé à chacune des 199 autres
personnes, dont 100 sont des femmes, on a
£ [ X i ] = P{Xi = l} = ^
On peut se convaincre que P{Xj = 1 \Xj = 1} = 1~- en réalisant que, si l'homme /'
est associé à une femme, l'homme y peut être associé avec autant de chances à l'une
quelconque des 197 personnes restantes, dont 99 sont des femmes. On peut mainte-
nant calculer
100
E[X] = I E[Xt]
» 50.25
100
_ 1 0 0 99 „ ./ I 0 0 \ r i 0 0 99 /100\2
Var (X) = I Var (X,) + 2 1 1 Cov (Ai, X,)
i=l \ i<j 2 / L l 9 9 197 \199/
«25.126
P{X < 30} < P{IX-50.25I > 20.25} < ^IS)1 " 0.61
P{X>a) = P{e'x>e'a)
par l'inégalité de Markov
<E[e'x]e-'a
P{X<a) = P{etX>e'a)
<E[e'x]e-'a
Ainsi, nous avons les inégalités suivantes, connues sous le nom des bornes de
Chernoff.
Puisque les bornes de Chernoff sont valables pour tout t dans les quadrants positifs et
négatifs, on obtient la meilleure borne pour P{X>a} en utilisant le t qui minimise
e-'a M(t).
Exemple 8.10 Bornes de Chernoff pour une variable aléatoire normale standard.
Si Z est une variable aléatoire normale standard, sa fonction génératrice des moments
est M (t) -e'2 n, donc la borne de Chernoff pour P{Z > a} est donnée par
La valeur de t, t > 0, qui minimise e'2 /2~ '" est la valeur qui minimise t2/2 - ta, soit
t = a. Ainsi, pour a > 0, on voit que
P{Z>a] <e-" 2 / 2
Théorèmes limites 389
P{Z<a}<^2/2 •
P{X>i}<ex^-^e~it ,t>0
P{X>i}<e^i/x-» y '
-A,
P{X>i}<e^f*-
Chernoff sur P{Sn >a}. Pour commencer, notons que la fonction génératrice des
moments de X, est
E[e<x]=ÊLïjrL
= 2 { 1 + §j+$"+...}
°° fin
=2 y - —
«t-o (2n )!
390 Initiation aux probabilités
l2
<2 Y ^ )" puisque (2n)!>n! 2n
DoncE[e'x}<e'1/2.
E[e's»] =(E[e'x]f
<e"'2'2
P{Sn>a}<e-<aen<111 , t>0
La valeur de t qui minimise le membre de droite de cette expression est la valeur qui
minimise nt21 2 - ta , et cette valeur est t = a I n. En supposant que a > 0 (de telle
sorte que le t qui minimise soit positif) et en posant t = a I n dans l'inégalité
précédente, on obtient
P{Sn>a\<e-^l2n ,a>0
P{ Sl0 > 6 } = P{le joueur gagne au moins 8 fois sur les 10 premiers coups}
56
» .0547
1024
L'inégalité que nous allons maintenant traiter porte sur des espérances plutôt que
des probabilités. Nous avons auparavant besoin d'introduire la notion de convexité
de fonction: une fonction réelle/deux fois différentiable est dite convexe s i / " (x) > 0
pour tout x. Une fonction sera de même dite concave s i / " (x) < 0 pour tout x. A
Théorèmes limites 391
titre d'exemples, les fonctions suivantes sont convexes: f(x) = x2, f(x) = eax,
f(x) = — JC"" lorsque x > 0. S i / e s t convexe la fonction g = — / e s t concave et
vice versa.
Théorème 8.12 Inégalité de Jensen
Soit f une fonction convexe. Alors
E[f(X)]>f(E[X])
pour autant que ces espérances existent et soient finies.
/(x)s=/0t)+/V)(x-/*)
et donc
/(X)s/(M)+/'(M)(X-/x)
Exemple 8.13 Un investisseur est confronté à une alternative. Soit il place tout son
capital dans une affaire risquée rapportant une somme aléatoire X d'espérance m,
soit il le place en titres sans risques qui rapporteront une. somme m avec probabilité
1. On sait qu'il va chercher à prendre sa décision de manière à maximiser l'espérance
de u(R), où R est son bénéfice et u sa fonction de préférence. L'inégalité de Jensen
nous montre que si u est une fonction concave, E[u(X)] < u(m), ce qui rend le
placement sûr préférable. Si par contre u est convexe, le placement risqué doit être
choisi puisque £[«(A')] > u(m). •
Dans cette section, nous allons établir des bornes pour savoir comment une somme
de variables aléatoires de Bernoulli indépendantes est approximée par une variable
aléatoire de Poisson ayant la même moyenne.
392 Initiation aux probabilités
P{X*Y}<ip>
i=i
Finalement, nous allons montrer que cette inégalité implique que pour tout ensemble
A de nombres réels,
n
\P{XeA}-P{YeA}\< £ p]
i=i
x = j O siK,= [/, = 0
{1 sinon
Noter que
Si Xj est nul, alors y, doit être nul aussi (par définition de X,). Donc on voit que
Théorèmes limites 393
n n
A présent, soit X = £X, et Y = £ Y( et notons que X est la somme de variables
1=1 1=1
aléatoires indépendantes de Bernoulli et que Y est une Poisson, d'espérances
E[Y]=E[X] = fp,
i = 1
* i = i
ÏPI
J 1 si fi se produit
B
[0 sinon
Cette inégalité provient du fait que, puisqu'une variable indicatrice vaut soit 0 soit 1,
le membre de gauche ne vaut 1 que lorsque /( Xe A ) = 1 e t h re A ) = 0-
Mais ceci implique que X e A et Y <£ A, ce qui signifie que X * Y, donc que le
membre de droite est aussi égal à 1. En prenant les espérances de cette inégalité, on
obtient
n
Donc, on a démontré qu'avec X - Zp it
REMARQUE. Lorsque tous les />, sont égaux kp, X est une variable aléatoire binomiale.
Ainsi, cette inégalité montre que pour n'importe quel ensemble A d'entiers non
négatifs,
F{D<a}>l--^
r a
8.7.4 Soit Z„, M ^ 1, une suite de variables aléatoires et c une constante telle que pour
chaque e > 0, P{ \Zn — c\ > e} -> 0 quand n -» oo. Montrer que pour toute fonction
Théorèmes limites 395
continue bornée g,
8.7.5 Soit/(;c) une fonction continue définie pour 0 ^ x < 1. Considérer les fonctions
-L>m
(appelées polynômes de Bernsteiri) et prouver que
8.7.6
• Soit X une variable aléatoire discrète pouvant prendre les valeurs l, 2,... . Si
P{X = k) est non croissante en k - l, 2,..., prouver que
P{X = k } ^ 2 ^ P
• Soit X une variable aléatoire continue non négative de densité non croissante.
Montrer que
!
f(x) < 5-J pour tout x > 0
8.7.7 Supposons qu'un dé non pipé soit jeté 100 fois. Soit Af,-la valeur obtenue au i'-ème
jet. Calculer une approximation pour
{ îoo 1
1 < a <6
8.7.8 Expliquer pourquoi une variable aléatoire gamma de paramètres (/, X) a une
distribution approximativement normale quand t est grand.
396 Initiation aux probabilités
8.7.9 Une pièce de monnaie équilibrée est jetée 1 000 fois. Si les 100 premiers jets
donnent tous des piles, quelle proportion de piles peut-on s'attendre à obtenir lors des
900 derniers jets? Faites un commentaire sur l'énoncé «la loi forte des grands nombres
noie une anomalie dans la masse mais ne la compense pas».
8.7.10 Si X est une variable aléatoire de Poisson de moyenne X, montrer que pour
i < X,
P{X<i)<^f^-
8.7.11 Soit X une variable aléatoire binomiale de paramètres n et p. Montrer que pour
i > np :
a) le minimum de e~" E[e'x] est atteint lorsque t est tel que e' = -—^— où
(n-i)p
q=l-p.
b)P{X>i}< •,(n""-)0-,P'(l-p)"-J
8.7.12 La borne de Chernoff d'une variable aléatoire normale standard Z donne que
P{Z> a] < e~"2,2,a>0. Montrer, en considérant la densité de Z, que la partie droite
de l'inégalité peut être réduite par un facteur 2. En fait, montrer que
P{Z>a}<^e-«212 ,a>0
8.7.13 Si E[X] < 0 et 6 # 0 est tel que E[eox] = 1, montrer que 0 > 0.
8.8 PROBLÈMES
8.8.1 Soit X une variable aléatoire d'espérance et de variance toutes deux égales à 20.
Que peut-on dire de P{0 s£ X s£ 40}?
8.8.2 Un professeur sait par expérience que la note de test d'un étudiant se présentant
à un examen final est une variable aléatoire d'espérance 75.
a) Donner une borne supérieure à la probabilité que la note de test d'un étudiant
dépasse 85;
Supposons maintenant que le professeur sache en plus que la variance de la note de
test d'un étudiant est 25.
b) Que peut-on dire de la probabilité qu'un étudiant obtienne une note comprise entre
65 et 85?
c) Combien faudrait-il qu'il se présente d'étudiants à cet examen pour assurer, avec
une probabilité d'au moins 0,9, que la moyenne de la classe soit de 75 plus ou
moins 5? Ne pas utiliser le théorème central limite.
8.8.3 Utiliser le théorème central limite pour résoudre la partie c) du problème 8.7.2.
Théorèmes limites 397
8.8.4 Soient A',,..., X20 des variables aléatoires indépendantes de Poisson d'espé-
rance 1.
20
a) Utiliser l'inégalité de Markov pour obtenir une borne de P{T. Xt > 15}.
'= 1 20
b) Utiliser le théorème central limite pour obtenir une approximation de .P{£ Xt> 15}.
i= i
8.8.5 On arrondit 50 nombres à l'entier le plus proche et on effectue la somme. Si les
erreurs d'arrondi individuels sont distribuées uniformément sur ( — 0,5, 0,5), quelle
est la probabilité que la somme obtenue ait un écart de plus de 3 par rapport à la
somme exacte?
8.8.6 On lance un dé jusqu'à ce que la somme totale des nombres obtenus dépasse 300.
Quelle est la probabilité qu'il faille au moins 80 jets?
8.8.7 On a 100 ampoules dont les durées de vie sont des variables aléatoires indépen-
dantes exponentielles de moyenne 5 heures. Si l'on allume une ampoule à la fois et
qu'une ampoule grillée est instantanément remplacée par une neuve, qu'elle est la
probabilité qu'il reste encore une ampoule intacte après 525 heures?
8.8.9 Soit X une variable aléatoire gamma de paramètres (n, 1). Quelle doit être la
valeur de n pour que
P{\X/n - 1| > .01} < .01
8.8.10 Des ingénieurs civils pensent que W, le poids (en milliers de livres) qu'une
travée d'un pont peut supporter sans subir de dommage au niveau de sa structure,
suit une loi normale, de moyenne 400 et d'écart-type 40. Supposons que le poids
(également en milliers de livres) d'une voiture est une variable aléatoire normale de
moyenne 3 et d'écart-type 0,3. Combien de voitures devraient se trouver sur cette
travée pour que la probabilité de rupture soit supérieure à 0,1?
Y„ = Y„_, + Xn n> 1
8.8.12 Nous avons 100 composants que nous allons employer les uns après les autres.
Cela veut dire que le composant 1 sera d'abord utilisé, puis lorsqu'il tombera en
panne, il sera remplacé par le composant 2, qui sera lui-même remplacé après
398 Initiation aux probabilités
8.8.13 Les résultats d'un examen donné par un certain professeur ont une moyenne
de 74 et une déviation standard de 14. Ce professeur a donné deux examens; l'un à
une classe de 25 élèves et l'autre à une classe de 64 élèves.
a) Approximer la probabilité que la moyenne du test dans la classe de 25 élèves
dépasse 80.
b) Refaire la question a) pour la classe de 64.
c) Approximer la probabilité que la moyenne de la plus grande classe dépasse celle
de l'autre de 2.2 points.
d) Approximer la probabilité que la moyenne de la plus petite classe dépasse celle de
l'autre de 2.2 points.
8.8.14 Un certain composant joue un rôle critique dans un système électrique et doit
être remplacé immédiatemment à chaque panne. Si la durée de vie moyenne de ce
type de composant est de 100 heures et que sa déviation standard est 30 heures,
combien de ces composants doit-on avoir en stock pour que la probabilité que le
système marche continuellement les 2000 prochaines heures soit au moins de .95 ?
8.8.16 Refaire l'exemple &9 sous l'hypothèse que le nombre de couples est (approxi-
mativement) distribuée selon une loi normale. Cela vous semble-t-il être une supposi-
tion raisonnable?
8.8.19 Soit X une variable aléatoire non négative de moyenne 25. Que peut-on dire
des espérances suivantes:
• E[X3];
' Eb/Jt];
• £[ln x];
• E[<rx]?
Théorèmes limites 399
8.8.21 Est-ce que les résultats de l'exemple 8.13 auraient changé si l'homme d'affaires
avait pu répartir son argent à raison d'une part a, 0 < a < 1, destinée au placement
à haut risque et d'une autre part 1 — a destinée à l'opération sans risque? Son gain
après un tel investissement mixte serait alors R = aX + (1 — a)m.
9.1.1 Définition
Théorème 9.1
Pour tout processus de Poisson de paramètre X
P{N(t) = 0} = e~K'
P0(t + h) = P{N(t + h) = 0}
= P{N(t) = 0, N{t + h)- N{t) = 0}
= P{N(t) = 0}P{N(t + h)- N(t) = 0}
= P0(t)\l-\h + o(h)]
où les deux dernières transformations sont légitimées par l'hypothèse b) d'une part et
par le fait, d'autre part, que P{N(h) = 0} = 1 - Xh + o(h) en vertu des hypothèses
c) et d). Donc
P'o(t) = -\PQ(t)
ou encore
P'o(t)
In P0(t) = -Xt + c
ou
Po(0 = Ke"
PoiO = e-" m
Nous noterons désormais 7, la date du premier événement. Pour n > 1 les varia-
bles aléatoires T„ représenteront le temps écoulé entre le (« — l)-ième et le /;-ième
Thèmes choisis de probabilité 403
événement. La suite {T„, n = 1, 2,...} est appelée suite des intervalles d'attente. Si par
exemple Tx = 5etT2 = 10, nous sommes dans le cas où le premier événement de notre
processus de Poisson est arrivé au temps 5 et le second au temps 15. La distribution
de ces intervalles d'attente est donnée par le théorème suivant:
Théorème 9.2
Tt, T2,... sont des variables aléatoires indépendantes, distribuées exponentiellement
et d'espérance commune l/X.
DÉMONSTRATION. On remarquera d'abord que l'événement {Tt> t] est équivalent à
l'événement «il ne survient aucun événement pendant l'intervalle [0, /]». Par consé-
quent
P{T1>t} = P{N(t) = 0} = e'x'
La variable Tx suit donc une distribution exponentielle d'espérance \/X. Mais par
ailleurs
P{T2>t} = E[P{T2>t\Tl}]
Or
P{T2 > t\ Ti = s} = P{0 événement durant (s, s + t]\ Tt = s}
= P{0 événement durant (s, s + t]}
= e~x'
où les deux dernières inégalités résultent des hypothèses b) et c). Ce calcul permet de
conclure que T2 est également une variable exponentielle d'espérance l/X, indépen-
dante de T, qui plus est. Il suffit alors de répéter ce calcul pour établir complètement
le théorème. •
Une autre variable qui va nous servir est Sn, date à laquelle se produit le «-ième
événement. On l'appelle aussi temps d'attente pour le n-ième événement. On voit
facilement que
Sn = î Ti n>1
i=l
ce qui permet de dire, en invoquant le théorème 9.2 et les conclusions de 5.2 que Sn
suit une loi gamma de paramètres n et X. Sa densité est donc
Nous sommes maintenant en mesure de démontrer que N(t) est une variable
aléatoire de Poisson d'espérance Xt.
404 Initiation aux probabilités
Théorème 9.3
Pour tout processus de Poisson de paramètre X
n'.
N(t) >d«S„<(
et donc
=Jo\\e-^d
(n-1)!
X-\\e'-^f
Jo n\
dx
Ae — dx = e —— + ke — dx
Jo (n-1)! n! J 0 n\
qui achève la démonstration. •
9.2.1 Définitions
Considérons une suite X0, A',,... de variables aléatoires dont l'ensemble fondamen-
tal commun est {(), 1 M}. Ce modèle peut servir à représenter l'état d'un système
au cours du temps, Xn désignant cet état au temps n. Dans ce cadre, nous dirons que
le système se trouve dans l'état / au temps n si X„ — i. La suite des variables
considérées est appelée chaîne de Markov si à partir de tout état ;' la probabilité />,-•
de passer immédiatement après à l'étaty est constante au cours du temps. Plus précisé-
ment encore la condition requise s'écrit, pour tout ensemble de réels i0, /,,..., /„_,, /, /,
'{•Xn-n = / | Xn — l, X„_] = J„_j , . . . , Xi = Il , A() = (()} = P[)
Les grandeurs />,;, où 0 ^ i ^ M et 0 ^ / < M, sont appelées probabilités de transition
de la chaîne de Markov et vérifient (dire pourquoi?) les relations suivantes:
M
p„5 0 i n = i i = o,i,...,M
Thèmes choisis de probabilité 405
et la répétition de cet argument finit par montrer que la probabilité ci-dessus vaut
=
•'i„_1,i„*i„_2,i„-] ' " " Pii,i2Pio.'lP\^0 ~ 'o/
Exemple 9.1 On admet que le fait qu'il ait plu ou non un jour donné est la seule
considération à prendre en compte pour prévoir s'il pleuvra le lendemain. Plus
précisément, s'il pleut aujourd'hui il pleuvra demain aussi avec probabilité a et s'il
ne pleut pas aujourd'hui la probabilité qu'il pleuve demain est p\
On convient de dire que le système est dans l'état 0 s'il pleut et 1 s'il ne pleut pas.
La situation peut être représentée par une chaîne de Markov à deux états dont la
matrice de transition est
a 1— a
/3 1-/3
C'est-à-dire, Poo = a = l - P0l, Pi0 = 0 = l - Pu. •
Exemple 9.2 On considère un joueur qui à chaque tour de jeu ne peut rencontrer que
deux résultats possibles; soit il gagne 1 avec probabilité p, soit il perd 1 avec probabi-
lité 1 — p. On suppose que le joueur cesse de miser dès que sa fortune atteint 0 ou
M. On reconnaît dans la suite des avoirs de ce joueur une chaîne de Markov ayant
pour probabilités de transition
* V M =P=l~Pi,-i i= l,...,M-l
=
^00 P\tM ~ 1
Exemple 9.3 Les physiciens P. et T. Ehrenfest ont étudié un modèle pour le mouve-
ment de molécules dans lequel M molécules sont réparties parmi deux urnes. Au bout
406 Initiation aux probabilités
d'une unité de temps une molécule est désignée au hasard, on la retire de son urne
et la place dans l'autre. On désigne le nombre de molécules contenues dans la première
urne après la n-ième opération par X„. Dans ces conditions {X0, Xu...} est une chaîne
de Markov ayant pour probabilités de transition
M
P,, = 0 si|y-i|>l a
Pf = />{Xm+2 = y|X m = i}
On peut calculer les coefficients Pj,2) à partir des valeurs Py comme suit:
P?=P{X2 = j\X0 = i}
M
= I P{X2 = j,Xl = k\X0 = i}
M
= I P{X2 = j\X, = k,X0 = iyPiX, = k\X0 = i}
k =0
M
=
Z PkjPik
k=0
Le théorème qui suit montre comment on peut calculer les coefficients /*"'.
M
K r <
p\n) = £ P\k Pk"~r) Poul tout
° "
Thèmes choisis de probabilité 407
DEMONSTRATION.
= iPknr)p\k) •
le
Une particule située à l'abscisse /' se retrouvera à l'abscisse y' au bout de n transitions
avec une probabilité égale à celle que (n — / + j)/2 de ces transitions se fassent vers
la droite et n — [(n — i + j)/2] = (« + /— j)/2 se fassent vers la gauche. Comme
chaque transition vers la droite se fera avec probabilité p indépendamment des
transitions passées, on voit que la probabilité cherchée est de type binomial:
où (") vaut 0 si x n'est pas un entier inférieur à « et non négatif. Ce résultat peut être
décrit ainsi:
P
'ïï* ={n2+k)P"+k{l~Pr~k k = 0,±l,...,±n
p(2«+l) = / 2/1+1 \ +k + l k
fc = 0 , ± l , . . . , ± n , - ( / i + l ) •
On remarquera que bien que les P{p soient des probabilités conditionnelles, on
peut les utiliser pour le calcul de probabilités non conditionnelles en conditionnant
selon l'état initial. Par exemple,
= i p | ; , p { x „ = i}
408 Initiation aux probabilités
Il apparaît que pour un grand nombre de chaînes de Markov, la suite des P^]
converge lorsque n tend vers l'infini vers une limite II • qui ne dépend que de j . En
d'autres termes, la probabilité de se trouver dans l'état j après n transitions lorsque
n est grand, est approximativement Tlj, indépendamment de l'état de départ. On peut
montrer qu'une condition suffisante pour qu'une chaîne de Markov possède cette
propriété est qu'il existe un n > tel que
Les chaînes de Markov satisfaisant (9.1) sont dites ergodiques. Comme d'après le
théorème 9.4
M
PT" = I P^Pkj
k=0
il résulte que lorsque n tend vers l'infini, les chaînes ergodiques vérifient
M
n, = I UkPki (9.2)
fc-0
M
De plus, 1 = S P]f. On obtient donc également, toujours si n -* oo,
M
I n, = i (9.3)
On peut en fait montrer que les n, pour 0 ^ j < M, sont les seules solutions non
négatives de (9.2) et (9.3). Ces résultats sont rassemblés dans le théorème 9.5, cité sans
démonstration.
Théorème 9.5
Pour toute chaîne de Markov ergodique,
n , = lim PiH)
n-»oo
existe et les ITj, 0 ^ j < M, sont les seules solutions non négatives de
M
n; = i nkpki
lc=0
M
Z n y = i.
Exemple 9.5 Reprenons la situation présentée dans l'exemple 9.1, où l'on admet qu'il
pleuvra demain avec une probabilité a ou B selon qu'il pleuve aujourd'hui ou non. Le
théorème 9.5 indique que les probabilités limites de pluie et d'absence de pluie,
notées n o et O,, seront
Thèmes choisis de probabilité 409
ce qui donne
Si par exemple a = 0,6 et P = 0,3, la probabilité limite qu'il pleuve le n-ième jour, n
tendant vers l'infini, est Il 0 = 2. •
et que les Yl^j = 0,..., M sont l'unique solution des équations précédentes d'après le
théorème 9.5, on conclut que P-t = Ylpj = 0, ..., M.
n0 = n, x 1
M
M
S n, = i
n,= (^)(ir. y = 0, . . . , M
410 Initiation aux probabilités
satisfont les équations précédentes, elles représentent donc les proportions de fois où
la chaîne de Markov reste dans chacun des états. (Le problème 9.6.11 indique
comment on aurait pu deviner cette solution.) •
Axiome 9.6
S(l) = 0
Notre seconde condition sera que plus un événement est improbable, plus grande
sera notre surprise.
Axiome 9.7
S est une fonction strictement décroissante de p, c'est-à-dire que si p < q alors
(S(p) > S(q).
La troisième condition est l'expression mathématique de l'opinion qu'une petite
variation de p devrait n'entraîner qu'une faible variation de S(p).
Axiome 9.8
S est une fonction continue.
Pour étayer la dernière condition, considérons deux événements indépendants E
et F deprobabilités respectives P{E) = pet P(F) = q. Comme P(EF) = pq, la surprise
Thèmes choisis de probabilité 411
Axiome 9.9
S(pq) = S(p) + S(q) 0<A><1,0<<?<1
Nous avons maintenant les éléments nécessaires pour énoncer le théorème 9.10 qui
va nous livrer l'expression analytique de S.
Théorème 9.10
Si S satisfait les axiomes 9.6 à 9.9, alors
S(p) = -C\og2p
S{p) = S(pUn • •
S(pl/n) (9.5)
S(pm/n)
pour autant que x soit rationnel positif. En vertu de l'axiome 9.8 (continuité de S),
la relation (9.6) reste vraie pour toute valeur non négative de x (le lecteur peut
l'établir).
412 Initiation aux probabilités
1
Dans le reste de ce chapitre nous écrirons log .x pour log,*. On continuera d'écrire In x pour
désigner log^ x.
Thèmes choisis de probabilité 413
Admettons maintenant que l'on ait observé que Y = y y La quantité restante d'incerti-
tude sur X est dès lors
Wy = J / (X) = -Y, p(xt | y,) log p(Xi | y,-)
i
OÙ
pU,|y,) = P{X = ;c,|Y = y,}
Aussi écrira-t-on comme suit l'incertitude moyenne associée à X après observation
de Y:
Hy(X) = lHY.yi(X)pY(y,)
i
où
M y / ) = J , {V = y,-}
Théorème 9.11
H{X, Y) = H(Y) + HY(X)
Théorème 9.12
HY(X)sH(X)
et l'égalité a lieu si et seulement si X et Y sont indépendantes.
DÉMONSTRATION.
+lï.p{Xi,yj)\o%p{xi)
• i
= IZp(*i,yy)log[-^rl
i i LpU|y,)J
< log e I I p(Xi, yt) P *' - 1 en application de (9.7)
' i lp(Xi\yj) J
= log e[l - 1]
= 0 .
Imaginons qu'il faille transmettre la valeur prise par une variable discrète X d'un
point A, où on l'observe, jusqu'à un point B, ceci grâce à un système de communica-
tion ne véhiculant que des 0 ou des 1. La première chose à faire est de coder les diverses
valeurs que X peut prendre pour les transformer en chaînes de 0 et de 1. Pour éviter
toute ambiguïté on exige normalement qu'il soit impossible de former un code
simplement en ajoutant quelque chose à un autre.
A titre d'exemple supposons que X puisse prendre l'une des quatre valeurs x{, x2,
x3, JC4. Un des codes auxquels on peut penser serait:
x, <->00
x3 <-> 10
x4*+ 11
Ceci signifie que lorsque X = x„ le message envoyé en B est 00, qu'il est 01 lorsque
X = x2, etc. Mais on peut aussi coder ainsi:
X2 *"» 10 /Ç) g\
X3~110
JC4 «-> 111
Thèmes choisis de probabilité 415
x2*-> 1
x3<-»00
n'est pas admis car les codes correspondant à x3 et x4 sont des extensions du code
de X|.
L'un des objectifs ordinairement assignés au codage est de minimiser le nombre
moyen de bits (c'est-à-dire de chiffres binaires) qui seront nécessaires pour transmettre
le message de A à B. Supposons par exemple que
P{X = *,} = \
P{X = x2} = i
P{X = x3} = ï
Le code donné par (9.9) utilisera en moyenne j(l) + ]-(2) + l-(3) + ^(3) = 1,75 bits;
mais le code donné par (9.8) aura en moyenne besoin de 2 bits. Aussi dit-on, pour
cette distribution de X, que ce dernier est moins efficace que l'autre.
Les considérations qui précèdent soulèvent la question suivante: pour une variable
X donnée, quelle est l'efficacité maximale que puisse présenter un codage? La réponse
est que pour tout codage il faudra transmettre un nombre de bits moyen au moins
égal à l'entropie de X. Nous allons démontrer ce résultat, connu en théorie de
l'information sous le nom de théorème du codage sans bruit, en deux phases.
Théorème 9.13
Soient X une variable aléatoire et {xt, x2,..., xN} l'ensemble des valeurs qu'elle peut
prendre. Pour que des chaînes binaires de longueurs respectives «,,..., nN constituent
un codage des valeurs de X (sans que certains codes ne constituent des extensions
d'autres codes), il faut et il suffit que
I (I)"' s 1
i=l
DÉMONSTRATION. Soient N entiers positifs notés «„..., nN. Désignons par w- le nombre
des «, valant j , j = 1, 2,.... Il est évident que si nous voulons obtenir un codage
exprimant pour tout i = 1,..., JV la valeur xf en «, bits, il est nécessaire que w, ^ 2.
Comme de plus il est exclu qu'une chaîne binaire constitue une extension d'une autre,
on aura w2 ^ 22 — 2vv, (ceci résulte du fait qu'au nombre 22 de chaînes de longueur
2 il faut soustraire le nombre 2w{ des séquences qui ne sont qu'une extension des
chaînes de longueur 1 déjà utilisées). Le même raisonnement permet d'établir de
manière générale que
416 Initiation aux probabilités
pour n = 1,.... Le lecteur peut en fait se convaincre en réfléchissant tant soit peu que
ces conditions sont également suffisantes pour qu'il existe un codage traduisant x, en
une chaîne de longueur «,, i = 1,..., N. On peut réécrire (9.10):
Une division par 2" livre une nouvelle expression de nos conditions nécessaires et
suffisantes:
£ w,(!)''< 1 pour tout n (9.11)
y-i
équivaut à: °°
I WyGV ^ 1
>=1
Le résultat est ainsi acquis puisque par définition des w-, qui représentent le nombre
des n, de longueur /',
I w,(î)y = I (!)"••
>=i i-i B
IN
DÉMONSTRATION. Posons P\ = p{xt), <?, = 2 "> / £ 2~\ i = 1 , . . , N. Alors
/ ;= 1
N ( p\ N /p\
iog = lo8e p ln
-,?/- w) - ,?, ' u)
=loge I P, In (j?)
N N
= 0 puisque Y. P = I <?. = 1
i=l i=l
Thèmes choisis de probabilité 417
Donc
- Z PtlogP,*-Z P.logq,
i=l i=l
N I N \
= I nfi + log ( I 2-'
i=i \/=i
= 1.75
Il résulte alors du théorème 9.14 qu'il n'existe pas de codage plus efficace que
Xi <-»0
x2<-> 10
X3<-»110
JC4 -ï-^- 1 1 1 •
Dans la plupart des cas il n'existe pas de codage dont l'efficacité atteint la borne
correspondant à H(X). Il est cependant toujours possible de créer un codage tel que
le nombre moyen de bits utilisé s'approche de H(X) à moins d'une unité. Pour
l'établir, il suffit de considérer les entiers «, satisfaisant
et donc, en vertu du théorème 9.13, il existe un codage des valeurs JC, de X par des
chaînes de longueur «,, / = 1,..., N. La longueur moyenne de ces chaînes est
N
L = Z n.piXi)
i=i
satisfaisant
418 Initiation aux probabilités
ou enfin
H(X) s L < H ( X ) + 1
Exemple 9.8 On jette dix foix une pièce tombant sur face avec probabilité p. Les jets
sont indépendants. On désire transmettre le résultat en un point B, alors que l'expé-
rience est réalisée en un autre point A. Le résultat de cette expérience est donc un
vecteur aléatoire X = (Xt,..., Xl0) où Xj = 1 ou 0 selon que le jet correspondant a
ou n'a pas donné face. Les résultats précédents établissent que le nombre moyen L
de bits nécessaires à la transmission satisfera pour tout codage
H(X) < L
L<H(X) +1
Or les Xj sont indépendantes et il résulte donc des théorèmes 9.11 et 9.12 que
H ( X ) = H ( X , , . . . , X , ) = £ H(X,)
= -10[plogp + ( l - p ) l o g ( l - p ) ]
Pour p = i on trouve H{X) = 10. Dans ce cas on ne peut pas faire mieux que coder
X grâce à ses composantes. Si par exemple les cinq premiers jets donnent face et les
cinq derniers pile, il suffit de transmettre en B le message 1111100000.
Si par contre p / \ il sera souvent possible de faire mieux que ce dernier codage.
Pour p = - par exemple,
H ( X ) = - 1 0 ( i l o g i + | l o g | ) = 8.11
Xi = 0 , X 1 + I =0<-»0
Xi = 0,X j + 1 = l*-> 10
Xt = 1,X,+I = 0 < H > 1 1 0
Xi = 1,X,+ 1 = 1** 111
où / = 1,3, 5, 7, 9. Le message total est constitué des messages partiels mis bout à
bout. Si par exemple on observe P P P F F P P P P F il faudra émettre 010110010.
La longueur moyenne du message en bits est pour ce codage
Thèmes choisis de probabilité 419
Nous avons jusqu'ici supposé que le message émis en A était reçu sans erreur en
B. Cependant, une erreur peut toujours résulter des perturbations aléatoires agissant
sur le canal de communication. Il peut arriver qu'à cause d'une telle perturbation un
message émis sous la forme 00101101 en A parvienne en B sous la forme 01101101.
Supposons qu'un bit émis en A soit correctement enregistré en B avec probabilité
p, et ce indépendamment d'un bit à l'autre. Un tel système de communication est
appelé canal binaire symétrique. Admettons encore que p = 0,8 et qu'on veuille
transmettre un message constitué d'une grande quantité de bits de A à B. La transmis-
sion du message tel quel entraînera une probabilité d'erreur de 0,2 par bit, ce qui est
plutôt fort. Un moyen de réduire ce taux d'erreur consiste à émettre trois fois
consécutivement chaque bit du message puis à décoder en appliquant le système
majoritaire. Cela revient en d'autres termes à utiliser le codage
Encodage Décodage
000
001
0->000
010
100
111
110
1 -• 111 101
011J
ce qui constitue une amélioration notable. Il est évident qu'on peut rendre le taux
d'erreur aussi petit que l'on veut en répétant le bit à transmettre de nombreuses fois
puis en décodant selon le système majoritaire. Le codage suivant, par exemple
réduirait le taux d'erreur par bit à moins de 0,01:
Encodage Décodage
Le problème avec ce type de codage est que, tout en réduisant le taux d'erreur, on
réduit aussi le nombre de bits significatifs par signal (voir tableau 9.1).
0.20 1
0.10 0.33 ( = 1/17)
0.01 0.06 ( = ^
9.5.1 Des clients arrivent dans une banque à un rythme poissonien de taux X.
Supposons que deux clients arrivent durant la première heure. Quelle est la probabilité
que
• les deux soient arrivés durant les 20 premières minutes?
• L'un au moins soit arrivé pendant les 20 premières minutes?
9.5.2 Sur une autoroute les voitures franchissent une ligne transversale à un rythme
décrit par un processus poissonien de taux par minute X = 3. Joe traverse l'autoroute
sans regarder. Quelle est alors la probabilité qu'il ne soit pas blessé s'il met s secondes
pour traverser? (on suppose que s'il se trouve sur la route alors qu'une voiture passe,
il sera blessé). Prendre ,v = 2, 5, 10, 20.
9.5.3 Supposer, dans le scénario du problème 9.5.2, que Joe est assez agile pour
échapper à une seule voiture, mais que s'il rencontre 2 ou plusieurs voitures en
essayant de traverser la route, il sera blessé. Quelle est la probabilité qu'il ne soit pas
blessé s'il met s secondes pour traverser? Prendre s = 5, 10, 20, 30.
9.5.4 On suppose que 3 boules blanches et 3 boules noires sont réparties dans deux
urnes de façon que chacune de celles-ci contienne trois boules. On dira que le système
est dans l'état i si la première urne contient /' boules blanches, / = 0, 1, 2, 3. A chaque
étape une boule est tirée de chaque urne, puis la boule tirée de la première urne est
placée dans la deuxième et inversement. Soit X„ l'état du système après la «-ième
étape; calculer les probabilités de transition de la chaîne de Markov {X„, n ^ 0}.
9.5.5 Considérer l'exemple 9.1. S'il y a 50 chances sur 100 qu'il pleuve aujourd'hui,
calculer la probabilité qu'il pleuve pendant 3 jours à partir d'aujourd'hui lorsque
a = 0,7 et p = 0,3.
9.5.8 Un jour donné, Buffy est soit de bonne humeur (b), soit comme-ci comme-ça
(c), soit mélancolique (m). Si elle est de bonne humeur aujourd'hui, elle sera b, c ou
m demain avec probabilité 0,7,0,2,0,1 respectivement. Si elle est comme-ci comme-ça
aujourd'hui, elle sera b, c ou m demain avec probabilité 0,4, 0,3, 0,3 respectivement.
Si elle est mélancolique aujourd'hui, elle sera b, c ou m demain avec probabilité 0,2,
0,4, 0,4 respectivement. Quelle proportion de temps Buffy est-elle de bonne humeur?
9.5.9 Supposons que le fait qu'il pleuve ou non demain ne dépende que des conditions
météorologiques des deux derniers jours. Plus précisément, supposons que s'il a plu hier
et aujourd'hui, il pleuvra demain avec probabilité 0,8; s'il a plu aujourd'hui mais pas
hier, il pleuvra demain avec probabilité 0,4 et s'il n'a plu ni hier ni aujourd'hui, il
pleuvra demain avec probabilité 0,2. Quel est le pourcentage de jours pluvieux?
9.5.10 Un homme fait une promenade tous les matins. Lorsqu'il quitte la maison pour
sa promenade, il emprunte avec équiprobabilité la porte de devant ou celle de derrière
et de même, au retour, il rentre avec équiprobabilité par la porte de devant ou de
derrière. Le promeneur possède 5 paires de chaussures de marche qu'il ôte, après la
promenade, devant la porte qu'il emprunte pour rentrer. S'il ne trouve pas de
chaussures devant la porte, en sortant de chez lui, il se promènera pieds nus. On veut
déterminer le pourcentage de promenades qu'il effectue pieds nus.
a) Représenter cette situation par une chaîne de Markov. Donner les états et les
probabilités de transition.
b) Déterminer le pourcentage de promenades qu'il effectue pieds nus.
422 Initiation aux probabilités
9.5.12 Déterminer l'entropie de la somme obtenue lors du jet d'une paire de dés non
pipés.
9.5.13 Soit Xune variable pouvant prendre n valeurs différentes avec pour probabilités
respectives /»„..., P„. Montrer que H(X) est maximale lorsque Pt = 1/n, i = 1,..., n.
Que vaut H(X) dans ce cas?
y _ j1 si la somme est 6
[0 sinon
et soit Y la valeur montrée par le premier dé. Calculer H(Y), Hy(X) et H(X, Y).
9.5.15 Une pièce ayant une probabilité p =2/3de tomber sur face est lancée 6 fois.
Calculer l'entropie du résultat de l'expérience.
9.5.16 Une variable aléatoire peut prendre les valeurs xu..., x„ avec probabilités
respectives p(x,), i = 1,..., n. On essaie de déterminer la valeur de X en posant une
série de questions, les seules réponses possibles étant oui ou non. Par exemple, on peut
demander «X est-elle égale à x,?» ou «X est-elle égale à x{ ou x2 ou x3?», et ainsi de
suite. Que pouvez-vous dire sur le nombre moyen de questions nécessaires pour
déterminer la valeur de XI
9.5.17 Montrer que pour toute variable aléatoire discrète X et toute fonction/on a
9.6 RÉFÉRENCES
Les références suivantes concernent les paragraphes 9.1 et 9.2
Kemeny, J., L. Snell, and A. Knapp. Denumerable Markov Chains. New York: D. Van Nostrand Company,
1966.
Parzen, E. Stochaslic Processes. San Francisco: Holden-Day, Inc., 1962.
Ross, S. M. Introduction to Probability Models, 3rd éd. New York: Academic Press, Inc., 1984.
Ross, S. M. Stochaslic Processes. New York: John Wiley & Sons, Inc., 1983.
Simulation
10.1 INTRODUCTION
Les variables Xs, i = 1,..., n seront alors des variables de Bernoulli pour lesquelles
426 Initiation aux probabilités
tendra avec probabilité 1 vers la probabilité de gagner une partie. Ou encore, on peut
dire qu'après un grand nombre de parties on peut utiliser la proportion de parties
gagnées sur le nombre total de parties pour obtenir une estimation de la probabilité
cherchée. La méthode consistant à déterminer des probabilités de manière empirique
à travers l'expérimentation est appelée simulation.
Dans le but d'utiliser un ordinateur pour mener une étude de simulation, on doit
pouvoir générer les valeurs d'une variable aléatoire uniforme sur (0, 1); ces valeurs
sont appelées des nombres aléatoires. Pour générer ces nombres, la plupart des
ordinateurs possèdent une fonction prédéfinie appelée générateur de nombres aléatoi-
res, qui produit une suite de nombres pseudo-aléatoires. C'est une suite de nombres
qui, pratiquement, est semblable à un échantillon issu d'une distribution uniforme sur
(0, 1). La plupart des générateurs de nombres aléatoires procèdent en se basant sur
une valeur initiale X0, appelée le germe, puis en calculant selon un processus recursif
les valeurs suivantes à l'aide de nombres prédéterminés a, c et m, selon la formule
Ceci signifie que aX„ + c est divisé par m et que l'on assigne à X„+l le reste de cette
division. Chaque X„ peut donc prendre des valeurs dans 0, 1,..., m—1 et c'est la
quantité X„/m qui est prise comme approximation d'une variable aléatoire uniforme
sur (0, 1). On peut montrer qu'avec des choix convenables de a, c et m, cette méthode
produit une suite de nombres qui semblent provenir de l'observation de variables
aléatoires indépendantes uniformes sur (0, 1).
Pour simuler des variables de distribution quelconque, nous admettrons désormais
que nous disposons déjà d'un simulateur de variable uniforme sur (0, 1) et nous
utiliserons le terme «nombres aléatoires» pour désigner les variables aléatoires indé-
pendantes ayant cette distribution.
Dans l'exemple du solitaire nous aimerions programmer un ordinateur pour jouer
la partie en partant avec un certain arrangement des cartes. Cependant, étant donné
que la configuration initiale est l'une des (52)! permutations possibles, et ceci avec la
même probabilité, par hypothèse, il est également nécessaire de pouvoir générer une
permutation aléatoire. L'algorithme suivant montre comment, seulement à partir de
nombres aléatoires, on peut l'obtenir. L'algorithme commence par le choix aléatoire
d'un des éléments et le place à la position n; puis il prend un autre élément au hasard
parmi ceux qui restent et le met en position n— 1; et ainsi de suite. Le choix parmi les
éléments restants se fait de manière efficace en maintenant ceux-ci dans une liste
ordonnée et en sélectionnant au hasard une position dans cette liste.
Simulation 427
1. Considérer une permutation arbitraire et noter X(i) l'élément qui est placé dans la
position i, i = 1,..., n. (Par exemple, on pourrait prendre X(i) = i, i = 1,..., n).
2. Générer une variable aléatoire N„ qui peut prendre les valeurs 1, 2,..., n de façon
équiprobable.
3. Intervertir les valeurs de X(N„) et de X(n). Désormais la valeur de X{n) sera gardée
fixe. [Par exemple, prenons n = 4 et au départ X(i) = i, i = 1, 2, 3, 4. Si NA = 3,
alors la nouvelle permutation est X(\) = 1, X{2) = 2, XÇ>) = 4, AX(4) = 3 et
l'élément 3 sera maintenu à la position 4.]
4. Générer une variable aléatoire Nn_x qui vaudra 1, 2,..., «—1 avec équiprobabilité.
5. Intervertir les valeurs de X(N„_i) et de X(n— 1). [Si maintenant N3 = 1, alors la
nouvelle permutation est AX(l) = 4, X(2) = 2, X(3) = 1 et X(4) = 3].
6. Générer une variable aléatoire Nn_2 à valeurs dans {1, 2,..., n —2} avec équiproba-
bilité.
7. Intervertir les valeurs de X(N„_2) et de X(n — 2). [Si N2 = 1 alors la nouvelle
permutation est X(l) — 2, X(2) = 4, ^(3) = 1, X(4) = 3 et c'est la permutation
finale].
8. Générer N„_3, et ainsi de suite. L'algorithme continue jusqu'à la génération de N2
et, après l'interversion correspondante, la permutation résultante est la permuta-
tion cherchée.
Pour exécuter cet algorithme, il est nécessaire de pouvoir générer une variable
aléatoire qui prend les valeurs 1, 2,..., k avec équiprobabilité. Pour le réaliser, noter
U un nombre aléatoire - c'est-à-dire que U est uniformément distribué sur (0, 1) - et
remarquer que kU est uniforme sur (0, k). Ainsi,
Dans cette section nous présenterons deux méthodes générales, basées sur l'utilisa-
tion des nombres aléatoires, pour simuler des variables aléatoires continues.
Sur le théorème qui suit est basée une méthode générale pour la simulation de
variables aléatoires continues, appelée méthode de la transformation inverse.
Théorème 10.1
Soit une variable uniforme U sur (0, 1) et soit F une fonction de répartition continue
quelconque. La variable aléatoire Y définie par
Y = F\U)
1
Dans le cas m = 2, une autre technique pour la répartition aléatoire des individus est présentée
dans l'exemple 6.12 du chapitre 6. La procédure générale est plus rapide mais nécessite plus de
place en mémoire que celle de l'exemple 6.12.
Simulation 429
Fr(a) = P{U^F(a)}
= F{a) m
Selon le théorème 10.1, nous pouvons simuler une variable aléatoire A-de fonction
de répartition continue F en produisant un nombre aléatoire U et en posant
X =F~\U).
1 - e~x = y
d'où
x = -In (1 - y)
F-'(U) = -ln(l - U)
On peut utiliser les résultats de l'exemple 10.2 pour simuler une variable aléatoire
gamma.
"1 1 / " \
Supposons que l'on dispose d'une méthode pour simuler une variable aléatoire de
fonction de densité g(x). Sur cette base, on peut simuler une variable aléatoire
continue de fonction de densité f(.x). En effet, on simule d'abord Y ayant la den-
sité g puis on accepte cette valeur générée avec une probabilité proportionnelle à
f(Y)/g(Y).
430 Initiation aux probabilités
Nous appliquons la procédure suivante pour simuler une variable aléatoire de fonc-
tion de densité/.
Méthode de rejet
Etape 1: On simule Y de fonction de densité g et on produit un nombre aléatoire U.
Etape 2: Si U <f(Y) / cg(Y), on pose X = Y. Sinon on revient à l'étape 1.
A-t-on Oui
Générer Générer un Y
Y - g nombre aléatoire
U cg(Y)
Non
Figure 10.1 Méthode de rejet pour simuler une variable aléatoire X de fonction de
densité /
Théorème 10.2
La variable aléatoire X générée par la méthode de rejet a la fonction de densité f.
l cgiX))
_
K
1 (10.2)
1 -- f 1
cK
Comme
(10.4)
(_IV _ 1\2Ï
= V2e/Tr exp
^ Vle/it
en prenant c — yj2e/n, grâce à l'équation (10.4) on a
—— = exp
{^}
De ce fait, grâce à la méthode de rejet, on peut simuler la valeur absolue d'une variable
aléatoire normale standard selon la procédure suivante:
a) Générer deux variables aléatoires indépendantes Y et U, Y étant exponentielle
standard et U uniforme sur (0, 1).
b) Si U < exp { — (Y — l)2/2} poser X = Y. Sinon revenir au point a).
Une fois que l'on a simulé une variable aléatoire X de fonction de densité donnée en
(10.3), on peut générer une variable aléatoire normale standard Z où Z vaudra X ou
— X de façon équiprôbable.
Dans l'étape b), la valeur F est acceptée si U < exp { - (Y - l)2/2}, ou de façon
équivalente si - In U > (Y - l)2/2. Cependant, on a montré dans l'exemple 10.2 que
— In U est exponentiel standard, et par conséquent les étapes a) et b) sont équivalen-
tes à
a') Générer deux variables aléatoires indépendantes F, et Y2 exponentielles standard,
b')Si Y2 > (F, - l)2/2, poser X = Yv Sinon revenir en a')-
Supposons maintenant que dans cette procédure on accepte F, - on sait donc que F2
est plus grand que (F, — l)2/2. Que vaut cet écart? Pour répondre à cette question,
rappelons que F2 est exponentiel de moyenne 1, par conséquent, étant donné qu'il
dépasse une certaine valeur, le surplus entre F2 et (F, — l)2/2 (c'est-à-dire «la durée
de vie additionnelle» au-delà du temps (F, — l)2/2) suit également une loi exponen-
tielle de moyenne 1, en vertu de la propriété d'absence de mémoire. En d'autres
termes, si l'on s'arrête à l'étape b'), on obtient non seulement X, la valeur absolue
d'une normale standard, mais encore en calculant Y2 — {Y^ — l)2/2 une variable
aléatoire exponentielle standard (indépendante de X).
Ce qui donne, en résumé, l'algorithme suivant pour simuler une variable exponen-
tielle standard et une variable normale standard indépendantes.
Etape 1: Générer F,, une variable aléatoire exponentielle standard.
Etape 2: Générer F2, une variable aléatoire exponentielle standard.
Etape 3: Si Y2 - (Yt - l)2/2 > 0 poser F = Y2-{YX- l)2/2 et aller à l'étape 4.
Sinon aller à l'étape 1.
Etape 4: Générer un nombre aléatoire U et poser
Simulation 433
Exemple 10.5 Simulation de variables aléatoires normales par la méthode des coor-
données polaires
On a montré dans l'exemple 6.27 du chapitre 6 que si X et Y sont des variables
aléatoires normales standard indépendantes, alors leurs coordonnées polaires
R = sJX2 + Y2, 9 = Arc tg(Y/X) sont indépendantes. R2 suit une loi exponentielle
de moyenne 2 et 9 est uniformément distribuée sur (0, 2%). Ainsi, si Ux et U2 sont deux
nombres aléatoires alors, grâce au résultat de l'exemple 10.2, on peut poser
/? = ( - 2 1n£/,)l/2
9 = 2nU2
V, = 2t/, - 1
V2 = 2U2 - 1
434 Initiation aux probabilités
alors (Kb V2) est uniformément distribué à l'intérieur du carré d'aire 4 centré en (0, 0)
illustré sur la figure 10.2
(i,D (i, i)
Figure 10.2
Supposons maintenant que nous générons une suite de couples (V1, V2) jusqu'à ce que
nous obtenions un couple qui soit contenu dans un cercle de rayon 1 centré en (0, 0)
- c'est-à-dire jusqu'à ce que (K„ V2) soit tel que V] + V\ < 1. Cela implique que
ce couple (K„ V2) est uniformément distribué à l'intérieur du cercle. Soient R et 9 leurs
coordonnées polaires, il est facile de vérifier que R et 8 sont indépendantes, avec R2
uniformément distribuée sur (0, 1) et 9 uniformément distribuée sur (0,2n) - voir pour
cela le problème 10.5.13.
Comme
Or, comme #% sachant que V \ + V\ < 1, a une distribution uniforme sur (0, 1) et
qu'il est indépendant de 9, on peut l'utiliser au lieu de générer un nouveau nombre
aléatoire U; de cette façon on montre que
Simulation 435
S = R2 = V2 + Vl
x= h2^Sv^y= hlMy2
A-2, + 1 = Z 2
- 2 1n (nu,
où Z, [/,,..., U„ sont indépendants, Z est normale standard et les autres variables sont
uniformes sur (0, 1). •
436 Initiation aux probabilités
Toutes les méthodes générales pour simuler des variables aléatoires continues ont
leur analogue dans le cas discret. Par exemple, supposons que l'on veuille simuler une
variable aléatoire X dont la loi de probabilité est
Comme
P{X = i} = (l - p)>-ip /a 1
qui est clair si l'on remarque que X = /si les (/ — 1 ) premières épreuves résultent en
des échecs et la /-ème épreuve est un succès. La variable aléatoire X est appelée une
variable aléatoire géométrique de paramètre p. Comme
—1
In
= min \ ./:./>
ln(l
In U
1 +
ln(l -p)
Comme dans le cas continu, des techniques particulières de simulation ont été
développées pour la plupart des distributions discrètes usuelles et certaines vont être
présentées maintenant.
fl si U,• < p
' [0 sinon
N = min In : U U, < e~
438 Initiation aux probabilités
X + 1
est équivalent à
ou encore a
Soient Xt,..., X„ dont la distribution conjointe est donnée; supposons que l'on
s'intéresse au calcul de
e-EfecXi, • • • .*„)]
où g est une fonction fixée. Le calcul analytique de cette expression s'avère souvent
extrêmement difficile et, dans ce cas, on peut essayer de recourir à la simulation pour
estimer 0. La procédure est la suivante: générer les variables X\i],..., Ar<„l> ayant la
même distribution conjointe que A',,..., A",, et poser
Simulation 439
Dans la situation précédente, supposons que nous ayons généré deux variables Y]
et Y2 identiquement distribuées de moyenne 0. On a
l
Var - [Var (K,) + Var (Y2) + 2 Cov (Yu Y2)]
y, = g(Ff'([/,), . . . ,F-\U„))
440 Initiation aux probabilités
Or, pour tout nombre aléatoire U, 1 — U est aussi uniforme sur (0, 1 ) et est corrélé
négativement avec U. Y2 défini par
aura donc la même distribution que y,. Par conséquent, si y, et Y2 ont une corrélation
négative, alors en générant Y2 par cette méthode, on obtiendra une variance plus
petite que s'il provenait d'un nouvel ensemble de nombres aléatoires. (De plus, on
économise des opérations, car au lieu de générer n nombres aléatoires supplémentai-
res, il suffit de soustraire chacun des n nombres précédents de 1). Bien qu'en général
on ne puisse pas être certain que Y, et Y2 soient corrélés négativement, il se trouve que
c'est souvent le cas et on peut effectivement montrer que c'est le cas si g est une
fonction monotone.
il s'ensuit que Ij,j = 1,..., n sont des variables aléatoires indépendantes, identiquement
distribuées et ayant la même moyenne E[/,-] = TI/4. On a donc, en vertu de la loi forte
des grands nombres, que
Simulation 441
et ainsi
E[/|V,] = E[VT^~K?]
De cette façon, pour estimer n/4, on obtient une amélioration si l'on utilise non pas
la moyenne de / mais plutôt la valeur moyenne de Vl — V\- Plus précisément, comme
où U est uniforme sur (0, 1), on peut générer n nombres aléatoires U et prendre la
valeur moyenne de Vl — t/ 2 comme estimation de rc/4. (Le problème 10.5.14 montre
que cet estimateur a la même variance que la moyenne des n valeurs Vl — ^ 2 -)
On peut même encore améliorer cet estimateur de n si l'on remarque que la
fonction g(u) = y/\ — u1, 0 < u < 1 est une fonction monotone décroissante et ainsi
la méthode des variables antithétiques réduira donc la variance de l'estimateur de
E[yjl — U2]. En d'autres termes, plutôt que de générer n nombres aléatoires et de
prendre la valeur moyenne de Vl — U1 comme estimation de n/4, on peut obtenir un
meilleur estimateur en générant seulement M/2 nombres aléatoires U et en prenant la
moyenne de Vl — ^ 2 + >/l — (1 — U)2 divisée par 2 comme estimation de n/4.
La table suivante donne les estimations de 7t résultant de simulations basées sur les
3 estimateurs cités, en prenant n = 10 000.
442 Initiation aux probabilités
Méthode Estimation de n
Utilisant la proportion des points aléatoires tombant dans le
cercle 3,1612
Utilisant la valeur moyenne de -Jl — U2 3,128448
Utilisant la valeur moyenne de y/l - U2 + >Jl - (1 - U)2 3,139578
Une autre simulation, qui considère la dernière approche avec n = 64 000, donne
l'estimation 3,143288. •
Supposons de nouveau que l'on veuille estimer £[g(X)], où X = (A"];..., X„), par la
méthode de simulation. Mais maintenant nous supposerons que pour une fonction/
la valeur moyenne de/(X) est connue - à savoir E [/(X)] = fi. Pour toute constante
a, on peut alors prendre
Var (W) = Var [g(X)] + a2 Var [/(X)] + la Cov [g(X), /(X)] (10.6)
= - C o v [ / ( X ) , g(X)] (10.7)
° Var [/(X)]
[C
Var (W) = Var [g (X)] - °V [ / ( X ) ' *(X)]]2 «*•*>
lsy n
Var[/(X)]
Malheureusement, Var [/(X)] et Cov [/(X), g(X)] ne sont en général pas connues,
aussi nous ne pouvons obtenir cette réduction de variance. Dans la pratique, une
approche consiste à estimer ces valeurs et à espérer que la variable W obtenue ait
effectivement une variance plus petite que celle de g(X), alors qu'une seconde possibi-
lité est de simuler les données pour estimer ces quantités.
10.5 PROBLEMES
10.5.1 L'algorithme suivant génère une permutation aléatoire des éléments 1, 2,..., n.
Il est un peu plus rapide que celui présenté dans l'exemple 10.1 mais il est tel qu'aucune
Simulation 443
position n'est fixée avant que l'algorithme s'arrête. Dans cet algorithme, P(i) peut être
considéré comme l'élément se trouvant en position i.
Etape 1 : Poser k = 1.
Etape 2: Poser P{\) = 1.
Etape 3: Si A: = n, s'arrêter. Sinon poser k = k + 1.
Etape 4: Générer un nombre aléatoire U et poser
P(k) = P([kU] + 1)
P([kU] + 1) = k.
Revenir à l'étape 3.
= (
^*-ivi> 2> • • • » f / - i > ' . ij> • • • . ' * - 2 / 7
10.5.2 Développer une technique pour simuler une variable aléatoire ayant la fonction
de densité de probabilité
IV* -oo < x < 0
\e~2x 0 < x < oo
10.5.3 Développer une technique pour simuler une variable aléatoire ayant la fonction
de densité de probabilité
r[
(JC - 2) 2 < x < 3
2
f(x) = { 1
2\2~5 3<
*
0 ailleurs
10.5.4 Présenter une méthode pour simuler une variable aléatoire ayant la fonction de
répartition
(0 x < -3
1 X
-3 < x < 0
2 + 6
F(x) = { 1 x2
- + — 0<j(<4
2 32
1 x > 4
444 Initiation aux probabilités
10.5.6 Donner une méthode de simulation d'une variable aléatoire ayant la fonction
taux de panne
a) k(t) = c
b) k(t) = et
c) X(f) = et2
d) k(t) = et3
a) Donner une méthode pour simuler une variable aléatoire ayant F comme fonction
de répartition, qui n'utilise qu'un seul nombre aléatoire.
b) Soient U1, U2,..., U„ des nombres aléatoires indépendants. Montrer que
a) F(.x) = Ô F,M
/'= 1
b) F(x) = 1 - fi [1 - F,.«]
i= 1
10.5.9 Supposer que l'on a une méthode pour simuler des variables aléatoires ayant
les distributions F, et /s. Expliquer comment on simule à partir de la distribution
10.5.10 Dans l'exemple 10.4 nous avons simulé la valeur absolue d'une variable
aléatoire normale standard selon la procédure de rejet appliquée sur des variables
Simulation 445
10.5.11 Utiliser la méthode de rejet avec g(x) = 1, 0 < x < 1, pour déterminer un
algorithme de simulation d'une variable aléatoire ayant la fonction de densité de
probabilité
_ f 60x3(l - x)2 0< x <1
[0 ailleurs
10.5.12 Expliquer comment on peut utiliser des nombres aléatoires pour approximer
§0k(x) dx où k(x) est une fonction arbitraire. Pour cela, dire ce que représente E[k(U)]
si U est uniforme sur (0, 1).
10.5.15
a) Vérifier que (10.6) atteint son minimum lorsque a est donné par (10.7).
b) Vérifier que la valeur minimale de (10.6) est donnée par (10.8).
10.5.16 Soit X une variable aléatoire définie sur (0, 1 ) ayant la fonction de densité/(;c).
Montrer que l'on peut estimer ÇQg(x) dx en simulant X et en prenant g(X)/f(X)
comme estimateur. Cette méthode, appelée échantillonnage par importance, essaie de
choisir une fonction / d e forme semblable à celle de g telle que g(X)/f(X) ait une
variance faible.
10.6 RÉFÉRENCE
Ross, S M A Course in Simulation, Macmillan, 1991.
Solutions à quelques problèmes choisis
Chapitre 1
Chapitre 2
Chapitre 3
Chapitre 4
4.11.1 P(4) = 6/91, P(2) = 8/91, P(l) = 32/91, P(0) = 1/91, P(-l) = 16/91,
P(-2) = 28/91
4.11.4 1/2, 5/18, 5/36, 5/84, 5/252, 1/252,0,0, 0, 0 4.11.5 n - 2i, i = 0,..., n
4.11.6 P(3) = P(-3) = 1/8, P(l) = P(-l) = 3/8
4.11.12 a) P(4) = 1/16, P(3) = 1/8, P(2) = 1/16, P(0) = 1/2, P(-i) = P(0 b) P(0) = 1
4.11.13 P(0) = 0.28, P(500) = 0.27, P(1000) = 0.315, P(1500) = 0.09,
P(2000) = 0.045
Solutions à quelques problèmes choisis 449
4.11.14 P(0) = 1/2, P(l) = 1/6, P(2) * 1/12, P(3) = 1/20, P(4) = 1/5
4.11.17 a) 1/4, 1/6, 1/12 b) 1/2 4.11.19 1/2, 1/10, 1/5, 1/10, 1/10
4.11.20 a) 0.5918 b) non c) -0.108 4.11.21 38.793, 36.25
4.11.23 3.5 4.11.24 p = 11/18, maximin = 23/72
4.11.26 11/2, 17/5 4.11.27 A(p + 1/10) 4.11.28 3/5
4.11.31 p* 4.11.32 110 - 100(0.9)10
4.11.33 96 4.11.35 a) -0.0067 b) 1.093
4.11.37 92.5, 92.1875 4.11.39 3/8 4.11.40 11/243
4.11.42 p > 1/2 4.11.45 3 4.11.50 a) 1/10 b) 1/10
4.11.51 a) c-2 b) 1 - 3c"2 4.11.53 a) 1 - e~6 b) 1 - <r219-18
4.11.56 365 log(2) 4.11.57 a) 0.5768 b) 0.6070
4.11.59 a) 0.3935 b) 0.3033 c) 0.0902 4.11.600.8886
4.11.610.4082 4.11.63 a) 0.0821 b) 0.2424
4.11.65 a) 0.3935 b) 0.2293 c) 0.3935 4.11.66 a) 0.1500 b) 0.1012
4.11.68 5.8125 4.11.69 a) 32/243 b) 4864/6561 c) 160/729 d) 160/729
4.11.73 li(ny>-V(35y> 4.11.76 3/10, 5/6, 75/138
4.11.77 0.3439
Chapitre 5
Chapitre 6
6.8.2 a) 14/39, 10/39, 10/39, 5/39 b) 84, 70, 70, 70, 40, 40, 40, 15 tous sur 429
6.8.3 15/26, 5/26, 5/26, 1/26 6.8.4 25/169,40/169, 40/169, 64/169
6.8.6 p(i,j) = 1/10 6.8.7 p(i,j) =p2 (1 -p)i+J
6.8.8 1/8 6.8.9 b) (12A:2 +6*)/7 c) 15/56 d) 0.8625
6.8.10 a) 1/2 b) 1 - e- 6.8.11 0.1458 6.8.12 (39.3)<r5
6.8.13 1/6, 1/2 6.8.15 7t/4 6.8.16 «(1/2)" - '
6.8.17 1/3 6.8.18 7/9 6.8.19 1/2
6.8.21 c-'/j ! 6.8.24 %a /[( \a + ^ )( ^ + Âj )]
6.8.26 a) e~2 b) 1 - 3e"2 6.8.28 0.0446 6.8.29 a) 1/3,2/3 b) 5/12, 7/12
6.8.30 5/13, 8/13 6.8.31 a) 1/6, 5/6 b) 1/4, 3/4
450 Initiation aux probabilités
6.8.33
j 1 2 3 4 5
i
1 0.438 0.219 0.146 0.1095 0.0876
2 0 0.3896 0.2597 0.1948 0.1558
3 0 0 0.4255 0.3191 0.2553
4 0 0 0 0.5556 0.4444
5 0 0 0 0 1
p{x = j\Y = i}
6.8.36 a) (y + lf
Chapitre 7
Chapitre 8
Chapitre 9
Eriang(loid')217 F
Espérance mathématique 126,187, 289, Factorielle 3
347-348 Fermât 82, 86
- comme centre de gravité 128 Fonction de variable aléatoire 221
- conditionnelle 316-319 Fonction génératrice des moments 333, 340
définition générale - conjoints 343-344
- d'une fonction de variable aléatoire - de variable binomiale 334-335, 338
128-129,188-189 - de variable exponentielle 336
- d'une somme de variables aléatoires - de variable normale 336-337, 339
290 - de variable poissonienne 335, 338
- de variable de Bernoulli 134 - d'une quantité aléatoire de variables
- de variable binomiale 134, 293 aléatoires 342-343
- de variable binomiale négative 158, 294 (tables des) 338, 339
- de variable exponentielle 208 Fonction de répartition 120
- de variable gamma 217 - conditionnelle 263
- de variable géométrique 155 - marginale 236,
- de variable hypergéométrique 161-162, - simultanée ou conjointe 235, 244
294 - simultanée de n variables 244
- de variable normale 197-198 Formule de Bayes 68
- de variable poissonienne 147 - généralisée 72
- de variable uniforme 193 Formule
- du nombre de rencontres 295 .- des probabilités totales 67
- de la somme d'une quantité aléatoire de - des probabilités totales généralisées 72
variables aléatoires 320 - de Stirling 141
(tables récapitulatives des) 338, 339 - de la variance conditionnelle 325, 326,440
Estimation du maximum de vraisemblance Fréquence relative et définition des
160,165 probabilités 28-29
Etendue d'un échantillon aléatoire 269
Evénement(s) 24
- complémentaires 25 G
- conditionnellement indépendants 95 Gamma (loi) 216, 257, 274
- dépendants 75-76 relation avec la loi chi-carré 217, 258
- élémentaire 35 relation avec la loi exponentielle 258
- indépendants 75-76, 77-78 relation avec le processus de Poisson
(intersection d') 25 216-217
- limite 45 (simulation de variable) 429
- mutuellement exclusifs 25 Gauss 207
- totalement indépendants 77-78 Générateur de nombres aléatoires 426
- vide 25 Géométrique (loi) 154
Exclusifs (événements mutuellement) 25 (simulation de variable) 436-437
Exponentielle 208
(loi) 208
(espérance de variable) 208 H
(variance de variable) 208-209 Huyghens 82, 86
(fonction génératrice des moments de Hypergéométrique (loi) 159, 278, 316-317
variable) 336 relation avec la loi binomiale 163
(absence de mémoire d'une variable) 210
variable -, relation avec la loi gamma 258
relation avec la demi-vie 253-255 I
loi-double 212 Incertitude 412
(simulation d'une variable) 429 Indépendantes (variables aléatoires) 245, 250
456 Initiation aux probabilités
M PQ
Marche aléatoire 300,407 Paradoxe
Marginale (distribution) 238 - de Bertrand 194
Index 457
W
Weibull(loi de) 218,226,444
Variable aléatoire 115 relation avec la loi exponentielle 226
- continue 183 Weierstrass (théorème de) 395
- discrète 123
Variance
- comme moment d'inertie 133 XYZ
- conditionnelle 325-326 Zêta
formule de la - conditionnelle 325-326 (loi) 163
- d'une variable binomiale 139, 309 fonction - de Riemann 163
- d'une variable binomiale négative 158 Zipf (loi de) 163