Unisat L 2 Proba Stat

UE : Probabilités-Statistique
UNISAT, Licence 2
prof. armel yodé

Table des matières
I EUE 1 : Probabiités 5
1 Analyse combinatoire 6
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Arrangements sans répétitions . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Arrangements avec répétitions . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Combinaisons sans répétitions . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Combinaisons avec répétitions . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Espace probabilisé 9
2.1 Univers des possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Evénements, Tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Conditionnement et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Variables aléatoires réelle 14

3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.5 Caractéristiques des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . 17
3.5.1 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.6 Variance, écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.7 Calcul de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.7.1 Utilisation de la fonction de répartition . . . . . . . . . . . . . . . . . . . 18
3.7.2 Formule de changement de variables . . . . . . . . . . . . . . . . . . . . . 18
3.8 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8.1 Loi uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8.2 Loi de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8.4 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.8.5 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.8.6 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.9 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2
TABLE DES MATIÈRES 3
3.9.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.9.2 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.9.3 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4 Vecteurs aléatoires 22
4.1 Couple de variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Couple de variables aléatoires à densité . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Caractéristique d’un couple de variables aléatoires . . . . . . . . . . . . . . . . . 23
4.3.1 Covariance, coefficient de correlation . . . . . . . . . . . . . . . . . . . . 23
4.3.2 Moments d’un couple de variables aléatoires . . . . . . . . . . . . . . . . 24
4.3.3 Matrice de variance-covariance . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5 Convergences et Théorèmes limites 25

5.1 Modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.3 Théorème Central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6 Exercices non corrigés 27
7 Exercices corrigés 29
II ECUE 2 : Statistique inférentielle 35
8 Modélisation statistique 36
8.1 Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
8.2 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
9 Estimateurs 39
9.1 Principe général de l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.1.1 Propriétés à distance finie . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.1.1.1 Echantillon gaussien . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.1.1.2 Risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . 40
9.1.2 Propriétés asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
9.1.2.1 Convergence ou consistance . . . . . . . . . . . . . . . . . . . . 41
9.1.2.2 Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . 41
9.2 Methode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 42
9.3 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
10 Estimation par intervalle de confiance 48

10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
10.2 Construction d’un intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . 49
10.2.1 Fonction pivotale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
10.3 Intervalle de confiance pour la moyenne d’une loi normale . . . . . . . . . . . . 49
10.3.1 Intervalle de confiance pour une proportion . . . . . . . . . . . . . . . . 51
4 TABLE DES MATIÈRES
11 Généralités sur les tests d’hypothèses 52
11.1 Principe des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
11.2 Etapes des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
11.3 La règle de la p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
12 Tests de Student : un échantillon 54

12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
12.2 H0 : m ≤ m 0 contre H1 : m > m 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
12.2.1 On suppose que la variance σ2 est connue. . . . . . . . . . . . . . . . . . 54
12.2.2 On suppose σ2 est inconnue . . . . . . . . . . . . . . . . . . . . . . . 56
12.3 H0 : m ≥ m 0 contre H1 : m < m 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
12.3.1 On suppose que la variance σ2 est connue. . . . . . . . . . . . . . . . . . 57
12.3.2 On suppose que la variance σ2 est inconnue. . . . . . . . . . . . . . . . . 57
12.4 H0 : m = m 0 contre H1 : m 6= m 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
12.4.1 On suppose que la variance σ2 est inconnue. . . . . . . . . . . . . . . . . 59
13 Tests de Student : deux échantillons 60

13.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
13.2 Test de Fisher de comparaison des variances . . . . . . . . . . . . . . . . . . . . 61
13.3 Test de Student de comparaison des moyennes . . . . . . . . . . . . . . . . . . . 61
13.3.1 Résolution du test lorsque les variances connues . . . . . . . . . . . . . . 62
13.3.2 Résolution du test lorsque les variances sont inconnues . . . . . . . . . 62
14 Tests de comparaison des proportions 64

14.1 Test sur la valeur d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . 64
14.2 Test de comparaison de deux proportions . . . . . . . . . . . . . . . . . . . . . . 65
Première partie
EUE 1 : Probabiités
5
Chapitre
1 Analyse combinatoire
1.1 Introduction
L’analyse combinatoire est un important outil dans de nombreuses branches des mathé-
matiques, notamment dans la théorie des probabilités et en statistique. Soient deux éléments
a et b. On distingue deux types de dispositions ou groupes :
— disposition ordonnée : (a, b) 6= (b, a)
— disposition non ordonée : (a, b) = (b, a)
1.2 Principes
Il existe deux principes fondamentaux en analyse combinatoire :
— Principe additif : Si une tâche peut être accomplie de m manières, et si une autre
tâche peut être accomplie de n manières. Et si les deux tâches ne peuvent pas être
réalisées simultanément, alors la réalisation d’une ou de l’autre des deux tâches peut
être accomplie de m + n manières.
— Principe multiplicatif : Si une procédure peut être découpée en deux étapes, et
qu’il y a m facons possibles de réaliser la première étape, et qu’il y a n facons possibles
de réaliser la seconde étape, alors la procédure peut être accomplie de nm facons.
1.3 Arrangements
Définition 1.3.1. Un arrangement de p éléments choisis parmi n éléments est une dispo-
sition ordonnée de p de ces n éléments.
On distingue les arrangements avec répétitions et les arrangements sans répétitions.
1.3.1 Arrangements sans répétitions

Un arrangement sans répétition est une disposition ordonnée dans laquelle chacun des
éléments ne peut figurer qu’une seule fois.
Définition 1.3.2. Le nombre d’arrangements sans répétitions de p éléments choisis parmi
n est
p n!
An =
( n − p)!
6
1.4. COMBINAISONS 7
où n! = n × (n − 1) × . . . × 2 × 1.
Exemple 1.3.1. Le nombre d’arrangements sans répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est A 23 = 6. Ces 6 arrangements sont : (a,b),
(b,a), (a,c), (c,a), (b,c), et (c,b).
Remarque 1.3.1. Un arrangement sans répétitions est une permutation si p = n. Le
nombre de permutations de n éléments est :
A nn = n!
Exemple 1.3.2. Le nombre de permutations de 3 éléments a, b, c est P3 = 3! = 6. Ces 6
permutations sont : (a,b,c), (a,c,b), (b,a,c), (b,c,a), (c,a,b), et (c,b,a).
Exemple 1.3.3. Tirage sans remise : Une urne U contient n boules numérotés de 1 à n. On
tire successivement p boules de U sans les remettre dans l’urne. Il y a A np tirages différents
possibles.
1.3.2 Arrangements avec répétitions

Un arrangement avec répétition est une disposition ordonnée dans laquelle chacun des
éléments peut figurer plusieurs fois.
Définition 1.3.3. Le nombre d’arrangements avec répétitions de p éléments choisis parmi
n est n p .
Exemple 1.3.4. Le nombre d’arrangements avec répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est 32 = 9. Ces 9 arrangements sont : (a, a),
(a, b), ( b, a), (a, c), ( c, a), ( b, b), ( b, c), ( c, b) et ( c, c).
Exemple 1.3.5. Tirage avec remise : Une urne U contient n boules numérotés de 1 à n.
On tire successivement p boules de U en remettant chaque fois dans l’urne la boule qu’on
vient de tirer. Le nombre de tirages possibles est donc n p .
1.4 Combinaisons
Définition 1.4.1. Une combinaison de p éléments choisis parmi n éléments est une dispo-
sition non ordonnée de p de ces n éléments.
On distingue les combinaisons avec répétitions et les combinaisons sans répétitions.
1.4.1 Combinaisons sans répétitions

Une combinaison sans répétitions est une disosition non ordonnée de p éléments choisis
parmi n éléments dans laquelle chacun des éléments ne peut figurer qu’une seule fois.
Définition 1.4.2. Le nombre de combinaisons sans répétitions de p éléments choisis parmi
n est :
p n!
Cn = .
p!( n − p)!
Exemple 1.4.1. Le nombre de combinaisons sans répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est C32 = 3. Ces 3 combinaisons sans répétitions
sont : (a, b), (a, c), et ( b, c).
Exemple 1.4.2. Une urne U contient n boules numérotée de 1 à n. On tire simultanément
p boules de U . Le nombre de tirages possibles vaut le nombre de combinaisons de p éléments
parmi n.
8 CHAPITRE 1. ANALYSE COMBINATOIRE
1.4.2 Combinaisons avec répétitions
Une combinaison avec répétitions est une disosition non ordonnée de p éléments choisis
parmi n éléments dans laquelle chacun des éléments peut figurer plusieurs fois.
Définition 1.4.3. Le nombre de combinaisons avec répétitions de p éléments choisis parmi
n est :
p p
K n = C n+ p−1 .
Exemple 1.4.3. Le nombre de combinaisons avec répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est K 32 = C42 = 6. Ces 6 combinaisons sont :
(a, a), (a, b), (a, c), ( b, b), ( b, c) et ( c, c)
Exemple 1.4.4. Soit E = {R, V , B}. Alors (B, B, R, V , V ) est une combinaison avec répétition
de 5 éléments de E.
Exemple 1.4.5. On souhaite répartir p chiffons dans n tiroirs. On note les tiroirs t1 , . . . , t n .
A une répartition, on associe le mot t1 , . . . , t1 , t2 , . . . , t2 , . . . , t n , . . . , t n , où chaque t i est répété
autant de fois que le nombre de chiffons rangés dans le tiroir. On obtient une combinaison
avec répétitions.
Chapitre
2 Espace probabilisé
L’objet des probabilités est de modéliser des phénomènes aléatoires et de prédire avec
certitude leur évolution ou les conséquences qu’ils peuvent engendrer.
2.1 Univers des possibles

Définition 2.1.1. Une expérience E est qualifiée d’aléatoire si on ne peut pas prévoir par
avance son résultat et si, répétée dans des conditions identiques, elle peut donner lieu à des
résultats différents.
Définition 2.1.2. L’univers des possibles (ou univers), noté Ω est défini par l’ensemble de
tous les résultats possibles qui peuvent être obtenus au cours d’une expérience aléatoire.
La description explicite de l’ensemble Ω est la première étape dans la modélisation d’un

phénomène aléatoire. On distingue les univers comprenant un nombre fini de résultats de
ceux comprenant un nombre infini de résultats. Parmi les univers infinis, on distingue les
univers infinis non dénombrables des univers infinis dénombrables. Par exemple, l’univers
Ω = {ω1 , . . . , ω i , . . .} est un univers infini dénombrable puisque l’on peut identifier chacun des
éléments de Ω, même s’il en existe une infinité. En revanche, Ω = R est un exemple d’univers
infinis non dénombrables. Dans le cas d’un univers fini ou infini dénombrable, la taille de
l’univers est appelée cardinal de Ω et est noté card (Ω).
Exemple 2.1.1. Voici quelques expériences aléatoires et les univers des possibles corres-
pondants :
1. On lance une pièce. On a Ω = {pile, face}.
2. On jette un dé. On a Ω = {1, 2, 3, 4, 5, 6}.
3. On jette deux dés. On a
Ω = {( i, j ) : 1 ≤ i, j ≤ 6} = {(1, 1), (1, 2), (1, 3), . . .}.
4. Un bus est censé passer toutes les 30 minutes à l’école de police pour se rendre à Faya.
Un passager arrive à l’arrêt de bus. On cherche à modéliser son temps d’attente. A
priori, on peut supposer que ce temps d’attente est dans l’intervalle Ω = [0, 30].
9
10 CHAPITRE 2. ESPACE PROBABILISÉ
2.2 Evénements, Tribu

Définition 2.2.1. Un événement (ou une partie) A est un sous-ensemble de l’univers des
possibles Ω vérifiant A ⊂ Ω .
Définition 2.2.2. Un événement constitué d’un seul élément est un événement élémentaire
(ou singleton).
Définition 2.2.3. Un événement certain correspond à l’univers des possibles Ω.
Définition 2.2.4. Un événement impossible est un événement qui ne se réalise jamais. Il

correspond à l’ensemble vide, noté ;
Exemple 2.2.1. On considère une expérience aléatoire correspondant au lancer d’un dé à 6
faces. L’univers est alors Ω = {1, 2, 3, 4, 5, 6}. L’événement ” nombre pair ”, noté A, correspond
au sous-ensemble de l’ univers Ω défini par A = {2, 4, 6}.
Définition 2.2.5. Soient deux événements A et B. La réalisation de l’événement C , défini

par C = A ∪ B implique la réalisation de l’événement A ou de l’événement B, ou des deux
événements A et B simultanément.
Définition 2.2.6. Soient deux événements A et B. La réalisation de l’événement D , défini

par D = A ∩ B entraı̂ne la réalisation de l’événement A et de l’événement B.
Définition 2.2.7. Deux événements A et B sont disjoints s’ils n’ont pas d’élément en com-
mun, c’est à dire, A ∩ B = ; . Ces deux événements sont donc incompatibles : la réalisation
simultanée de ces événements est impossible.
Définition 2.2.8. Deux événements A et D inclus dans un ensemble B sont complémen-

taires si leur union correspond à B, c’est à dire, A ∪ D = B et leur intersection est vide
( A ∩ D = ;).
On note A le complémentaire de A dans l’univers Ω.
Définition 2.2.9. L’ensemble des parties de Ω, noté P (Ω), correspond à l’ensemble de

tous les événements réalisables à partir des événements élémentaires de l’univers Ω. Par
convention Ω ∈ P (Ω), ; ∈ P (Ω).
Définition 2.2.10. Soit Ω un ensemble et A ⊂ P (Ω). On dit que A est une tribu sur Ω si
les trois conditions suivantes sont vérifiées :
• Ω∈A
• si A ∈ A alors Ā ∈ A (stabilité par passage au complémentaire)
• si ( A i ) i∈ I est une famille dénombrable d’éléments de A alors A i ∈ A . (stabilité par
[
i∈ I
réunion dénombrable)
Remarque 2.2.1. La tribu A sur Ω représente l’ensemble de tous les évènements sucep-
tibles de se produire au cours de l’expérience aléatoire E . Lorsque l’ensemble Ω est fini ou
infini dénombrable, on choisira pour A l’ensemble de toutes les parties de Ω, c’est-à-dire,
A = P (Ω).
Le couple (Ω, A ) est appelé espace probabilisable. Pour compléter la description d’un
phénomène aléatoire, il nous reste à introduire la notion de mesure de probabilité.
2.3. PROBABILITÉ 11
2.3 Probabilité
Pour une expérience aléatoire donnée, une fois déterminé le couple (Ω, A ) qui représente
l’univers Ω associé à cette expérience et la tribu des évènements A , on définit une application
de A à valeurs dans [0, 1] qui à chaque évènement associe sa probabilité, c’est à dire la chance
de réalisation de cet évènement.
Définition 2.3.1. On appelle probabilité sur (Ω, A ) une application P : A → [0, 1] telle
que :
(i) P(Ω) = 1
(ii) si ( A i ) i∈ I est une famille dénombrable d’éléments de A deux à deux disjoints ou
incompatibles (i.e. ∀ i 6= j, A i ∩ A j = ;) alors
Ã !
P P( A i ).
[ X
Ai =
i∈ I i∈ I
On appelle espace probabilisé le triplet (Ω, A , P).

Définition 2.3.2. 1. L’évènement A tel que P( A ) = 0 est dit presque impossible.
2. L’évènement A tel que P( A ) = 1 est dit presque certain.
Propriété 2.3.1. 1. P(;) = 0
2. P( Ā ) = 1 − P( A ).
3. Si A 1 ⊆ A 2 alors P( A 2 \ A 1 ) = P( A 2 ) − P( A 1 ).
4. P( A 1 ∪ A 2 ) = P( A 1 ) + P( A 2 ) − P( A 1 ∩ A 2 ).
5. Si A 1 ⊆ A 2 alors P( A 1 ) ≤ P( A 2 ).
Exemple 2.3.1. Equiprobabilité.
On considère une expérience aléatoire E pour laquelle Card (Ω) est fini et les évènements
élémentaires sont équiprobables, c’est à dire ∀ω ∈ Ω, on a
1
P({ω}) = .
Card (Ω)
On choisit alors A = P (Ω), l’ensemble des parties de Ω et on a pour tout B ∈ P (Ω)
Card (B)
P( B ) = .
Card (Ω)
2.4 Conditionnement et indépendance

Soit (Ω, A , P) un espace probabilisé. Dans ce chapitre, nous allons étudier deux notions
importantes : le conditionnement et l’indépendance. Le conditionnement permet de prendre
en compte une information supplémentaire dans le calcul d’une probabilité. L’indépendance
rend compte du fait que deux évènements n’ont aucune incidence l’un sur l’autre.
2.4.1 Probabilité conditionnelle

Définition 2.4.1. Soient A et B deux évènements tels que P(B) > 0. On appelle probabilité
conditionnelle de A sachant que B, le réel défini par
P( A ∩ B)
P( A /B) = .
P(B)
L’application A 7−→ P( A /B) définit une probabilité sur (Ω, A ).
12 CHAPITRE 2. ESPACE PROBABILISÉ
Proposition 2.4.1. Formule des probabilités composées.
n
\
Soit A 0 , . . . , A n une suite d’évènements telle que A i 6= ;. Alors, on a
i =0
n
P( A i ) = P( A 0 ) × P( A 1 / A 0 ) × P( A 2 / A 0 ∩ A 1 ) × . . . × P( A n / A 0 ∩ A 1 ∩ . . . ∩ A n−1 ).
\
i =0
Exemple 2.4.1. Pour n = 1, on a
P( A 0 ∩ A 1 ) = P( A 0 ) × P( A 1 / A 0 ).
Pour n = 2, on a
P( A 0 ∩ A 1 ∩ A 2 ) = P( A 0 ) × P( A 1 / A 0 ) × P( A 2 / A 0 ∩ A 1 ).
Définition 2.4.2. Une famille finie d’évènements ( A i )1≤ i≤n deux à deux incompatibles tels
que ∪ni=1 A i = Ω est appelée système complet d’évènements.
Théorème 2.4.1. Formule des probabilités totales.

Soit {B1 , . . . , B n } un système complet d’évènements. Alors, nous avons
n
∀A ∈ A P( A ) = P(B i )P( A /B i ).
X
i =1
Exemple 2.4.2. Une urne contient des boules blanches et noires, marquées ou non. On
suppose que parmi les boules marquées, il y a 30% de boules blanches et parmi les non mar-
quées 60%. Par ailleurs, on sait que 80% des boules sont marquées. Quelle est la probabilité
de tirer une boule blanche ?
Solution. On note
B =”la boule est blanche”
M =”la boule est marquée”
On a
B = (B ∩ M ) ∪ (B ∩ M c )
P(B) = P(B ∩ M ) + P(B ∩ M c )
= P( M ) × P(B/ M ) + P( M c ) × P(B/ M c )
80 30 20 60 36
= × + × = .
100 100 100 100 100
Théorème 2.4.2. (Formule de Bayes)

Soit {B1 , . . . , B n } un système complet d’évènements et A un évènement tel que P( A ) > 0.
Alors, nous avons
P(B i )P( A /B i )
P( B i / A ) = n
.
P (B k )P( A /B k )
X
k=1
Exemple 2.4.3. Le quart d’une population est vacciné contre le choléra. Au cours d’une
épidémie, on constate qu’il y a parmi les malades un vacciné pour 4 nonvaccinés, et qu’il
y a un malade sur 12 parmi les vaccinés. Quelle est la probabilité qu’un non-vacciné tombe
malade ?
2.4. CONDITIONNEMENT ET INDÉPENDANCE 13
2.4.2 Indépendance
Définition 2.4.3. Soient A et B deux évènements. On dit que A et B sont indépendants si
P( A ∩ B) = P( A )P(B).
Si A est tel que P( A ) > 0, l’indépendance de A et B s’écrit encore P(B/ A ) = P(B) et on

retrouve la notion intuitive d’indépendance : le fait que A se soit re ?alisé ne change rien
quant à la probabilité que B se réalise.
Proposition 2.4.2. Si A et B sont indépendants, alors il en va de même pour :

- les évènements Ā et B ;
- les évènements A et B̄ ;
- les évènements Ā et B̄
Définition 2.4.4. Les évènements A 1 , . . . , A n sont dits mutuellement indépendants si

Ã !
P P( A i ).
\ Y
∀ I ⊂ {1, . . . , n}, Ai =
i∈ I i∈ I
Chapitre
3 Variables aléatoires réelle
Soit (Ω, A , P) un espace probabilisé.
3.1 Généralités
Soit (Ω, A , P) un espace probabilisé. La variable aléatoire X traduit une situation liée à
l’expérience aléatoire modélisée par l’espace probabilisé (Ω, A , P).
Définition 3.1.1. Une variable aléatoire X réelle est une application définie sur Ω à valeurs
dans R telle que pour tout x ∈ R,
n o
{ X ≤ x} = ω ∈ Ω : X (ω) ≤ x ∈ A .
Étant donnés un espace probabilisé (Ω, A , P) et une variable aléatoire réelle X , on peut
construire de façon naturelle une probabilité sur X (Ω), l’ensemble des valeurs prises par la
fonction X . Cette probabilité est appelée loi de la variable aléatoire X et est notée P X .
3.2 Variables aléatoires discrètes

Définition 3.2.1. La variable aléatoire réelle X est dite discrète si X (Ω) est fini ou infini
dénombrable.
La loi de probabilité d’une variable aléatoire réelle discrète X est déterminée par :
1. X (Ω)
2. f ( x) = P X ({ x}) = P( X = x), pour tout x ∈ X (Ω).
La fonction f est appelée fonction de masse. La probabilité d’un évènement A est donnée
par
P X ( A ) = P( X ∈ A ) = P( X = x ) .
X
x∈ A
Nous avons
X
f ( x ) = 1.
x ∈ X (Ω )
14
3.3. VARIABLES ALÉATOIRES CONTINUES 15
3.3 Variables aléatoires continues

Définition 3.3.1. La variable aléatoire réelle X est dite continue si l’ensemble de ses valeurs
X (Ω) est un intervalle de R.
Définition 3.3.2. On dit qu’une variable aléatoire réelle continue admet une densité f si
pour tout intervalle [a, b] ⊂ X (Ω) :
Z b
P( X ∈ [a, b]) = f ( x) dx
a
Z +∞
où f est une fonction positive telle que f ( x) dx = 1.
−∞
La fonction f est appelée densité de probabilité de X .
Il suffit donc de connaı̂tre la densité de probabilité f pour connaı̂tre la loi de X .
3.4 Fonction de répartition

Définition 3.4.1. Soit X une variable aléatoire réelle. On appelle fonction de répartition
de X , la fonction F définie sur R à valeurs dans [0, 1] par :
F ( x ) = P( X ≤ x ) .
Proposition 3.4.1. On a :
1. F est croissante ;
2. F est continue à droite ;
3. lim F ( x) = 1 et lim F ( x) = 0;
x→+∞ x→−∞
4. Pour tous réels a et b avec a < b,
P(a < X ≤ b) = F ( b) − F (a).
Proposition 3.4.2. F est continue à droite en tout x ∈ R et
P( X = x ) = F ( x + ) − F ( x − ) = F ( x ) − F ( x − )
où
F ( x+ ) = lim F ( t).
t→ x,t> x
−
F ( x ) = lim F ( t).
t→ x,t< x
Pour une variable aléatoire discrète :
P( X = t ) ∀ x ∈ R..
X
F ( x) =
t≤ x
Exemple 3.4.1. On lance deux dés non pipés. L’univers associé à cette expérience est
Ω = {( i, j ) : 1 ≤ i, j ≤ 6}.
Nous avons card (Ω) = 36 et la probabilité sur Ω est définie par

1
P({ω}) = .
36
16 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLE
On s’interesse à la variable aléatoire discrète suivante : pour tout ω = ( i, j ) ∈ Ω, X (ω) = i + j .
x 2 3 4 5 6 7 8 9 10 11 12
px 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
La fonction de répartition est

P(X = t)
X
F(x) =
t≤ x


 0 si x<2

1/36 si 2 ≤ x < 3








 3/36 si 3 ≤ x < 4

6/36


 si 4 ≤ x < 5

10/36 si 5 ≤ x < 6





15/36 si 6 ≤ x < 7
=


 21/36 si 7 ≤ x < 8

26/36 si 8 ≤ x < 9




30/36 si 9 ≤ x < 10









 33/36 si 10 ≤ x < 11

35/36 si 11 ≤ x < 12





1 si x ≥ 12

Pour une variable aléatoire continue à densité de probabilité f :

Z x
F ( x) = f ( t) dt.
−∞
Exemple 3.4.2. On dit qu’une variable aléatoire réelle continue suit la loi exponentielle de
paramètre λ > 0 si la densité de probabilité f est définie par :
λ e−λw
(
si x ≥ 0
f ( x) =
0 sinon.
Déterminons la fonction de répartition de X .
Pour tout x ∈ R, nous avons :
Z x
F ( x ) = P( X ≤ x ) = f ( t) dt
−∞
(
0 si x ≤ 0
= R x −λ t
0 λe dt Si x > 0
(
0 si x ≤ 0
=
1 − e−λ x Si x ≥ 0
Proposition 3.4.3. Soit X une variable aléatoire à densité de fonction de répartition F .
Alors
— F est continue sur R.
— F est dérivable en tout point x où f est continue et F 0 ( x) = f ( x).
Remarque 3.4.1. Pour une variable aléatoire continue X , la fonction de répartition F est
continue sur R et F ( x+ ) = F ( x− ) = F ( x). Ce qui implique que P( X = x) = 0 pour tout x ∈ R. On
dit que la loi de X est diffuse.
Remarque 3.4.2. La fonction de densité est une représentation très utile de la loi de pro-
babilité d’une variable aléatoire continue. On peut définir la loi de probabilité d’une variable
aléatoire continue, soit par sa fonction de répartition, soit par sa fonction de densité.
3.5. CARACTÉRISTIQUES DES VARIABLES ALÉATOIRES 17
3.5 Caractéristiques des variables aléatoires

3.5.1 Espérance
Soit X une variable aléatoire réelle.
Définition 3.5.1. On appelle espérance de X , le nombre réel

• E[ X ] = xP( X = x) si X est une variable aléatoire discrète
X
x ∈ X (Ω )
Z +∞
• E[ X ] = x f X ( x) dx si X est une variable aléatoire continue de densité f X .
−∞
• La variable aléatoire X est dite centrée si E( X ) = 0.
Plus généralement, soit g une application définie sur R à valeurs dans R.
Proposition 3.5.1. Nous avons

• pour une variable aléatoire discrète
E( g( X )) = g( x)P( X = x)
X
x ∈ X (Ω )
• pour une variable aléatoire continue admettant une densité de probabilité f

Z +∞
E( g( X )) = g( x) f ( x) dx
−∞
Proposition 3.5.2. (Linéarité de l’espérance)

Soient X et Y deux variables aléatoires réelles et c ∈ R une constante. Alors on a E[ cX + Y ] =
cE[ X ] + E[Y ].
Proposition 3.5.3. Soient X et Y deux variables aléatoires réelles telles que X ≤ Y , alors
E[ X ] ≤ E[Y ].
L’espérance de X est la moyenne pondérée des valeurs que X peut prendre, les poids
étant les probabilités que ces valeurs soient prises. C’est un indicateur de localisation. Néan-
moins, la connaissance de l’espérance seule donne peu de renseignements sur X . Ainsi, elle
s’accompagne de la variance qui caractérise la dispersion de X autour de sa moyenne E( X ).
3.6 Variance, écart-type

Définition 3.6.1. Soit X une variable aléatoire discrète. On appelle moment d’ordre k ≥ 1,
la quantité
E[ X k ] = x k P( X = x).
X
x ∈ X (Ω )
Définition 3.6.2. Soit X une variable aléatoire continue de densité f X . On appelle moment
d’ordre k ≥ 1, la quantité Z +∞
E[ X k ] = x k f X ( x) dx.
−∞
Définition 3.6.3. Soit X une variable aléatoire qui admet des moments d’ordre deux i.e.
E[ X 2 ] < +∞. On appelle variance de X la quantité
var ( X ) = E[ X 2 ] − (E[ X ])2 = E[( X − E( X ))2 ].

p
Définition 3.6.4. On appelle écart-type σ X la racine carrée de la variance : σ X = var( X ).
Proposition 3.6.1. Soient X et Y deux variables aléatoires réelles, et a et b deux constantes
réelles. Alors on a
1. var(aX + b) = a2 var( X )
2. var( X + Y ) = var( X ) + var(Y ) + 2Cov( X , Y )
Si X et Y sont non corrélées, c’est à dire Cov( X , Y ) = 0 alors
var ( X + Y ) = var ( X ) + var (Y ).
Proposition 3.6.2. (Inégalité de Bienaymé-Chebychev). Pour tout ε > 0
var ( X )
P (| X − E[ X ]| > ε) ≤ .
ε2
3.7 Calcul de lois

3.7.1 Utilisation de la fonction de répartition
3.7.2 Formule de changement de variables
Théorème 3.7.1. Soit X une v.a.r. On suppose que
Z +∞
E( g( X )) = g( x) f ( x) dx
−∞
pour toute fonction continue et bornée sur R. Alors X est une v.a.r continue de densité f .
Soit X une v.a.r continue de densité f X . On pose Y = h( X ) avec h : R → R. Le problème ici
est de déterminer la densité de Y .
1. Pour toute continue et bornée g :
Z +∞
E( g(Y )) = E( g( h( X ))) = g( h( x)) f X ( x) dx.
−∞
2. On fait le changement de variable y = h( x) et après calcul, on obtient
Z +∞
E( g(Y )) = g( y) f Y ( y) d y.
−∞
3. Ceci caractérise la loi de Y , qui admet f Y pour densité.
Exemple 3.7.1. Soit X une variable aléatoire suivant une loi normale N (0, 1). Quelle est
la loi de Y = X 2 ?
Réponse : Soit g une fonction continue et bornée. Nous avons
E( g(Y )) = E( g( X 2 ))
Z +∞
= g( x2 ) f X ( x) dx
−∞
Z +∞
1 x2
=p g( x2 ) e− 2 dx
2π −∞
Z +∞
2 x2
=p g( x2 ) e− 2 dx
2π 0
Z +∞
2 y dy
=p g( y) e− 2 p
2π 0 2 y
Z +∞ h 1 y i
= g( y) p y−1/2 e− 2 1[0,+∞[ d y
−∞ 2π
D’après le Théorème
3.8. LOIS DISCRÈTES 19
3.8 Lois discrètes

3.8.1 Loi uniforme discrète
(
X (Ω) = {1, . . . , N }
X ,→ U N ⇐⇒ 1
P ( X = k) = N, ∀ k ∈ X (Ω)
N +1
E( X ) =
2
et
N2 − 1
var ( X ) = .
12
Exemple 3.8.1. Soit X le résultat d’un lancer de dé non truqué : alors ∀ i ∈ X (Ω) =
{1, 2, 3, 4, 5, 6}, P ( X = i ) = 16 ; X suit la loi uniforme U 6 .
3.8.2 Loi de Bernouilli
(
X (Ω) = {0, 1}
X ,→ B (1, p) ⇐⇒
P ( X = 1) = p, P ( X = 0) = 1 − p
E( X ) = p
var ( X ) = p(1 − p).
Cette variable modélise l’issue d’une expérience où l’on ne s’intéresse qu’au ”succès” ou à
l’”echec” de l’expérience.
Exemple 3.8.2. Lancer d’une pièce de monnaie (pile ou face), qualité d’un produit (bon
ou defectueux), sondage elctoral (pour ou contre).
3.8.3 Loi binomiale

On réalise n fois successivement et d’une manière indépendante une expérience aléatoire
de Bernouilli. La variable aléatoire égale au nombre de succès obtenus au cours des n épreuves
suit la loi binomiale B (n, p).
(
X (Ω) = {0, . . . , n}
X ,→ B ( n, p) ⇐⇒
P ( X = k) = C nk p k (1 − p)n−k , ∀ k ∈ X (Ω)
E ( X ) = np
var ( X ) = np(1 − p).
Cette loi modélise une succession de ”succès” et d’”échecs”, p étant la probabilité du succès.
3.8.4 Loi hypergéométrique
Soit une population de N individus parmi lesquels une proportion p (donc N p individus)
possède un caractère. Il s’agit par exemple de la proportion des individus qui souffrent d’une
maladie, ou de la proportion des pièces défectueuses dans un grand lot de fabrication. On
prélève un échantillon de n individus parmi cette population (le tirage pouvant s’effectuer
d’un seul coup ou au fur et à mesure mais sans remise). On note X la variable aléatoire
égale au nombre d’individus de l’échantillon possédant le caractère envisagé. La loi de X est
appelée loi hypergéométrique de paramètre N , n, p et notée H ( N, n, p) :

 X (Ω) = { max(0, n − (1 − p) N ), min( N p, n)}
X ,→ H ( N, n, p) ⇐⇒ k C n− k
CN .
P ( X = k) = p (1− p) N
n
CN
, ∀ k ∈ X (Ω)
E ( X ) = np.
3.8.5 Loi géométrique

C’est la loi du nombre d’essais (ou épreuves) nécessaires pour faire apparaı̂tre un évè-
nement de probabilité p. C’est le cas de nombre d’examens necessaires pour réussir une
épreuve en supposant que la probabilité de réussir à chaque passage de l’examen est de type
p et que les résultats sont indépendants d’un examen vers un autre. Soit la variable X égale
le nombre d’essais avant d’obtenir le premier succès :
(
X (Ω) = N∗
X ,→ G ( p) ⇐⇒ .
P ( X = k) = p(1 − p)k−1 , ∀ k ∈ X (Ω)
1
E( X ) =
p
1− p
var ( X ) = .
p2
Exemple 3.8.3. On effectue des lancers indépendants d’une pièce, dont la probabilité d’ob-
tenir face est p, jusqu’à l’obtention d’un ”face”. On note X la v.a.r égale au nombre de
lancers nécessaires. On dit également que X est le temps d’attente du premier ”face”.
3.8.6 Loi de Poisson

Pour modéliser des phénomènes rares (nombre d’accidents d’avion, nombre d’appels
téléphoniques pendant un certain temps, nombre de pièces défectueuses dans une commande
importante, nombre de suicides par an dans un pays donné...), on utilise la loi de Poisson
(de paramètre λ > 0) :
(
X (Ω) = N
X ,→ P (λ) ⇐⇒ λk e−λ
P ( X = k) = k! , ∀ k ∈ X (Ω)
E ( X ) = var ( X ) = λ.
3.9. LOIS CONTINUES 21
3.9 Lois continues

3.9.1 Loi uniforme
On dit que la v.a.r continue suit une loi uniforme sur l’intervalle [a, b] si sa fonction
densité est (
1
si x ∈ [a, b]
f X ( x) = b − a
0 sinon
b+a
E( X ) =
2
( b − a )2
var ( X ) = .
2
3.9.2 Loi normale

On dit que X suit une loi normale de paramètre (m, σ2 ) avec m ∈ R, σ2 ∈ R∗+ si sa densité
de probabilité est
1 1 ¡ x − m ¢2
f X ( x) p exp{− }, x ∈ R.
σ 2π 2 σ
Propriété 3.9.1. (i) X ,→ N (m, σ2 ) alors E ( X ) = m et var( X ) = σ2 .

X −m
(ii) X ,→ N (m, σ2 ) si et seulement si la v.a.r σ
,→ N (0, 1).
3.9.3 Loi exponentielle

La loi exponentielle correspond à la variable aléatoire X du temps s’écoulant entre deux
occurrences successives lors d’un processus de Poisson. La loi exponentielle est le modèle de
durée de vie pour un système idéal sans usure, λ1 étant l’espérance de vie du système. En
effet on peut voir que l’âge du système ne joue aucun rôle quant aux chances de survie à un
horizon donné puisque : Si a = 1 la loi γ(1, ρ ) = E (ρ ) est appelé loi exponentielle de paramètre
ρ > 0 et a pour densité de probabilité
f ( x) = ρ e−ρ x 1R+ ( x)
Cette loi de probabilité est fortement utilisée pour décrire les durées de vie (par exemple
la durée de vie des transistors electroniques).
Chapitre
4 Vecteurs aléatoires
Par simplicité, nous ne considérons que des vecteurs aléatoires où les variables sont de
même nature, discrètes ou continues, et exclurons les cas mixtes.
4.1 Couple de variables aléatoires discrètes

Définition 4.1.1. Soit ( X , Y ) un couple de variables aléatoires, on appelle fonction de ré-
partition conjointe de ( X , Y ), la fonction définie sur R2 par :
F X ,Y ( x, y) = P( X ≤ x, Y ≤ y).
Définition 4.1.2. Soit ( X , Y ) un couple de variables aléatoires discrètes prenant les couples
de valeurs {( x i , y j ), i = 1, 2, . . . ; j = 1, 2, . . .}. On appelle fonction de probabilité conjointe la
fonction définie par
p X ,Y ( x i , y j ) = P( X = x i , Y = y j )
pour tous i et j .
La loi de probabilité marginale de X s’obtient en sommant la fonction de probabilité
conjointe sur toutes les valeurs possibles de Y :
X
p X (xi ) = p X ,Y ( x i , y j ) i = 1, 2, . . .
j
La loi marginale de Y est donnée par

X
pY ( y j ) = p X ,Y ( x i , y j ) j = 1, 2, . . . .
i
La loi conditionnelle de X sachant Y = y j est donnée par :

p X ,Y ( x i , y j )
p X |Y = y j ( x i ) = i = 1, 2, . . .
pY ( y j )
De même, la loi conditionnelle de Y sachant X = x i est donnée par :
p X ,Y ( x i , y j )
pY | X =xi ( y j ) = j = 1, 2, . . .
p X (xi )
Proposition 4.1.1. Deux variables aléatoires discrètes X et Y sont indépendantes si et
seulement si, pour tout i = 1, 2, . . . et tout j = 1, 2, . . .,
p X ,Y ( x i , y j ) = p X ( x i ) p Y ( y j ).
22
4.2. COUPLE DE VARIABLES ALÉATOIRES À DENSITÉ 23
4.2 Couple de variables aléatoires à densité

Définition 4.2.1. Soit ( X , Y ) un couple de variables aléatoires réelles continues. On appelle
fonction de densité de probabilité conjointe, la fonction non négative sur R2 notée f X ,Y telle
que Z Z x y
F X ,Y ( x, y) = f X ,Y ( u, v) dudv.
−∞ −∞
Dans le cas continu, la densité de probabilité marginale de X est donnée par
Z +∞
f X ( x) = f X ,Y ( x, y) d y.
−∞
La densité de probabilité marginale de Y est donnée par

Z +∞
f Y ( y) = f X ,Y ( x, y) dx.
−∞
Soit ( X , Y ) un couple de variables aléatoires à densité. La loi conditionnelle de X sachant

Y = y est donnée par :
f X ,Y ( x, y)
f X |Y = y ( x ) = .
f Y ( y)
De même, la loi conditionnelle de Y sachant X = x est donnée par :
f X ,Y ( x, y)
f Y | X = x ( y) = .
f X ( x)
Proposition 4.2.1. Deux variables aléatoires continues X et Y sont indépendantes si et
seulement si, pour tout ( x, y) ∈ R2 ,
f X ,Y ( x, y) = f X ( x) f Y ( y).
Proposition 4.2.2. Si X et Y sont indépendantes, alors pour toutes fonctions g et h, les

variables aléatoires g( X ) et h(Y ) sont également indépendantes.
4.3 Caractéristique d’un couple de variables aléatoires

4.3.1 Covariance, coefficient de correlation
Définition 4.3.1. Soient X et Y deux variables aléatoires réelles. On appelle covariance
de X et de Y , et l’on note Cov( X , Y ), le nombre :
Cov( X , Y ) = E([ X − E( X )] [Y − E(Y )]).
On a Cov( X , Y ) = Cov(Y , X ).
Si Cov( X , Y ) = 0, on dit que X et Y sont non corrélées.
Définition 4.3.2. On appelle coefficient de corrélation linéaire de X et de Y , le nombre
Cov( X , Y )
ρ( X , Y ) =
σ X σY
où σ X est l’écart-type de X , σY celui de Y .
Proposition 4.3.1. On a −1 ≤ ρ ( X , Y ) ≤ 1.
Remarque 4.3.1. • Si ρ ( X , Y ) > 0 alors X et Y évoluent dans le même sens.
• Si ρ ( X , Y ) < 0 alors X et Y évoluent en sens contraire.
24 CHAPITRE 4. VECTEURS ALÉATOIRES
4.3.2 Moments d’un couple de variables aléatoires
Soit X = ( X 1 , X 2 ) un couple de variables aléatoires.
Définition 4.3.3. L’espérance de X est E( X ) = (E( X 1 ), E( X 2 )) .
4.3.3 Matrice de variance-covariance

La dispersion de X est caractérisée par la matrice de variance-covariance.
Définition 4.3.4. La matrice de variance-covariance est définie par
µ ¶
V ar ( X 1 ) Cov( X 1 , X 2 )
ΣX =
Cov( X 1 , X 2 ) V ar ( X 2 )
4.4 Vecteurs gaussiens

Chapitre
Convergences et Théorèmes li-

5 mites
Dans ce chapitre, toutes les variables aléatoires sont réelles et sont définies sur le même
espace probabilisé (Ω, A , P). Les résultats peuvent s’applique aux vecteurs aléatoires.
5.1 Modes de convergence

On note F X n la fonction de répartition de X n et F X celle de X .
Définition 5.1.1. On dit que ( X n )n≥1 converge en loi vers la variable aléatoire X si
lim F X n ( x) = F X ( x)
n→+∞
L
en tout point x où F X est continue. On note X n −→ X .
Proposition 5.1.1. Si X n et X sont des variables aléatoires discrètes pour tout n,
L
X n −→ X ⇔ P( X n = x) → P( X = x).
Théorème 5.1.1. de Slutsky. Soient X n et Yn deux suites de variables aléatoires réelles

convergeant en loi respectivement vers une constante c et une variable aléatoire Y . Alors,
nous avons
L
• X n + Yn −→ c + Y
L
• X n Yn −→ cY
Yn L Y
• −→ si c 6= 0.
Xn c
Définition 5.1.2. On dit que { X n } converge en probabilité vers X si quelque soit ε > 0,
lim P {| X n − X | ≥ ε} = 0.
n→+∞
P
On note X n −→ X
Remarque 5.1.1. La convergence en probabilité implique la convergence en loi. La réci-
proque est fausse en général et vraie dans le cas où X = c, c est une constante.
Proposition 5.1.2. Convergence vers une constante
P L
∀c ∈ R X n −→ c ⇔ X n −→ X
25
26 CHAPITRE 5. CONVERGENCES ET THÉORÈMES LIMITES
Proposition 5.1.3. Condition suffisante de convergence en probabilité On suppose
P
que a est une constante réelle. Si E( X n ) → a et var( X n ) → 0 alors X n −→ a.
Définition 5.1.3. Deux variables aléatoires sont égales presque sûrement si
³ ´
P {ω ∈ Ω : X (ω) = Y (ω)} .
Définition 5.1.4. La suite ( X n )n converge presque sûrement vers X si

³ ´
P {ω ∈ Ω : lim X n (ω) = X (ω)} = 1.
n→+∞
p.s
On note X n −→ X
Remarque 5.1.2. La convergence presque sûre implique la convergence en probabilité.
Théorème 5.1.2. Soit g est une fonction continue. Alors
L L
- X n −→ X =⇒ g( X n ) −→ g( X ).
P P
- X n −→ X =⇒ g( X n ) −→ g( X ).
ps ps
- X n −→ X =⇒ g( X n ) −→ g( X ).
5.2 Lois des grands nombres

5.2.1 Loi faible des grands nombres
Théorème 5.2.1. Soient X 1 , X 2 , . . . , X n , . . . i.i.d. telles que E( X 1 ) = µ < +∞. Alors, nous
avons
P
X n −→ µ.
5.2.2 Loi forte des grands nombres

Théorème 5.2.2. Soit ( X n )n≥1 une suite de variables aléatoires indépendantes de même loi
telle que E(| X 1 |) < ∞. Alors, on a
1X n
p.s.
X i −→ E( X 1 ).
n i=1
5.3 Théorème Central limite

Théorème 5.3.1. Soient ( X n )n≥1 une suite de variables aléatoires indépendantes identi-
quement distribuées (i.i.d.) telles que E( X 1 ) = µ < +∞ et var( X 1 ) = σ2 ∈]0, +∞[. Alors, nous
avons p
n ( X n − µ) L
−→ N (0, 1).
σ
Chapitre
6 Exercices non corrigés
Exercice 1. Une population est composée de 40% d’hommes et de 60% de femmes ; 50%
des hommes et 30% des femmes fument. Quelle est la probabilité pour qu’un fumeur, choisi
au hasard soit une femme ?
Exercice 2. On a melangé par inadvertance des graines de deux provenances différentes
A et B. On a ainsi un ensemble de graines dont 1/3 provient de A et 2/3 de B. La moitié
des graines de A et les trois quarts des graines de B sont noires. On choisit une graine au
hasard ; elle est noire. Quelle est la probbilité pour qu’elle provienne de A .
Exercice 3. Deux machines M1 et M2 produisent respectivement 100 et 200 objets. M1
produit 5% de pièces défectueuses et M2 produit 6%. Quelle est la probabilité pour qu’un
objet défectueux ait été fabriqué par la machine M1 ?
Exercice 4. Soit X la variable aléatoire telle que X (Ω) = {0, 1, 2} et
P( X = 0) = k P( X = 1) = 2 k P( X = 2) = 3 k.
1. Trouver k.
2. Calculer l’espérance et la variance de X .
3. Déterminer la fonction de répartition de X et représenter graphiquement cette fonc-
tion.
Exercice 5. On admet que le nombre de défauts X sur le verre d’une ampoule obéit à une
loi de Poisson de paramètre λ = 4. Calculer la probabilité des évènements suivants :
1. L’ampoule est sans défaut.
2. Il y a plus de deux défauts sur l’ampoule.
3. Il y a entre trois et sept défauts sur l’ampoule.
Exercice 6. Un gardien de nuit doit ouvrir une porte dans le noir, avec n clefs dont une
seule est la bonne.
1. Donner la loi de probabilité du nombre X d’essais nécessaires s’il essaie les clefs une
à une sans utiliser deux fois la même. Calculer l’espérance et la variance de X .
2. Lorsque le gardien est ivre, il mélange toutes les clefs à chaque tentative. Identifier
la loi de X . Rappeler l’espérance et la variance de X .
27
28 CHAPITRE 6. EXERCICES NON CORRIGÉS
3. Le gardien est ivre un jour sur trois. Sachant qu’un jour n tentatives ont été néces-
saires pour ouvrir la porte, quelle est la probabilité que le gardien ait été ivre ce jour
là ? Calculer sa limite.
Exercice 7. Soit Y une variable aléatoire de loi exponentielle de paramètre λ > 0 et ε une
variable aléatoire indépendante de Y et telle que P(ε = 1) = P(ε = −1) = 12 . Quelle est la loi de
Z = εY . Cette loi est appelée loi exponentielle symétrique.
Exercice 8. Soit X une variable aléatoire de densité f définie par

(
0 si x < 0
f ( x) = x2
xe− 2 sinon.
1. Vérifier que f est une densité de probabilité.

2. Montrer que Y = X 2 est une variable aléatoire à densité, dont on précisera la loi.
3. Calculer l’espérance et la variance de Y
Exercice 3 : Couple de variables aléatoires

1. Soit ( X , Y ) un couple de variables aléatoires de densité
−x
c ey2
(
si x > 0 et y > 1
f ( x, y) =
0 sinon
(a) Calculer la constante c.

(b) Déterminer les lois marginales de X et Y .
(c) Les variables aléatoires X et Y sont-elles indépendantes ?
(d) Calculer P(Y > 2, X < 1)
Exercice 9 : Soit X et Y deux variables aléatoires à valeurs dans N telles que pour tout
( i, j ) ∈ N2
α
P( X = i, Y = j ) = .
2 i+ j
1. Déterminer α
2. Donner les lois marginales de X et Y
3. X et Y sont-elles indépendantes ?
Chapitre
7 Exercices corrigés
Exercice 1 :La loi de la variable aléatoire X est donnée par le tableau suivant :
xi 1 2 3 4 5
P( X = x i ) 0.25 p2 0.18 p4 0.37
1. Déterminer les valeurs de p 2 et p 4 sachant que les événements ( X = 3) et ( X = 4) sont
équiprobables.
Puisque
0.25 + p 2 + 0.18 + p 4 + 0.37 = 1 p2 = p4
0.8 + 2 p 2 = 1 ⇒ p 2 = 0.1 = p 4
2. Déterminer la fonction de répartition de X .
On sait que
P( X = t).
X
F ( x) =
t≤ x
Par suite, on a


0 si x < 1

P( X = 1) = 0.25 si 1 ≤ x < 2




P( X = 1) + P( X = 2) = 0.35 si 2 ≤ x < 3

F ( x) =
P( X = 1) + P( X = 2) + P( X = 3) = 0.53 si 3 ≤ x < 4


P( X = 1) + P( X = 2) + P( X = 3) + P( X = 4) = 0.63 si 4 ≤ x < 5






P( X = 1) + P( X = 2) + P( X = 3) + P( X = 4) + P( X = 5) = 1 si x ≥ 5


0 si


x<1
0.25 si 1≤x<2






0.35 si 2≤x<3
F ( x) =


 0.53 si 3≤x<4

0.63 si 4≤x<5




1 si x≥5

29
30 CHAPITRE 7. EXERCICES CORRIGÉS
3. Calculer l’espérance et la variance de X .
L’espérance de X est
E( X ) = x P( X = x )
X
x ∈ X (Ω )
= 1 × 0.25 + 2 × 0.1 + 3 × 0.18 + 4 × 0.1 + 5 × 0.37

= 3.24
E( X 2 ) = x2 P( X = x)
X
x ∈ X (Ω )
= 12 × 0.25 + 22 × 0.1 + 32 × 0.18 + 42 × 0.1 + 52 × 0.37

= 13.12
La variance de X est
V ar ( X ) = E( X 2 ) − (E( X ))2
= 2.6224
Exercice 2 : Soit X une variable aléatoire continue dont la densité de probabilité est définie
par :
(
cx(2 − x) si 0 ≤ x ≤ 2
f X ( x) =
0 sinon
1. Déterminer c.

 f X ( x) ≥ 0 ∀ x ∈ R
Z +∞
fX est une densité ⇐⇒
 f X ( x) dx = 1
−∞
f X ( x) ≥ 0 ⇒ c ≥ 0
Z +∞ Z 2 4c 3
f X ( x) dx = c x(2 − x) dx = =1⇒c= .
−∞ 0 3 4
2. Déterminer la fonction de répartition de X

31
La fonction de répartition est donnée
Z x
F X ( x) = f X ( t) dt
−∞

R0
 si x ≤ 0
x 3 x
R
= 0 f X ( t) dt = 4 0 t(2 − t) dt si 0 ≤ x ≤ 2

1 si x ≥ 2



0 si x ≤ 0
3 x
= x2 (1 − ) si 0 ≤ x ≤ 2
4
 3
1 si x ≥ 2

p
3. Soit Y = X . Quelle est la fonction de répartition de Y ?
Soit y ∈ R
FY ( y) = P(Y ≤ y)
p
= P( X ≤ y)
(
0 si y < 0
=
P( X ≤ y2 ) = F X ( y2 ) si y ≥ 0

0 y ≤ 0 2


p
= 43 y4 (1 − y3 ) si 0 ≤ y ≤ 2


1 si y ≥ 2 p
Quelle est la densité de probabilité de Y ?
La densité de probabilité de Y est

( p
3 y3 − 32 y5 si 0 ≤ y ≤ 2
f Y ( y) =
0 sinon
Exercice 3 :
1. On a mélangé par inadvertance des graines de deux provenances différentes A et B.
On a ainsi un ensemble de graines dont 1/3 provient de A et 2/3 de B. La moitié des
graines de A et les trois quarts des graines de B sont noires. On choisit une graine au
hasard ; elle est noire. Quelle est la probabilité pour qu’elle provienne de A .
Soient les événements suivants

N =”la graine est noire”
A =”la graine provient de A ”
B =”la graine provient de B”
1 2 1 3
P( A ) = P(B) = P( N | A ) = P( N | B ) = .
3 3 2 4
{ A, B} forme un système complet d’événements
D’après la formule de Bayes, on a

P( A )P( N | A )
P( A | N ) =
P( A )P( N | A ) + P(B)P( N | B)
On obtient
P( A | N ) = 0.25
2. Les anglais et les américains orthographient le mot rigueur, respectivement rigour
et rigor. Un homme ayant pris une chambre dans un hôtel a écrit ce mot sur un bout
de papier. Une lettre est prise au hasard dans ce mot, c’est une voyelle. Or 40% des
anglophones de l’hôtel sont des anglais et les 60% restants sont des américains.Quelle
est la probabilité que l’auteur du mot soit anglais ?
Soient les événements suivants

AN =”l’homme est anglais”
AM =”l’homme es américain”
V =”la lettre est une voyelle”
1 2
P( AN ) = 0.4 P( AM ) = 0.6 P(V | AN ) = P(V | AM ) = .
2 5
{ AN, AM } forme un système complet d’événements
D’après la formule de Bayes, on a

P( AN )P(V | AN )
P(V | AN ) =
P( AN )P(V | AN ) + P( AM )P(V | AM )
On obtient
P( A | N ) = 0.45
Exercice 4 : Soit A et B deux événements tels que
P( A ) = 0.5 P( A ∪ B) = 0.7
Calculer P(B) quand

1. les événements A et B sont incompatibles On sait que
P( A ∪ B) = P( A ) + P(B) − P( A ∩ B)
Comme A et B sont incompatibles, on a

P( A ∩ B) = 0.
Par suite
P(B) = P( A ∪ B) − P( A ) = 0.7 − 0.5 = 0.2
2. les événements A et B sont indépendants
Les événements étant indépendants, on a
P( A ∪ B) = P( A ) + P(B) − P( A ∩ B)
= P( A ) + P(B) − P( A )P(B)
P( A ∪ B) − P( A )
P( B ) = = 0.4
1 − P( A )
33
3. P( A | B) = 0.5
P( A ∪ B) = P( A ) + P(B) − P( A ∩ B)
= P( A ) + P(B) − P(B)P( A | B)
P( A ∪ B) − P( A )
P( B ) = = 0.4
1 − P( A | B )
Exercice 5 : Soient deux machines M1 et M2 produisant respectivement 200 et 400 objets.

La machine M1 produit 5% d’objets défectueux, la machine M2 en produit 6%. On tire un
objet parmi les 600 objets fabriqués et il est défectueux. Quelle est la probabilité que cet
objet ait été fabriqué par la machine M2 ?
On note
M1 = ”la pièce est produite par la machine 1”
M2 = ”la pièce est produite par la machine 2”
D = ”la pièce est produite est défectueuse”
1
P( M 1 ) =
3
2
P( M 1 ) =
3
P(D | M1 ) = 0.05
P(D | M2 ) = 0.06
Comme { M1 , M2 } est un système complet d’évènements,la formule de Bayes implique
P( M2 )P(D | M2 )
P( M2 | D ) =
P( M2 )P(D | M2 ) + P( M1 )P(D | M1 )
= 0.71
Exercice 6 : Soit X une variable aléatoire dont la densité est donnée par
(
a(4 x − 2 x2 ) si 0 < x < 2
f ( x) =
0 sinon
1. Quelle est la valeur de a ?

Z +∞
f est une densité de probabilité ⇔ f ≥ 0 et f ( x) dx = 1.
−∞
On a
Z +∞ Z 2 8a 3
f ( x) dx = a (4 x − 2 x2 ) dx = ⇒a=
−∞ 0 3 8
2. Déterminer la fonction de répartition de X .
(
3 2
8 (4 x − 2 x ) si 0 < x < 2
f ( x) =
0 sinon
La fonction de répartition est
F ( x) = P( X ≤ x)


0 si x ≤ 0
Z x 3

= (4 t − 2 t2 ) dt si 0 < x < 2


 0 8
1 si x ≥ 1


0 si x ≤ 0
3 2 x3


F ( x) = x − si 0 ≤ x ≤ 2


 4 4
1 si x ≥ 2
3. Calculer P( X > 1 | X < 32 )
3 P(1 < X < 32 )

P( X > 1 | X < )=
2 P( X < 32
F ( 23 ) − F (1)
=
F ( 23 )
11
=
27
4. Calculer l’espérance et la variance de X
L’espérance est
Z +∞
E( X ) = x f ( x) dx
−∞
3
Z 2
= (4 x2 − 2 x3 ) dx
8 0
=1
Le moment d’ordre 2 est

Z +∞
E( X 2 ) = x2 f ( x) dx
−∞
3
Z 2
= (4 x3 − 2 x4 ) dx
8 0
6
=
5
La variance est
var ( X ) = E( X 2 ) − (E( X ))2
1
var ( X ) =
5
Deuxième partie
ECUE 2 : Statistique
inférentielle
35
Chapitre
8 Modélisation statistique
On souhaite étudier X un caractère sur une population donnée. On supposera que le

caracère X est quantitatif.
8.1 Echantillonnage
Exemple 8.1.1. Une entreprise de l’industrie textile souhaite étudier le poids et la taille des
ivoiriens et ivoiriennes de plus de 18 ans (population) afin d’ajuster au mieux ses produits
à la morphologie de ses clients.
Pour mener à bien cette étude, l’entreprise a deux solutions : le recensement ou l’échan-
tillonnage.
Recensement : il consiste à mesurer le caractère X de facon exhaustive pour tous les

individus de la population. Le recensement n’est bien évidemment applicable que lorsque la
taille de la population étudiée est relativement faible.
Dans le cas où la taille de la population est grande, il faut recourir à l’échantillonnage.
L’échantillonnage se définit comme la méthode de construction d’un échantillon.
Echantillon : c’est un sous-ensemble de la population ; le nombre d’individus sélection-

nés dans l’échantillon correspond à la taille de l’échantillon, notée n ; on parle alors de
n-échantillon.
Quel est l’intérêt de constituer un échantillon ? L’idée est d’étudier le caractère pour les
individus sélectionnés dans l’échantillon afin d’en tirer de l’ information sur ce caractère
pour l’ensemble de la population. Par conséquent, d’un côté la taille n de l’échantillon doit
être suffisamment importante pour que l’on puisse obtenir une information fiable sur la po-
pulation, mais d’un autre côté elle doit être la plus petite possible afin de limiter le coût de
l’enquête.
Une question se pose alors : comment choisir les individus qui composent l’échantillon ?
On distingue deux grandes méthodes d’échantillonnage. La première repose sur un choix
déterministe des individus. On parle dans ce cas d’échantillon déterministe (ou certain) :
les individus de l’échantillon ne sont pas choisis au hasard. En pratique la méthode la plus
utilisée est celle de l’échantillonnage aléatoire.
36
8.2. MODÈLES STATISTIQUES 37
Echantillon aléatoire : c’est un échantillon dont les individus sont tirés au hasard parmi
la population. Le tirage de l’échantillon peut se faire avec remise (un même individu de la
population peut apparaı̂tre plusieurs fois dans l’échantillon) ou sans remise (chaque individu
de la population ne peut apparaı̂tre qu’une seule fois dans l’échantillon).
On considère deux situations différentes conduisant à un échantillon :
- la répétition d’une expérience aléatoire
Exemple 8.1.2. On lance n fois une pièce. On note
(
1 si le lancer i est pile
Xi =
0 si lancer i est face.
S’il s’agit de la même pièce et qu’on ne modifie pas la manière dont on lance, alors on
peut dire que les X i sont indépendantes et identiquement distribuées de loi commune
la loi de Bernoulli B (1, θ ). Le paramètre θ représente la probabilité du succès, c’est à
dire la probabilité d’obtenir pile.
- la considération d’un échantillon au sein d’une population
Exemple 8.1.3. Deux candidats Kouko et Yao sont en présence d’une élection. n
personnes sont tirées au hasard parmi les électeurs et interrogées sur leurs intentions
de vote. On note (
1 si l’individu i vote Kouko
Xi =
0 si l’individu i vote Yao.
Les valeurs observées sont considérées comme étant les réalisations de variables aléa-
toires X 1 , . . . , X n indépendantes et identiquement distribuées selon la distribution fi-
nale des voix, c’est à dire la loi de Bernoulli B (1, θ ). Le paramètre θ représente la
probabilité du succès, c’est à dire la probabilité de voter pour Kouko.
8.2 Modèles statistiques

Soit X une variable aléatoire réelle (discrète ou continue) dont la loi de probabilité Pθ
dépend d’un paramètre inconnu θ .
Définition
n 8.2.1. On
o appelle modèle statistique la donnée d’une famille de lois de proba-
bilité Pθ , θ ∈ Θ ⊂ R ; Θ est appelé espace des paramètre.
d
Définition 8.2.2. Un échantillon de X de taille n est un n-uplet ( X 1 , . . . , X n ) de variables

aléatoires indépendantes de même loi que X .
Remarque 8.2.1. Attention ! Il ne faut pas confondre l’échantillon aléatoire (collection de

variables aléatoires indiquées par une lettre majuscule) et la réalisation de cet échantillon
(notée avec des lettres minuscules) :
Echantillon : (X1, . . . , X n)
Réalisation : ( x1 , . . . , xn )
Définition 8.2.3. On appelle statistique toute variable aléatoire ne dépendant que de l’échan-
tillon ( X 1 , . . . , X n ).
Remarque 8.2.2. Une statistique est un résumé de l’échantillon.

38 CHAPITRE 8. MODÉLISATION STATISTIQUE
La statistique inférentielle a pour objectif d’avoir des informations sur le paramètre inconnu
θ en se basant sur l’échantillon ( X 1 , . . . , X n ). On part de l’échantillon pour avoir une meilleure
connaissance de la population.
Si X est une variable aléatoire réelle, alors on note :
— f ( x, θ ) si X est une variable aléatoire à densité
— f ( x, θ ) = Pθ ( X = x) si X est une variable aléatoire discrète.
n o
Exemple 8.2.1. 1. Modèle de Bernouilli : B (1, θ ), θ ∈ Θ =]0, 1[⊂ R :
f ( x, θ ) = Pθ ( X = x) = θ x (1 − θ )1− x 1{0,1} ( x).

n o
2. Modèle gaussien : N (µ, σ2 ), θ = (µ, σ2 ) ∈ Θ = R × R∗+ ⊂ R2 :
1 ³ 1 ´
f ( x, µ, σ2 ) = p exp − 2 ( x − µ)2 .
2πσ 2σ
n o
3. Modèle exponentiel : E (θ ), θ ∈ Θ = R∗+ ⊂ R :
f ( x, θ ) = θ e−θ x 1R+ ( x).

n o
4. Modèle de Poisson : P (θ ), θ ∈ Θ = R∗+ ⊂ R :
θx
f ( x, θ ) = e−θ 1N ( x).
x!
Définition 8.2.4. Le modèle statistique {Pθ , θ ∈ Θ} est identifiable lorsque l’application
θ 7−→ Pθ est injective.
Chapitre
9 Estimateurs
9.1 Principe général de l’estimation

On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de probabilité Pθ où θ ∈ Θ ⊂ R est
inconnu. L’objectif est d’estimer θ en se basant sur l’échantillon ( X 1 , . . . , X n ).
Définition 9.1.1. Un estimateur θbn du paramètre θ est une statistique
θbn = T ( X 1 , . . . , X n )
à valeurs dans un domaine acceptable pour θ .

— Si ( x1 , . . . , xn ) est une observation de ( X 1 , . . . , X n ), T ( x1 , . . . , xn ) est appelée estimation
de θ .
— Il faut faire la distinction entre l’estimateur de θ (qui est une variable aléatoire réelle)
et l’estimation de θ qui est une grandeur numérique.
Bien évidemment, cette statistique T ( X 1 , . . . , X n ) n’est pas choisie au hasard ! L’idée est de
trouver une statistique de sorte à fournir une bonne estimation du paramètre d’intérêt θ .
Exemple 9.1.1. Supposons que les variables aléatoires ( X 1 , . . . , X n ) un échantillon issu d’une
loi de moyenne m et de variance σ2 .
• La moyenne empirique X n = n1 ni=1 X i est un ”bon” estimateur de la moyenne m. On
P
verra dans la suite ce qu’en entend par ”bon estimateur”.

1X n
• La variance empirique Vn2 = ( X i − X n )2 est un estimateur de la variance σ2 .
n i=1
La question est de savoir ce qu’est un ”bon estimateur”. Quelles propriétés doit satisfaire
un estimateur pour être considéré comme ”bon”? Nous devons distinguer deux cas suivant
la taille d’échantillon n :
• propriétés à distance finie (pour n fixé)
• propriétés asymptotiques (pour n → +∞).
9.1.1 Propriétés à distance finie

9.1.1.1 Echantillon gaussien
Théorème 9.1.1. On considère un échantillon issu d’une loi normale N (m, σ2 ) avec m ∈ R
et σ2 > 0. Alors, nous avons
39
40 CHAPITRE 9. ESTIMATEURS
1. X n et S 2n sont indépendantes.
2
2. X n ,→ N (m, σn ).
( n−1)S 2n
3. σ2
,→ χ2 ( n − 1).
p
n( X n − m)
4. Sn ,→ T ( n − 1)
9.1.1.2 Risque quadratique

On mesure la précision d’un estimateur par son risque quadratique.
Définition 9.1.2. Pour un estimateur θbn de θ , le risque quadratique est défini par
R (θbn , θ ) = Eθ (θbn − θ )2
Définition 9.1.3. Soient θbn et θen deux estimateurs de θ . On dit que θbn est préférable à θen
si
R (θbn , θ ) ≤ R (θen , θ ) ∀θ ∈ Θ ⇐⇒ R (θbn , θ ) − R (θen , θ ) ≤ 0 θ ∈ Θ.
Les deux estimateurs ne sont pas comparables si l’application θ 7→ R (θbn , θ ) − R (θen , θ ) change
de signe sur l’espace Θ.
Un estimateur optimal au sens du risque quadratique est l’estimateur qui a le plus petit
risque quadratique pour toute valeur de θ ∈ Θ. Il est souvent difficile, voire impossible, de
trouver un estimateur optimal.
Définition 9.1.4. Le biais d’un estimateur θbn de θ est défini par
b n (θ ) = Eθ (θbn ) − θ = Eθ (θbn − θ ).
Le biais de l’estimateur est la moyenne des écarts systématiques entre θbn et θ . L’absence
d’un écart systématique entre θbn et θ se traduit par un biais nul.
Définition 9.1.5. Un estimateur θbn de θ est dit sans biais lorsque pour tout θ ∈ Θ
Eθ (θbn ) = θ .
Dans le cas contraire, l’estimateur θbn est dit biaisé.
Exercice 9.1.1. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et

de variance σ2 inconnues. Montrer que :
- X n est un estimateur sans biais de m.
Le biais de X n est donné par
b ( m) = E m ( X n ) − m
n
³1 X ´ 1X n
Em ( X n ) = Em Xi = Em ( X i )
n i=1 n i=1
Comme Em ( X 1 ) = . . . = Em ( X n ) = m alors nous pouvons ecrire
n
³1 X ´ 1X n 1X n nm
Em ( X n ) = Em Xi = Em ( X i ) = m= =m
n i=1 n i=1 n i=1 n
Finalement, nous obtenons
Em ( X n ) = m ⇐⇒ b( m) = Em ( X n ) − m = 0 ∀ m ∈ R.
9.1. PRINCIPE GÉNÉRAL DE L’ESTIMATION 41
1X n
- La variance empirique Vn2 = ( X i − X n )2 est un estimateur biaisé de σ2 . En déduire
n i=1
1 X n
que S 2n = ( X i − X n )2 est un estimateur sans biais de σ2
n − 1 i=1
n−1 2
Eσ2 (Vn2 ) = σ 6= σ2 .
n
Cependant
n−1 2
Eσ2 (Vn2 ) =
σ −→ σ2
n
n n−1 2 n ³ n ´
σ2 = σ = Eσ2 (Vn2 ) = Eσ2 Vn2 = Eσ2 (S 2n ).
n−1 n n−1 n−1
9.1.2 Propriétés asymptotiques

9.1.2.1 Convergence ou consistance
Définition 9.1.6. Un estimateur θbn de θ est dit asymptotiquement sans biais lorsque pour
tout θ ,
Eθ (θbn ) −−−−−→ θ .
n→+∞
Définition 9.1.7. θbn est un estimateur convergent (ou consistant) de θ si

P
θbn −−−−−→ θ lorsque n → +∞
n→+∞
c’est à dire ³¯ ¯ ´
∀ε > 0 lim P ¯θbn − θ ¯ ≥ ε = 0.
¯ ¯
n→+∞
Interprétation : La convergence est une des propriétés les plus importantes pour un es-
timateur. On a la garantie qu’à un rang n assez grand et avec grande probabilité, θbn soit
proche du paramètre θ .
Exercice 9.1.2. Considerons un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et

1X n
variance σ2 > 0. Montrer la moyenne empirique X n = X i est un estimateur convergent
n i=1
de m.
Solution 1. loi des grands nombres.
Solution 2. Inégalité de Bienaymé-Tchebythcev + Théorème des gendarmes. Pour tout
ε>0
³¯ ¯ ´ ³¯ ¯ ´ var ( X )
m n
0 ≤ Pm ¯ X n − m¯ > ε = Pm ¯ X n − Em ( X n )¯ > ε ≤
¯ ¯ ¯ ¯
ε2
Solution 3. Comme Em ( X n ) = m, il suffit de montrer que var m ( X n ) −→ 0 pour conclure.
9.1.2.2 Normalité asymptotique
Définition 9.1.8. Un estimateur θbn de θ est dit asymptotiquement normal si

p ¡ ¢ L
n θbn − θ −−−−−→ N (0, σ2θ ) n → +∞
n→+∞
où σ2θ est à déterminer.

Interprétation : La normalité asymptotique est une propriété plus précise qui indique que
la fluctuation de l’estimateur autour de θ est approximativement normale. Si
p L
n(Yn − y) −−−−−→ N (0, σ2y ),
n→+∞
p
quelle est la loi asymptotique de la variable aléatoire n( g(Yn ) − g( y)) ? C’est à dire,
p L
n( g(Yn ) − g( y)) −−−−−→ ?
n→+∞
Quelles sont les conditions sur la fonction g ? La méthode delta permet de répondre à ce
type de préoccupations.
Théorème 9.1.2. Si la suite de variables aléatoires (Yn ) est asymptotiquement normale,

telle qu’il existe y et σ2y avec
p L
n(Yn − y) −−−−−→ N (0, σ2y )
n→+∞
et si g est une fonction de classe C 1 alors g(Yn ) est asymptotiquement normal

p L 0
n( g(Yn ) − g( y)) −−−−−→ N (0, σ2y ( g ( y))2 ).
n→+∞
Exemple 9.1.2. Considerons un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et

1X n
variance σ2 > 0. Montrer la moyenne empirique X n = X i est un estimateur asymptoti-
n i=1
quement normal de m.
Solution. Le Théorème Central Limite permet de répondre à cette question.
Exemple 9.1.3. Considerons un échantillon ( X 1 , . . . , X n ) issu d’une loi de moyenne m et

n
³1 X ´2
2
variance σ2 > 0. Montrer la moyenne empirique X n = Xi est un estimateur asymp-
n i=1
totiquement normal de m2 .
Solution. Pour repondre à la question, on utlise la delta-method.
• D’après le Théorème Central Limite, nous avons
p L
n( X n − m) −−−−−→ N (0, σ2 )
n→+∞
• En posant g( x) = x2 , g0 ( x) = 2 x et g est classe C 1 sur Θ = R et on a

p 2 L
n( X n − m2 ) −−−−−→ N (0, σ2 × (2 m)2 ) = N (0, 4 m2 σ2 ).
n→+∞
C’est à dire p 2 L
n( X n − m2 ) −−−−−→ N (0, 4 m2 σ2 )
n→+∞
9.2 Methode du maximum de vraisemblance

La vraisemblance de l’échantillon ( X 1 , . . . , X n ) est donnée par
n
Y
L n ( x1 , . . . , x n , θ ) = f ( x i , θ ).
i =1
9.2. METHODE DU MAXIMUM DE VRAISEMBLANCE 43
Dans le cas d’une loi discrète
n
Pθ ( X i = x i ).
Y
L n ( x1 , . . . , xn , θ ) =
i =1
Pour un échantillon de taille 1

L 1 ( x, θ ) = Pθ ( X 1 = x).
Principe de la méthode : Choisir comme estimateur la statistique θbn , la valeur de θ qui

maximise la vraisemblance L n ( X 1 , . . . , X n , θ ) :
Définition 9.2.1. θbn est un estimateur du maximum de vraisemblance de θ si
∀θ ∈ Θ L n ( X 1 , . . . , X n , θbn ) ≥ L n ( X 1 , . . . , X n , θ ).
La recherche d’un maximum de la vraisemblance n’est pas forcément réduite à un simple

calcul des zéros de la dérivée de L. Cependant, ce cas étant le plus fréquent, il est logique
de poser les deux hypothèses suivantes :
— le support X (Ω) ne dépend pas de θ .
— la vraisemblance L est deux fois continûment dérivable par rapport θ .
Alors θbn est solution du système :
∂L n ( X 1 , . . . , X n , θ )

 (θ̂n ) = 0
∂θ






2
 ∂ L n ( X 1 , . . . , X n , θ ) (θ̂n ) < 0.




∂θ 2
Puisque la fonction logarithme est croissante, vu la forme de L, il est aussi aisé d’utiliser
le logarithme de la vraisemblance si f ( x, θ ) > 0, ∀ x ∈ X (Ω), ∀θ . Un estimateur du maximum
de vraisemblance maximise le logarithme de la vraisemblance L n ( X 1 , . . . , X n , θ ) :
n
X
ln(L n ( X 1 , . . . , X n , θ )) = ln( f ( X i , θ ).
i =1
Un estimateur du maximum de vraisemblance θ̂n est alors solution du système
∂ ln(L n ( X 1 , . . . , X n , θ ))

 (θ̂n ) = 0
∂θ






2
 ∂ ln(L n ( X 1 , . . . , X n , θ )) (θ̂n ) < 0.




∂θ 2
Exemple 9.2.1. Soit l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, θ ) avec
θ ∈]0, 1[. La vraisemblance de ( x1 , . . . , xn ) issu d’une loi de Bernouilli est :
n
θ x i (1 − θ )1− x i 1{0,1} ( x i )
Y
L( x1 , . . . , xn , θ ) =
i =1
³ θ ´Pn x i
= (1 − θ )n
i =1
1{0,1}n ( x1 , . . . , xn ).
1−θ
n
Pour tout ( x1 , . . . , xn ) ∈ {0, 1} , la log-vraisemblance est donnée
n
X n
X
ln L( x1 , . . . , xn , θ ) = x i ln(θ ) + ( n − x i ) ln(1 − θ )
i =1 i =1
Pn Pn
∂ ln L( x1 , . . . , xn , θ ) n
i =1 x i n− i =1 x i 1X
= − = 0 ⇐⇒ θ = xi = xn
∂θ θ (1 − θ ) n i=1
2
∂ ln L( x1 , . . . , xn , θ ) − nx n n − nx n
(xn ) = − < 0.
∂θ 2 x2n (1 − x n )2
L’estimateur du maximum de vraisemblance de θ est donné par
θ̂n = X n .
Etude des propriétés de θ̂n .
1. D’après la loi des grands nombres, X n est un estimateur convergent de θ .

2. D’après le Théorème Central limite X n est asymptotiquement normal :
p L
n( X n − θ ) −−−−−→ N (0, θ (1 − θ )).
n→+∞
3. X n est un estimateur efficace de θ .
Exemple 9.2.2. Soit un échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle de paramètre

θ > 0. La vraisemblance de ( x1 , . . . , xn ) est
n
Y
L( x1 , . . . , xn , θ ) = θ exp(−θ x i )1IR∗+ ( x i )
i =1
³ n ´
= θ n exp − θ
X
x i 1(R∗+ )n ( x1 , . . . , xn ).
i =1
Pour tout ( x1 , . . . , xn ) ∈ (R∗+ )n , on a

n
X
ln(L( x1 , . . . , xn , θ )) = n ln(θ ) − θ xi
i =1
∂ ln L( x1 , . . . , xn , θ ) n Xn 1
= − x i = 0 ⇐⇒ θ =
∂θ θ i=1 xn
∂2 ln L( x1 , . . . , xn , θ ) ³ 1 ´
= − nx2n < 0.
∂θ 2 xn
1
θ̂n = .
Xn
Pour montrer que θ̂n est biaisé (ou sans biais), il faut calculer
1 n 1
µ ¶ µ ¶ µ ¶
E = E Pn = n × E Pn
Xn i =1 X i i =1 X i
9.2. METHODE DU MAXIMUM DE VRAISEMBLANCE 45
Comme les variables X i sont indépendantes et de même loi E (θ ) = Γ(1, θ ), on en déduit que
n
Γ( n, θ ).
X
Xi
i =1
Si X Γ(a, θ ), Y Γ( b, θ ) et X et Y sont indépendantes alors
X +Y Γ(a + b, θ )
n
X
Posons Z = X i , nous avons
i =1
θn
Z Γ( n, θ ) ⇐⇒ f Z ( z, θ ) = z n−1 e−θ z 1R+∗ ( z)
Γ( n)
Finalement
1 n
µ ¶ µ ¶
E = E Pn
Xn i =1 X i
1
µ ¶
= n × E Pn
i =1 X i
µ ¶
1 n
= n×E
X
Z= Xi
Z i −1
Z +∞
1
= f Z ( z, θ ) dz
−∞ z
θn +∞
Z
= z n−2 e−θ z dz
Γ( n) 0
θn
Z +∞
= z(n−1)−1 e−θ z dz
Γ( n) 0
θn Γ( n − 1)
= ×
Γ( n) θ n−1
Utiliser la formule suivante :
Γ(a) +∞
Z
= xa−1 e−ρ x dx
ρa 0
Γ( n) = ( n − 1)Γ( n − 1) n entier ≥ 1
Z +∞
Γ(a) = xa−1 e− x dx.
0
Après les calculs, on obtiendra

1 n
µ ¶
E = θ 6= θ .
Xn n−1
Etude des propriétés de θ̂n .

1. D’après la loi des grands nombres, on a :
P 1
X n −−−−−→ .
n→+∞ θ
1
Comme, l’application x 7→ x est continue sur R∗+ , alors
1 P
−−−−−→ θ .
Xn n→+∞
2. D’après le Théorème Central limite X n est asymptotiquement normal :

p ³ 1´ L ³ 1´
n Xn − −−−−−→ N 0, 2 .
θ n→+∞ θ
1 0
Comme, l’application g : x 7→ x est dérivable sur R∗+ et g ( x) = − x12 , on obtient par la
delta-méthode :
p L
³ 1 0 ´
n( g( X n ) − g(1/θ )) −−−−−→ N 0, 2 ( g (1/θ ))2 .
n→+∞ θ
c’est à dire
p ³ 1 ´
L
n − θ −−−−−→ N (0, θ 2 ).
Xn n→+∞
3. θ̂n est un estimateur biaisé de θ . Il ne peut donc pas être efficace.
9.3 Méthode des moments

Principe de la méthode :
— Trouver des fonctions g et q telles que
E( g( X 1 ) = q(θ ). (9.3.1)
Il faudrait choisir de préférence q bijective.

— Remplacer dans (9.3.1), la moyenne théorique par la moyenne empirique :
1X n
g ( X i ) = q (θ ) (9.3.2)
n i=1
— Résoudre (9.3.2) ; si q est bijective alors l’estimateur par la méthode des moments
est donné par :
n
³1 X ´
θbn = q−1 g( X i ) .
n i=1
Exemple 9.3.1. Considérons l’échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, θ )

avec θ ∈]0, 1[.
1. Etape 1 : Eθ ( X 1 ) = θ ; g( X 1 ) = X 1 et q(θ ) = θ .
2. Etape 2 : X n = θ .
3. Etape 3 : On conclut que l’estimateur est θbn = X n
Exemple 9.3.2. Considérons l’échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle E (θ ) avec
θ > 0.
1. Etape 1 : Eθ ( X 1 ) = θ1 ; g( X 1 ) = X 1 et q(θ ) = θ1 . est bijective.
2. Etape 2 : X n = θ1 .
1
3. Etape 3 : On conclut que l’estimateur est θbn =
Xn
Exemple 9.3.3. Considérons l’échantillon ( X 1 , . . . , X n ) issu d’une loi exponentielle E (θ ) avec

θ > 0.
9.3. MÉTHODE DES MOMENTS 47
1. Etape 1 :
1 1
Eθ ( X 12 ) = var θ ( X 1 ) + (E θ ( X 1 ))2 = + 2
θ 2 θ
g( x) = x2 et q(θ ) = θ22 est bijective.
2. Etape 2 : n1 ni=1 X i2 = θ22 .
P
3. Etape 3 : s
2
θ= 1 Pn 2
n i =1 X i
On conclut que l’estimateur est

s
2
θbn = 1 Pn 2
n i =1 X i
Exercice 9.3.1. Pendant une année, un assureur a enregistré les montants de sinistres
suivants
{500, 1000, 1500, 2500, 4500}.
Il décide de modéliser ces données par une loi Log-normale(µ, σ2 ). En utilisant la méthode
des moments, estimer les paramètres µ et σ2 . Calculer ensuite la probabilité d’avoir un si-
nistre supérieur à 4 500.
Les montants sont en milliers de francs.

Exercice 9.3.2. Soit ( X 1 , . . . , X n ) un échantillon d’une population de loi uniforme sur [θ , 1].
Déterminer par la méthode des moments l’estimateur de θ . Etudier ses propriétés.
Exercice 9.3.3. Soit ( X 1 , . . . , X n ) un échantillon d’une population de loi gamma Γ(2, ρ ) avec
ρ inconnu. Déterminer par la méthode des moments l’estimateur de ρ . Etudier ses propriétés.
Chapitre
Estimation par intervalle de

10 confiance
En estimation ponctuelle, on ne propose qu’une seule valeur pour le paramètre d’intérêt.

Il n’y a quasiment aucune chance que cette valeur soit la vraie valeur. L’objectif de ce
chapitre est de proposer une fourchette de valeurs possibles, tout un intervalle, ni trop gros,
pour qu’il soit assez informatif, ni trop petit, pour qu’on soit raisonnablement sûr qu’il
contienne la vraie valeur.
10.1 Introduction
Définition 10.1.1. Soit α ∈]0, 1[ ; on appelle intervalle de confiance pour le paramètre θ de
niveau de confiance égale à 1 − α, un intervalle aléatoire I ( X 1 , . . . , X n ) ⊂ Θ tel que
Pθ ( I ( X 1 , . . . , X n ) 3 θ ) = 1 − α.
Définition 10.1.2. On dira que un intervalle aléatoire I ( X 1 , . . . , X n ) est un intervalle de

confiance pour le paramètre θ de niveau de confiance asymptotique égale à 1 − α si
lim Pθ ( I ( X 1 , . . . , X n ) 3 θ ) = 1 − α.
n→+∞
Lorsque
I ( X 1 , . . . , X n ) = [T n∗ ( X 1 , . . . , X n ), T n∗∗ ( X 1 , . . . , X n )]
où T n∗ ( X 1 , . . . , X n ) et T n∗∗ ( X 1 , . . . , X n ) sont des statistiques à valeurs dans Θ, on parle d’inter-

valle de confiance bilatéral. Dans le cas où
I ( X 1 , . . . , X n ) = [T n∗ ( X 1 , . . . , X n ), +∞[
ou
I ( X 1 , . . . , X n ) =] − ∞, T n∗ ( X 1 , . . . , X n )],
on parle d’intervalle de confiance unilatéral.
Remarque 10.1.1. Dans l’univers des échantillons possibles, pour une proportion au moins
1 − α d’entre eux, on obtient un intervalle qui contient θ .
Remarque 10.1.2. A α fixé, l’intervalle de confiance est d’autant meilleur que sa longueur
est petite.
48
10.2. CONSTRUCTION D’UN INTERVALLE DE CONFIANCE 49
Remarque 10.1.3. On doit comprendre un intervalle de confiance de niveau 1 − α comme
un intervalle aléatoire qui a une probabilité 1 − α de contenir le vrai parametre θ .
Définition 10.1.3. Soit X une variable aléatoire réelle de fonction de répartition F ( x) =
P( X ≤ x). Pour α ∈]0, 1[, on appelle quantile (ou fractile) d’ordre α de la loi de X le nombre
q α = inf { x ∈ R, F ( x) ≥ α} .
Lorsque la fonction de répartition F est continue et strictement croissante, elle est inversible
d’inverse F −1 et pour tout α ∈]0, 1[, on a qα = F −1 (α).
10.2 Construction d’un intervalle de confiance

1. Construction de la fonction pivot (ou pivotale)
2. Détermination des constantes
3. Pivotement
10.2.1 Fonction pivotale

Définition 10.2.1. On appelle fonction pivotale pour θ toute fonction de l’échantillon et
de θ , φ( X 1 , . . . , X n , θ ) dont la loi ne dépend pas de θ .
Définition 10.2.2. Une fonction asymptotiquement pivotale pour θ est une variable aléa-
toire, φ( X 1 , . . . , X n , θ ) qui converge en loi vers une variable aléatoire dont la loi ne dépend
pas de θ .
10.3 Intervalle de confiance pour la moyenne d’une loi

normale
Considérons un échantillon ( X 1 , . . . , X n ) issu d’une loi normale N (µ, σ2 ) avec θ = (µ, σ2 ).
Si X ,→ N (µ, σ2 ) alors
X −µ
,→ N (0, 1)
σ
1. σ2 connue et estimation de µ. Nous savons que X n est un estimateur efficace de

µ. De plus
p
σ2 n ( X n − µ) X n − µ
µ ¶
X n ,→ N µ, ⇔ = p ,→ N (0, 1).
n σ σ/ n
p
n ( X n − µ)
Par suite est une fonction pivot. Ainsi, nous obtenons
σ
Ã p !
n ( X n − µ)
P − z1− α ≤ ≤ z1− α = 1 − α
2 σ 2
soit µ σ z1− α σ z1− α ¶

P Xn − p 2 ≤ µ ≤ Xn + p 2 = 1−α
n n
i.e.
50 CHAPITRE 10. ESTIMATION PAR INTERVALLE DE CONFIANCE
L’intervalle de confiance de niveau 1 − α de la moyenne µ lorsque σ2 est connue est
σ σ
· ¸
Xn − z1− α p , Xn + z1− α p
2 n 2 n
où z1− α2 est le quantile d’ordre 1 − α2 de la loi normale centrée réduite N (0, 1)
Remarque 10.3.1. On appelle marge d’erreur la quantité

σ
ME = z1− α p .
2 n
Taille d’échantillon. Fixons ε > 0. Nous cherchons à choisir une taille d’échantillon
telle que ME ≤ ε. Ainsi, on cherche la taille n d’échantillon tel que
σ
|µ − X̄ n | ≤ z1− α p ≤ ε
2 n
c’est à dire
σ2 z12− α
2
n≥ .
ε2
2. σ2 inconnue et estimation de µ. Nous avons le résultat suivant
p ³ ´
n Xn −µ 1 X n
,→ T ( n − 1) avec S2 = ( X i − X n )2 .
S n − 1 i=1
Cette variable aléatoire est une fonction pivotale pour µ. De plus la densité de la loi
de Student vérifie les hypothèses de la Proposition ??. Ainsi,
 p ³ ´ 
n Xn −µ
P − t 1− α ≤ ≤ t 1− α  = 1 − α
2 S 2
où t1− α2 est le quantile d’ordre 1 − α2 de la loi de Student à n − 1 degrés de liberté. Il

s’ensuit que
S S
µ ¶
P X n − t 1− α p ≤ µ ≤ X n + t 1− α p = 1 − α.
2 n 2 n
L’intervalle de confiance pour µ de niveau 1 − α lorsque σ2 est inconnue est

h S S i
X n − t 1− α p , X n + t 1− α p
2 n 2 n
où z1− α2 est le quantile d’ordre 1 − α2 de la loi de Student à n − 1 degrés de liberté T (n − 1)

S
Nous remarquons que |µ − X̄ n | ≤ t1− α2 p .
n
Remarque 10.3.2. On appelle marge d’erreur la quantité
S
ME = t 1− α p .
2 n
10.3. INTERVALLE DE CONFIANCE POUR LA MOYENNE D’UNE LOI NORMALE51
Taille d’échantillon. Fixons ε > 0. Nous cherchons à choisir une taille d’échantillon
telle que ME ≤ ε. Ainsi, on cherche la taille n d’échantillon tel que
S
|µ − X̄ n | ≤ t 1− α p ≤ ε
2 n
c’est à dire
S 2 t21− α
2
n≥ .
ε2
10.3.1 Intervalle de confiance pour une proportion

On considère un échantillon ( X 1 , . . . , X n ) issu de la loi de Bernouilli B (1, p), p ∈]0, 1[. La
fonction Pivotale que nous considérons est :
p
n( X n − p ) L
q −−−−−→ N (0, 1).
n→+∞
X n (1 − X n )
Pour n assez grand ( n > 30),

p
h n( X n − p ) i
P − z1− α ≤ q ≤ z1− α
2 2
X n (1 − X n )
s s
h X n (1 − X n ) X n (1 − X n ) i
= P X n − z1− α ≤ p ≤ X n + z1− α
2 n 2 n
= 1 − α.
où z1− α2 est quantile d’ordre 1 − α2 de la loi normale centrée-réduite.
L’intervalle de confiance pour la proportion p de niveau de confiance 1 − α est :

s s
h X n (1 − X n ) X n (1 − X n ) i
X n − z1− α , X n + z1− α
2 n 2 n
La marge d’erreur est donc

s
X n (1 − X n ) 1
ME = z1− α ≤ z1− α p
2 n 2 2 n
car pour tout x ∈ [0, 1], on a

1
p
x(1 − x) ≤ .
2
Pour déterminer la taille n telle que ME ≤ ε, il suffit donc de résoudre
1
z1− α p ≤ ε.
2 2 n
Ce qui nous donne alors

³ z1− α ´2
2
n≥ .
2ε
Chapitre
Généralités sur les tests d’hypo-

11 thèses
11.1 Principe des tests

On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi Pθ avec θ ∈ Θ. Soient Θ0 et Θ1
deux sous-ensembles de Θ tels que Θ = Θ0 ∪ Θ1 et Θ0 ∩ Θ1 = ;. Soientles hypothèses :
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
L’hypothèse H0 est appelée hypothèse nulle et H1 , hypothèse alternative. Une hypothèse
est dite simple si elle est réduite à un singléton. Les deux hypothèses sont telles que une et
une seule est vraie.
Un test statistique est un mécanisme qui permet de trancher entre deux hypothèses à
partir des résultats d’un échantillon. La décision consiste à choisir H0 ou H1 . Il y a quatre
cas qui sont reproduits dans le tableau ci-dessous
H0 vraie H1 vraie
H0 décidée Bonne décision Erreur de deuxième espèce
H1 décidée Erreur de première espèce Bonne décision
Définition 11.1.1. On appelle région critique la région d’acceptation de l’hypothèse alter-
native H1 : n o
W = ( X 1 , . . . , X n ) : ψ( X 1 , . . . , X n ) = 1 .
Un test est déterminé par sa région critique W . La région critique dépend du niveau α
et d’une statistique appelée variable de décision. Pour la déterminer, il est indispensable de
connaı̂tre la loi de la variable de décision sous l’hypothèse H0 . Lorsque ( x1 , . . . , xn ) sont des
valeurs observées de cet échantillon,
- si ( x1 , . . . , xn ) ∈ W , alors on rejette H0 et on accepte H1 ;
- si ( x1 , . . . , xn ) 6∈ W , alors on accepte H0 et on rejette H1 .
Définition 11.1.2. On appelle erreur de première espèce le rejet de H0 à tort. Cette erreur
est mesurée par le risque de premir̀e espèce :
θ ∈ Θ0 7→ Pθ (W ).
On appelle erreur de seconde espèce le rejet de H1 à tort. Cette erreur est mesurée par le
risque de seconde espèce :
θ ∈ Θ1 7→ Pθ (W ).
52
11.2. ETAPES DES TESTS 53
Définition 11.1.3. On appelle niveau du test de région critique W , la quantité :
α = sup Pθ (W ).
θ ∈Θ0
Parmi les tests de niveau α fixé, on souhaite minimiser le risque de seconde espèce.
Remarque 11.1.1. Lors d’un test, on minimise en priorité le risque de première espèce,
aussi les rôles de H0 et H1 ne sont pas symétriques. On choisit comme hypothèse nulle
l’ensemble que l’on ne souhaite surtout pas voir rejeté è tort : hypothèse à laquelle on tient,
hypothèse de prudence, hypothèse solidement établie etc. Par exemple, dans le test de dépis-
tage d’une maladie, on souhaite surtout éviter de dire à une personne qu’elle est en bonne
santé alors qu’elle est en fait malade. On choisit comme hypothèse nulle le fait d’être malade.
Dans le cas du réchauffement climatique, un homme politique qui veut éviter de prendre des
mesures si le réchauffement n’est pas avéré choisira comme hypothèse nulle ”il n’y a pas
réchauffement”. Un écologiste choisira plutôt ”il y a réchauffement”.
11.2 Etapes des tests

1. Etape préliminaire : modélisation du problème.
2. Formulation des hypothèses H0 et H1 .
3. Choix du seuil du test α.
4. Calcul de la région critique.
5. Conclusion statistique : conservation ou rejet de l’hypothèe de départ H0 et commen-
taire éventuel sur la p-valeur.
6. Conclusion stratégique : décision que l’on va prendre une fois éclairé par le résultat
statistique.
11.3 La règle de la p-value

En pratique, plutôt que de calculer la région critique en fonction de α, on préfère donner
un seuil critique de α∗ appelée p-value, qui est telle que
- si α∗ < α, on rejette H0
- si α < α∗ , on accepte H0 .
Les logiciels statistiques calculent et présentent les p-valeurs qui sont difficiles à obtenir sans
moyen de calcul approprié.
Chapitre
12 Tests de Student : un échantillon
12.1 Introduction
On appelle test de Student un test de comparaison de la moyenne dans un échantillon
gaussien, c’est à dire un échantillon ( X 1 , . . . , X n ) issu de la loi normale N (m, σ2 ). Soit m 0
une valeur possible de m. La moyenne empirique X n est un estimateur efficace de m.
Deux résultats importants :
p ³ ´
µ
σ 2¶ n Xn −m
X n ,→ N m, ⇐⇒ ,→ N (0, 1).
n σ
p ³ ´
n Xn −m
,→ T ( n − 1)
Sn
qui est la loi de Student à n − 1 dégrés de liberté avec
Ã !1/2
1 X n
Sn = ( X i − X n )2 .
n − 1 i=1
12.2 H0 : m ≤ m 0 contre H1 : m > m 0
12.2.1 On suppose que la variance σ2 est connue.

Sous l’hypothèse H0 ,
p ³ ´
µ
σ 2¶ n X n − m0
X n ,→ N m 0 , ⇐⇒ ,→ N (0, 1).
n σ
Ce qui implique alors

p ³ ´
p

n X n − m0 nl α
Pm0  >  = α.
σ σ
54
12.2. H0 : M ≤ M0 CONTRE H1 : M > M0 55
Ainsi, on en déduit que p
nl α σ
= q 1−α ⇔ l α = p q 1−α
σ n
où q1−α est le quantile d’ordre 1 − α de N (0, 1).
La région critique au niveau α du test H0 : m ≤ m 0 contre H1 : m > m 0 lorsque σ2 est connue

est
σ
½ ¾
W = X n − m 0 > p q 1−α
n
p ³
½ n X −m
´
n 0
¾
= > q 1−α (12.2.1)
σ
où q1−α est le quantile d’ordre 1 − α de la loi normale centrée-réduite.

p ³ ´
n X n −m0
Remarque 12.2.1. La statistique σ
est appelée variable de décision.
Remarque 12.2.2. On accepte H1 au niveau α lorsque la différence X n − m 0 est significa-

σ
tive, c’est à dire strictement supérieure à p q1−α .
n
Exercice 12.2.1. Une marque de tablettes de chocolat annonce que ses tablettes contiennent
une teneur en cacao supérieure à 430 g par k g. On effectue un contrôle de qualité sur un
échantillon de 10 tablettes et on obtient les teneurs suivantes en g/k g : 505.1 423.5 462.0
391.9 412.1 487.2 439.0 434.1 441.1 474.2. On admet que chaque mesure suit une loi normale
N ( m, σ2 ).
1. Ecrire le modèle et les hypothèses du test qu’on veut faire.
2. On admet dans un premier temps (au vu de contrôles antérieurs) que σ = 24. Que
peut-on conclureau niveau α = 0.05 ?
Solution 12.2.1. 1. — Soit X i la teneur en cacao en g/ k g de la tablette i . La va-
riable aléatoire X i suit une loi normale N ( m, σ2 ). On dispose d’un échantillon
( X 1 , . . . , X 10 ) issu d’une loi normale
½ N ( m, σ2 ). ¾
— Le modèle statistique est donc N (m, σ2 ) : (m, σ2 ) ∈ R × R∗+
— H0 : m ≤ 430 contre H1 : m > 430.
2. Au niveau α = 0.05, la région critique du test est :
p ³ ´
½ 10 X − 430
10
¾
W= > q 0.95
24
où q0.95 = 1.644 est le quantile d’ordre 0.95 de la loi normale centrée-réduite. Par
suite, nous obtenons :
p ³ ´
½ 10 X − 430
10
¾
W= > 1.644
24
Puisque
1
x10 = (505.1+423.5+462.0+391.9+412.1+487.2+439.0+434.1+441.1+474.2) = 447.02
10
56 CHAPITRE 12. TESTS DE STUDENT : UN ÉCHANTILLON
et p
10 (447.02 − 430)
= 2.243 > 1.644,
24
on accepte H1 au niveau α = 0.05. Ainsi, on peut conclure que les tablettes de cette
marque contiennent une teneur en cacao supérieure à 430 g par k g.
12.2.2 On suppose σ2 est inconnue

Nous allons remplacer dans (12.2.1), σ par par l’écart-type empirique modifié S n . La
variable de décision est donc :
p ³ ´
n X n − m0
.
Sn
La région critique au niveau α du test H0 : m ≤ m 0 contre H1 : m > m 0 lorsque σ2 est inconnue

est
½ pn X − m
³ ´
n 0
¾
W= > t 1−α,n−1
Sn
où t1−α,n−1 est le quantile d’ordre 1 − α de la loi de Student à n − 1 degrés de liberté T (n − 1).
Exercice 12.2.2. Une marque de tablettes de chocolat annonce que ses tablettes contiennent
une teneur en cacao supérieure à 430 g par k g. On effectue un contrôle de qualité sur un
échantillon de 10 tablettes et on obtient les teneurs suivantes en g/k g : 505.1 423.5 462.0
391.9 412.1 487.2 439.0 434.1 441.1 474.2. On admet que chaque mesure suit une loi normale
N ( m, σ2 ). Que peut-on conclure au niveau α = 0.05 ?
Solution 12.2.2. Au niveau α = 0.05, nous voulons tester H0 : m ≤ 430 contre H1 : m > 430.
La région critique du test est :
p ³ ´
½ 10 X − 430
10
¾
W= > t 0.95,9
S 10
où t0.95,9 = 1.833 est le quantile d’ordre 0.95 de la loi de Student à 9 degrés de liberté. Par
suite, nous obtenons :
p ³ ´
½ 10 X − 430
10
¾
W= > 1.833
35
Puisque
1
x10 = (505.1 + 423.5 + 462.0 + 391.9 + 412.1 + 487.2 + 439.0 + 434.1 + 441.1 + 474.2) = 447.02
10
et p
10 (447.02 − 430)
= 1.5378 < 1.833,
35
on rejette H1 au niveau α = 0.05. Ainsi, on peut conclure que les tablettes de cette marque
ne contiennent pas une teneur en cacao supérieure à 430 g par k g.
12.3. H0 : M ≥ M0 CONTRE H1 : M < M0 57
12.3 H0 : m ≥ m 0 contre H1 : m < m 0

12.3.1 On suppose que la variance σ2 est connue.
La région critique au niveau α du test H0 : m ≥ m 0 contre H1 : m < m 0 lorsque σ2 est connue

est
σ
½ ¾
W = X n < m0 + p qα
n
½ pn X − m
³ ´
n 0
¾
= < qα (12.3.1)
σ
où qα est le quantile d’ordre α de la loi normale centrée-réduite.
Exercice 12.3.1. Le département de contrôle de la qualité d’une entreprise détermine que

le poids moyen net d’une boı̂te de céréales ne devrait pas être inférieur à 200 g. L’expérience
a montré que les poids sont approximativement distribués normalement avec un écart-type
de 15 g. Un échantillon de 15 boı̂tes prélevé aléatoirement sur la ligne de production donne
un poids moyen de 195 g. Cela est-il suffisant pour pouvoir affirmer que le poids moyen des
boı̂tes est inférieur à 200 g ?
Solution 12.3.1. 1. Tester H0 : m ≥ 200 contre H1 : m < 200 au niveau α = 0.05

2. Au niveau α = 0.05, la région critique du test est
15
½ ¾
W = X 15 < 200 + p q 0.05
15
où q0.05 = − q0.95 = −1.644 est le quantile d’ordre 0.05 de la loi normale centrée-
15
réduite. 200 − p ∗ 1.64 = 193.65
15
3. Puisque 195 > 193.65, on accepte H0 . Même si x̄ < 200 g, il n’y a pas d’éléments
significatifs indiquant que le poids moyen des boites est inférieure à 200 g.
12.3.2 On suppose que la variance σ2 est inconnue.
La région critique au niveau α du test H0 : m ≥ m 0 contre H1 : m < m 0 lorsque σ2 est inconnue

est
½ pn X − m
³ ´
n 0
¾
W= < t α,n−1 (12.3.2)
Sn
où tα,n−1 est le quantile d’ordre α de la loi de Student à n − 1 degrés de liberté T (n − 1).
Exercice 12.3.2. Le département de contrôle de la qualité d’une entreprise détermine que

le poids moyen net d’une boı̂te de céréales ne devrait pas être inférieur à 200 g. L’expérience
a montré que les poids sont approximativement distribués normalement. Un échantillon de
15 boı̂tes prélevé aléatoirement sur la ligne de production donne un poids moyen de 195 g
avec un écart-type estimé égal à 15 kg.. Cela est-il suffisant pour pouvoir affirmer que le
poids moyen des boı̂tes est inférieur à 200 g ?
58 CHAPITRE 12. TESTS DE STUDENT : UN ÉCHANTILLON
Solution 12.3.2. 1. Tester H0 : m ≥ 200 contre H1 : m < 200 au niveau α = 0.05
p ³ ´
½ 15 X − 200
15
¾
W= < t 0.05,14
S 15
où t0.05,14 = −1.761 est le quantile d’ordre 0.05 de la loi de Student à 14 degrés de
liberté (T (14)).
p
3. Puisque 15(195 15
−200)
= −1.291 > −1.761, on accepte H0 .Au niveau α = 0.05, il n’y a
pas d’éléments significatifs indiquant que le poids moyen des boites est inférieure à
200 g.
12.4 H0 : m = m 0 contre H1 : m 6= m 0
La région critique au niveau α du test H0 : m = m 0 contre H1 : m 6= m 0 lorsque σ2 est connue

est
½¯ p n X − m ¯
³ ´
n 0 ¯
¾
¯
W = ¯¯ ¯>q α
1− 2 (12.4.1)
σ ¯
où q1− α2 est le quantile d’ordre 1 − α2 de la loi normale centrée-réduite.
Exercice 12.4.1. Une entreprise de vente par correspondance demande un montant fixe
pour les frais d’envoi, indépendamment du poids du colis. Une étude réalisée il y a quelques
années a montré que le poids moyen d’un colis était de 17.5 kg avec un écart-type de 3.6
kg. La comptabilité soupçonne que le poids moyen est maintenant différent de 17.5 kg. Un
échantillon aléatoire de 100 colis est prélevé et fournit un poids moyen de x̄ = 18.4 kg. On
suppose que les poids des colis sont distribués normalement. Que conclure au niveau α = 0.05
Solution 12.4.1. 1. Nous voulons tester l’hypothèse H0 : m = 17.5 contre H1 : m 6= 17.5

au niveau α = 0.05.
½¯ p n X − m ¯
³ ´
n 0 ¯
¾
¯
W = ¯¯ ¯ > q 0.975
σ ¯
σ σ
½ ¾ ½ ¾
= X n < m 0 − p q 0.975 ∪ X n > m 0 + p q 0.975
n n
où q0.975 = 1.96 est le quantile d’ordre 0.975 de la loi normale centrée-réduite.
σ 3.6
m 0 + p q 1− α = 17.5 + p ∗ 1.96 = 18.2056
n 2
100
σ 3.6
m 0 − p q 1− α = 17.5 − p ∗ 1.96 = 16.7944
n 2
100
3. Puisque x̄ > 18.2056, on rejette H0 i.e le poids moyen des colis a changé.
12.4. H0 : M = M0 CONTRE H1 : M 6= M0 59
2
12.4.1 On suppose que la variance σ est inconnue.
La région critique au niveau α du test H0 : m = m 0 contre H1 : m 6= m 0 lorsque σ2 est inconnue

est
½¯ p n X − m ¯
³ ´
n 0 ¯
¾
¯
W = ¯¯ ¯>t α
1− 2 ,n−1 (12.4.2)
Sn ¯
où t1− α2 ,n−1 est le quantile d’ordre 1 − α2 de la loi de Student à n − 1 degrés de liberté T (n − 1).
Exercice 12.4.2. Une entreprise de vente par correspondance demande un montant fixe
pour les frais d’envoi, indépendamment du poids du colis. Une étude réalisée il y a quelques
années a montré que le poids moyen d’un colis était de 17.5 kg. La comptabilité soupçonne
que le poids moyen est maintenant différent de 17.5 kg. Un échantillon aléatoire de 100 colis
est prélevé et fournit un poids moyen de x̄ = 18.4 kg avec un écat-type estimé égal à 3.6. On
suppose que les poids des colis sont distribués normalement. Que conclure au niveau α = 0.05
Solution 12.4.2. 1. Nous voulons tester l’hypothèse H0 : m = 17.5 contre H1 : m 6= 17.5

au niveau α = 0.05.
2. Au niveau α = 0.05, la région critique du test est :
p ³ ´
½¯ 100 X
100 − 17.5 ¯
¯ ¾
¯
W = ¯¯ ¯ > t 0.975,99
S 100 ¯
où t0.975,100 = 1.9842 est le quantile d’ordre 0.975 de la loi de Student à 99 degrés de
liberté T (99).
p
100 (18.4 − 17.5)
3. Puisque = 2.5 > 1.9842, on rejette H0 i.e le poids moyen des colis
3.6
a changé.
Chapitre
Tests de Student : deux échan-

13 tillons
13.1 Introduction
Soient P1 et P2 deux populations. On étudie un caractère (rendement, chiffre d’affaire,
seuil de perception, etc.) sur ces deux populations. Le caractère a pour espérance m 1 et
pour variance σ21 dans la population P1 et a pour espérance m 2 et pour variance σ22 dans
la population P2 . Pour des raisons techniques, on supposera que le caractère est distribué
selon une loi normale. On dispose alors de deux échantillons ( X 1 , . . . , X n1 ) et (Y1 , . . . , Yn2 ) issus
respectivement de P1 et P2 , tels que X i et Y j sont indépendantes :
- ( X 1 , . . . , X n1 ) est issu de N (m 1 , σ21 )
- (Y1 , . . . , Yn2 ) est issu de N ( m 2 , σ22 ).
Dans cette section, on comparera les moyennes et les variances des deux échantillons. Les
moyennes empiriques, variances empiriques modifiées des deux échantillons sont notées res-
pectivement X n1 , S12 , Y n2 et S22 .
Exemple 13.1.1. Deux groupes d’étudiants de tailles respectives n1 = 25 et n2 = 31 ont

suivi le même cours de statistique et passe le même examen. Les moyennes et écarts-types
empiriques des notes obtenues dans les deux groupes sont respectivement :
moyenne Variance S 2
Groupe 1 12.8 3.4
Groupe 2 11.3 2.9
On suppose que les notes sont reparties dans les deux groupes selon des lois normales et
qu’elles sont toutes independantes. Peut-on considérer que le premier groupe est meilleur que
le deuxième, c’est-à-dire qu’un point et demi d’écart entre les moyennes est significatif d’une
différence de niveau ? La procédure à suivre consiste à tester d’abord l’égalité des variances,
puis l’égalité des moyennes.
Exemple 13.1.2. Deux variétés de blé ont été cultivées chacune sur 8 parcelles (n1 = n2 = 8).
Les rendements observés (en quintaux/hectare) sont regroupés dans le tableau ci-dessus :
moyenne variance σ2
Echantillon 1 80.0 1.00
Echantillon 2 81.5 1.00
60
13.2. TEST DE FISHER DE COMPARAISON DES VARIANCES 61
Si l’on considère que les 16 parcelles, la variété 2 présente en moyenne un rendement su-
périeur (de 1.5 q/ ha) à celui de la variété 1. Peut-on généraliser ce résultat ? Autrement
dit, la différence observée (de 1.5 q/ha) doit être considérée comme une conséquence d’un
rendement moyen différent selon la variété ou, au contraire, est-il fortuit ? Selon un autre
point de vue, la question peut être posée ainsi : la différence de moyenne obervée doit être
imputée au hasard (c’est-à-dire à la variété ”naturelle” dite aussi ”résiduelle” pour exprimer
que l’on ne sait l’expliquer par la statistique) ?
13.2 Test de Fisher de comparaison des variances

Comparer les variances des deux échantillons revient à résoudre par exemple le problème
de test suivant : H0 : σ21 = σ22 contre H1 : σ21 6= σ22 .
Au niveau α ∈]0, 1[, la région critique du test H0 : σ21 = σ22 contre H1 : σ21 6= σ22 est
S 12 S 12
( ) ( )
∗
W= < fα ∪ > f 1∗− α
S 22 2 S 22 2
α
où f α∗ est le quantile d’ordre 2 de la loi de Fisher à (n1 − 1, n2 − 1) degrés de liberté, f 1∗− α
2 2
est le quantile d’ordre 1 − α2 de la loi de Fisher à (n1 − 1, n2 − 1) degrés de liberté et
Ã !1/2
n1 ³
1 X ´2
S n1 = X i − X n1
n 1 − 1 i=1
Ã !1/2
n2 ³
1 X ´2
S n2 = Yi − Y n2 .
n 2 − 1 i=1
13.3 Test de Student de comparaison des moyennes

On désire maintenant comparer les moyennes. Le test d’égalité des moyennes est :
H0 : m 1 = m 2 contre H0 : m 1 6= m 2 .
Lorsque H0 est vraie, on observe très rarement une parfaite égalité des moyennes. La question
est donc de savoir à partir de quel écart de moyenne va-t-on choisir H1 ?
La région critique est de la forme
n¯ ¯ o
W = ¯ X n1 − Y n2 ¯ > l α .
¯ ¯
Pour déterminer l α , l’on a besoin de la loi de X n1 − Y n2 sous l’hypothèse H0 . Nous savons

que
µ ¶
σ2
X n1 ,→ N m 1 , n11
µ ¶
σ2
Y n2 ,→ N m 2 , n22 .
Comme ces deux variables sont indépendantes, on en déduit que
σ21 σ22
Ã !
X n1 − Y n2 ,→ N m 1 − m 2 , + .
n1 n2
62 CHAPITRE 13. TESTS DE STUDENT : DEUX ÉCHANTILLONS
Ainsi nous avons
( X n1 − Y n2 ) − ( m 1 − m 2 )
V= r ,→ N (0, 1).
σ21 σ2
n1 + n22
Par suite, sous H0 , nous obtenons
X n − Y n2
V= r1 ,→ N (0, 1).
σ21 σ2
n1 + n22
13.3.1 Résolution du test lorsque les variances connues
s
σ21 σ22
½¯ ¯ ¾
W = ¯ X n1 − Y n2 ¯ > u 1− α +
¯ ¯
2 n1 n2
Exemple 13.3.1. Revenons à l’exemple 13.1.2. Les variances sont connues, σ21 = σ22 = 1,
n 1 = n 2 = 8 et les rendements moyens observés x̄8 = 80 q/ h et ȳ8 = 81.5 q/ h. On suppose que
le seuil du test est α = 0.05. De ce fait, u0.975 = 1.96 Nous avons donc
s
1 1
u 0.975 + = 0.98 x̄8 − ȳ8 = −1.5 < −0.98.
8 8
Nous décidons donc de rejeter H0 . La variété 2 a un rendement moyen différent de celui de

la variété 1.
13.3.2 Résolution du test lorsque les variances sont inconnues

Posons
( n 1 − 1)S 2n1 ( n 2 − 1)S 2n2
Z= + .
σ21 σ22
( n 1 − 1)S 2n1 ( n 2 − 1)S 2n2

Comme ,→ χ2 ( n 1 − 1) et ,→ χ2 ( n 2 − 1) et que ces deux variables sont
σ21 σ22
indépendantes, nous obtenons Z ,→ χ2 (n1 + n2 − 2). De plus, les variables aléatoires Z et V
sont indépendantes. Par la définition de la loi de Student, nous déduisons que
p
V n 1 + n 2 − 2( X n1 − Y n2 ) − ( m 1 − m 2 )
T n1 ,n2 = q
Z
= sµ ¶µ ¶ ,→ T ( n 1 + n 2 − 2).
σ21 σ22 ( n 1 −1)S 2n1 ( n 2 −1)S 2n2
n 1 + n 2 −2
n +n 1 2 2 +
σ1 2 σ2
Sous l’hypothèse H0 : m 1 = m 2 , nous avons

p
n 1 + n 2 − 2( X n1 − Y n2 )
T n1 ,n2 = sµ ¶µ ¶ ,→ T ( n 1 + n 2 − 2).
σ21 σ22 ( n 1 −1)S 2n1 ( n 2 −1)S 2n2
n1 + n2 2 + 2
σ1 σ2
On note que lorsque n1 et n2 sont grands, le caractère gaussien des observations n’est plus
requis, et que T n1 ,n2 suit approximativement, sous H0 , une loi N (0, 1)..
13.3. TEST DE STUDENT DE COMPARAISON DES MOYENNES 63
Supposons que σ21 = σ22 .
Si le test de Fisher accepte l’égalité des variances (H0 ), nous avons

s
( n 1 + n 2 − 2) n 1 n 2 X n1 − Y n2
T n1 ,n2 = ,→ T ( n 1 + n 2 − 2)
n1 + n2 ( n 1 − 1)S 2n1 + ( n 2 − 1)S 2n2
La région critique au niveau α ∈]0, 1[ est

½¯ ¯ ¾
W = ¯T n1 ,n2 ¯ > t 1− α ,n1 +n2 −2
¯ ¯
2
où t1− α2 ,n1 +n2 −2 est le quantile d’odre 1 − α2 de la loi de Student T (n1 + n2 − 2).
Supposons que σ21 6= σ22 .

A priori, si le test de Fisher rejette l’égalité des variances, on ne peut pas appliquer le
test. On estime séparément σ21 et σ22 par leurs estimateurs S12 et S22 . Posons
X n − Y n2
T n1 ,n2 = r 1 .
S 2n1 S 2n2
n1 + n2
Sous H0 , T n1 ,n2 ≈ T ([ν])

³ S2 S 2n ´2
n1 2
n1 + n2
ν= .
S 4n1 S 4n2
+
n21 ( n 1 −1) n22 ( n 2 −1)
La région critique au niveau α ∈]0, 1[ est

½¯ ¯ ¾
W = ¯T n1 ,n2 ¯ > q 1− α
¯ ¯
2
où q1− α2 est le quantile d’odre 1 − α2 de la loi de Student [ν] degrés de liberté.
Chapitre
Tests de comparaison des pro-

14 portions
14.1 Test sur la valeur d’une proportion

Soient un échantillon ( X 1 , . . . , X n ) issu d’une loi de Bernouilli B (1, p) et p 0 une valeur
1X n
possible de p. Nous savons que X n = X i est un estimateur efficace de p. De plus, d’après
n i=1
le théorème central-limite, pour n assez grand, nous avons l’approximation en loi suivante
p ³ ´
n Xn − p
p ,→ N (0, 1).
p(1 − p)
Au niveau α ∈]0, 1[, la région critique du test H0 : p ≤ p 0 contre H1 : p > p 0 est :

( s )
p 0 (1 − p 0 )
W = Xn > q 1−α + p 0
n
où q1−α est le quantile d’ordre 1 − α de loi normale centrée-réduite N (0, 1).
Au niveau α ∈]0, 1[, la région critique du test H0 : p ≥ p 0 contre H1 : p < p 0 est :

( s )
p 0 (1 − p 0 )
W = Xn < qα + p0
n
où qα est le quantile d’ordre α de loi normale centrée-réduite N (0, 1).
Au niveau α ∈]0, 1[, la région critique du test H0 : p = p 0 contre H1 : p 6= p 0 est :

( s ) ( p )
p 0 (1 − p 0 ) p 0 (1 − p 0 )
W = X n < p0 − q 1− α ∪ X̄ n > p 0 + q 1− α
n 2 n 2
où q1− α2 est le quantile d’ordre 1 − α2 de loi normale centrée-réduite N (0, 1).
64
14.2. TEST DE COMPARAISON DE DEUX PROPORTIONS 65
14.2 Test de comparaison de deux proportions

Le problème se pose quand on veut comparer deux populations selon un critère qui est
une proportion :
- Comparer les performances deux machines au vu de la proportion de pièces défec-
tueuses qu’elles produisent.
- Comparer les proportions de soulards à Yopougon et Cocody pour vérifier les idées
reu̧es.
Mathematiquement, on a une première population de taille n1 et une seconde de taille n2 . On
veut comparer les deux population selon un critère. On note X i et Yi les variables aléatoires
définies respectivement par
(
1 si le i ème individu de la population 1 présente la caractéristique
Xi =
0 sinon
(
1 si le i ème individu de la population 2 présente la caractéristique
Yi =
0 sinon.
On note p 1 la probabilité qu’un individu de la population 1 possède la caractéristique et

p 2 la probabilité qu’un individu de la population 2 possède la caractéristique. On souhaite
comparer p 1 et p 2 . On suppose que
— X 1 , . . . , X n1 sont indépendantes
— Y1 , . . . , Yn2 sont indépendantes
— ( X 1 , . . . , X n1 ) et (Y1 , . . . , Yn2 ) sont indépendants.
n1 n2
X i suit la loi binomiale B ( n 1 , p 1 ) et Yi suit la loi binomiale B ( n 2 , p 2 ).
X X
Alors
i =1 i =1
On se contentera ici de supposer que les tailles d’échantillons sont suffisamment grandes
pour que l’on puisse faire l’approximation de la loi binomiale par la loi normale :
— n1 p 1 > 5, n1 (1 − p 1 ) > 5,
— n2 p 2 > 5 et n2 (1 − p 2 ) > 5.
n1
X n2
X
Alors on peut considérer que X i et Yi sont des variables aléatoires indépendantes et
i =1 i =1
approximativement de lois normales, respectivement N ( n1 p 1 , n1 p 1 (1− p 1 )) et N (n2 p 2 , n2 p 2 (1−
p 2 )).
n1
1 X
Comme les estimateurs optimaux de p 1 et p 2 sont respectivement X n1 = X i et
n 1 i=1
n2
1 X
Y n2 = Yi , la région critique du test
n 2 i=1
H0 : p 1 = p 2 contre H1 : p 1 6= p 2
est donnée par n¯ ¯ o

W = ¯ X n1 − Y n2 ¯ > l α
¯ ¯
où l α est déterminé par l’équation

PH0 (W ) = α.
Sous les conditions ci-dessus, nous avons alors
p 1 (1 − p 1 )
µ ¶
X n1 ,→ N p 1 ,
n1
66 CHAPITRE 14. TESTS DE COMPARAISON DES PROPORTIONS
p 2 (1 − p 2 )
µ ¶
Y n2 ,→ N p 2 ,
n2
Comme X n1 et Y n2 sont indépendantes, nous déduisons que
p 1 (1 − p 1 ) p 2 (1 − p 2 )
µ ¶
X n1 − Y n2 ,→ N p 1 − p 2 , + .
n1 n2
Sous H0 : p 1 = p 2 = p, nous avons
1 1
µ µ ¶¶
X n1 − Y n2 ,→ N 0, p(1 − p) +
n1 n2
et s
1 1
µ ¶
X n1 − Y n2 p(1 − p) + ,→ N (0, 1) .
n1 n2
n 1 X n1 + n 2 Y n2
Comme p est inconnu, en remplaçant p par son estimateur p̂ = le résultat
n1 + n2
ci-dessus reste approximativement vrai. En posant
v Ã !µ
u
u n1 X n + n2 Y n n 1 X n1 + n 2 Y n2 1 1
¶
1 2
σ̂ = t 1− + ,
n1 + n2 n1 + n2 n1 n2
sous l’hypothèse nulle H0 la statistique
X n1 − Y n2
U= ,→ N (0, 1) .
σ̂
Au niveau α ∈]0, 1[, la région critique du test H0 : p 1 ≤ p 2 contre H1 : p 1 > p 2 est :

n o
W = U > q 1−α
où q1−α est le quantile d’ordre 1 − α de loi normale centrée-réduite N (0, 1).
Au niveau α ∈]0, 1[, a région critique du test H0 : p 1 ≥ p 2 contre H1 : p 1 < p 2 est :

n o
W = U < qα
où qα est le quantile d’ordre α de loi normale centrée-réduite N (0, 1).
Au niveau α ∈]0, 1[, la région critique du test H0 : p 1 = p 2 contre H1 : p 1 6= p 2 est :

n o
W = |U | > q 1− α .
2
α
où q1− α2 est le quantile d’ordre 1 − 2 de loi normale centrée-réduite N (0, 1).
Exercice 14.2.1. La machine 1 a produit 96 pièces dont 12 défectueuses. La machine 2 a

produit 55 pièces dont 10 défectueuses. Peut-on en conclure que la machine 1 est significa-
tivement plus performante que la machine 2 ?
Exercice 14.2.2. Dans un sondage réalisé entre le 18 avril 2012 sur 2552 personnes, l’Ifop
demande ”si dimanche prochain se déroulait le second tour de l’élection présidentielle, pour
lequel des candidats suivants y aurait-il le plus de chances que vous votiez”. 54% des per-
sonnes interrogées ont choisi Hollande contre 46% Sarkozy. Dans un sondage du CSA, le
17 avril 2012, à la question ”Si le second tour de l’élection présidentielle de 2012 avait lieu
dimanche prochain et que vous aviez le choix entre les deux candidats suivants, pour lequel
y aurait-il le plus de chances que vous votiez ?”, 58% des 886 personnes interrogées avaient
choisi Hollande contre 42% Sarkozy.
1. Y a-t-il une différence significative entre ces deux résultats ?
2. Même question si l’on considère les sondages de la semaine précédente : le 16 avril
2012, l’Ifop publiait les scores de 55.5%-44.5% sur 1808 interrogés et le CSA trouvait
les scores de 57%-43% sur 886 interrogées.
3. Donner la p-valeur des tests asymptotiques précédents.
Exercice 14.2.3. Une étude des décisions rendues par des jurys dans des cas de vols par
effraction où l’accusé était de race noire a révélé les faits suivants : parmi les 28 cas où
les victimes étaient de race noire, l’accusé a été trouvé coupable dans 12 cas ; parmi les 36
cas où la victime était de race blanche, l’accusé a été trouvé coupable dans 23 cas. Peut-on
conclure que les jurys ont une plus forte tendance à déclarer coupables ceux qui sont accusés
d’avoir commis des vols contre des Blancs ?
Exercice 1. Afin de mieux gérer les demandes de crédits de ses clients, un directeur d’agence
bancaire réalise une étude relative à la durée de traitement des dossiers, supposée suivre une
distribution normale. Un échantillon de 30 dossiers a donné :
Durée de taitement (en jours) [0, 10[ [10, 20[ [20, 30[ [30, 40[ [40, 50[ [50, 60[
Effectif 3 6 10 7 3 1
1. Déterminer les estimateurs de la moyenne m et de la variance σ2 par la méthode du

maximum de vraisemblance. Etudier leurs propriétés.
La vraisemblance de l’échantillon est :
n
L( m, σ2 , X 1 , . . . , X n ) = f ( m, σ2 , X i )
Y
i =1
1n ³ 1 ´
( X i − m )2
Y
= p exp −
i =1 σ 2π 2σ 2
³ 1 ´n ³ 1 X n ´
= p exp − 2 ( X i − m )2
σ 2π 2σ i=1
La méthode du maximum de vraisemblance consiste à trouver la valeur de (m, σ2 ) qui

maximise la vraisemblance. Il s’agit ici de maximiser une fonction à deux variables
à valeurs réelles. Comme la fonction x 7→ ln( x) est croissante, nous avons
³ ´
(m c2 ) = arg
b n, σ n max ln L( m, σ2 , X 1 , . . . , X n )
( m,σ2 )∈R×R+
³ ´
= arg max ln L( m, σ2 , X 1 , . . . , X n ) .
( m,σ2 )∈R×R+
Pour des raisons de simplicité de calcul, on utilise en général la log-vraisemblance. En

effet dériver une somme est moins périlleux que dériver un produit. Deux méthodes
à expliquer aux étudiants :
— Méthode 1 : Maximiser une fonction à deux variables à valeurs réelles, c’est à
dire, résoudre le problème de maximisation :
³ ´
max ln L( m, σ2 , X 1 , . . . , X n ) .
( m,σ2 )∈R×R+
— Méthode 2 : Fixer σ2 et résoudre

³ ´
b n = arg max ln L( m, σ2 , X 1 , . . . , X n ) .
m
m∈R
Nous avons alors ∀σ2 > 0

³ ´ ³ ´
ln L( m, σ2 , X 1 , . . . , X n ) ≤ ln L( m
b n , σ2 , X 1 , . . . , X n ) .
Puis, résourdre ³ ´
σ n b n , σ2 , X 1 , . . . , X n ) .
c2 = arg max ln L( m
m∈R
Nous obtenons alors pour tout (m, σ2 ) ∈ R × R∗+ :

³ ´ ³ ´
ln L( m, σ2 , X 1 , . . . , X n ) ≤ ln L( m c2 , X , . . . , X ) .
b n, σ n 1 n
On obtient :
n
m
bn = Xn c2 = 1 X ( X − X )2 .
σ n i n
n i=1
Attention : en ce qui concerne la variance, il faut dériver par rapport à
σ2 et non par rapport à σ.
Propriétés des estimateurs : Il existe deux types de propriétés : non asymptotiques

et asymptotiques.
1X n
Intéressons nous à m
bn= Xi :
n i=1
Propriétés non asymptotiques
— E(m b n est un estimateur sans biais de m.

b n) = m ⇒ m
— la variance de mb n est
σ2
V( m
b n) = .
n
— L’information de Fisher apportée par l’échantillon ( X 1 , . . . , X n ) sur le paramètre
m est : ³ ´
³ ∂2 ln L( m, σ2 , X 1 , . . . , X n ) ´ n
I n ( m) = −E = 2.
∂ m2 σ
σ2 1
b n est un estimateur sans biais de m et V( m
— m b n) = = b n est un esti-
⇒m
n I n ( m)
mateur efficace de m.
Propriétés asymptotiques
— m
b n est un estimateur convergent de m. On peut le montrer de deux manières :
— soit la définition en utilisant l’inégalité de Bienaymé-Tchebithev
— soit par la loi des grands nombres :
— soit en montrant que E(m b n ) −→ m et V( m
b n ) −→ 0.
— m
b n est un estimateur asymptotiquement normal, c’est à dire,
p loi
b n − m) −→ N (0, σ2 ).
n( m
On le montre en utilisant le Théorème Cenral Limite qui permet d’étudier le

comportement asymptotique de la moyenne empirique pour des variables X 1 , . . . , X n
i.i.d. de moyenne m et de variance σ2 > 0.
n
c2 = 1 (Xi − Xn )2 .
X
Intéressons nous σ n
n i=1
Propriétés non asymptotiques
c2 ) = n − 1 σ2 6= σ2 ⇒ σ
— E(σ c2 est un estimateur biaisé de σ2 .
n n
n
— σn est un estimateur biaisé de σ2 ⇒ σ
c2 c2 n’est pas un estimateur efficace de σ2 .
n
(Pas la peine de calculer l’information de Fisher et la borne de Cramer-
Rao, la condition sans biais n’étant pas vérifiée.)
Propriétés asymptotiques
c2 ) = n − 1 σ2 −→ σ2 ⇒ σ
— E(σ c2 est un estimateur asymptotiquement sans biais de σ2 .
n n
n
— Vérifier que la variance V(σ c2 vers σ2 .
c2 ) −→ 0 pour assurer la convergence de σ
n n
— Pas la peine d’établir la normalité asymptotique ; c’est un peu compli-
qué pour eux je crois ! Si vous trouvez simple, faites moi signe !
2. Donner les estimations ponctuelles de la moyenne m et de la variance σ2 .
Utiliser les centres des intervalles pour faire les estimations :
1X 30 1 X6
X 30 = ci = n j c j.
n i=1 30 j=1
30 6
2 = 1 ( c i − X 30 )2 =
1 X
n j ( c j − X 30 )2 .
X
σ
d
30 30 i=1 30 j=1
3. Donner une estimation de m par intervalle de confiance au seuil de risque 5%.

D’après le cours, l’intervalle de confiance pour m de niveau 0.95 est
h S n −1) S n −1) i
X n − p t(0n.975 , X n + p t(0n.975
n n
où t(0n.975
−1)
est le quantile d’ordre 0.975 de la loi de Student à n − 1 degrés de liberté et
r
n c2
Sn = σn .
n−1
4. Au seuil de 5%, tester l’hypothèse H0 : m = 30 contre H1 : m < 30. Que pouvez-vous

conclure ?
La région critique du test au seuil α = 0.05 est :
p
n 30( X 30 − 30) o
W = ( X 1 , . . . , X 30 ) : < t(29)
0. 05 .
S 30
Rappel du cours : Considérons un échantillon ( X 1 , . . . , X n ) issu de la loi

normale N (m, σ2 ). Si σ2 est connue :
Hypothèses Région Critique
p
n n( X n − m 0 ) o
H0 : m ≤ m 0 vs H1 : m > m 0 W = (X1, . . . , X n) : > q 1−α
p σ
n n( X n − m 0 ) o
H0 : m ≥ m 0 vs H1 : m < m 0 W = (X1, . . . , X n) : < qα
σ
n ¯ p n( X − m ) ¯ o
n 0 ¯
H0 : m = m 0 vs H1 : m 6= m 0 W = (X1, . . . , X n) : ¯ ¯ > q 1− α2
¯
σ
Si σ2 est inconnue :
p
n n( X n − m 0 ) o
H0 : m ≤ m 0 vs H1 : m > m 0 W = (X1, . . . , X n) : > t(1n−−α1)
p Sn
n n( X n − m 0 ) o
H0 : m ≥ m 0 vs H1 : m < m 0 W = (X1, . . . , X n) : < t(αn−1)
Sn
n ¯ p n( X − m ) ¯ o
n 0 ¯
H0 : m = m 0 vs H1 : m 6= m 0 W = (X1, . . . , X n) : ¯ ¯ > t(1n−−α1)
¯
Sn 2
Exercice 2. La société ”Votre santé” est une entreprise de vente par correspondance de
produits de beauté dits ”naturels”. Elle gère un fichier de 350000 clients et propose chaque
mois une offre promotionnelle accompagnée d’un cadeau. Le taux de réponse à cette offre est
généralement de 15%, la marge moyenne par réponse de 340 fcfa. Mlle Claire, nouvellement
en charge de ce fichier, a retenu comme cadeau un abonnement gratuit de six mois, au
mensuel ”Votre beauté Madame”. Elle pense que cela pourrait augmenter le taux de réponse
à la prochaine offre ; toutefois cette proposition ne serait rentable que si le taux de réponse
dépassait les 17.5% (avec la même marge moyenne évidemment). Elle envisage de tester
la réalité de ces hypothèses sur un échantillon de clientes. La précision voulue pour son
estimation est de l’ordre de 2%.
1. Quelle taille d’échantillon doit-elle choisir afin d’atteindre la précision voulue (avec
un niveau de confiance de 0.95) ?
— Modélisation (à ne jamais oublier !)

— Population : les 350 000 clients
— Echantillon : Soit X i la variable aléatoire définie par :
(
1 si le ième client achète
Xi =
0 sinon
Nous ( X 1 , . . . , X n ) est un échantillon issu de la loi de Bernouilli B (1, p) où
p s’interprète comme la proportion des clients qui acheteraient si l’offre se
généralisait à l’ensemble des clients.
— Détermination de n. Exposer les deux methodes et privilégier ici la
deuxième car on a une idée de X n .
— Méthode pessimiste (majoration de l’écart-type) : L’intervalle de confiance
de niveau 1 − α est donné par
s s
h X n (1 − X n ) X n (1 − X n ) i h 1 1 i
X n − q 1− α , X n + q 1− α ⊂ X n − q 1− α p , X n + q 1− α p
2 n 2 n 2 2 n 2 2 n
q
puisque X n (1 − X n ) ≤ 12 . La marge d’erreur est donc :
s
X n (1 − X n ) 1
ME = q 1− α ≤ q 1− α p .
2 n 2 2 n
Nous déterminons n tel que
1 ³ q 1− α ´2
2
q 1− α p ≤ 0.02 ⇒ n ≥ = 2401.
2 2 n 0.04
— Méthode plus optimiste (on pense que le taux de réponse sera proche
du taux habituel qui est 15%) : L’intervalle de confiance de niveau 1 − α
est donné par
s s
h X n (1 − X n ) X n (1 − X n ) i
X n − q 1− α , X n + q 1− α
2 n 2 n
avec sans doute X n (1 − X n ) sans doute proche de son ancienne 0.15(1 − 0.15).
Nous déterminons alors n tel que
s s
X n (1 − X n ) 0.15(1 − 0.15)
ME = q 1− α = q 1− α ≤ 0.02
2 n 2 n
⇒ n ≥ 1224.51 ⇒ n = 1225.
2. Les résultats d’un sondage sur un échantillon de 1225 clientes vous sont donnés en
annexe.
Donner une estimation par intervalle au niveau 0.95 du pourcentage p de réponses

positives attendues à l’offre.
3. Mlle Claire se propose de procéder au test d’hypothèses suivant H0 : p = 17.5% contre
H0 : p > 17.5%. Expliquer pourquoi elle envisage ce test. Calculer la p-value. Qu’en
concluez-vous ?
Si elle rejette son H0 pour H1 alors, elle saura que p 0 > 17.5% et que la nouvelle
promotion est à étudier. En effet, on apprend réellement d’un test lorsque H0 est
rejetée !
p
n 1225( X 1225 − 0.175) o
W = ( X 1 , . . . , X 1225 ) : p > q 1−α
0.175(1 − 0.175)

p
n n( X n − p 0 ) o
H0 : p ≤ p 0 vs H1 : p > p 0 W = (X1, . . . , X n) : p > q 1−α
p (1 − p 0 )
p 0
n n( X n − p 0 ) o
H0 : p ≥ p 0 vs H1 : p < p 0 W = (X1, . . . , X n) : p < qα
p 0 (1 − p 0 )
n ¯ p n( X − p ) ¯ o
n 0 ¯
H0 : p = p 0 vs H1 : p 6= p 0 W = (X1, . . . , X n) : ¯ p ¯ > q 1− α2
¯
p 0 (1 − p 0 )
4. Mlle Claire pense que les nouveaux clients (inscrits depuis moins de 6 mois) ont un
taux de réponse inférieur aux anciens. Confirmer ou infirmer cette hypothèse.
Nous allons faire un test de comparaison des proportions pour répondre à la question
— Modélisation (à ne jamais oublier !) Soient les variables aléatoires définies
par : (
1 si le ième ancien client a répondu
Yi =
0 sinon
(
1 si le ième ancien client a répondu
Zi =
0 sinon
On dispose ainsi de deux échantillons : (Y1 , . . . , Y850 ) issu d’une loi de Bernouilli
B (1, p anciens ) et ( Z1 , . . . , Z375 ) issu d’une loi de Bernouilli B (1, p nou ) où p anc et
p nou représentent respectivement les taux de réponses dans les deux populations.
— Nous considérons le problème de
H0 : p an = p nou contre H1 : p anc > p nou
La variable de décision est

Y 850 − Z 375
Tq
1 1
pb(1 − pb)( 850 + 375 )
où
850 × Y 850 + 375 × Z 375
pb = .
850 + 375
n o
W = T > q 1−α .
— Pour α = 0.05 q0.95 = 1.64 et t = 2.13. On voit que 2.13 > 1.64. Ainsi, au niveau
α = 0.05, nous acceptons H1 , c’est à dire que les anciens sont plus recptifs que les
nouveaux.
Théorème 14.2.1. Posons
n 1 X n1 + n 2 X n2
pb = .
n1 + n2
- La région critique du test H0 : p 1 ≤ p 2 contre H1 : p 1 > p 2 est :

 
X n1 − X n2

 

W= q > q 1−α .
pb(1 − pb)( n11 + n12 )

 

- La région critique du test H0 : p 1 ≥ p 2 contre H1 : p 1 < p 2 est :

 
X n1 − X n2

 

W= q < qα .
pb(1 − pb)( n11 + n12 )

 

- La région critique du test H0 : p 1 = p 2 contre H1 : p 1 6= p 2 est :

¯ ¯ 
¯ ¯
X n1 − X n2

¯ ¯ 

W = ¯q > q α .
¯ ¯
¯ 1− 2
¯¯ p b)( n11 + n12 ) ¯
b(1 − p
 ¯ 

5. Il s’agit dans cette question de déterminer un intervalle de confiance au niveau 0.95 de

la marge de la campagne promotionnelle. Peut-on considérer que la marge moyenne
attendue de cette campagne sera la même que pour les campagnes précédentes. On
posera cette alternative sous forme de test.
— Modélisation : Pour chacune des 258 commandes, soit M i la variable aléatoire
qui donne la marge réalisée pour la commande i . Pour faire simple, nous allons
supposer que ( M1 , . . . , M258 ) est un échantillon issu d’une loi normale N (m, σ2 ).
Ici, m et σ2 sont inconnues.
— Au niveau α = 0.05, nous considérons le problème de test de
H0 : m = 340 contre H1 : m < 340
La région critique du test est

n p258( M
258 − 340)
o
W= < t(257)
α
S 258
où t(257)
α est le quantile d’ordre 0.05 de la loi de Student à 257 degrés de liberté.
On peut utiliser la table de la loi normale centrée réduite car la loi de Student
converge vers la loi normale N (0, 1) lorsque le nombre de degrés de liberté n → +∞
(n > 30 en pratique.)
— On a t = −0.97 et t(257)
α = −1.65. Nous avons donc −0.97 > −1.65. Nous en dédui-
sons qu’au niveau 5%, on conerve H0 ,c’est à dire en moyenne, la marge ne diffère
pas significativement de 340.
Annexe : résultats du sondage
Nouveaux clients Anciens clients

Nombre d’individus 1225 850
Nombre de réponses 258 193
Marge totale Marge moyenne Ecart-type de la marge

8 514 000 33 000 16 500
Exercice 3. On considère un échantillon ( X 1 , . . . , X n ) issu de la loi exponentielle E (θ ) avec

θ > 0 inconnu.
1. Déterminer l’estimateur θbn par la methode du maximum de vraisemblance.
La vraisemblance de ( X 1 , . . . , X n ) est
n
Y
L( X 1 , . . . , X n , θ ) = θ exp(−θ X i )1R∗+ ( X i )
i =1
³ n ´
= θ n exp − θ
X
X i 1(R∗+ )n ( X 1 , . . . , X n ).
i =1
Pour tout ( X 1 , . . . , X n ) ∈ (R∗+ )n , on a

n
X
ln(L( X 1 , . . . , X n , θ )) = n ln(θ ) − θ Xi
i =1
∂ ln L( X 1 , . . . , X n , θ ) n Xn 1
= − X i = 0 ⇐⇒ θ =
∂θ θ i=1 Xn
2
∂ ln L( X 1 , . . . , X n , θ ) ³ 1 ´ 2
= − nX n < 0.
∂θ 2 Xn

1
θ̂n = .
Xn
2. Montrer que θbn peut être obtenu par la methode des moments.
Nous avons
1 1 1
E( X 1 ) = ⇒ Xn = ⇒θ=
θ θ Xn
3. Déterminer les propriétés asymptotiques de θbn .
(a) D’après la loi des grands nombres, on a :
P 1
X n −−−−−→ .
n→+∞ θ
1
Comme, l’application x 7→ est continue sur R∗+ , alors
x
1 P
−−−−−→ θ .
Xn n→+∞
(b) D’après le Théorème Central limite X n est asymptotiquement normal :

p ³ 1´ L ³ 1´
n Xn − −−−−−→ N 0, 2 .
θ n→+∞ θ
0
Comme, l’application g : x 7→ 1x est dérivable sur R∗+ et g ( x) = − x12 , on obtient par
la delta-méthode :
p L
³ 1 0 ´
n( g( X n ) − g(1/θ )) −−−−−→ N 0, 2 ( g (1/θ ))2 .
n→+∞ θ
c’est à dire
p ³ 1 ´
L
n − θ −−−−−→ N (0, θ 2 ).
Xn n →+∞
4. Montrer que θbn est un estimateur biaisé de θ . En déduire un estimateur θen sans biais
de θ .
Montrer que
E(θbn ) 6= θ .
Utiliser la linéarité de l’espérance pour tirer θen .
5. L’estimateur θen est-il efficace ?
Je crois que θen n’est pas efficace malgré qu’il soit sans biais. Mais il faut vérifier que
la variance :
V(θen ) > BCR (θ ),
où BCR (θ ) est la borne de Cramer-Rao.
Exercice 4. Pour 30 femmes et 20 hommes, on a observé le salaire mensuel. Les résultats
mesurés en euros sont ci-dessous :
Salaire des femmes

1955 1764 1668 1441 1970 1795 1716 1911 1660 2001
1744 1676 1695 1652 1626 1698 1656 1739 1789 1716
1684 1445 1646 1617 1630 1440 1850 1252 1493 1537
Salaire des hommes
2283 2010 1970 2019 1941 2024 2046 1962 1948 2071
2108 1880 2008 2119 2030 2014 1919 1837 2094 2169
Au seuil de 5%, le salaire moyen des hommes est-il significativement supérieur à celui
des femmes ?
Il s’agit ici de faire un test de comparaison des moyennes dans un échantillon gaussien.
— ( X 1 , . . . , X n1 ) est issu de N (m 1 , σ21 )
— (Y1 , . . . , Yn2 ) est issu de N (m 2 , σ22 ).
— ( X 1 , . . . , X n1 ) et (Y1 , . . . , Yn2 ) sont indépendants.
Problème : tester H0 : m 1 = m 2 contre H1 : m 1 6= m 2 au niveau α.
La variable de décision dépend du fait que les variances σ21 et σ22 soient égales ou non. Il
faut donc commencer par comparer les variances :
H0 : σ21 = σ22 contre H1 : σ21 6= σ22
La région critique au niveau α est donnée

n S2 o n S2 o
1 1
W= > f 1− α ∪ < fα
S 22 2 2
S2 2
où f β est le quantile d’odre β de la loi de Fisher avec n1 − 1 et n2 − 1 degrés de liberté. La

région critique du test au niveau α :
n o
W = |T | > t 1− α ( m)
2
où
m = n 1 + n 2 − 2 si σ1 = σ2
et ³ S2
n1 S 2n ´2
2
n1 + n2
m= si σ1 6= σ2 .
S 4n1 S 4n2
+
n21 ( n 1 −1) n22 ( n 2 −1)
Année Universitaire 2018-2019
Examen (2 heures)
Enseignant : Prof. YODE Armel
Exercice 1. Une enquête concernant l’utilisation des cartes bancaires (CB) a été effectuée
en septembre 2005 auprès des personnes agées de 18 ans. Les résultats (partiels) de cette
enquête sont présentés dans le tableau ci-dessous :
Description Effectif
Personnes interrogées 501
Porteurs de CB 433
ayant effectué au moins un achat par CB 400
ayant effectué au moins un achat par CB sur Internet 144
Dans la suite, on s’intéresse à la proportion p de personnes ayant effectué un achat

par CB sur Internet parmi celles qui ont effectué au moins un achat par CB.
1. Donner le modèle théorique permettant l’étude de p : population, échantillon, variable

aléatoire, loi.
- La population étudiée est l’ensemble des clients ayant effectué au moins un achat
par CB.
- On dispose d’un échantillon de taille 400 issu de cette population.
- Soit X i la variable aléatoire définie par :
(
1 si le client i a effectué au moins un achat par CB sur intenet
Xi =
0 sinon
X i suit une loi de Bernouilli B (1, p). De plus les variables aléatoires X 1 , . . . , X n
sont indépendantes.
2. Donner un estimateur pb de p par la méthode du maximum de vraisemblance. Etudier

les propriétés de l’estimateur pb.
La vraisemblance de l’échantillon ( X 1 , . . . , X n ) est :
n
Y
L( p, X 1 , . . . , X n ) = f ( X i , p)
i =1
n
p X i (1 − p)1{0,1}
Y
=
i =1
³ p ´P n X i
= (1 − p)n
i =1
1{0,1}n
1− p
Pour tout p ∈]0, 1[, ( X 1 , . . . , X n ) ∈ {0, 1}n , L( p, X 1 , . . . , X n ) > 0 et
³ ´ X n ³ p ´
ln L( p, X 1 , . . . , X n ) = n ln(1 − p) − X i ln
i =1 1− p
La log-vraisembleance est
n
X n
X
ln L( X 1 , . . . , X n , p) = X i ln( p) + ( n − X i ) ln(1 − p)
i =1 i =1
Condition du premier ordre
Pn Pn
∂ ln L( X 1 , . . . , X n , p) n
i =1 X i n− i =1 X i 1X
= − = 0 ⇐⇒ p = Xi = X n
∂p p (1 − p) n i=1
Condition du deuxième ordre
∂2 ln L( X 1 , . . . , X n , p) − nX n n − nX n
(X n) = − < 0.
∂ p2 2
Xn (1 − X n )2
L’estimateur du maximum de vraisemblance de p est donné par
pbn = X n .
Étude des propriétés asymptotiques de pbn .
(a) D’après la loi des grands nombres, X n est un estimateur convergent de p.

(b) D’après le Théorème Central limite X n est asymptotiquement normal :
p L
n( X n − p) −−−−−→ N (0, p(1 − p)).
n→+∞
Étude des propriétés non asymptotiques de pbn .
(a) E ( pb) = p
(b) L’information de Fisher est :
³ ∂2 ln L( X , . . . , X , p) ´ n
1 n
I n = −E = .
∂ p2 p(1 − p)
La borne de Cramer-Rao est donc :

p(1 − p)
BCR ( p) = .
n
X n est un estimateur efficace de p car pbn est sans biais et
p(1 − p)
var ( pbn ) = = BCR ( p).
n
3. Donner une estimation de p.

144
Une estimation de p est = 0.36
400
4. Calculer un intervalle de confiance de niveau de confiance 95% pour p.
L’intervalle de confiance pour p de niveau 1 − α est :
s s
h X n (1 − X n ) X n (1 − X n ) i
X n − q 1− α , X n + q 1− α =
2 n 2 n
s s
h 0.36(1 − 0.36) 0.36(1 − 0.36) i
0.36 − 1.96 , 0.36 + 1.96 = [0.313, 0.407]
400 400
5. Si on suppose constant le pourcentage de personnes interrogées ayant effectué au
moins un achat par CB sur Internet, quelle devrait être la taille de l’échantillon pour
connaitre p à 3% près (avec un niveau de confiance de 95%) ?
Nous avons
q21− α X n (1 − X n )
s
¯ ¯ X n (1 − X n ) 2
¯ p − X n ¯ ≤ q 1− α2 ≤ 0.03 ⇒ n ≥
¯ ¯
n (0.03)2
(1.96)2 ∗ 0.36(1 − 0.36)
⇒n≥ = 983.44 ⇒ n = 984.
(0.03)2
6. En janvier 2005, une enquête similaire évaluait à 32% la part de personnes ayant
effectué au moins un achat par CB sur Internet parmi celles ayant effectué au moins
un achat par CB.
(a) Les données de l’enquête de septembre 2005 permettent-elles de conclure à une
augmentation significative de la part de personnes utilisant leur CB sur Internet,
en prenant un risque de première espèce de 1% ?
Il s’agit ici de tester H0 : p ≤ 0.32 contre H1 : p > 0.32 au seuil α = 0.01. La région
critique est donc
n p400( p
bn − 0.32) o
W= p > q 0.99
0.32 ∗ 0.68
où q0.99 = 2.33 est le quantile d’ordre 0.99 de la loi normale centrée réduite.
Comme
p
400( pbn − 0.32)
p = 1.714 < 2.33, alors au seuil de 1%, les données de septembre
0.32 ∗ 0.68
2005 ne permettent pas de conclure àune augmentation significative de la part des
personnes utilisant leur CB sur internet.
(b) Quelle est la puissance du test lorsque p = 34% ?
La puissance du test au point p = 0.34 est donée par :
³ p400( p
bn − 0.32) ´
γ(3) = P34 p > 2.33
0.32 ∗ 0.68
s
³ 0.32 ∗ 0.68 ´
=P p b400 > 2.33 + 0.32
400
p
³ 0.34 ∗ 0.66 ´ 400( pbn − 0.34)
Sous l’hypothèse H1 , pbn ∼ N 0.34, ⇔ p ∼ N (0, 1). Ainsi,
400 0.34 ∗ 0.66
nous obtenons :
³ p400( p
s s
bn − 0.34) 400 h 0.32 ∗ 0.68 i´
γ(3) = P0.34 p > 2.33 + 0.32 − 0.34
0.34 ∗ 0.66 0.34 ∗ 0.66 400
³1´
Exercice 2. On considère un échantillon ( X 1 , . . . , X n ) issu de la loi exponentielle E avec
θ
θ > 0 inconnu.
1. Déterminer l’estimateur θbn par la methode du maximum de vraisemblance.

La vraisemblance est :
n
Y
L( X 1 , . . . , X n , θ ) = f ( X i , θ)
i =1
1
Y n ³ 1 ´
= exp − X i 1R∗+
i =1 θ θ
1 ³ 1X n ´
= n exp − X i 1R∗+n
θ θ i=1
Pour tout ( X 1 , . . . , X n ) ∈ R∗+n , θ > 0
1 ³ 1X n ´
L( X 1 , . . . , X n , θ ) = exp − X i > 0.
θn θ i=1
Alors, nous avons :
³ ´ 1X n
ln L( X 1 , . . . , X n , θ ) = − n ln(θ ) − Xi
θ i=1
Condition du premier ordre :
³ ´
∂ ln L( X 1 , . . . , X n , θ )
= 0 =⇒ θ = X n .
∂θ
Condition du second ordre :
³ ´
∂2 ln L( X 1 , . . . , X n , θ ) n 2 X n
= − Xi
∂θ 2 θ 2 θ 3 i=1
n 2n 1X n
Comme 2
− 2
< 0 alors l’EMV est θbn = Xi
Xn Xn n i=1
2. Vérifier que θbn peut être obtenu par la méthode des moments.
3. L’estimateur θbn est-il efficace ?
4. Déterminer les propriétés asymptotiques de θbn .
5. Déterminer les propriétés asymptotiques de θbn2 .
Exercice 3. Une étude a été réalisée sur le cancer de la gorge. Pour cela, une population
de 1000 personnes a été interrogée. les résultats obtenus sont donnés dans le tableau de
contingences suivant :
Atteint du cancer de la gorge Non atteint du cancer de la gorge

Fumeur 344 258
Non fumeur 160 238
Doit-on rejeter au niveau 5% l’hypothèse d’indépendance des deux caract‘eres : X =(être

fumeur) et Y =(être atteint du cancer de la gorge).
Exercice 4. Sur deux groupes de même taille 9 malades, on expérimente les effets d’un
nouveau médicament. On observe les résultats suivants :
Groupe 1 15 18 17 20 21 18 17 15 19
Groupe 2 12 16 17 18 17 15 18 14 16
1. Comparer au niveau 5% les variances des deux populations
2. Comparer au niveau 5% les moyennes des deux populations

Unisat L 2 Proba Stat

Transféré par

Informations du documentcliquez pour développer les informations du document

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Unisat L 2 Proba Stat

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Unisat L 2 Proba Stat

Transféré par

Droits d'auteur :

Formats disponibles

UE : Probabilités-Statistique

prof. armel yodé

3 Variables aléatoires réelle 14

5 Convergences et Théorèmes limites 25

6 Exercices non corrigés 27

II ECUE 2 : Statistique inférentielle 35

10 Estimation par intervalle de confiance 48

12 Tests de Student : un échantillon 54

13 Tests de Student : deux échantillons 60

14 Tests de comparaison des proportions 64

1.3.1 Arrangements sans répétitions

1.3.2 Arrangements avec répétitions

1.4.1 Combinaisons sans répétitions

2.1 Univers des possibles

La description explicite de l’ensemble Ω est la première étape dans la modélisation d’un

Ω = {( i, j ) : 1 ≤ i, j ≤ 6} = {(1, 1), (1, 2), (1, 3), . . .}.

2.2 Evénements, Tribu

Définition 2.2.3. Un événement certain correspond à l’univers des possibles Ω.

Définition 2.2.4. Un événement impossible est un événement qui ne se réalise jamais. Il

Définition 2.2.5. Soient deux événements A et B. La réalisation de l’événement C , défini

Définition 2.2.6. Soient deux événements A et B. La réalisation de l’événement D , défini

Définition 2.2.8. Deux événements A et D inclus dans un ensemble B sont complémen-

Définition 2.2.9. L’ensemble des parties de Ω, noté P (Ω), correspond à l’ensemble de

On appelle espace probabilisé le triplet (Ω, A , P).

2.4 Conditionnement et indépendance

2.4.1 Probabilité conditionnelle

Exemple 2.4.1. Pour n = 1, on a

Théorème 2.4.1. Formule des probabilités totales.

Théorème 2.4.2. (Formule de Bayes)

Si A est tel que P( A ) > 0, l’indépendance de A et B s’écrit encore P(B/ A ) = P(B) et on

Proposition 2.4.2. Si A et B sont indépendants, alors il en va de même pour :

Définition 2.4.4. Les évènements A 1 , . . . , A n sont dits mutuellement indépendants si

3 Variables aléatoires réelle

Soit (Ω, A , P) un espace probabilisé.

3.2 Variables aléatoires discrètes

3.3 Variables aléatoires continues

3.4 Fonction de répartition

P(a < X ≤ b) = F ( b) − F (a).

Proposition 3.4.2. F est continue à droite en tout x ∈ R et

Pour une variable aléatoire discrète :

Nous avons card (Ω) = 36 et la probabilité sur Ω est définie par

La fonction de répartition est

Pour une variable aléatoire continue à densité de probabilité f :

3.5 Caractéristiques des variables aléatoires

Définition 3.5.1. On appelle espérance de X , le nombre réel

Plus généralement, soit g une application définie sur R à valeurs dans R.

Proposition 3.5.1. Nous avons

• pour une variable aléatoire continue admettant une densité de probabilité f

Proposition 3.5.2. (Linéarité de l’espérance)

3.6 Variance, écart-type

var ( X ) = E[ X 2 ] − (E[ X ])2 = E[( X − E( X ))2 ].

3.7 Calcul de lois

3.8 Lois discrètes

3.8.2 Loi de Bernouilli

var ( X ) = p(1 − p).

3.8.3 Loi binomiale

var ( X ) = np(1 − p).

3.8.5 Loi géométrique