Cours 7
Cours 7
Cours 7
1. Simulations
Simulation 1
p étant donné dans 0, 1 , on considère une urne contenant une proportion p de boules blanches. Plus
précisément, on considère l’entier N plus petit multiple de 10 tel que Np soit entier, et ainsi une urne
contenant N boules, dont Np boules blanches et N 1 p boules noires. Par exemple, pour p 0, 42, on a
N 100, Np 42 et N 1 p 58.
On suppose que les N boules sont numérotées de 1 à N, de 1 à Np pour les boules blanches, de Np 1 à n
pour les noires.
A l’expérience aléatoire " tirer une boule au hasard dans l’urne ", on peut associer l’univers
1, . . . , N et le munir de l’équiprobabilité P.
Dans ce contexte, l’événement A "obtenir une boule blanche" est A 1, . . . , Np , sa probabilité étant
cardA Np
alors P A p.
card N
Considérant la variable aléatoire X qui à chaque tirage d’une boule associe 1 si elle est blanche et 0 sinon,
on a X 1 A et X 0 A, et donc P X 1 PA p et P X 0 PA 1 PA 1 p.
Utilisation du tableur Excel (voir fichier excel - feuille Bernoulli simulation 1)
Le tirage d’une boule de l’urne est simulé par l’instruction ALEA.ENTRE.BORNES(1;N) à entrer dans
la cellule B8 (par exemple).
La valeur correspondante de X est alors obtenue par l’instruction SI(B8 Np;1;0).
Simulation 2
A l’expérience aléatoire "choisir un nombre au hasard dans l’intervalle 0; 1 " on peut associer une
variable aléatoire Y suit la loi Uniforme sur l’intervalle 0; 1 (loi à densité) ; Y indique le nombre obtenu. On
sait que pour tout y 0; 1 , P Y y y.
p étant donné dans 0, 1 , on a alors P Y p p. Considérant la variable aléatoire X définie par
X 1 Y p et X 0 Y p Y p , X suit la loi de Bernoulli B p .
Utilisation du tableur Excel (voir fichier excel - feuille Bernoulli simulation 2)
Une valeur de Y est simulée par l’instruction ALEA() à entrer dans la cellule B7 (par exemple).
La valeur correspondante de X est alors obtenue par l’instruction SI(B7 p;1;0).
Stéphane Ducay 1
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Estimation, intervalle de confiance, tests - Proportion
Statistique et probabilités :
Description des observations et modèle théorique.
La Statistique consiste à étudier un ensemble d’objets (on parle de population, composée d’individus ou
unités statistiques) sur lesquels on observe des caractéristiques, appelées variables statistiques.
Le calcul des Probabilités permet de proposer un modèle théorique d’une situation concrète afin de
quantifier la fiabilité des affirmations.
Population et échantillon :
Dans certains cas on peut obtenir les valeurs de ces variables sur l’ensemble de la population ; en
appliquant les méthodes de la statistique descriptive il est possible, au moyen de tableaux, graphiques,
paramètres, d’analyser ces résultats. Exemples : Recensement de la population française, notes obtenues par
tous les candidats à un examen, salaires de tous les employés d’une entreprise, etc...
Mais la population peut être trop vaste pour être étudiée dans sa totalité, par manque de moyens, ou de
temps. (C’est le cas si on s’intéresse aux intentions de vote des Français pour une élection). Elle peut même
être considérée comme infinie. C’est le cas si l’on note la qualité (défectueuse ou non) des pièces produites
par un certain procédé : le nombre de ces pièces est a priori illimité, et on ne peut toutes les tester.
De même, si l’on s’intéresse aux fréquences d’obtentions de "pile" et "face" avec une pièce de monnaie,
le nombre de lancers de pièce à étudier est a priori infini : on a ici une population latente infinie.
Il arrive aussi que la mesure d’une variable soit destructrice pour l’individu : si on étudie la durée de vie
de certains appareils, il serait absurde de les faire tous fonctionner jusqu’à la panne, les rendant inutilisables.
Dans tous ces cas, on est amené à n’étudier qu’une partie de la population, un échantillon, obtenu par
sondage, dans le but d’extrapoler à la population entière des observations faites sur l’échantillon.
Stéphane Ducay 2
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Estimation, intervalle de confiance, tests - Proportion
Fluctuation d’échantillonnage
Lorsqu’on étudie un caractère sur plusieurs échantillons d’une même population, on peut observer que les
résultats ne sont pas identiques selon les échantillons. Plus la taille de l’échantillon étudié est grande, plus les
résultats obtenus seront fiables. Cela s’explique par la diminution de la variance, et aussi par la loi des grands
nombres.
La fluctuation d’échantillonnage représente la fluctuation entre les différents résultats obtenus d’une
même enquête sur différents échantillons d’une même population.
Ces différents résultats présentent une certaine régularité, ce qui se traduit par la notion d’intervalle de
confiance.
Considérons une population sur laquelle on définit un caractère qualitatif à deux modalités A et B. On
convient de représenter la modalité A par 1 et la modalité B par 0.
Le caractère est ainsi représenté par une application X de dans qui, à tout individu , associe un réel
x X X X 0, 1 ensemble des "valeurs" du caractère.
Cette application modélise le caractère de façon déterministe : si on connaît l’individu , on connaît
aussitôt la valeur x. Son étude relève de la statistique descriptive qui conduit, par exemple, au tableau des
couples x i , f i où x i est une valeur observée et f i sa fréquence.
Supposons maintenant que l’on tire au hasard un individu dans cette population pour consigner la
valeur x du caractère. Ne pouvant pas prévoir quel individu précis sera tiré, on ne peut pas prévoir non plus la
valeur précise de x qui sera consigner. On aimerait donc disposer d’un moyen d’attribuer une probabilité aux
éléments de X .
Ici, X est une variable aléatoire de loi de Bernoulli B p où p est la proportion d’individus ayant la
modalité A dans la population : P X 1 p et P X 0 1 p.
2.2. Echantillonnage
Lorsqu’on n’a pas accès à l’ensemble de la population, la proportion p est inconnue. On procède à un
échantillonnage, i.e. au choix de n individus dans la population, sur lesquels on observe la valeur x du
caractère X. Lorsque les tirages ont lieu avec (respectivement sans) remise, l’échantillonnage est dit
non-exhaustif (resp. exhaustif). Lorsque la taille n de l’échantillon est faible par rapport à celle N de la
population (N 10n), alors tout échantillonnage est assimilable au cas non-exhaustif.
Pour un premier échantillonnage, on observera des valeurs x 1 , x 2 , ..., x n du caractère. Pour un deuxième
échantillonnage de même taille, on observera des valeurs x 1 , x 2 , ..., x n du caractère. Et ainsi de suite. On peut
alors considérer la suite x 1 , x 1 , ... comme les valeurs observées d’une même variable aléatoire X 1 , la suite x 2 ,
x 2 , ... comme les valeurs observées d’une même variable aléatoire X 2 , ... Ainsi, pour tout i 1, . . . , n, la
variable aléatoire X i correspond aux valeurs du caractère du i-ème individu obtenu par échantillonage, et aura
donc la même loi de probabilité que X. De plus, l’échantillonnage étant non-exhaustif (tirages avec remise),
les variables aléatoires X i sont indépendantes.
Plus précisément, les variables aléatoires X i sont des applications de n dans , qui à tout
échantillonnage 1 , 2 , . . . , n associe x i X i 1 , 2 , . . . , n X i
On dira que X 1 , X 2 , . . . , X n est un échantillon (aléatoire simple) de taille n de X, et que x 1 , x 2 , . . . , x n
est une observation de l’échantillon.
Le terme d’échantillon désigne à la fois les n individus choisis et le n-uple de variables aléatoires
X1, X2, . . . , Xn .
Objectif : déterminer p à l’aide d’informations obtenues à partir d’un échantillonnage de taille n extrait de
la population. Impossible tant que n N, mais la théorie de l’échantillonnage conduit à des estimations p de
p, d’autant meilleures que n est grand.
Stéphane Ducay 3
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Estimation, intervalle de confiance, tests - Proportion
n
Xi n
i 1
Estimateur du paramètre p : proportion (ou fréquence) d’échantillon F n n , où X i représente
i 1
le nombre d’individus de l’échantillonnage ayant la modalité A.
n
Pour une observation x 1 , x 2 , . . . , x n de l’échantillon (en pratique on observe souvent directement x i ),
i 1
n
xi
i 1
une estimation ponctuelle de p est f n n p.
n
Xi
i 1
Propriétés générales de F n n .
n
nF n X i suit la loi Binomiale B n, p . On a alors nE F n E nF n np et
i 1
p1 p
n 2 Var F n Var nF n np 1 p , d’où E F n p et Var F n n .
On a ainsi E F n p et on dit que F n est un estimateur sans biais de p.
On a de plus nlim Var F n 0 et on dit que F n est un estimateur convergent de p.
Remarque. Lorsque n est petit, on doit utiliser la loi exacte de nF n , à savoir la loi Binomiale B n, p .
Stéphane Ducay 5
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Estimation, intervalle de confiance, tests - Proportion
p1 p p1 p
P Fn IF p 1 , avec IF p p n u ;p n u intervalle de fluctuation IF p
de F n au niveau 1 0. 95.
p1 p p1 p
IC p Fn n u ; Fn n u intervalle de confiance IC p de p au niveau
1 0. 95.
F 1 Fn p1 p
Comme n est un estimateur sans biais de n , on en déduit, si nf n 10 et
n 1
n 1 fn 10, un intervalle de confiance de la proportion p au niveau 1 :
fn 1 fn fn 1 fn
ic p fn u , fn u .
n 1 n 1
Exemple d’intervalle de confiance
Dans une certaine espèce de rongeur, on a compté 206 mâles sur 400 naissances.
On peut considérer la situation suivante.
Population : les rongeurs d’une certaine espèce.
Variable : le sexe, à deux modalités (mâle et femelle), représenté par une variable aléatoire de loi de
Bernoulli B p , où p est la proportion de mâles dans la population ; on a ainsi P X 1 p et
PX 0 1 p.
Echantillon X 1 , X 2 , . . . , X n de taille n 400 de X.
Observation de l’échantillon : x 1 , x 2 , . . . , x n 1, 1, 0, 1, . . . , 0 .
n
Xi
i 1
Estimateur de la proportion p : F n n , proportion (ou fréquence) de mâles dans l’échantillon, où
n
X i représente le nombre de mâles de l’échantillon.
i 1
n
xi
Estimation ponctuelle de la proportion p : f n i 1 206 0. 515, fréquence (ou proportion) de
n 400
mâles dans l’observation de l’échantillon.
Intervalle de confiance de la proportion p :
nf n 206 10 et n 1 f n 194 10
Pour 0, 05 (i.e. 5% , on a u 1, 96.
fn 1 fn fn 1 fn
ic p fn u ; fn u 0, 466 ; 0, 564 .
n 1 n 1
On considère une population dans laquelle on suppose que la proportion d’un certain caractère est p. Pour
juger de cette hypothèse, on y prélève, au hasard et avec remise, un échantillon de taille n sur lequel on
observe une fréquence f du caractère.
On rejette l’hypothèse selon laquelle la proportion dans la population est p lorsque la fréquence f observée
est trop éloignée de p, dans un sens ou dans l’autre. On choisit de fixer le seuil de décision de sorte que la
probabilité de rejeter l’hypothèse, alors qu’elle est vraie, soit inférieure à 5 %.
Lorsque la proportion dans la population vaut p, la variable aléatoire X correspondant au nombre de fois
où le caractère est observé dans un échantillon aléatoire de taille n, suit la loi binomiale de paramètres n et p.
On cherche à partager l’intervalle 0, n , où X prend ses valeurs, en trois intervalles 0, a 1 , a, b et
b 1, n de sorte que X prenne ses valeurs dans chacun des intervalles extrêmes avec une probabilité proche
de 0,025, sans dépasser cette valeur.
En tabulant les probabilités cumulées P X k , pour k allant de 0 à n, il suffit de déterminer le plus petit
entier a tel que P X a 0, 025 et le plus petit entier b tel que P X b 0, 975, c’est-à-dire
PX b 0, 025. Autrement dit, a est le plus grand entier tel que P X a 0. 25. On observe aussi que
a b.
On a ainsi P X a X b PX a PX b 0. 05
et donc P a X b P X a X b 0. 95, en étant "assez proche" de 0.95.
Comme F n X , on a ainsi P a Fn b 0. 95, en étant "assez proche" de 0.95.
n n n
La règle de décision est la suivante : si la fréquence observée f n appartient à l’intervalle de fluctuation à
95 % a b
n , n , on considère que l’hypothèse selon laquelle la proportion est p dans la population n’est pas
remise en question et on l’accepte ; sinon, on rejette l’hypothèse selon laquelle cette proportion vaut p.
Pour n 30, n p 5 et n 1 p 5, on observe que l’intervalle de fluctuation a b
n , n est
sensiblement le même que l’intervalle p 1 ,p 1 proposé dans le programme de seconde.
n n
Exemple d’exercice
Monsieur Z, chef du gouvernement d’un pays lointain, affirme que 52 % des électeurs lui font confiance.
On interroge 100 électeurs au hasard (la population est suffisamment grande pour considérer qu’il s’agit de
tirages avec remise) et on souhaite savoir à partir de quelles fréquences, au seuil de 5 %, on peut mettre en
doute le pourcentage annoncé par Monsieur Z, dans un sens, ou dans l’autre.
1. On fait l’hypothèse que Monsieur Z dit vrai et que la proportion des électeurs qui lui font confiance dans
la population est p 0, 52. Montrer que la variable aléatoire X, correspondant au nombre d’électeurs lui
faisant confiance dans un échantillon de 100 électeurs, suit la loi binomiale de paramètres n 100 et
p 0, 52.
2. On donne ci-contre un extrait de la table des probabilités cumulées P X k
k PX k
où X suit la loi binomiale de paramètres n 100 et p 0, 52.
40 0,0106
Déterminer a et b tels que définis précédemment et comparer les intervalles
41 0,0177
a b
de fluctuation à 95 % n , n et p 1 ,p 1 . 42 0,0286
n n
43 0,0444
3. Énoncer la règle décision permettant de rejeter ou non l’hypothèse p 0, 52,
...
selon la valeur de la fréquence f des électeurs favorables à Monsieur Z obtenue
61 0,9719
sur l’échantillon.
62 0,9827
4. Sur les 100 électeurs interrogés au hasard, 43 déclarent avoir confiance
63 0,9897
en Monsieur Z. Peut-on considérer, au seuil de 5 %, l’affirmation de Monsieur Z
64 0,9941
comme exacte ?
Remarque : la recherche de l’intervalle de fluctuation peut-être illustrée par le diagramme en bâton de la loi
binomiale de paramètres n 100 et p 0, 52.
Utilisation du tableur Excel
Construire la table des probabilités et des probabilités cumulées de la loi Binomiale de paramètres
n 100 et p 0, 52. Construire le diagramme en bâton de cette loi.
Stéphane Ducay 7
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Estimation, intervalle de confiance, tests - Proportion
On s’intéresse à la question suivante : étant donnée une population dans laquelle une proportion p
d’individu ont une certaine propriéte, peut-on raisonnablement supposer que p est égal à une certaine valeur
p 0 donnée a priori ?
Par exemple, des tests en laboratoire permettent d’affirmer qu’un certain médicament est efficace sur une
proportion p 0 d’individus atteints d’une certaine maladie. Mais après sa mise sur le marché, le médicament
a-t-il la même efficacité sur l’ensemble des individus malades ? Comment savoir si la proportion p de
malades guéris par le médicament est bien égale à p 0 ?
La réponse à la question est donnée par la mise en place d’un test de conformité.
De façon générale, un test statistique est une procédure permettant de calculer la valeur d’une certaine
fonction des observations d’un ou de plusieurs échantillon, qui conduit à rejeter ou non, avec un certain risque
d’erreur, une hypothèse généralement appelée hypothèse nulle et notée H 0 . Celle-ci porte sur la (ou les)
population(s) d’où est (sont) issu(s) le(s) échantillon(s). Elle s’oppose à une hypothèse dite alternative et
notée H 1 .
Exemple
Reprenons l’exemple précédents sur les rongeurs.
Sur un échantillon de 400 naissances, on a observé 206 mâles, soit une fréquence de mâles de
f 206 0. 515.
400
On se demande s’il y a autant de mâles que de femelles dans la population ; autrement dit si la proportion
de mâles dans la population est p 0. 5.
On peut effectuer le test statistique de H 0 : p p 0 contre H 1 : p p 0 , avec p 0 0. 5.
f p0 0. 515 0. 5
On calcule u 0. 6. Pour 0, 05 (i.e. 5% , on a u 1, 96.
p0 1 p0 0. 5 1 0. 5
n 400
Comme u u , u , alors on ne peut rejeter H 0 : il est donc possible que p 0. 5.
Stéphane Ducay 8
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Estimation, intervalle de confiance, tests - Proportion
présent a b a b
absent c d c d
totaux a c b d n
5.3. Exemple
Dans une même catégorie sociale, un échantillon de 40 hommes a fourni 8 fumeurs et un échantillon de
60 femmes a fourni 18 fumeuses. On se demande si la proportion de fumeurs est la même pour les deux sexes.
Stéphane Ducay 9
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Estimation, intervalle de confiance, tests - Proportion
6. Exercices
Exercice 1. Un groupe d’étudiants en Statistique réalise une enquête auprès d’une population d’étudiants en
sociologie en interrogeant un échantillon de 135 individus. Ils désirent connaître, entre autres, la proportion p
d’étudiants ayant suivi des études secondaires scientifiques.
Pour accélérer le traitement, ils partagent le dépouillement en deux groupes. Un groupe constate que sur
60 des étudiants interrogés, 24 ont suivi des études secondaires scientifiques. L’autre groupe constate que sur
les 75 des étudiants interrogés restant, 33 ont suivi des études secondaires scientifiques.
1) Déterminer trois estimations ponctuelles de p.
2) A partir de l’échantillon des 135 étudiants, déterminer un intervalle de confiance de p au seuil 5%.
3) On souhaite estimer p avec une précision de 0, 05. Quelle devrait être la taille n de l’échantillon ?
Exercice 2. Pour obtenir une estimation de la proportion d’hyperglycémiques parmi les personnes âgées de
plus de soixante ans (population P), on choisit au hasard 170 personnes dans P. On constate que parmi
celles-ci, 31 sont hyperglycémiques.
1) Donnez un intervalle de confiance au niveau 95% pour la proportion p de personnes hyperglycémiques
de P.
2) Si on effectuait 200 fois le tirage de 170 personnes de P, on pourrait construire 200 intervalles de
confiance du type précédent. Parmi ces 200 intervalles, combien, en moyenne, contiendraient la valeur de p ?
Exercice 3. Un sondage effectué sur un échantillon de 400 électeurs donne 212 intentions de vote en faveur
d’un candidat C.
1) Déterminer un intervalle de confiance au niveau 95% pour la proportion d’électeurs, dans l’ensemble
de la population électorale, ayant l’intention de voter en faveur de C.
2) Quelle taille minimale de l’échantillon faudrait-il prendre pour que l’intervalle (au même niveau 95%)
ne contienne pas la valeur 0,50 ?
Stéphane Ducay 10
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Estimation, intervalle de confiance, tests - Proportion
Exercice 4. Lors d’une précédente consultation électorale, le candidat A avait obtenu 51% des suffrages
exprimés. A l’approche de nouvelles élections, il réalise un sondage sur un échantillon de 400 électeurs
choisis au hasard dans sa circonscription. Il obtient 196 intentions de votes.
Peut-il conclure que sa cote de popularité est restée stable ?
Exercice 5. Une agence de publicité affirme qu’un produit d’entretien est efficace à 90% pour déboucher
éviers et lavabos en deux heures, quelle que soit la nature de l’obstruction. Une association de défense du
consommateur a fait une enquête qui relève que sur 100 lavabos bouchés, 80 seulement sont débouchés en
deux heures en utilisant le produit d’entretien.
Doit-on faire un procès à l’agence de publicité ? Faire un test au risque 5%, puis 1%.
Exercice 6. On compare les effets d’un même traitement dans deux hopitaux différents. Dans le premier
hopital, 70 des 100 malades traités montrent des signes de guérison. Dans le deuxième hopital, c’est le cas
pour 100 des 150 malades traités.
Quelle conclusion peut-on en tirer ?
Exercice 8. Sous forme de comprimé un médicament est efficace dans le traitement d’une maladie dans 80%
des cas. Le pharmacien du laboratoire qui commercialise ce médicament, essaie une forme injectable par voie
intra-musculaire, de ce même médicament. Il observe sur un échantillon de 50 malades, 35 guérisons.
L’efficacité de la forme intra-musculaire est-elle différente de celle en comprimé ? Lui est-elle inférieure ?
(conclure au risque de 5%).
Exercice 9. On sait qu’une maladie atteint 10% des individus d’une population P donnée. Un chercheur a
expérimenté un traitement sur un échantillon de n individus : il a alors recensé 5% de malades. Déterminer la
valeur minimale de n qui permette au chercheur de conclure à l’efficacité du traitement au risque de 5%.
Exercice 10. Pour traiter un certain type de tumeur, on a utilisé deux schémas thérapeutiques :
- sur 40 malades traités avec le schéma A, on a observé une mortalité à 5 ans de 15 % ;
- sur 60 malades traités avec le schéma B, on a observé une mortalité à 5 ans de 25 %.
Si l’on considère la mortalité à 5 ans, peut-on dire que les schémas A et B diffèrent significativement au
risque 10 % ? au risque 5 % ?
Stéphane Ducay 11
S3 Maths et Info-MIAGE 2011-2012 Statistique et Probabilités Estimation, intervalle de confiance, tests - Proportion
Stéphane Ducay 12