Cours de Statistiques
Cours de Statistiques
Cours de Statistiques
-~
>.
la statistique uni variée : étudie la répartition d'une population selon une variable (la
taille, le poids ... )
la statistique bivariée: étudie la relation qui peut exister entre deux variables (entre la
taille et le poids; pàr exemple...)
la statistique multi variée: s'intéresse plutôt aux relations qui peuvent exister entre
plusieurs vàriables que l'on traite avec des méthodes comme l'analyse factorielle .
Pour les grands tableaux, les techniques peuvent devenir plus complexes. Elles ne sont
pas abordées ici. Pour mémoire, les principales méthodes d 'analyse de données sont:
• Classification {CAH)
Les statistiques descriptives sont importantes pour présenter les données, déterminer
communiquer, les hypothèses à tester ...
Soit mesuré dans une échelle nominale, les modalités sont exprimables par des
noms et ne sontpas hiérarchisées. Un caractère nominal est dit dichotomique s'il
nepeut prendre quedeux modalités.
Mesuré dans une échelle ordinale: les modalités traduisent le degré d'un état
caractérisantun individu sans que ce degré ne puisse être défini par un nombre qui
résulte d'une mesure. Les modalités sont alors hiérarchisées. ;,
6
Exemple: Moral d'un individu : bas ; moyen ; bon ; très bon
Exemple : le nombre de petits par portée, le nombre de cellules dans une culture,
le nombre d'accidents pour une période donnée, etc .
r, i 1
:: Dk,g,-w,,,,,e et bâ"ftlts : On l'utilise pour les séries è. MAPP-t:1 e discr.et. Les hauteurs
des différents bâtons sont proportionnelles aux effectifs correspondants.
etlecti:f
7
1
valeur
7 8 9 10 11 12
::
Histogramme : On l'utilise pour les séries à caractère continu, lorsque les valeurs de la
variable sont réparties en classes. Les aires des différents rectangles sont
proportionnelles aux effectifs (aux fréquences) correspondantes .
..
,:} ';_ ( " ., 1
-
...
->-
30 60 ,\ ~,
1.
\, {. !_•'- li.. 120 180 _. / _)
L. r .,.J .
l'tJlygoMr dU trffectlY:, : est la lfgne polygonale joignant les milieux de chaque côté
supérieur des rectangles constituant l'histogramme.
, • , / V
.. ~ \. r•_ .·
ffl«:tff( : L'effectif d'une classe est le nombre d'éléments de la classe, on le note ri..
L'effectif total (noté N) est la somme des effectifs de chaque classe.
le polygone des effectifs cumulés croissants est la ligne polygonale joignant les points
ayant:
- pour abscisse : la borne supérieur de la classe.
- pour ordonnées : l'effectif cumulé croisant de la classe.
~-\ ·· -·
\\ 1
- -- --·-
Dans le cas d'un caractère· continu la médiane peut être recherchée par lecture sur le
polygone des effectifs cumulés. C'est l'abscisse du point ayant pour ordonnée N/2.
l . f ~ld'une série statistique est la différence entre la plus grande et la plus petite
valeur du caractère.
. / ( -~ ! • ) '
Quartile : Les trois quartiles sont les trois valeurs du caractère qui partagent la
population totale en quatre parties d'effectifs égaux.
Le premier quartile Ql correspond à 25 % de l'effectif total.
Le deuxième quartile Q2 correspond à la médiane (50 % de l'effectif total).
'~ Le troisième quartile Q3 correspond à 75 % de l'effectif total.
Une série statistique correspond aux différentes modalités d'un caractère sur un
échantillon d'individus appartenant à une population donnée.
Exemple :
55 61 64 66 69
56 62 65 66 69
57 62 65 66 70
57 62 65 67 71
58 -63 65 67 71
58 ·63 65 67 71
59 63 65 68 72
59 64 65 68 73
60 64 65 68 74
61 64 66 69 75
;_
:'".'::.=:-_-:- J'IIZ".. .. ..-- .. . - _·- - - .. . - ..... · -~-- ---~· . . ·- .. .._ · ,- ·. · .- . ,.... .- .- ~~ - - ~..~-.... ... - ~ .. . -...._ . --=-·.,,-,. - · - •·, ......... - _.__; _~ ---- - · •-~ ,! - :,"::" . - . • ... - - - - . . . . . ,• . . . !~ ·• · · · - ··· ···· ·· · ··· ·-:-·:
I
En règle générale, on choisit des classes de même amplitude. Pour que la distribution en
fréquence est un sens, il faut que chaque classe comprenne un nombre suffisant de
valeurs (mï.
A partir de Xm1n0n obtient les limites de classes ou bornes de classes par addition
successive de l'intervalle de classe. En règle général, on tente de faire coïncider l'indice
de classe ou valeur centrale de la classe avec un nombre entier ou ayant peu de
décimales.
commodité
/F [55 - 58[ 4 , . !i
[61 - 64[ 8
(64 - 67[ 16
[67 - 70[ 9
[70 - 73[ 5
[73 - 76[ 3
x, ni
56,5 4
59,5 5
62,5 8
65,5 16
68,5 9
71,5 5
74,5 3
Les variables discrètes sont des variables numériques discontinues. Le plus souvent, il
s'agit des nombres entiers. Il n'existe aucune valeur intermédiaire possible. Une variable
discrète est le résultat d'un dénombrement. Exemple: Répartition de 30 sujets selon
leur composition de leur fratrie (nombre de frères et sœurs dans la famille).
Fratrie 1 2 3 4 >4
Effectif 11 6 5 4 4
1:Groupe Sanguin IA
Effectif 20
I-3 Représentations graphiques
Les représentations graphiques ont l'avantage de renseigner immédiatement sur
l'allure générale de la distribution. Elles facilitent l'interprétation des données
recueillies.
-
:;;
12
10
-
u
CIi
1t
·2 6
8
4
2
0 1
0 1 2 4 8 12
x:nb de galles par fauille
Exemple :
1 •
1--
Dans l'exemple de la répartition du poids des étudiants, SVTU S1, la distribution des
fréquences observées est représentée par un histogramme avec en ordonnée les
effectifs ni et en abscisse les limites de classe de la variable étudiée.
18
f6 · Histogramme - -
f4
12
êO
c8
t6
;4
f2
0 +-- ...,..,.
55 58 61 64 67 70 73 76
Classes du poids
I. 4 .1 Indicateurs de positi~
Soit un échantillon de n valeurs observées xl, x2, .... ,xi,.... ,xn d'un caractère quantitatif
X, on définit sa moyenne observée xcomme la moyenne arithmétique .des.n ~a./f!urs :
-
x=---
Lf:1 Xt
n
Si les données observées xi sont regroupées en k classes d'effectif ni {caractère
continu regroupé en classe ou caractère discret), il faut les pondérer par les effectifs
correspondants:
\
1
. - -- - !
' ·---
x=!~
nL n-X· L L
i=l
Exemples :
Dans le cas de notre exemple le poids moyen des étudiants SVTU 51 2011 est:
55 + 56 + ..... +74 + 75
i = 50
<
Remarque :
Si l'échantillonnage n'est pas de type aléatoire simple, les deux moyennes peuvent
être très·différentes.
• Dans le cas où les valeurs prises par le caractère étudié ne sont pas regroupées
en classe,
► sin est impair, alors n =2m + 1 et la médiane est la valeur du milieu Me= xm+l.
► si n est pair, alors n = 2m et une médiane est une valeur quelconque entre xm et
xm+J.
:~:.-.. ··· ·· ·· • ·-- __ _ ;-;::-:.---=:-:~ ~--:-:•..;•_--_-_··--,-;"'; -,-=·.,-,..-- .--=--=-=·.:-. .. --- ----- ---- - - - ------ - - -.. - - - ~-- ·--- · - -- -----.. --··-•-"••-··--·--- ·-• - ·
Dans ce cas il peut être commode de prendre le milieu.
· Dans le cas où les valeurs prises par le caractère étudié sont groupées en
classe, on cherche la classe contenant le ne/2 individu de lëchantil!on. En
supposant que tous les individus de cette classe sont uniformément répartis à
l'intérieur, la position exacte du ne/2 individu de la façon suivante par
interpolation lin_~air:_E: :
Avec:
n: ta!Ïle de lëchantil/on.
Exemple:
Soit Me E [65kg, 65kg] ou .Me =65kg (voir tableau des données brutes)
n=50, la 25ème valeur se situe dans la classe [64-67/qui contient les individus de
18 à 33. d'où avecxm= 64 kg, ni= 16 individus, N,: = 17 individus et i = 3kg
Me= 65.5
Remarque :
~•·,,-.-:.-,.,...,....,,-_,,._-_~_••t, • ·• c·;·. •- .• ,_ • ·-·••,·••' - • , - , . . • •. • ,, •. ,, •,._, •••· • ,, •·• • • • • - •-• •·•" M_., - - . : ; , ·•..', .•··. • _. • - - • . •. "°'"':' , . .,;•• •·•'•• .•... ••• ....- • • .~.,.-,. • ,•.-•u O •••• ... •',.,.,,:,.,;,~_,,.,. . ,,-.,~ '"'-"°'-,.::,, , ~ ~ · • • • • • • •·•• .~• ~- ';_• • •:.' ••-.:--.-.~--'"-:;•,'. • · ~ • ·•' ·•··· .:;,•... ••< ... -. •7.'....'-:,:: ••
Si la distribution des valeurs est symétrique, la valeur de la médiane est
proche de la valeur de la moyenne arithmétique.
I.4.1.3Le mode ~
Le mode, Mo d'une série statistique est la valeur du caractère la plus fréquente
ou dominante dans l'échantillon. Le mode correspond à la classe de fréquence
maximale dans la distribution des fréquences.
Avec
l:::.i: Ecart d'effectif entre la classe modale et la classe inférieure la plus proche
-=---- .
-
l:::.s : Ecart d'effectif entre la classe modale et la classe supérieure la plus proche
~ - ; -~
► Valeur- ,approchée :
► Valeur exacte :
[. -
I. 4 .1. 4 Comparaison des indicateurs de position /L ri 1 ,,
VaJte,u,1.-,") t'4 , ~ , , , .
Avantages Inconvénients
Facile à calculer Fortement influencée par les
Moyenne valeurs exy_œnes de la V.A ;
Représente mal une population
Arithmétique hétérogène (Polymodale)
Dans le cas où I.e. caractère étudié se distribue selon une loi normale Laplace-
Gauss, alors, la moyenne.x, la médiane Me_et le modè Mo pr-ennent la même
valeur.
I. 4. 2 Indicateurs de dispa-sio~
Ces paramètres ont pour objectif dans le cas d'un caractère quantitatif de
caractériser la variabilité des données dans l'échantillon.
I.4.2.1 La variance
Soit un échantillon den valeurs observées xl, x2, .... ,x,: .... ,xn d'un caractère
quantitatif X et soit sa moyenne observée. On définit la variance observée
notée a,..2 comme la moyenne arithmétique des carrés des écarts à la moyenne.
"::- : -:~ -.:_";:'.":",-:-•. - .•• "'.•.•: • , ;,;~ . :•,~:. - - , ., -,-_ ::__••• • : ~• .. •.-,.•.:: C •• C .~• " •. • .~ ,~~' :;,~.ca...-a-• -~ ••~-••• .. '•• ·.•- .· - ·,', '::: ,' i:"',,;;•...•..• -: -:~.• •:•,• •• ~ .•::---•••.;-:;·.• •.--:-,;, ,• .- • ••••• •:-:-: • "• • .:-:--,:•. • -u-:- . - C ,•,;;•.,••.':" •:.'°'..: ';!r,•.~.,•~·: ,"·· .·,~:, :,:' - • -;-;- :-:-.•:::,-~;.: " '- .' ,,;'" • '" ••--- · : , •• •-- , • -: ••• .,;,. , -- - • - •• •~ ,'' --~ >.
N n
• _!-.,~
&Jcr 2 = 2.. '(x-i -
NL .i) 2 et s z =
x n-
1 '(x · -
1L i
x)2
~v- i=1 i=1
S OI·t A -- ""N
L.,i=l ( Xt - X-)2 -- ""N
L.,i;:1 ( xi2 - 2XtX- + X-2) -- "vN xi2 -
L..i=l 2 ""N
L.,i=l Xt X- + ""N
L.,i=1 X-2
21
cr =-
N
I
N
X·
2
i
-x ets = - -xi- -
x
-2
n-1
- -
nx- 2
~n
.L.ii=1
2 -2
i=l
k k
1
o- 2 = 2.'
NL n -(X· - i i
x) 2 et Sx2_
- n - lL
' ni(Xi - -2
x)
i=l i=l
I.4.2.2 L'écart-type
a=.JaÏ- et Sx=.Jsi
N.B : s/ et Sx représentent respectivement la variance et l'écart type au niveau
d'un échantillon.
relati-/C. V = 100 5
X
: -: €feo,J:-~
i=l
x-M0
Ap=---
sx
··- - - ··- ····-------- ..•.... , .... _._ - ---· -- -···· . - - ·-······--•···-· -···· ·-·· · ··.. " ..,_,.,._. ......... :.~ \• - . . · -- ·: ... . ..-
' ---
Tous les coefficients d'asymétrie ont les mêmes propriétés, ils sont nuls si la
distribution est symétrique, négatifs si la distribution est allongée à gauche
(leftasymmetry), et positifs si la distribution est allongée à droite (right asymmetry)
comme montrée dans la Figure suivante.
~s~o <o
Symmeny l.efr Asymm.
/
Asymétrie d'une distnbution
m4
92 = /32 - 3 = -s4 - 3
X
\
\~- mésokurtique
-4 -2 2 4
r--7
1 20 1
'._____y"
1 50 50 blé 2
. 2 50.5 .45 vigne 4
3 35 38 orge 3
4 62.1 25 blé 6
198 56 45 blé 2
On traitera donc ici du cas où l'on dispose-de deux caractères, X etY, observés..sur
les mêmes n individus.
150.r------------------,
145
-•---• •• • •
•• ••
1. 140 I ••...,.• ••
•••
,
~ 135
130
•
•• . ·-
•
•
• •• •••• •
• •
• ••
• - - -•~••- - - - - - ~ - - ~ - - '
125 ' - , , - -
20 25 30 35 40
Poids
2-Paramètres statistiques:
2-1 Paramètre de Position:
..... Y [poi:ls)
40 -- • • •
--
•••
• •
36 --
-- • ••
••
·•
•••
. ~
32 -
:.y
• •• •
• •• G• ••
28 -
--
.... .• . • •. • •
•
- ... • •
•
24 •
.... ••
-,- • •
20 ....
• x
• 1 . ...
~
1
125 130 135 140 145
X (Taille)
d' , h t"II S
·
A u niveau un ec an I on : xy = '\'n
L..i=l
(x,-x)(yi-Y)
n- 1
= nLXY-LXLY
( )
n n-1
Cov(x, y) = sx,y
SxSy SxSy
S ' il est proche de+ 1 ou - 1, X et Y sont bien corrélées, c'est-à-dire qu'elles sont
liées entre elles par une relation presque affine; le nuage de points est presque
aligné le long d'une droite (croissante sir=+ 1, décroissante sir= - 1). S'il n'y a
aucun lien entre X et Y, ce coefficient est nul, ou presque nul.
_ , ··- - - - ,~.•r:-- .· .. ·· - --• .·- ,.• - ······ - • . ··- .. .... -. .... ·- ···•·-- ·-·--·- ··· ·• - ~ ... ....~.- ~---·~ .. ... ..._ ... ___ ., __,, _.,.. __ ···--····-- ··•·"" ·-·· . .
r sera donc proche de 1 si le nuage est très allongé selon une direction
croissante X augmente, Y augmente aussi de façon proportionnelle et presque
systématique.
y
_.,..--"'
....... r- 1
r= 1
Y._• 1
y
.1111111..
. ---....
--
--- .-..------.- --
--• --- -~·:- -- ..
----
--·- - --.:.-.1:-.
-----
--=--=----=
••
...
•
---
-■-
■- -
- •• -·.a:.
-
X ,,.
■ • .,. • •
••\.t•■"•·•i:.~•
......•• ••
• ~i:.-.•
•• •••
":'- ■
■
•
•
.,,_...........
■••
•• .. ■ ■ •••
■
••• i:.,~•
• .. • • •
..........
...■;. ,.
···•-.:.;.
.... ...
••••
■
••
•• •
••
••
• ••••••••
•• ••
• ••• •••• L
r
■■•
,. • ••••• ••
r
a) Droite de régression de y en x
Définition :
Valeurs ajustées :y; =a+ bxi
Résidus : ei = Yi - Yt = Yi - a - bxi
yt •
Y;' ----rr
Yi~ L - - ___._ei •
! . 1
1 . : l ...
► Principe des moindres carrés
• Idée : choisir a et b de façon à rendre les résidus les plus petits possible.
· Minimiser 2:f= 1 el
➔ Principe des moindres carrés !
• Objectif
Mina,b
• Solution
_aQ_(a_,b_) =0 aQ(a, b)
aa ab =O
• Calcul
o 1ère dérivée partielle :
n
8Q(a,b) ~
aa = 0 <=> 2 x (-1) x L/Yi - a - bxJ =0
i=l
n
~ L(yi - a - bxJ =
i=l
0
n n
<=> LYi =
i=l
na +b L
i=l
xi
1 + '
-' G/
, r------71 _- ·
:r :r
o 2ère dérivée partielle:
n
aQ(a,b) ~
ab = 0 <==> 2 x (-1) x L(Yi - a- bxa =0
i=l
n n n
•~ I i=l
XiYi - a L
i=l
xi - b Li=l
xf =0
n n
<==> ~nL
~ x-y·
i
-
i .
fv -
v .
bx)i - b!_ ~ xf
nL i =0
• Solution
cov(x, y)
a= y-bi et b = - - - -
Var(x)
b) Droite de régression de x en y
J •
l
f
► Décomposition de la variance de y:
-::----=-:.cc.. ~ : -. ..:· <~--- _&--•_· ,- __ ~"'.•.?Y. -- -·--· -llffl2!r __-:;=.--.. ------ ~""'"" .... __ .,, .. ~ ~· ... , - ~ - -- -----·~--~ .~ -~---------------'-,~:-· .,·----- . - -----·--·~_;.,_________ ,. _____ ._ ... ··------·-·-· -- .,:••·••=ri.· ..?.' ____-::._·--~
n n n
.
i
Yt
~
y ' '
X·!
► Coefficient de détermination :
"1n ( * -)2
R2 = Lli=l Yi - Y
I?::1 (yi - J) 2
Le R2 ou coefficient de détermination mesure la qualité de l'ajustement
des estimations de l'équation de régression. Il est utilisé à la fois en
régression simple et en régression multiple. Il permet d 'avoir une idée
globale de l'ajustement du modèle. Il s ' interprète comme la part de la
variance de la variable Y expliquée par la régression, varie entre O et 1
et s 'exprime souvent en pourcentage.
2
RA. té
s; - V(ei)
= -----
JUS 52
y
Exemple: jet d'un dé; lancer d'une pièce de monnaie, état de santé d'une
personne.
P(A n B)
P(A/B)=--
B
EX : Si on jette un dé, et que l'on considère les deux événements suivants :
Théorème .1 {des probabilités totales) Soit Al, ..., Anun système complet
d'évènements, alors
n
Pr(B) = I
'i=l
Pr(Aa Pr (B / Aa
En effet,
n n
Ii=l
Pr (B n Aa = Pr LJcs n AD =
i=l
Pr(B)
Théorème .2 (de Bayes) soit Al,. ........ , An un système complet d'événements, alors
Pr (B n AD
- Pr(AD
--- Pr (BI Aa
- - - =- - - = Pr (At / B)
LÎ=i Pr(AJ Pr (B/Ai) Pr (B)
Exemple Supposons qu'une population d'adultes soit composée de 30% de fumeurs (Al)
et de 70% de non-fumeurs {A2). Notons BI' évènement •mourir d'un cancer du poumon".
Supposons en outre que la probabilité de mourird'un cancer du poumon est ég.ale à
Pr(B/Al) = 20% si l'on est fumeur et dePr(B/A2) = 1% si l'on est non-fumeur. Le
théorème de Bayes permet de calculerles probabilités a priori, c'est-à-dire la
probabilité d'avoir été fum~ur si on est mort d'un cancer du poumon. En effet, cette
probabilité est notée Pr{Al(B) et peut-êt~e calculée par
Xi 01 2 3 4 5
P(Xi) 0.05 0.1 0.2 0.3 0.25 0.1
d- Variance
V(X) = )_
r+oo (X-E(XJ/ f(x)dx = J_oo
r+oo x 2
f(x)dx -
(f+oo
)_ xf(x)dx
)2
00 00
:.-·-~=:-:-:-.-· ,,__
B-LOIS DE PROBABIUTES :
1 Introduction
Il est toujours possible d'associer à une variable aléatoire une probabilité et
définir ainsi une loi de probcibilité. Lorsque le nombre d'épreuves augmente
indéfiniment, les fréquences observées pour le phénomène étudié tendent
vers les probabilités et les distributions observées vers les distributions de
probabilité ou loi de probabilité.
Identifier la loi de probabilité suivie par une variable aléatoire donnée est
essentiel car cela conditionne le choix des méthodes employées pour répondre à
une question biologique donnée.
2- Lois discrètes
Par définition, les variables aléatoires discrètes prennent des valeurs entières
discontinues sur un intervalle donné. Ce sont généralement le résultat de
d énombr-ement.
b) Espérance et variance
Décrite pour la première fois par Isaac Newton en 1676 et démontrée pour la
première fois par le mathématicien suisse Jacob Bernoulli en 1713, la loi
binomiale est l'une des distributions de probabilité !es plus fréquemment
rencontrées en statistique appliquée.
Soit l'application Sn : .f2n ➔ Rnavec Sn= X1 + X2 +... +Xi+ ... + Xn où Xi est une variable de
Bernoulli.
Exemple:
alors : la variable aléatoire X« itinéraire emprunté pour x rats» suit une loi
binomiale X -+/J (n, J/4).
dont la distribution des probabilités est la suivante sil' on étudie le comportement de 5 rats :
k P(}{= k)
o. 30
X ➔ B (5, 0.,15} l cl-( .:..4 =0-395
2 f'>\3(1\~
o. 20 c!I~ '- ~4.J1 -)
4
= 0.164
....
c; (.4,,:..,!:::(,l''
.:,
0, 10 . -) 4
= o.oss
4 4
0 1 2 3 4 5 ;(
5
C54(3)(1.']
, 4 , .4,
= 0,015
c;(!r =0.001
Remarque : Il est possible d'obte1ùr aisément les vnlem-s des coml>imlisous de la loi
binorrùale eu utilisant le triangle de Pascal De plus on vérifie que ln somme des probabilités
est bien égale à 1.
2. 2. 2 Espérance et variance
2. 3 Loi de Poisson
La loi de Poisson découverte au début du XIXe siècle par le magistrat
français Siméon-Denis Poisson s'applique souvent aux phénomènes accidentels
où la probabilité p est très faible
(p < 0,05). Elle peut également dans certaines conditions être définie comme
limite d'une loi binomiale.
si n - 00
et p - 0, alors X: B{n,p)---+ P(A) avec np--+A
2. 3 .1 Loi de Poisson
Ainsi, des évènements qui se réalisent de façon aléatoire comme des pannes de
machines, des accidents d'avions, des fautes dans un texte, ... peuvent être
considérés comme relevant d'un processus poissonnien.
Une variable aléatoire X à valeurs dans R suit une loi de Poisson de paramètre A
(A > 0) si les réels PM sont donnés par :
1k . -A
/t e
P(X k)
k!
Exemple :
Une suspension bactérienne contient 5000 bactéries/litre. On ensemence à
partir de cette suspension, 50 boites de Pétri, à raison d'l cm3 par boite. Si
X représente le nombre de colonies par boîte, alors la loi de probabilité de X
est:
X---+ P (A=5)
La probabilité qu'il n'y ait aucune colonie sur la boite de Pétri est :
La probabilité qu'il n'y ait au moins une colonie sur la boite de Pétri est :
2. 3. 2 -Espérance et variance
Remarque: Il est à noter que dans le cas d'une variable aléatoire de Poisson,
l'espérance et la variance prennent la même valeur. Ceci est un élément à prendre
en compte lors des tests de conformité à une loi de probabilité.
Exemples :
3 Lois continues
Par définition, les variables aléatoires continues prennent des voleurs continues
sur un intervalle donné.
3.1 Loi normale ou loi de Laplace-
Gauss
3 .1.1 t:>éf inition
On parle de loi normale lorsque l'on a affaire à une variable aléatoire continue
dépendant d'un grand nombre de causes indépendantes dont les effets
s'additionnent et dont aucune n'est prépondérante (conditions de Borel). Cette loi
acquiert sa forme définitive avec Gauss (en 1809) et Laplace (en 1812). C'est
pourquoi elle porte également les noms de : loi de Laplace, loi de Gauss et loi
de Laplace-Gauss.
Exemple :
Une nu·iable aléatoil'e absolument continue X suit une loi normale de paramètres (p , ü) si
sa densité de probabilité est donnée par :
f :R ➔ R
,· ' 1
11 x-,u 1· -
1 --1-
x H f (x) =
(J
&27f e 2
•
0
' avec ~t E R et cr E R..,.
+oo
J
-oo
f(x)dx = 1
3 .1 . 2 Espérance et variance
Théorème:
3. 2 .1 Définition
Une variable aléatoire continue X suit une loi normale réduite si sa densité
de probabilité est donnée par :
1 -x2
f(x) ---e 2
~
Remarque : f est bien une loi de probabilité car :
TI (-u) = 1 - Il (u)
•..
z 0,00 0,01 0,02 0,03 0,04 0,05 -0,06 0,07 0,08 0,09
0,0 0,500 0,504 0,508 0,512 0,516 0,520 0,524 0,528 0,532 0,536
0,1 0,540 0,544 0,548 0,552 0,556 0,560 0,564 0,567 0,571 0,575
0,2 0,579 0,583 0,587 0,591 0,595 0,599 0,603_ 0,606 0,610 0,614
0,3 0,618 0,622 0,626 0,629 0,633 0,637 0,641 0,644 0,648 0,652
0,4 0,655 0,659 0,663 0,666 0,670 0,674 o,6n 0,681 0,684 0,688
0,5 · 0,691 0,695 0,698 0,702 0,705 0,709 0,712 0,716 0,719 0,722
0,6 0,726 0,7291 0,732 0,736 0,739 0,742 0,745 0,749 . 0,752 0,755
0,7 0,758 0,761 0,764 0,767 o,no .0,n3 0,776 0,779 0,782 0,785
0,8 0,788 0,791 0,794 0,797 0,800 0,802 0,805 0,808 0,811 0,813
0,9 0,816 0,819 0,821 0,824 0,826 0,829 0,831 0,834 0,836 0,839
1,0 0,841 0,844 0,846 0,848 0,851 0,853 0,855 0,858 0,860 0,862
1,1 0,864 0,867 0,869 0,871 0,873 0,875 0,Bn 0,879 0,881 0,883
1,2 ' 0,885 0,887 0,889 0,891 0,893 0,894 0,896 0,898 0,900 0,901
1,3 0,903 0,905 0,907 0,908 .0,910 0,911 0,913 0,915 0,916 0,918
.. ~·
. - ' ..
1,4 0,919 0,921 0,922 0,924 0,925 0,926 0,928 0,929 0,931 0,932
1,5 0,933 0,934 0,936 0,937 0,938 0,939 0,941 0,942 0,943 0,944
1,6 0,945 0,946 0,947 0,948 0,949 0,951 0,952 0,953 0,954 0,954
1,7 0,955 0,956 . 0,957 0,958 0,959 .0,960 0,961 0,962 0,962 0,963
1,8 0,964 0,965 0,966 0,966 0,967 0,968 0,969 0,969 0,970 0,971
1,9 0,971 o,9n 0,973 0,973 0,974 0,974 0,975 0,976 0,976 0,9n
2,0 o,9n 0,978 0,978 0,979 0,979 0,980 0,980 0,981 0,981 0,982
2,1 0,982 0,983 0,983 0,983 0,984 0,984 0,985 0,985 0,985 0,986
2,2 0,986 0,986 0,987 0,987 0,987 . 0,988 0,988 0,988 0,989 0,989
2,3 0,989 0,990 0,990 0,990 0,990 0,991 0,991 0,991 0,991 0,992
2,4 0,992 0,992 0,992 0,992 0,993 0,993 0,993 0,993 0,993 0,994
2,5 0,994 0,994 0,994 0,994 0,994 0,995 0,995 0,995 0,995 0,995
2,6 0,995 0,995 0,996 0,996 0,996 0,996 0,996 0,996 0,996 0,996
2,7 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,997
2,8 0,997 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998
2,9 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,999 0,999 0,999
3.2.2 Exercices d'application
1- Sachant que la répartition suit une loi normale, calculer la valeur moyenne du
taux de cholestérol et l'écart type.
2- On admet que les personnes dont le taux est supérieur à 183 cg doivent subir
un traitement. Quel est le nombre de personnes à soigner dans une population de
10 000 personnes?
Dans la pratique, comme l'approximation faite est une approximation d'une loi
discrète par une loi continue, nous devront effectuer une correction de
continuité, c'est à dire qu'à la valeur Xo d'une valeur discrète, nous associeront
l'intervalle [x0 -0.5; x 0 +0.5] pour la variable continue.
Exercice 2: Soit X une variable aléatoire suivant la loi binomial~ B(100; 0.2). En
utilisant une approximation de cette loi par une loi normale dont on précisera les
paramètres, calculer une valeur approchée de P(X=20), P(Xi22), P(18iXi22) et de
P(X>18).
Partie 3
Statistiques Inférentielles
I- Théorie de l'estimation
1 Introduction
Un phénomène biologique sera entièrement déterminé si l'on connaît la loi de probabilité
suivie par la variable aléatoire donnée dans la population. On a alors deux cas de figure :
- soit la loi de probabilité suivie par X est connue a priori et on vérifie a posteriori
que les observations faites à partir d'un échantillon sont en accord avec elle. C'est le cas
par exemple de la répartition des génotypes attendus dans une population sous le modèle
de Hardy-Weinberg. On effectue alors un test d'ajustement entre la distribution
théorique et la distribution observée.
- soit la Ici de. prob..abilité suivie pa~ Xest..inconnue Jnais...sugg.ér.ée par la description
de l'échantillon (nature de la variable, forme de la distribution des fréquences, valeurs
des paramètres descriptifs). Dans ce cas, il est nécessaire d'estimer les paramètres de
la loi de probabilité à partir des paramètres établis sur l'échantillon.
L'inférence statistique traite principalement de ces deux types de problèmes :
l'estimation de paramètres (espérance, variance, probabilité de succès) et les tests
d'hypothèses.
L'inférence statistique ne conduit jamais à une conclusion stricte, elle attache toujours
une probabilité à cette conclusion. Cela provient du fait que l'on tente de tirer des
conclusions sur une population (grand nombre d'individus) sur la base des observations
réalisées sur un échantillon, représentant une portion restreinte de la population.
L'estimation a pour objectif de déterminer les valeurs inconnues des paramètres de la
population (p, µ, o-2) ou (proportion, moyenne, variance) à partir des données de
l'échantillon (f, m~I). Il est alors nécessaire de déterminer la précision de ces
estimations en établissant un intervalle de confiance autour des valeurs prédites.
Population Caractéristique de
2
p,µ,a
2 taille n l'échantillon f ,m,s
Inférence Statistique
2 Distribution cf'échantillonnage
Pour résoudre les problèmes d'estimation de paramètres inconnus, il faut tout d'abord
étudier les distributions d'échantillonnage, c'est à dire la loi de probabilité suivie par
!'estimateur.
Remarque : En théorie de l'estimation, il s'agit de distinguer soigneusement trois
concepts différents :
► Les paramètres de la population comme la moyenne µ dont la valeur est certaine
mais inconnue symbolisés par des lettres grecques.
► Les résultats de l'échantillonnage comme la moyenne m dont la valeur est
certaine mais connue symbolisés par des minuscules.
► Les variables aléatoires des paramètres, comme la moyenne aléatoire Mdont la
valeur est incertaine puisque aléatoire mais dont la loi de probabilité est souvent
connue et symbolisées par des majuscules.
2 .1 Définition
2 . 1.1 Approche empirique
Il est possible d'extraire d'une population de paramètres p, µ ou a2 pour une
variable aléatoire X, kéchantillons aléatoires simples de même effectif, n. Sur
chaque échantillon de taille n, on calcule les paramètres descriptifs (f, m~).
Population
2
X {p, P, q)
'~
{ml, m2, .......... mi, ......... mk}
On obtient ainsi pour chaque paramètre estimé, une série statistique composée de k
éléments à savoir les kestimations du paramètre étudié. Par exemple, on aura kvaleurs
de moyennes observées (graphe ci-dessus).
La distribution associée à ces k estimations constitue kt distribution d'échantillonnage
du paramètre. On peut alors associer une variable aléatoire à chacun des paramètres .
La loi de probabilité suivie par cette variable aléatoire admet comme distribution, la
~---~---"=.-- - -:..-~- -. --.. ,~•:•.- ~~ -~ ·- ... ,. . --.. • •-· ,., ..... :.~.-•. . ·.. _- -•.•... -.. -· ·•· .--.. .. -•. . .·. . •-..., ---.-.. ... ... .. --- ---••-••- --.,...-•-~- •-"'- .-- •· ~ -•--• --. •··.,. ., ,r ••---·••• ... . ..-- ··-
distribution d'échantillonnage du paramètre auquel on pourra associer une. espérance et
une variance.
Population
2
X (p, p, u)
"-..
1,........ xi, ........... xn} ........ xn}
Ainsi les n observations x1 ,x2 ,..., xi, ... , xn, faites sur un échantillon peuvent être
considérées comme n variables aléatoires X1, X2 ,...,Xi, ... , Xn. En effet, la valeur prise
par le premier élément extrait de la population Xl, dépend de l'échantillon obtenu lors
du tirage aléatoire.
Cette valeur sera différente si l'on considère un autre échantillon. Il en est de même
pour les n valeurs extraites de la population.
A partir de ces n variables aléatoires, on peut définir alors une nouvelle variable qui sera
fonction de ces dernières telle que: Y= f(Xl, X2, ... , Xi, ... , Xn)
par exemple : Y= X1 + X2+ ... + Xi+ .... Xn
Ainsi la loi de probabilité de la variable aléatoire Y dépendra à la fois de la loi de de la
variable aléatoire X et de la nature de la fonction f.
2. 2 Loi de probabilité de la moyenne
2. 2 .1 Définition
Soit Xune variable aléatoire suivant une loi normale d'espérance µ et de variance cfet
n copies indépendantes Xl,X2,. .. ,.Xi: ...,xntelle que Xi associe le ième élément de chacun
des n échantillons avec B..X1) = µ et i{X1) = cl.
On construit alors la variable aléatoire M, telle que :
_ X1 +X2 +···Xi+ ···Xn _
M - -------- - -
n n
1L n
Xi
i=l
2.2.2 Convergence
En fonction de la nature de la variable aléatoire continue X, de la taille de
l'échantillon net de la connaissance que nous avons sur le paramètre a2 , la
variable centrée réduite construite avec X converge vers différentes lois de
probabilité
V(F) = V (-K)
n
= 1
-V(K)
n 2
= 1
-npq
n 2
= pq
-n
La loi de probabilité d'une fréquence Kin suit une loi normalel'i (p, ~)
Vrai si np> .5 e.t nq> 5
n
µ=M=~'X·
nL i
i=l
3.1.2. Variance
Soit X une variable aléatoire continue suivant une loi normale N (µ,a) pour laquelle on
souhaite estimer la variance cl.
Soient Xi, X2 ,... ,X,·, ... , Xn, n réalisations indépendantes de la variable aléatoire
X, un estimateur du paramètre 0 2 est une suite de variable aléatoire 0 fonctions
des X,·:
0 = f (Xi ,Xz ,... ,X,·, ... , Xn)
az = ~ I
i=l
(Xi - µ)2
t=l i=l
K
p=-n
Exemple :
On a prélevé au hasard, dans une population de lapin, 100 individus. Sur ces 100 lapins,
20 sont atteints par la myxomatose. Le pourcentage de lapins atteints par la
myxomatose dans la population est donc :
20 .
p = -100 = 0.2Soit 20% de lapins atteints dans la population.
a= 0,05
95 chances sur 100 que la valeur du paramètre
recherché se trouve dans l 'intervalk de
confiance et la précision autour de la valeur
prédite est correcte.
a= 0,10
90 chances sur 100 que la valeur du paramètre
recherché se trouve dans l'intervalle de
confiance mais la prédsion autour de la valeur
prédite est élevée.
P(M - ta z;n-1
{j < µ < M + ta
-y-n {j ) = 1 - a
z;n-1 ...fn
quelque soit la valeur den si X---+N (µ, a) et a2 est inconnue.
Remarque : La valeurt~-n-l est donnée par la table 3 : Table de Student pour un seuil
2'
de risque a/2 et n-1 degré de liberté.
K j,,..
K
P - - la pq < p < - + Za;z
fe),,..
pq = 1 - a
(n 2 n n n
Exemple:
Un laboratoire d'agronomie a effectué une étude sur le maintien du pouvoir germinatif
des graines d'uneplante·-donnéeaprès une conservation de....3-ans.
Sur un lot de 80 graines, 47ont germé. Ainsi la probabilité de germination des graines
de la plante après trois ans de conservation avec un coefficient de confiance de 95%
est donc:
Avec
...
p = -Kn = -80
47
= 0.588 et q,.., = -n-K
n
= 33
-
80
= 0.412; Za;z = 1.96 alors Z:!. f!~q
2
-n =
Les tests destinés à vérifier si un échantillon peut être considéré comme extrait
d'une population donnée, vis-à-vis d'un paramètre comme la moyenne ou la fréquence
observée(tests de conformité) ou par rapport à sa distribution observée (tests
d'ajustement). Dans cecas la loi théorique du paramètre est connue au niveau de la
population.
Est-ce que le taux de glucose moyen mesuré dans un échantillon d'individus traités
estconforme au taux de glucose moyen connu dans la population? (test de conformité)
Est-ceque la distribution des fréquences génotypiques observées pour un locus donné
estconforme à celle attendue sous l'hypothèse du modèle de Hardy-Weinberg?
(testd' ajustement).
Les tests destinés à comparer plusieurs populations à l'aide d'un nombre équivalent
d'échantillons (tests d'égalité ou d'homogénéité) sont les plus couramment utilisés.
Dans ce cas la loi théorique du paramètre est inconnue au niveau des populations.
On peut ajouter à cette catégorie le test d'indépendance qui cherche à tester
l'indépendanceentre deux caractères, généralement qualitatifs.
Y a-t-il une différence entre le taux de glucose moyen mesuré pour deux
échantillonsd'individus ayant reçu des traitements différents? (tests d'égalité ou
d'homogénéité).
Est-ce que la distribution des fréquences génotypiques observées pour un locus donné
estindépendante du sexe des individus (tests d'indépendance).
L'hypothèse nulle notée HO est l'hypothèse que l'on désire contrôler: elle consiste à
dire qu'il n'existe pas de différence entre les paramètres comparés ou que la
différence observée n'est pas significative et est due aux fluctuations
d'échantillonnage.
Cette hypothèse est formulée dans le but d'être rejetée.
L'hypothèse altemative notée H1 est la négation de HO, elle est équivalente à dire«
HO est fausse». La décision de rejeter HO signifie que Hl est réalisée ou Hl est vraie.
Test bilatéral
Si HO consiste à dire que la population estudiantine avec une fréquence de fumeurs
« p» est représentative de la population avec une fréquence de fumeurs « f1J », on pose
alors : HO : p =pJ et Hl : p -z fi)
/
Ho : p = po et H1 : p > po
Le test sera unilatéral car on considère que
la fréquence p ne peut être que supérieure à
J la fréquence po .
La région critique a en vert correspond à
"o une probabilité a.
Un test statistique ou une statistique est une fonction des variables aléatoires
représentant l'échantillon dont la valeur numérique obtenue pour l'échantillon considéré
permet de distinguer entre HO vraie et HO fausse.
Dans la mesure où la loi de probabilité suivie par le paramè-tre ;fJ au niveau de la
population en général est connueron peut ainsi établir-la loi de probabilité de la
statistique Stelle que : S = p - Po
Il existe deux stratégies pour prendre une décision en ce qui concerne un test
d'hypothèse : la première stratégie fixe a priori la valeur du seuil de signification a
et la seconde établit la valeur de la probabilité critique aobsa posteriori ou Pva/ue.
Règles de décision 1 :
Sous l'hypothèse « HO est vraie» et pour un seuil de signification a fixé
• si la valeur de la statistique S calculée (Sobs.) est supérieure à la valeur seuil Sseuil
Sobs>Sseuil alors l'hypothèse HO est rejetée au risque d'erreur a et l'hypothèse Hl
est acceptée.
· si la valeur de la statistique S calculée (Sobs.) est inférieure à la valeur seuil Sseuil
5:\bSi Sseuil alors l'hypothèse HO ne peut être rejetée.
Règles de décision 2 :
La probabilité critique a telle que f{S ~ Sobs.) = aobs= Pvalue est évaluée
• si Pvalue = aobs~ 0,05 l'hypothèse HO est acceptée car le risque d'erreur de rejeter
HO alorsqu'elle est vrai est trop important.
· si Pvalue= aobs< 0,05 l'hypothèse HO est rejetée car le risque d'erreur de rejeter HO
alors qu'elleest vrai est très faible.
~
HO est vraie Ho est fausse
D
Acceptation de Bonne décision Manque de Puissance :
HO Risque de s_eçond espèce B
Rejet de HO Rejet à tort : Puissance du test 1-B
Risque
de 1erespèce a
3 Tests Statistique
3.1 Tests de conformité
La loi Poisson, qui repose sur le paramètre A connu ou estimé par la moyenne des
observations.
_J.a loi normale, qui est construite à partir de deux paramètres généralement
estimés µ et cr.
L'écart entre l'effectif attendu sous Ho, à savoir E(nï), et l'effectif observé ni
dans les différentes classes de la distribution est mesuré par la statistique du
khi carré dont la valeur observée s'écrit:
k
2 = "\7 [[ni - E(nJ] ]
2
X ~ E(na
· t=l
HO : La distribution observée est conforme avec les résultats attendus sous la loi
de distribution théorique ;
Sous HO, la statistique du khi carré obéit à une loi du khi carré à v = k - r
degré de liberté (d.d.l).
(.···~··.
✓.1/.·• · (
{3/· / -1/
/
/_
,
1 Table.2 1 Table de xz
~ 0,90
1 0,02
0,50
0,45
0,30
1,07
0,20
1,64
0,10
2,71
0,05
3,84
0,01
6,63
0,001
10,83
2 0,21 1,39 2,41 3,22 4,61 5,99 9,21 13,82
3 0,58 2,37 3,66 4,64 6,25 7,81 11,34 16,27
4 1,06 3,36 4,88 5,99 7,78 9,49 13,28 18,47
5 1,!>1 4,35 6,06 7,29 9 ;-2-4 11,07 15,-0g 20,-52
6 2,20 5,35 7,23 8,56 10,64 12,59 16,81 22,46
7 2,83 6,35 8,38 9,80 12,02 14,07 18,48 24,32
8 3,49 7,34 9,52 11,03 13,36 15,51 20,09 26,12
~9 ·--4,17 8,34 10,66 12,24 14,68 16,92 21,67 27,88
10 4,87 9,34 11,78 13,44 15,99 18,31 23,21 29,59
11 5,58 10,34 12,90 14,63 17,28 19,68 24,72 31,26
12 6,30 11,34 14,01 15,81 18,55 21,03 26,22 32,91
13 7,04 12,34 15, 12 16,98 19,81 22,36 27,69 34,53
14 7,79 13,34 16,22 18,15 21,06 23,68 29,14 36,12
15 8,55 14,34 17,32 19,31 22,31 25,00 30,58 37,70
16 9,31 15,34 18,42 20,47 23,54 26,30 32,00 39,25
17 10,09 16,34 19,51 21,61 24,77 27,59 33,41 40,79
18 10,86 17,34 20,60 22;76 25,99 28,87 34,81 42,31
19 11,65 18,34 21,69 23,90 27,20 30,14 36,19 43,82
20 12,44 19,34 22,77 25,04 28,41 31,41 37,57 45,31
21 13,24 20,34 23,86 26,17 29,62 32,67 38,93 46,80
22 14,04 21,34 24,94 27,30 30,81 33,92 40,29 48,27
23 14,85 22,34 26,02 28,43 32,01 35,17 41,64 49,73
24 15,66 23,34 27,10 29,55 33,20 36,42 42,98 51,18
25 16,47 24,34 28,17 30,68 34,38 37,65 44,31 52,62
26 17,29 25,34 29,25 31,79 35,56 38,89 45,64 54,05
27 18,11 26,34 30,32 32,91 36,74 40,11 46,96 55,48
28 18,94 27,34 31,39 34,03 37,92 41,34 48,28 56,89
29 19,77 28,34 32,46 35,14 39,09 42,56 49,59 58,30
Application et utilisation du modèle de Hardy-
Weinberg
Test de 1'équilibre
Une question centrale est de savoir si la loi de Hardy-Weinberg établie pour une
population théorique idéale s'applique également aux populations naturelles.
Aa = 2 pqxN; aa = q2xN
3- comparaison des effectifs observés et des effectifs attendus (comparaison
des deux distributions) par un test statistique du Chi Deux: Le test du Chi Deux
nécessite le calcul de la distance khi2 permettant de tester l'hypothèse
d'égalité entre la distribution observée et la distribution théorique (hypothèse
HO).
Exemple
Chez l'homme, le groupe sanguin MN est déterminé par un gène à deux allèles
codominants Met N, ce qui permet d'attribuer un génotype à chaque individu
échantillonné, puis d'estimer les fréquences alléliques dans la population. Une
étude portant sur 730 aborigènes australiens a donné les résultats suivants :
Réponses:
Rl:
~;-~""-':'·CC"
. ~~~--~--~
- =---:-::-~,-----·-·· ... ". ._._. ,.,_.·,.,.,,_,.;·.·_,-,,.i;1.. ·•--~-- .. -- .. _ --- _... - .... -•--\-...;.,_·-··--:-"•_·•,-:··· . - - .....---_ ...... .,,.,____ --~-~---- ,.---~-- __ ,_
3 .1. 2 Comparaison d'une moyenne observée et d'une moyenne théorique
Principe du test
Soit X, une variable aléatoire observée sur une population, suivant une loi
normale et un échantillon extrait de cette population.
Hypothèses
HO : µ = µ0 H1: µ -t µ0
suivante :S ~ ~
(0, {;ï) avec sous
✓-;; H0 E(S) =0 et V(S) = -;
0-Z
Nous pouvons établir grâce au théorème central limite la variable Z centrée réduite
~ = J;;
= S-E(S) M-µo
telle que: Z v V(S) o-2
n
Sous Ho: µ =JJo avec cf est connu
Z = Mf;-µo
uZ
➔ suit une loi normale centrée réduite ~co,1)
n
Application et décision
L'hypothèse testée est la suivante :
HO : µ = µ0 contre H1 : µ t µ0
Une valeur z de la variable aléatoire Z est calculée :z = lmjf 1o-2
n
Dite aussi z observée est comparée à la valeur z seuil lue sur la table de la loi normale
centrée réduite pour un risque a (règle de décision 1 ).
( T5ï)
suivante :S ➔ ~ O, ✓;- avec sous H0 E(S) =0 et V(S) =:
~2
Nous pouvons établir grâce au théorème central limite la variable T centrée réduite
~ = l
r = S-E(S) M-µo
telle que : v V(S) _ a 2
n
Sous Ho: µ = µo
T = l
M-µ O
..... 2
cr
suit une loi de Student à n - l ddl
Application et décision
L'hypothèse testée est la suivante :
HO : µ = µO contre Hl : µ 1- µ0
Une valeur t de la variable aléatoire Test calculée: t = lmll
Dite aussi t observée est comparée à la valeur t seuil lue sur la table de Student pour un
risque a fixé et (n-1) ddl(règle de décision 1).
!~ 0,0001 0,001 0,01 0,02 0,03 0,04 0,05 0,1 0,2 0,3 0,5 0,9
·~ ·
~\ 1 6366,198 636,619 63,657 31,821 21,205 15,895 12,706 6,314 3,078 1,963 1,000 0,158
\ 2 99,992 31,599 9,925 6,965 5,643 4,849 4,303 2,920 1,886 1,386 0,816 0,142
3 28,000 12,924 5,841 4,541 3,896 3,482 3,182 2,353 1,638 1,250 0,765 0,137
4 15,544 8,610 4,604 3,747 3,298 2,999 2,776 2,132 1,533 1,190 0,741 0,134
5 11,178 6,869 4,032 3,365 3,003 2,757 2,571 2,015 1,476 1,156 0,727 0,132
- . - .
6 9,082 5,959 3,707 3,143 2,829 2,612 2,447 1,943 1,440 1,134 0,718 0,131
7 7,885 5,408 3,499 2,998 2,715 2,517 2,365 1,895 1,415 1,119 0,711 0,130
8 7,120 5,041 3,355 2,896 2,634 2,449 2,306 1,860 1,397 1,108 0,706 0,130
9 6,594 4,781 3,250 2,821 2,574 2,398 2,262 1,833 1,383 1,100 0,703 0,129
10 6,211 4,587 3,169 2,764 2,527 2,359 2,228 1,812 1,372 1,093 0,700 0,129
11 5,921 4,437 3,106 . 2,718 2,491 2,328 2,201 1,796 1,363 1,088 0,697 0,129
1
12 5,694 4,318 3,055 ! 2,681 2,461 2,303 2,179 1,782 1,083 0,695
1,356 0,128
13 5,513 4,221 3,012 2,650 2,436 2,282 2,160 1,771 1,079 0,694
1,350 0,128
14 · 5,363 4,140 2,977 2,624 2,415 2,264 2,145 1,761 1,076 0,692
1,345 0,128
15 5,,239 4,073 2,947 2,602 2,397 2,249 2,131 1,753 1,341
1,074 0,691 0,128
16 5,134 4,015 2,921 2,583 2,382 2,235 2,120 1,746 1,337
1,071 0,690 0,128
17 5,044 3,965 2,898 2,567 2,368 2,224 2,110 1,740 1,069 0,689
1,333 0,128
18 4,966 3,922 2,878 2,552 2,356 2,214 2,101 1,734 1,330
1,067 0,688 0,127
19 4;897 3;883 2,861 2,539 2,346 2,205 2,093 1,729 1,066 0,688
1,328 0,127
20 4,837 3,850 2,845 2,528 2,336 2,197 2,086 1,725 . 1,325
1,064 0,687 0,127
21 4,784 3,819 2,831 2,518 2,328 2,189 2,080 1,721 1,323 1,063 0,686 0,127
22 4,736 3,792 2,819 2,508 2,320 2,183 2,074 1,717 1,321 1,061 0,686 0,127
23 4,693 3,768 2,807 2,500 2,313 2,177 2,069 1,714 1,319 1,060 0,685 0,127
24 4,654 3,745 2,797 2,492 2,307 2,172 2,064 1,711 1,318 1,059 0,685 0,127
25 4,619 3,725 2,787 2,485 2,301 2,167 2,060 1,708 1,316 1,058 0,684 0,127
26 4,587 3,707 2,779 2,479 2,296 2,162 2,056 1,706 1,315 1,058 0,684 0,127
27 4,558 3,690 2,771 2,473 2,291 2,158 2,052 1,703 1,314 1,057 . 0,684 0,127
28 4,530 3,674 2,763 2,467 2,286 2,154 2,048 1,701 1,313 1,056 0,683 I 0,127
29 4,506 3,659 2,756 2,462 2,282 2,150 2,045 1,699 1,311 1,055 0,683 0,127
30 4,482 3,646 2,750 2,457 2,278 2,147 2,042 1,697 1,310 1,055 0,683 0,127
3,944 3,323 2,592 2,339 2,180 2,063 1,968 1,650 1,284 1,038 0,675 0,126
00
1
Utilisation de lo table T
· La table de Test plus difficile à utiliser que la table de Z
· Il y a autant de table de T que de degré de libèrté
ddl c'est l'effectif d'un échantillon-1
- Pour 1 échantillon: degré de liberté (ddl) = n-1
H1bilaterale:
Si la valeur calculée to < à T5%, on ne rejette pas HO
Si la valeur calculée to > à T5%,
► on rejette HO et on accepte Hl
► on recherche dans la même ligne la valeur de T immédiatement
inférieure à tO.
► La valeur correspondante lue dans la colonne a donne le degré de
signification p ; dit aussi p valeur ou Pvalue.
H 1unilaterale:
Si la valeur calculée to < à T10%, on ne rejette pas HO
Si la valeur calculée to > à T10%,
► on rejette HO et on accepte Hl
► on recherche dans la même ligne la valeur de T immédiatement
inférieure à tO.
► Le p obtenu est divisé par 2 correspond .au Pvalue.
· · - Calculez le ddl;
· Lire T Seuil et
Conclure
• Calculez le ddl;
• Lire le T seuil et
· :-"..·:"-.•- ~- ..-:.~·'-··:·:.·-·~·· . ..... . . .. __ - .. --- .··-· - -·" ""·.··.--· ·--- ---- ······~-- ··•··· . .,. _. _____ _ · -·- ······--·•"",.C"""~--- ····-··--- -···-,·----· ·- ·· · · . . ~.•. ~···
Conclure
Exemple :
Pour étudier un lot de fabrication de comprimés, on prélève au hasard 10 comprimés
parmi les 30 000 produits et on les pèse. On observe les valeurs de poids en grammes :
0,81- 0,84 - 0,83 - 0,80 - 0,85 - 0,86 - 0,85 - 0,83 - 0,84 - 0,80
Le poids moyen observé est-il compatible avec la valeur 0,83g, moyenne de la production
au seuil 98%?
::..:~••;•,':"'_•~:-~~·- ~~·~:•:. • s ,~•'.< ;::::,~•".' ·:•A •••--- .~.. 1 ~•.-, :,•;•~~•Tt• c,_~_-'"•S',0~
k
n , k ' f--
-
__
....( ·.1r\~ -!P~~~i=t:.~??~~:-i;~;::sr~!~~J3~\ ·_:t;1.~rr:~-:};..;t.~<{'.'.::: ,...c,.
Hypothèses .,.,.,,:,'+·r)•
Ho:P=Po H1:P =Po
Statistique du test
Nous pouvons établir grâce au théorème central limite la variable Z centrée réduite
K
S-E(S) --Po
telle que: Z = -yltr7'M
V(S)
= n~mais seulement si np0 et nq0 ~ 10
Poqo
n
K •
Sous Ho: p = poZ = ~~-Po
Poqo
suit une loi normale centrée réduite ~(0,1)
n
Application et décision
L'hypothèse testée est la suivante :
HO : p= pO contre Hl : p t p0
Une valeur z de la variable aléatoire Z est calculée:
· ·
z = lv~-Pol
Poqo
n
Dite aussi z observée est comparée à la valeur z seuil lue sur la table de la loi rrormale
centrée réduite pour un risque a (règle de décision 1).
Exemple :
Une anomalie génétique touche en France 1/1000 des individus. On a constaté dans une
région donnée :57personnes atteintes sur 50000 naissances.
Cette région est-elle représentative de la France entière ?
3. 2 Tests d'homogénéité
Les tests d'homogénéité destinés à comparer deux ou k populations à l'aide d'un nombre
équivalent d'échantillons (tests d'égalité ou d'homogénéité) sont les plus couramment
utilisés. Dans ce cas la loi théorique du paramètre étudié (par exemple p, µ,o2)est
inconnue au niveau des populations étudiées.
3. 2. 1 Comparaison de fréquences
Principe du test
Soit X une variable qualitative prenant deux modalités (succès X=l, échec X=O)
observée sur 2 populations et deux échantillons indépendants extraits de ces deux
populations. On fait l'hypothèse que les deux échantillons proviennent de 2 populations
dont les probabilités de succès sont identiques.
Population 1
Xi. .- /S(n1.p1)
Hypothèses
Ho:p1 - p2H1:p1 #p2
Le problème est de savoir si la différence entre les deux fréquences observées est
réelle ou explicable par les fluctuations d'échantillonnage. Pour résoudre ce problème,
deux tests de comparaison de fréquences sont possibles :
Test Zou test de la variable centrée réduite et test du Khi-deux x 2
Statistique du test Z
- La distribution d'échantillonnage de la fréquence de succès dans la population 1,
Kl/nl suit une loi normale telle que :
-K1 ➔ ~
~
f,1q1)
( Pv - -
~
et de m me pour -K2 suit
.
~
~ ( p2, f,2q2)
--
¾
Si et seulement si nlpl ; nlql ; n2p2 et n2q2 ~ 10
Sachant que Kl/nl -K 2/n2 sKl/nl -K 2/n2 suit une loi normale
pq(:1+:J
réduite~(0,1).
Application et décision
La valeur p, probabilité du succès commune aux deux populations n'est en réalité pas
connue.
On l'estime à partir des résultats observés sur les deux échantillons :p = ki+k 2 où k1 et
n1 +n2
k2 représentent le nombre de succès observés respectivement pour l'échantillon 1 et
pour l'échantillon 2.
z=
1~1
1
n n
2
avec p = ki+k 2 z calculée est comparée avec z seuil lue sur la table de la
""(--42'-)
pq n1 n2
n1 +n2
Exemple: On veut tester l'impact des travaux dirigés dans la réussite à l'examen de
stat1st1que.
Groupe1 Groupe 2
Nombre d'heures de TD 20h 30h
Nombre d'étudiants 180 150
Nombre d'étudiants ayant réussi à l'examen 126 129
Qu'en concluez-vous?
Tableau de contingence
Echantillons r
1 2 ... J .... k
1 Fll F12 ... Flj .... Flk flm
(") 2 F21 F22 ... F2j ... F2k F2m
0
➔
('), ... ...
l.O
0
""l 1 Fil Fi2 ... fij ... fik fim
(')
U\
....
r Frl Fr2 ... frj ... frk frm
r nl n2 ... nJ ... nk n
Comme le principe du test de khi2 consiste à mesurer l'écart qui existe entre des
fréquences observées et des fréquences théoriques et à tester si cet écart est
suffisamment faible pour être imputable aux fluctuations d'échantillonnage.
Pour soumettre ces hypothèses à une épreuve de vérité; il faut trouver une
estimation non biaisé de Khi2. Si Ho est vraie, la meilleure estimation de la
proportion Pl d'éléments qui possèdent qui possèdent la caractéristique 1 est
fourni par P'l= flm/n (voir tableau) de la même manière, les meilleures
estimations des proportions P'2;P'3 ...... etP'r sont respectivement f2m/n;
f2m/n; ........frm/n. Comme l'espérance mathématique d'une variable obéissant à
une loi binomiale= nP, la meilleure estimation de fréquence théorique d'éléments
Principe du test
Soit X, une variable aléatoire observé~ sur 2 populations suivant une loi norrMle et
deux échantillons indépendants extraits de ces deux populations.
Population 1 Population 2
X1 ➔ .\'(~L1,crl) . ,. Y-2 ➔ .1Vüt2, cr2)
,,·e"''"~fi;:;t~,;'ft0,
: r-~ .
On fait l'hypothèse que les deux échantillons proviennent de 2 populations dont les
variances sont égales.
o rs de la comparaison de deux
Le test de comparaison de variance est nécessaire l_
moyennes lorsque les variances des populations ne sont pas connues.
Statistique du test
La statistique associée au test de comparaison de deux variances correspond au rapport
des deux variances estimées.
82
Sous HO : oi2 = a/ Fobs = 8~
Suit une loi de Fisher-Snedecorà (n1-1, n2 -1) degrés de liberté avec a/> a,/ car le
rapport des variances doit être supérieur à 1.
Remarque : Il existe d'autres statistiques que celle de Fisher -Snédecor pour comparer
deux variances, notamment le test de Hartley qui impose l'égalité de la taille des
échantillons comparés n1= n2.
Application et décision
.;
La valeur de la statistique F calculée (fobs) est comparée avec la valeur Fseuil lue dans
la tablede la loi de Fisher-Snedecorpour un risque d'erreur a fixé et (n1-1, n2 -1)
degrés de liberté.
• si fobs~ .Fseuil l'hypothèse HO est rejetée au risque d'erreur a: les deux échantillons
sont extraits de deux populations ayant des variances statistiquement différentes
· si fobs! .Fseuil l'hypothèse HO est acceptée: les deux échantillons sont extraits de
deux po_pulations ayant même variance a 2•
Remarque : Pour !'application de ce test, il est impératif que X ---+N(µ,a} et que les
deuxéchantillons soient indépendants.
Exemple :
Un biologiste effectue des dosages par une méthode de mesure de radioactivité et ne
dispose donc que d'un nombre très limité de valeurs. Les concentrations Cl et C2
mesurées sur deux prélèvements ont donné les valeurs suivantes:
Cl : 3,9 - 3,8 - 4,1 - 3,6 C2: 3,9 - 2,8 - 3,1 - 3,7 - 4,1
La variabilité des valeurs obtenues pour les deuxprélèvements est-elle sitruïaire?
Population 1 f ,~,!.-.·.
•~.·
Population 2 .::/
..,
X1 ➔ N(µ1,cr1) ~·f
,., X2 ➔ .1\i(p.z, cr:2)
Hypothèses
Ho: ,ll1 = µ2 H1 : µ1 .e µ2
On fait l'hypothèse que les deux échantillons proviennent de 2 populations dont les
espérances sont égales.
Il existe plusieurs statistiques associées à la comparaison de deux moyennes en fonction
de la nature des données.
1
1
Les variances a12 = a22 . sont
j
Connqes Inconnues
Egales Différentes
nleJ.?e30nl ln.?<30
2
Sous HO : µ1 = µ 2 et 01 = CJ2 2
sont connues
Z = u,t une 101. norma 1e centree
(Mi-MZ)S .
--==='-
r,2 a-2
, re'd u1te
. \l'(Q
~ ; 1)
--1+~
n1 nz
Application et décision
L'hypothèse testée est la suivante :
HO : µ 1 =µ2 contre H1 : µ1 *µ 2
. bl e a I'eato,re
Une va Ieur z de 1a varia . Z est ca Icu I'ee :z = lml-mzld.,te aussi· z ca1cu 1'ee ou
~
a-2 0"2
:::.l.+-l.
✓ n1 n2
zobservée.
zcalculée (zobs) est comparée avec la valeur zseuil lue sur la table de la loi normale
centrée réduitepour un risque d'erreur a fixé.
• si zobs~ zseuil !'hypothèse HO est rejetée au risque d'erreur a: les deux échantillons
sont extraits de deux populations ayant des espérances respectivement µ1 et µ2.
• si zobss. zseuil l'hypothèse HO est acceptée: les deux échantillons sont extraits de
deux populations ayant même espérance µ.
Remarque: Pour l'application de ce test, il est impératif que X -N (µ, o) pour les
échantillons de taille < 30 et que les deux échantillons soient indépendants.
Exemple : On a effectué une étude, en milieu urbain et en milieu rural, sur le rythme
cardiaque humain :
Milieu urbain Milieu rural
Effectif de l'échantillon 300 240
Moyenne de l'échantillon 80 77
Variance de la population 150 120
Peut-on affirmer qu'il existe une différence significative entre les rythmes cardiaques
moyens des deux populations ?
Application et décision
L'hypothèse testée est la suivante :
HO: µ 1 =
µ 2 contre Hl : µ 1 µz *
Les variances des populations n'étant pas connues, l'égalité des variances doit être
vérifiéeHO : ai= ai contre ai* nhest de Fisher
Hl :
lm1-m21 . . ,
Une valeur t de la variable aléatoire Test calculée :t = -;::====dite aussi t calculee
a-2 (_!_+_!_)
n1 n2
tcalculée (tobs) est comparée avec la valeur tseuil lue sur la table de Studentpour un
risque d'erreur a fixé et à (nl+ n2 -2) ddl.
· si tobs~ tseuil l'hypothèse HO est rejetée au risque d'erreur a : les deux échantillons
sont extraits de deux populations ayant des espérances respectivement µ1 et µ2.
· si tobsf tseuil l'hypothèse HO est acceptée: les deux échantillons sont extraits de
deux populations ayant même espérance µ.
Remarque: Pour l'application de ce test, il est impératif que X -.N (µ, o) pour les
échantillons de taille < 30, que les deux échantillons soient indépendants et que les
deux variances soient égales.
Exemple : Dans le but d'étudier l'influence du type d'atmosphère d'élevage sur la durée
de développement des drosophiles femelles, ces dermëres ont été élevées à 14"C sous
atmosphère normale (N) ou enrichie en CO2 {CO2). Les résultats suivants ont été
obtenus:
N_ 864 768 912 804 924 984 888 816 840 936 79? 876
CO2 840 948 936 1032 912 948 1020 936 1056 876 1032 918
Si les variances des populations ne sont pas connues et si leurs estimations à partir des
échantillons sont significativement différentes (test de comparaison des variances), il
fautconsidérér deux cas de figure selon la taille des échantillons comparés :
lesgrands échantillons avec nl et n2 supérieurs à 30.
lespetits échantillons avec nl et/ou n2 inférieurs à 30.
Cas où n1 et n2 > 30
La statistique utilisée est la même que pour le cas où les variances ·sont connues.
Sous HO : µ1 = µz
Z == (Ml-MZ) .
--:::==-Suit une 1oi norma 1e centree
' re'd u,te
. 1,..,.(0 ; 1)
0'2 0'2
.::.1+::Z
n1 n2
z observée.
zcalculée (zobs) est comparée avec la valeur zseuil lue sur la table de la loi normale
centrée réduitepour un risque d'erreur a fixé.
• si zobs~ zseuil l'hypothèse HO est rejetée au risque d'erreur a : les deux échantillons
sont extraits de deux populations ayant des espérances respectivement µ1 et µ2.
• si zobSi zseuil l'hypothèse HO est acceptée: les deux échantillons sont extraits de
deux populations ayant même espérance µ.
Remarque: Pour l'application de ce test, il est impératif que X -N (µ, cr) et que les
deux échantillons soient indépendants.
Exemple:
Dans le but d'étudier lmflllence éventuelle de la lilmtêre sur la croissance du poisson
lebistesReticulus, on a élevé deux lots de ce poisson dans des conditions dëc/airage
différentes, Au95ème jour, on a mesuré en mm les longueurs xi des poissons. On a
obtenu les résultats suivants :
= =
lot 1 (180 individus): éclairage à 400 lux. IX11 3 780IXl1 84 884
lot 2 (90 individus) : éclairage à 3 000 lux. L Xa = 2 043f, Xi~= 46 586
Que peut-on conclure ?
a) Test Z (n ~ 30)
Principe du test:
• On teste l'hypothèse que les différences individuelles entre sujetsappariés sont
nulles.
• La moyenne des différences suit une loi Z normale centrée réduite de moyenne 0
et d'écart type 1.
Intérêt du test:
• élimine la variabilité entre individus de la même série. On ne prend en compte
que la variabilité des différences entre paires.
• Ce test est plus puissant qu'un simple test de comparaison de moyennes.
Formulation:
• xi et yi: valeurs observées dans chaque série
• di : différence observée entre deux valeurs appariées
• sd2 : variance des différences
• md : moyenne des différences entre sujets appariés
• smd : écart type de la moyenne des différences
• n : nombre de couples appariés
Calculs:
- Constituer l'échantillon des différences : di = xi - Yi
"~ id·l
- Moyenne d es d "ff,
I erences : = n
m d .L.i=
'°~ 1(d·-md)2
: Sd =
. des d"ff erences
, 2 .L.t= l
Var1ance I
n-1
zcalculée (z obs) est comparée avec la valeur z seuil lue sur la table de la loi
normale centrée réduite pour un risque d'erreur a fixé.
Hl z Rejet de Interprétation
HO
< 1.96 Non Les moyennes des deux séries ne diffèrent pas significativement
bilatéral
~ 1.96 Oui Les moyennes des deux séries diffèrent significativement
< 1.64 Non Les moyennes des deux séries ne diffèrent pas significativement
Unilatéral
~ 1.64 Oui La moyenne d'une des deux séries est supérieure (ou inférieure) à
l'autre.
Lorsque la taille des échantillons est faible (n<30) lerapport entre les différences de
leurs moyennes et l'écarttype ne suit pas une loi normale centrée réduite Z; On utilise
alors le test T de Student.
Principe du test:
• Sous HO, les différences individuelles entres individus appariéessont nulles
• La moyenne des différences divisée par son écart type suit une loi loi T de
Student à n-1 ddl
Intérêt du test:
• On élimine la variabilité entre individus de la même série. Le testapparié est plus
puissant qu'un simple test de comparaison de 2moyennes.
Calculs:
Constituer l'échantillon des différences : di= xi - Yi
(d·-md)z
.
Var1ance des d"ff, 2
I erences : S d = "'~
.L.t=l l.
n- 1
Ecart type de la moyenne : Smd = ✓~
-;-
Application et décision
L'hypothèse testée est la suivante :
H0 : µx = µY ce qui équivaut µd = µx - µY = 0 contre H1 : µd =f=. 0
tcalculée (tobs) est comparée avec la valeur tseuil lue sur la table de
STUclentpour un risque d'erreur a fixé ét à n-1 ddl.
Hl t Rejet de Interprétation
HO
<T 5% ;n-1 ddl Non Les moyennes des deux séries ne diffèrent pas
significativement
bilatéral
~ T 5% ; n-1 ddl Oui Les moyennes des deux séries diffèrent
significativement
< T 10%; n-1 ddl Non Les moyennes des deux séries ne diffèrent pas
significativement
Unilatéral
~ T i0% ; n-1 ddl Oui La moyenne d'une des deux séries est supérieure (ou
inférieure) à l'autre.
A 2.47 3.09 2.14 2.47 3.06 2.72 2.29 1.90 2.34 2.75 2.67 2.80 2.51 2.23 2.201
B 2.30 2.96 2.23 2.34 2.84 2.59 2.15 1.88 2.32 2.65 2.68 2.58 2.43 2.02 2.17 1
di 0,17 0,13 -0,09 0,13 0,22 0,13 0,14 0,02 0,02 0,10 -0,01 0,22 0,08 0,21 0,03 i
- Formulerles hypothèses