Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Cours de Statistiques

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 83

I STATISTIQUES DESCRIPTIVES

-~
>.

La statistique : « C'est un ensemble de méthodes permettant de décrire et


d'analyser, de façon quantifiée, des phénomènes repérés par des éléments
ntJmbreux, de même nature, susceptibles d'être dénombrés et classés. »

La statistique descriptive se compose de 3 domaines distincts :

la statistique uni variée : étudie la répartition d'une population selon une variable (la
taille, le poids ... )

la statistique bivariée: étudie la relation qui peut exister entre deux variables (entre la
taille et le poids; pàr exemple...)

la statistique multi variée: s'intéresse plutôt aux relations qui peuvent exister entre
plusieurs vàriables que l'on traite avec des méthodes comme l'analyse factorielle .

Les statistiques descriptives recouvrent les différentes techniques de description des


données, synthèse sous forme de tableaux, représentations graphiques ou de
paramètres stcitistiques.

Pour les grands tableaux, les techniques peuvent devenir plus complexes. Elles ne sont
pas abordées ici. Pour mémoire, les principales méthodes d 'analyse de données sont:

• Analyse en composantes principales {ACP) dans le cas de plusieurs vàriables quantitatives,

• Analyse des correspondances (AFC) dans le cas de grands tableaux de contingence,

• Classification {CAH)

Les statistiques descriptives sont importantes pour présenter les données, déterminer
communiquer, les hypothèses à tester ...

On oppose les sta:tistiques descriptiYfljS aux !tlttirtiques infértntiettëf dont l'objectif


est de mettre enplace des règles de décision afin de réaliser des tests statistiques.
Nous aborderons ce type de statistique dans la partie 3.

;-..._ .. ,__,,,., A-- •- •-----••- - -"•• •- ... .,..,



A} Série Statistique Univariée

I-1 Définitions et Vocabulaire de la statistique


Population : La population est l'ensemble des individus sur lesquels portent
lesobservations.

Échantillon : Cest la portion de population servant à l'étude.

Unité statistique ou individu : élément qui constitue la population.

Caractère : Le caractère est la propriété étudiée.


Le caractère est qualitatif s'il n'est pas une valeur numérique.

Soit mesuré dans une échelle nominale, les modalités sont exprimables par des
noms et ne sontpas hiérarchisées. Un caractère nominal est dit dichotomique s'il
nepeut prendre quedeux modalités.

Exemple: la couleur du pelage, les groupes sanguins, les différents nucléotides de


/'ADN, la présence ou l'absence d'un caractère (dichotomique), etc.

Mesuré dans une échelle ordinale: les modalités traduisent le degré d'un état
caractérisantun individu sans que ce degré ne puisse être défini par un nombre qui
résulte d'une mesure. Les modalités sont alors hiérarchisées. ;,
6
Exemple: Moral d'un individu : bas ; moyen ; bon ; très bon

Le caractère est quantitatif s'il peut être mesuré:


Il est quantitatif discret s'il ne prend que des valeurs isolées.

Exemple : le nombre de petits par portée, le nombre de cellules dans une culture,
le nombre d'accidents pour une période donnée, etc .

.il.__ __,.__...... ··- ····•-•· . ··. ·............. _ ... - . ..


Il est quantitatif continu s'il peut prendre toutes les valeurs dans un intervalle
donné.Exemple : le poids ; la taille ; le taux de glycémie ; le rendement etc.
u:, ', . l (--._ ,- J~. i ,.
.:_-_;, 1. \ r_ \ . \ . ;·1 \ _ -

r, i 1

:: Dk,g,-w,,,,,e et bâ"ftlts : On l'utilise pour les séries è. MAPP-t:1 e discr.et. Les hauteurs
des différents bâtons sont proportionnelles aux effectifs correspondants.
etlecti:f
7

1
valeur

7 8 9 10 11 12

Diagramme à secteurs circulaires : On l'utilise le plus souvent dans ie cas d'une


~abt~di-~e'. Chaque secteor·a un angle au centre de mesure proportionnelle à la
fréquence de la classe correspondante exprimée en pourcentage.

::
Histogramme : On l'utilise pour les séries à caractère continu, lorsque les valeurs de la
variable sont réparties en classes. Les aires des différents rectangles sont
proportionnelles aux effectifs (aux fréquences) correspondantes .

..
,:} ';_ ( " ., 1
-
...

->-

30 60 ,\ ~,
1.
\, {. !_•'- li.. 120 180 _. / _)
L. r .,.J .

l'tJlygoMr dU trffectlY:, : est la lfgne polygonale joignant les milieux de chaque côté
supérieur des rectangles constituant l'histogramme.
, • , / V
.. ~ \. r•_ .·

MOtk et claa.,~ : On appelle mode d'une série statistique à caractère discret la


valeur du caractère statistiq.ue .qui correspond au plus grand effectif .
. On:. appeUe:.classe~modale d'.une-série:statistique à caractère continu la classe qui
correspond au plus grand effectif. Le mode est le centre de la classe modale.

ffl«:tff( : L'effectif d'une classe est le nombre d'éléments de la classe, on le note ri..
L'effectif total (noté N) est la somme des effectifs de chaque classe.

le polygone des effectifs cumulés croissants est la ligne polygonale joignant les points
ayant:
- pour abscisse : la borne supérieur de la classe.
- pour ordonnées : l'effectif cumulé croisant de la classe.

F ~ : La fréquence de la ri.ème classe est :f; = n;/N(elle peut être exprimée en


%i f
,i
l.li ~ est la valeur du caractère qui partage l'effectif total en deux parties de
même effectifs . .

~-\ ·· -·
\\ 1
- -- --·-

Dans le cas d'un caractère· continu la médiane peut être recherchée par lecture sur le
polygone des effectifs cumulés. C'est l'abscisse du point ayant pour ordonnée N/2.

l . f ~ld'une série statistique est la différence entre la plus grande et la plus petite
valeur du caractère.

~ : On appelle moyenne d'une série statistique et on note x le nombre:

. / ( -~ ! • ) '

xi désigne le centre de la classe. .


1
~
.v
k : le nombre de class~

Quartile : Les trois quartiles sont les trois valeurs du caractère qui partagent la
population totale en quatre parties d'effectifs égaux.
Le premier quartile Ql correspond à 25 % de l'effectif total.
Le deuxième quartile Q2 correspond à la médiane (50 % de l'effectif total).
'~ Le troisième quartile Q3 correspond à 75 % de l'effectif total.

Déc,1e : chaque décile partage en dix parties égales l'effectif total.

JI! N 4 : La variance Vest la moyenne des carrés des écarts à la moyenne.

Avec N:.effectif total


xi : Centre de la classe i
ni. Effectif de la classe i
x: Moyenne de la série
Écart-type : L'écart-type c, (lire : sigma) est la racine carrée de la variance: a =\IV

:: Distribution normale : De nombreuses séries statistiques dont l'effectif est important


ont une population distribuée suivant une loi dite normale avec une courbe des effectifs
appelée courbe de Gauss.
Dans une loi normale, valeur moyenne, valeur médiane, valeur modale, sont égales.
Pour une série statistique« normalement» distribuée, il y a environ:
- 68 % de la population dans l'intervalle [x-a; x+a]
- 95 % de la population dans l'intervalle [x- 2a; i+ 2a]
- 99% de la population dans l'intervalle [i- 3a; i+ 3a]
'/

I-2 Synthèse sous forme de tableaux

I- 2-1 Séries statistiques

Une série statistique correspond aux différentes modalités d'un caractère sur un
échantillon d'individus appartenant à une population donnée.

Le nombre d'individus qui constituent l'échantillon étudié s'appelle la taille de


l'échantillon.

Exemple :

Afin d'étudier la répartition du poids chez la population des étudiants SVTU 51 de la


faculté des sciences Ben M'Sik, de l'année universitaire 2011/2012; nous avons prélevé
d'une manière aléatoire 50 livrets médicales.

Les résultats observés exprimés en kilogrammes sur un échantillon de. 50 étudiants


sont notés dans la série ci-dessus :

Tableau des données brutes

55 61 64 66 69
56 62 65 66 69
57 62 65 66 70
57 62 65 67 71
58 -63 65 67 71
58 ·63 65 67 71
59 63 65 68 72
59 64 65 68 73
60 64 65 68 74
61 64 66 69 75

I-2-2 Tableaux statistiques

Le tableau de distribution de fréquences est un mode synthétique de présentation des


données. Sa constitution est immédiate dans le cas d'un caractère discret mais
nécessite en revanche une transformation des données dans le cas d'un caractère
continu.

I-2-2-1 Caractères quantitatifs continues

;_
:'".'::.=:-_-:- J'IIZ".. .. ..-- .. . - _·- - - .. . - ..... · -~-- ---~· . . ·- .. .._ · ,- ·. · .- . ,.... .- .- ~~ - - ~..~-.... ... - ~ .. . -...._ . --=-·.,,-,. - · - •·, ......... - _.__; _~ ---- - · •-~ ,! - :,"::" . - . • ... - - - - . . . . . ,• . . . !~ ·• · · · - ··· ···· ·· · ··· ·-:-·:
I

Dans le cas d'un caractère quantitatif continu, l'établissement du tableau de fréquences


implique d'effectuer au préalable une répartition en classes des données. Cela nécessite
de définir le nombre de classes attendu et donc l'amplitude associée à chaque classe ou
intervalle de classe.

En règle générale, on choisit des classes de même amplitude. Pour que la distribution en
fréquence est un sens, il faut que chaque classe comprenne un nombre suffisant de
valeurs (mï.

Diverses formules empiriques permettent d'établir le nombre de classes pour un


échantillon de taille n.

La règle de STURGE : Not\'lbr~ de c ~ =J1 + 3.3log(n~n: taille de l'échantillon


kt. )1è~l'" cle ~ U l E ~ ~ K: 4J .2/, /YI •. •O

... =t>l.cc~ ~ drsse


t ~ entre~ e est obtenu ensuite de la manière suivante :

Intervalleae classe= (X max - X min)/ Nombre de classes avec X max et X min,


respectivement la plus grande et la plus petite valeur de X dans la série statistique.

A partir de Xm1n0n obtient les limites de classes ou bornes de classes par addition
successive de l'intervalle de classe. En règle général, on tente de faire coïncider l'indice
de classe ou valeur centrale de la classe avec un nombre entier ou ayant peu de
décimales.

Exemple : Dans le cadre de l'étude de la population des étudiants SVTU S1 de la


faculté des sciences Ben M'Sik, de l'année universitaire 2011/2012, les valeurs du poids
peuvent être réparties de la façon suivante :
1 i
• définition du -nombre ·de classes : \} . '

Règle de Sturge: 1 + (3,3 log 50) = 6,60


75-55
· définition de l'intervalle de classe :/ = 6.6 0
- 3.02 KG que l'on arrondit à 3kg par

commodité

· Tableau de distribution des fréquences \


Classes Effectifs n
1
•.

/F [55 - 58[ 4 , . !i

[58 - 61[ 5 '- - • ... 1

[61 - 64[ 8
(64 - 67[ 16
[67 - 70[ 9
[70 - 73[ 5
[73 - 76[ 3

Indice de classe= Xi= (Borne supérieure+ Borne inférieure)/2

x, ni
56,5 4
59,5 5
62,5 8
65,5 16
68,5 9
71,5 5
74,5 3

I-2-2-2 Caractères quantitatifs-discrets

Les variables discrètes sont des variables numériques discontinues. Le plus souvent, il
s'agit des nombres entiers. Il n'existe aucune valeur intermédiaire possible. Une variable
discrète est le résultat d'un dénombrement. Exemple: Répartition de 30 sujets selon
leur composition de leur fratrie (nombre de frères et sœurs dans la famille).

Fratrie 1 2 3 4 >4
Effectif 11 6 5 4 4

I-2- 2-3 Caractères quai itatifs

1:Groupe Sanguin IA
Effectif 20
I-3 Représentations graphiques
Les représentations graphiques ont l'avantage de renseigner immédiatement sur
l'allure générale de la distribution. Elles facilitent l'interprétation des données
recueillies.

I. 3 .1 Caractè~s quantitatifs discrets

Pour les caractères!_quantitatifs discre!}, la représentation graphique est le diagramme


en bâtons où la h a u t ~ r r e s p o n d à l'effectif ni associé à chaque modalité
du caractère xi.

Exemple :Cécidomyie du hêtre

Distribution du nb de galles par


feuille
16 -
14

-
:;;
12
10
-
u
CIi
1t
·2 6
8

4
2
0 1
0 1 2 4 8 12
x:nb de galles par fauille

I.3. 2 Caractères quantitatifs continus

Pour les caractères quantitatifs continus, la représentation graphique est l'histogramme


où la hauteur du rectangle est proportionnelle à l'effectif m: Ceci n'est vrai que si
J'int'er11a//e d~ ~lasse ~t ~ons_!~~~J Dans ce cas l'aire comprise sous l'histogramme s'avère
proportionnelle à l'effectif total. En revanche lorsque les intervalles de classe sont
inégaux, des modifications s'imposent pour conserver cette proportionnalité. Dans ce
cas, en ordonnée, au lieu de porter l'effectif, on indique le rapport de la fréquence sur
l'intervalle de classe. Ainsi la superficie de chaque rectangle représente alors l'effectif
associé à chaque classe.

Exemple :
1 •

1--
Dans l'exemple de la répartition du poids des étudiants, SVTU S1, la distribution des
fréquences observées est représentée par un histogramme avec en ordonnée les
effectifs ni et en abscisse les limites de classe de la variable étudiée.

18
f6 · Histogramme - -
f4
12
êO
c8
t6
;4
f2
0 +-- ...,..,.
55 58 61 64 67 70 73 76
Classes du poids

I-4 Paramètres statistiques.

Le dernier niveau de description statistique est le résumé numérique d'une distribution


statistique par desparamètres statistiques ou indicateurs numériques.
Remarque : Ces derniers représentent une transition entre la statistique purement
descriptive et l'estimation des paramètres qui caractérisent les distributions de
probabilité

I. 4 .1 Indicateurs de positi~

Ces paramètres-ont pour objectif-dans ·le cas d!·un ·caractère-quantrtatif de caractériser


l'ordre de grandeur des observations.

I .4 .1.1 La moyenne arithmétique

Soit un échantillon de n valeurs observées xl, x2, .... ,xi,.... ,xn d'un caractère quantitatif
X, on définit sa moyenne observée xcomme la moyenne arithmétique .des.n ~a./f!urs :

-
x=---
Lf:1 Xt
n
Si les données observées xi sont regroupées en k classes d'effectif ni {caractère
continu regroupé en classe ou caractère discret), il faut les pondérer par les effectifs
correspondants:
\
1

. - -- - !

' ·---

x=!~
nL n-X· L L
i=l

Exemples :

Dans le cas de notre exemple le poids moyen des étudiants SVTU 51 2011 est:

❖ dans le cas des données non groupées

55 + 56 + ..... +74 + 75
i = 50

❖ Dans le cas des données groupées


k=7
~ 3269
L nixi = 3269 d'où X = 50 = 65.4
i=l

<
Remarque :

La moyenne obtenue après regroupement des données en classesdîffère


légèrement de la moyenne calculée à partir des données non groupées en raison
d'une perte d'information.

Si l'échantillonnage n'est pas de type aléatoire simple, les deux moyennes peuvent
être très·différentes.

I.4.1.2La médiane ~tr'l ~4 4,C(;


La médiane, Me, est la valeur du caractère pour laquelle la fréquence cumulée est
égale à 0,5 ou 50%. Elle correspond donc au centre de la série statistique classée
par ordre croissant, ou à la valeur pour laquelle 50% des. valeurs observées sont
supérieures et 50% sont inférieures.

• Dans le cas où les valeurs prises par le caractère étudié ne sont pas regroupées
en classe,

► sin est impair, alors n =2m + 1 et la médiane est la valeur du milieu Me= xm+l.

► si n est pair, alors n = 2m et une médiane est une valeur quelconque entre xm et
xm+J.

:~:.-.. ··· ·· ·· • ·-- __ _ ;-;::-:.---=:-:~ ~--:-:•..;•_--_-_··--,-;"'; -,-=·.,-,..-- .--=--=-=·.:-. .. --- ----- ---- - - - ------ - - -.. - - - ~-- ·--- · - -- -----.. --··-•-"••-··--·--- ·-• - ·
Dans ce cas il peut être commode de prendre le milieu.

· Dans le cas où les valeurs prises par le caractère étudié sont groupées en
classe, on cherche la classe contenant le ne/2 individu de lëchantil!on. En
supposant que tous les individus de cette classe sont uniformément répartis à
l'intérieur, la position exacte du ne/2 individu de la façon suivante par
interpolation lin_~air:_E: :

Avec:

xm : limite inférieure de la classe dans laquelle se trouve le ne/2 individu (classe


médiane).

xm+l: limite supérieure de la classe dans laquelle se trouve le ne/2 individu


(classe médiane).

ni: effectif de la classe médiane

Ni : Effectif cumulé inférieur à xm

n: ta!Ïle de lëchantil/on.

Exemple:

Dans le cas de la distribution des poids, la valeur de la médiane est:

► Cas des données groupées :

Soit Me E [65kg, 65kg] ou .Me =65kg (voir tableau des données brutes)

► Cas des données non groupées :

n=50, la 25ème valeur se situe dans la classe [64-67/qui contient les individus de
18 à 33. d'où avecxm= 64 kg, ni= 16 individus, N,: = 17 individus et i = 3kg

Me= 65.5

Remarque :

~•·,,-.-:.-,.,...,....,,-_,,._-_~_••t, • ·• c·;·. •- .• ,_ • ·-·••,·••' - • , - , . . • •. • ,, •. ,, •,._, •••· • ,, •·• • • • • - •-• •·•" M_., - - . : ; , ·•..', .•··. • _. • - - • . •. "°'"':' , . .,;•• •·•'•• .•... ••• ....- • • .~.,.-,. • ,•.-•u O •••• ... •',.,.,,:,.,;,~_,,.,. . ,,-.,~ '"'-"°'-,.::,, , ~ ~ · • • • • • • •·•• .~• ~- ';_• • •:.' ••-.:--.-.~--'"-:;•,'. • · ~ • ·•' ·•··· .:;,•... ••< ... -. •7.'....'-:,:: ••
Si la distribution des valeurs est symétrique, la valeur de la médiane est
proche de la valeur de la moyenne arithmétique.

I.4.1.3Le mode ~
Le mode, Mo d'une série statistique est la valeur du caractère la plus fréquente
ou dominante dans l'échantillon. Le mode correspond à la classe de fréquence
maximale dans la distribution des fréquences.

On peut identifier le mode comme la valeur médiane de la classe de fréquence


maximale ou bien effectuer une interpolation linaire pour obtenir la valeur exacte
du mode comme suit :

Avec

Xm : limite inférieure de la classe d'effectif maximal

i: intervalle de classe (xm ..1 - Xt,J

l:::.i: Ecart d'effectif entre la classe modale et la classe inférieure la plus proche
-=---- .
-
l:::.s : Ecart d'effectif entre la classe modale et la classe supérieure la plus proche
~ - ; -~

Dans le cas de la distribution du poids, la valeur du mode est :

► Valeur- ,approchée :

La classe de fréquence maximale est [64,67[ avecni = 16 d'où Mo = 65,5 kg

► Valeur exacte :

Mo = 64 + 3*8/( 8+7) = 65,6

:: avec Xm = 64 kg, Lli= 16-8 = 8 As= 16-9 = 7 et i = 3 kg

Remarque : Une distribution de fréquences peut présenter un seul mode


(distribution

Uni modale) ou plusieurs modes (distribution bi ou tri modale).

Si la distribution des valeurs est symétrique, la valeur du mode est proche de


la valeur de la moyenne arithmétique.

[. -
I. 4 .1. 4 Comparaison des indicateurs de position /L ri 1 ,,
VaJte,u,1.-,") t'4 , ~ , , , .

Avantages Inconvénients
Facile à calculer Fortement influencée par les
Moyenne valeurs exy_œnes de la V.A ;
Représente mal une population
Arithmétique hétérogène (Polymodale)

N'est pas influencée par les Se prête mal aux calculs


valeurs extrêmes de la V.A; statistiques ;
Peu sensible aux variations Suppose l'équi-répartition des
d'amplitudes des classes ; données ;
Médiane Calculable sur des caractères Ne représente que la valeur qui
cycliques (ou la moyenne a peu sépare l'échantillon en 2 parties
de signification); égales.

N'est pas influencée par les Se prête mal aux calculs


valeurs extrêmes de la V.A ; statistiques ;
Calculable sur des caractères Très sensible aux variations
cycliques (ou la moyenne a peu d'amplitudes des classes ;
Mode de signification); Son calcul ne tient compte que des
Bon indicateur de population individus dont les valeurs se
hétérogène rapprochent de la classe modale.

Dans le cas où I.e. caractère étudié se distribue selon une loi normale Laplace-
Gauss, alors, la moyenne.x, la médiane Me_et le modè Mo pr-ennent la même
valeur.

I. 4. 2 Indicateurs de dispa-sio~

Ces paramètres ont pour objectif dans le cas d'un caractère quantitatif de
caractériser la variabilité des données dans l'échantillon.

Les indicateurs de dispersion fondamentaux sont la variance observée et


l'écart-type observé.

I.4.2.1 La variance

Soit un échantillon den valeurs observées xl, x2, .... ,x,: .... ,xn d'un caractère
quantitatif X et soit sa moyenne observée. On définit la variance observée
notée a,..2 comme la moyenne arithmétique des carrés des écarts à la moyenne.

"::- : -:~ -.:_";:'.":",-:-•. - .•• "'.•.•: • , ;,;~ . :•,~:. - - , ., -,-_ ::__••• • : ~• .. •.-,.•.:: C •• C .~• " •. • .~ ,~~' :;,~.ca...-a-• -~ ••~-••• .. '•• ·.•- .· - ·,', '::: ,' i:"',,;;•...•..• -: -:~.• •:•,• •• ~ .•::---•••.;-:;·.• •.--:-,;, ,• .- • ••••• •:-:-: • "• • .:-:--,:•. • -u-:- . - C ,•,;;•.,••.':" •:.'°'..: ';!r,•.~.,•~·: ,"·· .·,~:, :,:' - • -;-;- :-:-.•:::,-~;.: " '- .' ,,;'" • '" ••--- · : , •• •-- , • -: ••• .,;,. , -- - • - •• •~ ,'' --~ >.
N n

• _!-.,~
&Jcr 2 = 2.. '(x-i -
NL .i) 2 et s z =
x n-
1 '(x · -
1L i
x)2
~v- i=1 i=1

Pour des commodités de calcul, on se sert du théorème de Koenig que nous


démontrons dans un cas particulier.

S OI·t A -- ""N
L.,i=l ( Xt - X-)2 -- ""N
L.,i;:1 ( xi2 - 2XtX- + X-2) -- "vN xi2 -
L..i=l 2 ""N
L.,i=l Xt X- + ""N
L.,i=1 X-2

ainsiA = If= 1 xf- Ni 2

La formule de la variance qui résulte du théorème de Koenig est donc :

21
cr =-
N
I
N

2
i
-x ets = - -xi- -
x
-2
n-1
- -
nx- 2
~n
.L.ii=1
2 -2

i=l

Dans le cas de données regroupées en k classes d'effectif ni (variable continue


·regroupée en classes ou variable discrète), la formule de la variance est
lasuivante :

k k
1
o- 2 = 2.'
NL n -(X· - i i
x) 2 et Sx2_
- n - lL
' ni(Xi - -2
x)
i=l i=l

I.4.2.2 L'écart-type

L'écart-type observé correspond à la racine carrée de la variance observée:

a=.JaÏ- et Sx=.Jsi
N.B : s/ et Sx représentent respectivement la variance et l'écart type au niveau
d'un échantillon.

Remarque : De part sa définition, la variance est toujours un nombre positif.


Sa dimension est le carré de celle de la variable. Il est toutefois difficile
d'utiliser la variance comme mesure de dispersion car le recours au carré conduit
à un changement d'unités. Elle n'a donc pas de sens biologique direct
contrairement à l'écart-type qui s'exprime dans les mêmes unités que la moyenne.
I.4.2.3 Coefficient de variation

La variance et l'écart-type sont des paramètres de dispersion absolue qui


mesurent la variation absolue des données.

Le coefficient de variation notée. V. est un indice de dispersion

relati-/C. V = 100 5

X
: -: €feo,J:-~

Ce coefficient nous renseigne sur l'homogénéité d'une distribution statistique. En


général, on considère une distribution est homogène si son C. V est inférieur à
15%.

1.4. 3 Indicateurs de for,ne


1. 4. 3 .1 Coefficient d'asymétrie de Fisher ( skewness)
Le moment centré d'ordre trois est défini par :
n
1"\1
m 3 =;_L(xi-x)
-3

i=l

Il peut prendre des valeurs positives, négatives ou nulles. L'asymétrie se mesure au


moyen du coefficient d'asymétrie de Fisher :

1. 4. 3 .1' Coefficient .d'.asymétrie -de Yule_


Le coefficient d'asymétrie de Yule est basé sur les positions des 3 quartiles
(1er quartile, médiane et troisième quartile), et est normalisé par la distance
interquartile : At.\ ç C
,J 1-.1 I·. ·_ ~ '
,
.J.; ~~
cr-"

1. 4. 3 .1" Coefficient d'asymétrie de Pearson


Le coefficient d'asymétrie de Pearson est basé sur une comparaison de la moyenne et du
mode, et est standardisé par l'écart-type :

x-M0
Ap=---
sx

··- - - ··- ····-------- ..•.... , .... _._ - ---· -- -···· . - - ·-······--•···-· -···· ·-·· · ··.. " ..,_,.,._. ......... :.~ \• - . . · -- ·: ... . ..-
' ---
Tous les coefficients d'asymétrie ont les mêmes propriétés, ils sont nuls si la
distribution est symétrique, négatifs si la distribution est allongée à gauche
(leftasymmetry), et positifs si la distribution est allongée à droite (right asymmetry)
comme montrée dans la Figure suivante.
~s~o <o
Symmeny l.efr Asymm.

/
Asymétrie d'une distnbution

1.4.3.2 Paramètre d'aplatissement {kurtosis)


L'aplatissement est mesuré par le coefficient d'aplatissement de Pearson

ou le coefficient d'aplatissement de Fisher

m4
92 = /32 - 3 = -s4 - 3
X

oùm4 est le moment centré d'ordre 4, et s/est le carré de la variance.


- Une courbe mésokurtique si gz~O.
- Une courbe leptokurtique si gz)(). Elle est plus pointue et possède des queues plus
longues.
- Une courbe platykurtique si gz<O. Elle est plus arrondie et possède des queues plus
courtes.
La figure suivante présente un exemple de deux distributions de même moyenne et de
même variance. La distribution plus pointue est leptokurtique, l'autre est mésokurtique.
La distribution leptokurtique a une queue plus épaisse.
Leptokurtique

\
\~- mésokurtique

-4 -2 2 4

Distribution mésokurtique et leptokurtique

8) Série Statistique bivariée


QU'EST-CE QUE LA STATISTIQUE DESCRIPTIVE BIVARIEE?

Afin d'étudier la répartition des terres agricoles d'une région, on a noté un


certain nombre de renseignements sur chaque exploitation, notamment:

- sa taille (surface, en hectares),

- l'âge du chef d'exploitation,

- le type de culture pratiquée,

- le nombre de personnes employées à temps plein sur


l'exploitation

r--7
1 20 1
'._____y"

....-~••-•---- ----- - - - - ---- - ---·- .. -~


No Age du chef Nombre de
Taille Culture
d'exploitation personnes
Exploitation (ha) dominante
(années) employées

1 50 50 blé 2
. 2 50.5 .45 vigne 4
3 35 38 orge 3

4 62.1 25 blé 6

... ... ... ... ...

198 56 45 blé 2

Les leçons précédentes traitaient de la statistique descriptive univariée, c'est-à-dire de


la description d'une série statistique selon un seul caractère (la taille par exemple).

En plus de l'étude séparée de chaque caractère, on veut visualiser, et mesurer le cas


échéant, les liens existant entre les variables prises deux à deux : c'est 1'objet de la
statistique descriptive bivariée.

Ceci se fera, comme précédemment, au moyen de tableaux, graphiques, et calcul de


paramètres-clés

On traitera donc ici du cas où l'on dispose-de deux caractères, X etY, observés..sur
les mêmes n individus.

Chacune des deux variables pouvant être qualitative, quantitative discrète,


quantitative continue, on envisagera différents cas de figure.

Individus Variable X Variable Y


1 --- ---
2 --- ---
... ... ...
... ... ...
n --- ---
Exemple: 2 variables quantitatives (Poids et Taille)

1 25 132 21 33 139 41 33 140


2 25 132 22 33 132 42 41 142
3 29 132 23 31 139 43 35 143
4 23 131 24 31 132 44 38 140
5 24 132 25 34 . 135 45 33 140
6 21 128 26 29 · \. 134 46 38 141
7 26 133 27 34 140 47 36 144
8 24 125 28 35 140 48 35 141
9 29 125 29 29 136 49 35 140
10 28 133 30 32 134 50 37 146
11 28 132 31 31 140 51 35 146
12 28 132 32 31 137 52 34 139
13 l4 r33-- 33 -34 133- 53 --·-3r- -146-
14 28 128 34 34 136 54 34 140
15 26 129 35 32 137 55 41 144
16 29 126 36 33 140 56 39 146
17 22 133 37 33 137 57 34 147
18 28 128 38 31 135 58 37 139
19 27 125 39 27 136 59 39 140
20 26 128 40 28 133 60 38 141

1- Tableau de distribution de fréquence: tableau de corrélation

rraille/Poids 21-24 24-27 27-30 30-33 33-36 36-39 39-42 Somme


125-128 1 1 3 5
128-131 1 2 2 5
131-134 1 5 5 2 13
134-137 3 2 3 8
137-140 4 2 1 7
140-143 2 7 4 1 14
143-146 3 1 1 5
>=146 1 1 1 3
Somme 3 8 13 10 16 7 3
Représentation graphique: Diagramme de dispersion

150.r------------------,

145
-•---• •• • •
•• ••
1. 140 I ••...,.• ••
•••
,
~ 135
130

•• . ·-


• •• •••• •
• •
• ••
• - - -•~••- - - - - - ~ - - ~ - - '
125 ' - , , - -
20 25 30 35 40
Poids

2-Paramètres statistiques:
2-1 Paramètre de Position:

Centroïde ou centre de gravité

Le centre de gravité d'un nuage de points Mi de coordonnées (xi, yi) est le


point G de coordonnées (x ;y ) ; c'est le point moyen du nuage.

x est la moyenne des Xï et y la moyenne des Yï

..... Y [poi:ls)
40 -- • • •
--
•••
• •
36 --

-- • ••
••
·•
•••
. ~

32 -
:.y
• •• •
• •• G• ••
28 -
--
.... .• . • •. • •

- ... • •

24 •
.... ••
-,- • •
20 ....
• x
• 1 . ...
~
1
125 130 135 140 145
X (Taille)

2-2 Paramètre de dispersion:


a) Covariance

On appelle covariance de deux variables statistiques X et Y sur les


mêmes n individus le nombre :

d' , h t"II S
·
A u niveau un ec an I on : xy = '\'n
L..i=l
(x,-x)(yi-Y)
n- 1
= nLXY-LXLY
( )
n n-1

Ce nombre est positif si X et Y ont tendance à varier dans le même sens, et


négatif si elles ont tendance à varier en sens contraire.

Si les données sont groupées en (xi, yi) d'effectifs ni,


k k
Cov(x,y) = ~ _L ni(Xi - x)(Yi -y)=! _L niXiYt - xy
i=1 i=l

La covariance peut varier de - 00 à +00 ce qui rend l'interprétation de degré de


liaison entre X et Y difficile on préfère d'utiliser le coefficient de corrélation
(linéaire) pour quantifier le degré de liaison entre deux variables quantitatif

b) Coefficient de corrélation (linéaire)

Le coefficient de corrélation entre deux variables statistiques X et Y sur les


mêmes individus est le nombre :

Cov(x, y) = sx,y
SxSy SxSy

Ce coefficient est toujours compris entre -1 et + 1.

S ' il est proche de+ 1 ou - 1, X et Y sont bien corrélées, c'est-à-dire qu'elles sont
liées entre elles par une relation presque affine; le nuage de points est presque
aligné le long d'une droite (croissante sir=+ 1, décroissante sir= - 1). S'il n'y a
aucun lien entre X et Y, ce coefficient est nul, ou presque nul.

• r vaut 1 si et seulement si le nuage est formé de points alignés le long d'une


droite croissante, de la forme: Yi = a X;+ b, avec a> O.

r vaut - 1 si et seulement si ils sont le long d'une droite décroissante :yi = a xi +


b, avec a< 0

_ , ··- - - - ,~.•r:-- .· .. ·· - --• .·- ,.• - ······ - • . ··- .. .... -. .... ·- ···•·-- ·-·--·- ··· ·• - ~ ... ....~.- ~---·~ .. ... ..._ ... ___ ., __,, _.,.. __ ···--····-- ··•·"" ·-·· . .
r sera donc proche de 1 si le nuage est très allongé selon une direction
croissante X augmente, Y augmente aussi de façon proportionnelle et presque
systématique.

• r est proche de - 1, lorsque X augmente, Y diminue de façon proportionnelle, et


presque systématique.

y
_.,..--"'
....... r- 1
r= 1
Y._• 1

y
.1111111..

. ---....
--
--- .-..------.- --
--• --- -~·:- -- ..
----
--·- - --.:.-.1:-.
-----
--=--=----=
••
...

---
-■-
■- -
- •• -·.a:.
-

X ,,.

■ • .,. • •
••\.t•■"•·•i:.~•­
......•• ••
• ~i:.-.•
•• •••
":'- ■



.,,_...........
■••
•• .. ■ ■ •••

••• i:.,~•
• .. • • •
..........
...■;. ,.
···•-.:.;.
.... ...
••••

••
•• •
••
••
• ••••••••
•• ••
• ••• •••• L
r
■■•
,. • ••••• ••
r

Exemples de cas où r est proche de 0


2-3 Régression linéaire

• Objectif: Déterminer une relation de dépendance linéaire entre une variable y


(variable dépendante) et une ou plusieurs variables explicat(ves.
- Régression linéaire simple : une seule variable explicative (x),
- Régression linéaire multiple : plusieurs variables explicatives (x1, x2, ... , xp).

a) Droite de régression de y en x

► Equation:Dy,x = a+ bxa, b E 1ffi.


/ n,-3
y î ~.
",.-;~ <:.::•
.. ,. ..
,,~~-~
,.~~=··.::::;~·~
....'.
1 ., ... ~
.
r

► Problème : déterminer a et b à partir d'une série bivariée :

{(xbyi);i = 1,2, ..... ,n}


► Résidus

Définition :
Valeurs ajustées :y; =a+ bxi

Résidus : ei = Yi - Yt = Yi - a - bxi

yt •
Y;' ----rr
Yi~ L - - ___._ei •
! . 1

1 . : l ...
► Principe des moindres carrés
• Idée : choisir a et b de façon à rendre les résidus les plus petits possible.

Peu pratique d'un point de vue mathématique.

· Minimiser 2:f= 1 el
➔ Principe des moindres carrés !

• Objectif

Mina,b

• Solution

_aQ_(a_,b_) =0 aQ(a, b)
aa ab =O
• Calcul
o 1ère dérivée partielle :

n
8Q(a,b) ~
aa = 0 <=> 2 x (-1) x L/Yi - a - bxJ =0
i=l

n
~ L(yi - a - bxJ =
i=l
0

n n
<=> LYi =
i=l
na +b L
i=l
xi

1 + '

-' G/
, r------71 _- ·
:r :r
o 2ère dérivée partielle:

n
aQ(a,b) ~
ab = 0 <==> 2 x (-1) x L(Yi - a- bxa =0
i=l
n n n

•~ I i=l
XiYi - a L
i=l
xi - b Li=l
xf =0
n n
<==> ~nL
~ x-y·
i
-
i .
fv -
v .
bx)i - b!_ ~ xf
nL i =0

<==> (! f x,y, -xy)- (! i xt'x,) =


L=l
b
t=1
O

• Solution
cov(x, y)
a= y-bi et b = - - - -
Var(x)
b) Droite de régression de x en y

Dx,y = a' + b'xa', b' E fis.

a'= i-by et b' = cov(x, y)


. Var(y)

J •
l
f

Variances résiduelleet de régression

► Décomposition de la variance de y:

-::----=-:.cc.. ~ : -. ..:· <~--- _&--•_· ,- __ ~"'.•.?Y. -- -·--· -llffl2!r __-:;=.--.. ------ ~""'"" .... __ .,, .. ~ ~· ... , - ~ - -- -----·~--~ .~ -~---------------'-,~:-· .,·----- . - -----·--·~_;.,_________ ,. _____ ._ ... ··------·-·-· -- .,:••·••=ri.· ..?.' ____-::._·--~
n n n

s; = ~I (yi -y)2 = ~I (yi - yn2 + ~L (yt -y)2


i=1 i=l i=l
Variance résiduelle : ~ Lf=i (yi - y[)2
Variance de régression :;; Lf= 1 (yi - y) 2

.
i
Yt
~

e-1 =J·1 -yi


*
Yl -~-----+------------·--
. l1 •!
~ .. - \ ' J
..
Yi -y . l
2

y ' '

X·!

► Coefficient de détermination :

"1n ( * -)2
R2 = Lli=l Yi - Y
I?::1 (yi - J) 2
Le R2 ou coefficient de détermination mesure la qualité de l'ajustement
des estimations de l'équation de régression. Il est utilisé à la fois en
régression simple et en régression multiple. Il permet d 'avoir une idée
globale de l'ajustement du modèle. Il s ' interprète comme la part de la
variance de la variable Y expliquée par la régression, varie entre O et 1
et s 'exprime souvent en pourcentage.

En régression simple, un R2 proche de 1 est suffisant pour dire que


l'ajustement est bon.

Ci-dessous, la valeur de R2, le coefficient de détermination linéaire


simple, est égale à 0,713. En ramenant cette valeur en pourcentage, il
est possible d'interpréter le coefficient de détermination comme suit;
71,3% de la variabilité (ou variance) de la variable Taille est expliquée
par la liaison avec la variable Poids.

En régression multiple, une valeur élevée du coefficient de


détermination n.' est pas suffisante pour affirmer que le modèle est bon,
il est nécessaire d'effectuer un test sur la significativité de R of in de
savoir s'il existe une relation entre Y et les Xi. Ce test revient à
effectuer un test de significativité globale du modèle à l'aide du test
de Fisher. Notons que de faibles valeurs du F statistique sont associées
à des valeurs du R2 proches de O, et de fortes valeurs du F à des valeurs
de R2 proches de 1.

Il est important de préciser que si vous souhaitez faire des prévisions,


il est souhaitable que la valeur du coefficient de détermination soit
élevée, car plus la valeur de R2 est élevée, plus celle de la variation
inexpliquée est petite.

Enfin, si le R 2 est certes un indicateur pertinent, il présente un défaut


parfois ennuyeux, il a tendance à mécaniquement augmenter à mesure
que l'on ajoute des variables dans le modèle. De ce fait, il est inopérant
si l'on veut comparer des modèles comportant un nombre différent de
variables. Il est conseillé dans ce cas d'utiliser le coefficient de
détermination ajusté qui est corrigé des degrés de libertés. Le R 2
ajusté est toujours inférieur au R2 •

► Coefficient de détermination ajusté

2
RA. té
s; - V(ei)
= -----
JUS 52
y

V ( ei) = z:r=i et j ddletddl= n-2


► Exemple d'application

Dans une étude sur le mécanisme de détoxication du brochet (Esoxlucius),


B01ïeau et Alary (1975) ont dosé la concentration en pesticides (DDT; DDD et
DDE) contenus dans l'organisme d'individus capturés dans la rivière Bleury
{Province de Québec). Les auteurs cherchaient si la concentration en pesticides
dans les graisses croissait avec l'âge des individus. les résultats obtenus figurent
dans le tableau suivant :

2ans . 3ans 4ans 5ans 6ans


0,144 ~ 0,285 0,418 0,675 1,13
0,171 Q 0,295 0,441 0,685 1,18
0,178 ~ 0,321 0,451 0,726 1,21
0,184 0,354 0,451 0,736 1,23
0,193 0,359 0,458
0,197 0,361 0,461
0,198 0,362 0,464
0,199 0,364 0,465
0,199 0,373 0,465
0,206\ 0,382 0,469
0,216 0,403 0,475
0,258 0,407 0,48
0,413

a) Déterminer la droite de régression permettant de prévoir la concentration en


pesticide à partir de l'âge..
b) Quelle est la concentration attendue en pesticide d'un brochet de 3 ans?
c) Quelle est la moyenne observée pour cette classe d'âge ?
d) Comparer les résultats obtenus en b) etc) et conclure.
e) Calculer le coefficient de détermination sachant que Li=l (y( - y) 2 = 2.97
f) Calculer le coefficient de déterminationsachantqueI,(=_ 1
2
ef =0.389
Données :I;x=155, rx =601, Iy=20.09, ry2=12.34
Partie 2
Probabilités
A- Théories des erobabilités :
La théorie des probabilités est la partie la plus abstraite de la statistique. Elle
traite des phénomènes aléatoires et s'est développée dans des salles de jeu, ce
qui explique le fait que la majorité des exemples retenus sont empruntés aux
jeux de hasard.

La théorie des probabilités est l'intermédiaire entre la statistique descriptive qui


traite des séries statistiques directement, et l'inférence statistique qui
comprend les valeurs statistiques comme les indicateurs indirects de valeurs
vraies mesurées par échantillonnage.

I/ Éléments du calcul des probabilités Vocabulaire probabiliste:

❖ Epreuve {ou expérience) aléatoire:

Cesttoute épreuve ou expérience dont l'issue n'est pas déterminable à priori.

Une expérience est dite aléatoire si ;

a- On ne peut prédire avec certitude son résultat

b- On peut décrire l'ensemble de tous les résultats possibles.

Exemple: jet d'un dé; lancer d'une pièce de monnaie, état de santé d'une
personne.

❖ Univers ou Ensemble fondamental :représente l'ensemble des résultats


possibles d'une expérience aléatoire; il est noté.n.
Exemple : Si on lance un dé une seul fois, l'ensemble des résultats possibles sont
n = {1, 2, 3, 4, 5, 6}.
❖ Événement :
C'est un élément ou sous ensemble den. On distingue l'événement élémentaire :
obtenir 2 de l'événement composé :obtenir un nombre impair.
Lorsque les événements sont équiprobables, la probabilité d'un événement A est :

nombre de cas favorables Card(A)


P(A) = nombre de cas possibles Card(fl)
Exemple :soit une urne contenant 10 boules dont 2 blanches, 5 rouges et 3
bleus. On tire une boule au hasard. Quelle est la pro~abilité qu'elle soit de
couleur blanche ?
Soit A l'événement : « obtenir une boule blanche»
P(A) = 2/10 =1/5
❖ Définition fréquentielle de la probabl'lité
Soitn un ensemble fondamental et A un événement quelconque de n.
P(A) = lim fn(A)
n ➔ oo

Avec n : nombre de fois que l'expérience se répète et fn(A)--= n(A},: f ~ c e


1t

de la réalisation de l'événement A au cours den répétition~. 0 <~""\ft)l l

Exemple : Votre professeur de statistique a enseigné à 14000 personnes,


parmi celles-ci 1265 ont échoué
La probabilité de ne pas valider l'élément statistique est 1265/14000=0.09
❖ les règles de calcul des probabilités :
+ La probabilité de réalisation d'un événement impossible est égale à O.
+ La probabilité de réalisation d'un événement certain est égale à 1.
+ Si A et B sont deux événements incompatibles, alors la probabilité de la
réalisation simultanée des deux évén~ents est la somme des probabilités:
P (A vB) =P(A) + P(B).
+ La probabilité de l'événement contraire de A est 1-P(A); noté A
+ Si A et b ne sont pas deux événements incompatibles, alors:
P(A u B) = P(A) +P(B) -P(A n B)
❖ Probabilités conditionneHes et Indépendance
Définition Soient deux événements A et B, siPr(B) -'Ü, alors

P(A n B)
P(A/B)=--
B
EX : Si on jette un dé, et que l'on considère les deux événements suivants :

- Al'événement'avoir un nombre pair' et


- B l'événement 'avoir un nombre supérieur ou égal à 4'
On a donc
- Pr(A) = Pr ({2/ 4/ 6}} =1/2
- Pr{B) = Pr {{4/ 5/ 6}) =1/2
- Pr {A n B) = Pr ({4/ 6)) =1/3
_ P(A / B) = P(AnB) = 1/3 = 3.
B 1/2 3
Définition Deux évènements A et B sont dits indépendants sRr(A/B) = Pr(A).

On peut montrer facilemènt que si A et B sont indépendants, alors

Pr (A nB) = Pr(A) Pr(B).

Théorème des probabilités totales et théorème de Bayes

Théorème .1 {des probabilités totales) Soit Al, ..., Anun système complet
d'évènements, alors

n
Pr(B) = I
'i=l
Pr(Aa Pr (B / Aa

En effet,
n n

I Pr(Aa Pr (B/AD = IPr (B n Aa


i=l i=l , (!
Comme les événements B n Ai sont mutuellement exclusifs, h,t. f-v~ t°''.) ~o.Jvv- t..,:·t- l:'v,
n n ,,,., ;: ~ c,,~t',.,

Ii=l
Pr (B n Aa = Pr LJcs n AD =
i=l
Pr(B)

Théorème .2 (de Bayes) soit Al,. ........ , An un système complet d'événements, alors

Pr(Ai B) -_ Pr(AD Pr (B / At)


-n__,__ _ _ _ __
/
Lj=l Pr(Ai) Pr (B/Aj)

En effet, par le théorème des probabilités totales,

Pr (B n AD
- Pr(AD
--- Pr (BI Aa
- - - =- - - = Pr (At / B)
LÎ=i Pr(AJ Pr (B/Ai) Pr (B)

Exemple Supposons qu'une population d'adultes soit composée de 30% de fumeurs (Al)
et de 70% de non-fumeurs {A2). Notons BI' évènement •mourir d'un cancer du poumon".
Supposons en outre que la probabilité de mourird'un cancer du poumon est ég.ale à
Pr(B/Al) = 20% si l'on est fumeur et dePr(B/A2) = 1% si l'on est non-fumeur. Le
théorème de Bayes permet de calculerles probabilités a priori, c'est-à-dire la
probabilité d'avoir été fum~ur si on est mort d'un cancer du poumon. En effet, cette
probabilité est notée Pr{Al(B) et peut-êt~e calculée par

Pr(A 1 ) Pr (B / A1 ) 0.3 * 0.2


Pr(A 1 /B) = - - - - - - - - - - - = - - - - - - - = : : : 0 896
Pr(A 1 ) Pr(B / A 1 ) + Pr(A 2 ) Pr (B / A2 ) (0.3 * 0.2) + (0'.7 * 0.01) . .
La probabilité de ne pas avoir été non-fumeur si on est mort d'un cancer du poumon vaut
quant à elle :
Pr(A 2 )Pr(B/A 2 ) 0.7*0.01
Pr(Az/B) =- - - - - - - - - - -
Pr(A Pr(B / A ) + Pr(A ) Pr (B / A )
= ·
(0.7 * 0.01) + (0.3 * 0.2)
::: 0.104
2) 2 1 1

II/ Notion de variable aléatoire :


Une variable aléatoire est une grandeur numérique attaché au résultat d'une
expérience aléatoire. Chacune de ses valeurs est associée à une probabilité
d'apparition.
Exemple 1 : On jette une pièce de monnaie deux fois et on s'intéresse au nombre
de fois que pile apparaît au cours des deux jets.
On à quatre résultats possibles: PP, PF, FP, FF
Le nombre de fois que Pile peut apparaître est 0, 1 ou 2.
La variable aléatoire retenue peut donc prendre ces trois valeurs, son ensemble
de définition est donc : {O, 1, 2}

Une VA peut être discrète ou continue :


+ Une VA est dite discrète si l'ensemble des valeurs qu'elle est susceptible de
prendre est fini ou infini dénombrable.
+ Une VA est dite continue si elle peut prendre toute valeur à l'intérieur d'un
intervalle donné.
les caractéristiques d'une variable aléatoire discrète:
a- loi de probabilité: On appelle loi de probabilité de X l'ensemble des couples
(xi, pi).
b- Fonction de répartition : On, appelle fonction de répartition, la fonction F
définie par :
F: IR -->[0,1]
X➔ F(x) = P(X < x)
c- Espérance mathématique:On appelle espérance mathématique de X et on
note E(X) la moyenne des valeurs passibles pondérées par leurs probabilités:
E(X) = rxi.pi.
d- Variance et écart type :
On appelle variance de la VA X le nombre réel défini par :
V(x) = E(X - E(X)) 2 = E(X 2 ) - E(X) 2
On appelle écart type, la racine carrée de la variance.
Exemple : Soit la distribution de probabilité suivante :

Xi 01 2 3 4 5
P(Xi) 0.05 0.1 0.2 0.3 0.25 0.1

Déterminer la fonction de répartition, l'espérance et la variance de cette


variable aléatoire.
Les caractéristiques d'une variable aléatoire continue :
a- Fonction de densité de probab,1ité: On appelle fonction de densité de
probabilité toute fonction satisfaisant aux 2 conditions suivantes :
+oo
'vx E JRl.,f (x) > 0 et
i _
00
f(x)dx
b- Fonction de répartition : Soit X une VA continue et f sa densité de
=1

probabilité. La fonction de répartition de X est la fonction F telle


que:F: JRI. ➔ (0,1]

X ➔ P(X < x) = L:t(x)dx


c- Espérance mathématique :
+oo
E(X)
i
= _
00
xf (x)dx

d- Variance

V(X) = )_
r+oo (X-E(XJ/ f(x)dx = J_oo
r+oo x 2
f(x)dx -
(f+oo
)_ xf(x)dx
)2
00 00

:.-·-~=:-:-:-.-· ,,__
B-LOIS DE PROBABIUTES :
1 Introduction
Il est toujours possible d'associer à une variable aléatoire une probabilité et
définir ainsi une loi de probcibilité. Lorsque le nombre d'épreuves augmente
indéfiniment, les fréquences observées pour le phénomène étudié tendent
vers les probabilités et les distributions observées vers les distributions de
probabilité ou loi de probabilité.

Identifier la loi de probabilité suivie par une variable aléatoire donnée est
essentiel car cela conditionne le choix des méthodes employées pour répondre à
une question biologique donnée.

2- Lois discrètes
Par définition, les variables aléatoires discrètes prennent des valeurs entières
discontinues sur un intervalle donné. Ce sont généralement le résultat de
d énombr-ement.

2-1 Loi de Bernoulli


a) Définition

Soit un univers ..Q constitué de deux éventualités, S pour succès et E pour


échec ..Q ={E, S} sur lequel on construit une variable aléatoire discrète, «
nombre de succès» telle que au cours d'une épreuve, si S est réalisé, X = 1 si
E est réalisé, X= 0 la variable aléatoire X telle que : X: f2-+ R X [f2) = {0,1}

La loi de probabilité associée à la variable de Bernoulli X telle que, P(X = 0) =


q et P[X =1) =p avec p+q = 1 est appelée loi de Bernoulli notée B (1, p)

b) Espérance et variance

L'espérance de la variable de Bernoulli est E(X} = p car par définition

E{X) =I pixi = (0 x q) + (1 x p) =p.

La variance de la variable de Bernoulli est V{X) = pq

~~· ·:... -. ··:· ,-~--.-· .. -~:~·.··~-··- ·-·~-··:·.- · .• ·:-:·:· ·-..·.•


2. 2 Loi binomiale
2. 2 .1 Définition

Décrite pour la première fois par Isaac Newton en 1676 et démontrée pour la
première fois par le mathématicien suisse Jacob Bernoulli en 1713, la loi
binomiale est l'une des distributions de probabilité !es plus fréquemment
rencontrées en statistique appliquée.

Soit l'application Sn : .f2n ➔ Rnavec Sn= X1 + X2 +... +Xi+ ... + Xn où Xi est une variable de
Bernoulli.

La variable binomiale, Sn, représente le nombre de succès obtenus lors de


la répétition de n épreuves identiques et indépendantes, chaque épreuve ne
pouvant donner que deux ré,$ultats possibles.

Ainsi la loi de probabilité suivie par la somme de n variables de Bernoulli où la


probabilité associée au succès est p, est la loi binomiale de paramètres n et p.
notée :B(n,p)

La probabilité que Sn =k, c'est à dire l'obtention de k succès au cours den


épreuves indépendantes est :

Remarque : Le développement du binôme de Newton (p+qJ permet auobtenir


l'ensemble des-probabilités pour une distribution binomiale avec une valeur net p
donnée. Il existe également des tables de la loi binomiale où les probabilités sont
tabulées pour des valeurs n et p données.

Exemple:

Dans une expérience sur le comportement du rat, on fait pénétrer _


successivement n rats dans un labyrinthe en forme de H. On étudie alors la
probab,ïité que k rats empruntent la branche supérieure droite du H.

A chaque épreuve, deux évènements peuvent se produire : soit le rat suit


l'itinéraire voulu (succès) soit il ne l'emprunte pas (échec). Sachant qu'il y a 4
itinéraires possibles, la probabilité du succès p =1/4.
Hypothèse :

- si les rats n'ont pas été conditionnés,


- si la branche supérieure droite ne comporte aucun élément attractif ou
répulsif,

- si le choix de l'itinéraire d'un rat n'affecte pas le choix du suivant.

alors : la variable aléatoire X« itinéraire emprunté pour x rats» suit une loi
binomiale X -+/J (n, J/4).

dont la distribution des probabilités est la suivante sil' on étudie le comportement de 5 rats :

k P(}{= k)

o. 40 Distribution de probabilités 0 c~( iJ\


-\ 4
5
= 0.237
de la variable binomiale X
'"'î, (1-4)'
4

o. 30
X ➔ B (5, 0.,15} l cl-( .:..4 =0-395

2 f'>\3(1\~
o. 20 c!I~ '- ~4.J1 -)
4
= 0.164
....

c; (.4,,:..,!:::(,l''
.:,

0, 10 . -) 4
= o.oss
4 4

0 1 2 3 4 5 ;(
5
C54(3)(1.']
, 4 , .4,
= 0,015

c;(!r =0.001

Remarque : Il est possible d'obte1ùr aisément les vnlem-s des coml>imlisous de la loi
binorrùale eu utilisant le triangle de Pascal De plus on vérifie que ln somme des probabilités
est bien égale à 1.

2. 2. 2 Espérance et variance

L'espérance d'une variable binomiale Sn est égale à E(Sn) = np

en effet E(Sn) = E(XJ + X2 +... +Xi+ ...+ Xn)

or E(Xl + X2 +... +Xi + ... + Xn) =I E(Xi)

et E(Sn) =IE(Xi) =I p =np

La variance d'une variable binomiale Sn est égale q V(Sn) = npq


Exemple :

Dans le cadre de l'étude de comportement du rat , quel est en moyenne le


nombre attendu de rats qui vont emprunter l'itinéraire prévu si l'expérience

·----------~-~ .. .. .. -- - --- - --······- ···-·•--• ·--·-


porte sur un lot de 20 rats? Donnez également la variance et l'écart type de
cette variable ?

2. 3 Loi de Poisson
La loi de Poisson découverte au début du XIXe siècle par le magistrat
français Siméon-Denis Poisson s'applique souvent aux phénomènes accidentels
où la probabilité p est très faible

(p < 0,05). Elle peut également dans certaines conditions être définie comme
limite d'une loi binomiale.

Approximation d'une loi binomiale

si n - 00
et p - 0, alors X: B{n,p)---+ P(A) avec np--+A

2. 3 .1 Loi de Poisson

On appelle processus poissonnien (ou processus de Poisson), le modèle


probabiliste des situations qui voient un flux d'évènements se produire les uns à
la suite des autres de façon aléatoire (dans le temps et dans l'espace). obéissant
aux conditions suivantes :

- la probabilité de réalisation de l'évènement au cours d'une petite période ou sur


une petite portion d'espace.

- elle est indépendante de ce qui s'est produit antérieurement,

- la probabilité de deux apparitions sur le même ~test négligeable.

Ainsi, des évènements qui se réalisent de façon aléatoire comme des pannes de
machines, des accidents d'avions, des fautes dans un texte, ... peuvent être
considérés comme relevant d'un processus poissonnien.

Une variable aléatoire X à valeurs dans R suit une loi de Poisson de paramètre A
(A > 0) si les réels PM sont donnés par :

1k . -A
/t e
P(X k)
k!
Exemple :
Une suspension bactérienne contient 5000 bactéries/litre. On ensemence à
partir de cette suspension, 50 boites de Pétri, à raison d'l cm3 par boite. Si
X représente le nombre de colonies par boîte, alors la loi de probabilité de X
est:

X---+ P (A=5)

La probabilité qu'il n'y ait aucune colonie sur la boite de Pétri est :

P(X = 0) =0,0067 soit approximativement 0,67 % de chance.

La probabilité qu'il n'y ait au moins une colonie sur la boite de Pétri est :

P(X > 0)=1- P(X = 0) = 1-0,0067 = 0,9933 soit 99,3 % •

2. 3. 2 -Espérance et variance

L'espérance d'une variable aléatoire de Poisson est E(X) =A

La variance d'une variable de Poisson est V(X) ~ A

Remarque: Il est à noter que dans le cas d'une variable aléatoire de Poisson,
l'espérance et la variance prennent la même valeur. Ceci est un élément à prendre
en compte lors des tests de conformité à une loi de probabilité.

Exemples :

Dans le cadre de la culture bactérienne, le nombre moyen de colonies attendu sur


la boite de

Pétri est : E(X) =A =5 colonies.

Ainsi si l'on effectue plusieurs cultures bactériennes (plusieurs boites de Pétri) à


partir de la même solution initiale, on attend en moyenne cinq colonies pour
l'ensemble des boites.

En ce qui concerne la variance et l'écart-type, on aura:

V(X)=A =5efc,(X)= V(X)=2,24 colonies.

3 Lois continues
Par définition, les variables aléatoires continues prennent des voleurs continues
sur un intervalle donné.
3.1 Loi normale ou loi de Laplace-
Gauss
3 .1.1 t:>éf inition

On parle de loi normale lorsque l'on a affaire à une variable aléatoire continue
dépendant d'un grand nombre de causes indépendantes dont les effets
s'additionnent et dont aucune n'est prépondérante (conditions de Borel). Cette loi
acquiert sa forme définitive avec Gauss (en 1809) et Laplace (en 1812). C'est
pourquoi elle porte également les noms de : loi de Laplace, loi de Gauss et loi
de Laplace-Gauss.

Exemple :

Ainsi la taille corporelle d'un animal dépend des facteurs environnementaux


(disponibilité pour la nourriture, climat, prédation, etc.) et génétiques. Dans la
mesure où ces facteurs sont indépendants et qu'aucun n'est prépondérant, on
peut supposer que la taille corporelle suit une loi normale.

Une nu·iable aléatoil'e absolument continue X suit une loi normale de paramètres (p , ü) si
sa densité de probabilité est donnée par :
f :R ➔ R
,· ' 1
11 x-,u 1· -

1 --1-
x H f (x) =
(J
&27f e 2

0
' avec ~t E R et cr E R..,.

Notation: X ➔ .\'(µ , cr)

Remarque : On admet que:

+oo

J
-oo
f(x)dx = 1

3 .1 . 2 Espérance et variance

L'espérance de la loi .normale vaut : E{X) = JI

La variance de la loi normale vaut : V(X) = cl


3 .1 . 3 Stabilité de la loi normale

Théorème:

Soient Xl et X2 deux variables aléatoires normales indépendantes de


paramètres respectifs (µ1, al) , (µ2, a2), alors leur somme Xl+X2 est une
variable aléatoire normale de paramètres (µ1 + µ2, a/ +a/).

3. 2 Loi normale réduite ç

3. 2 .1 Définition

Une variable aléatoire continue X suit une loi normale réduite si sa densité
de probabilité est donnée par :

1 -x2
f(x) ---e 2
~
Remarque : f est bien une loi de probabilité car :

• 'i x E]k, j(x) z 0

• f est intégrable sur ]-x,, + Y.,{ et rcc f (x)clr: = l


~-oo:i
1 Table 1 1 Fonction de répartition i l de la loi normale
centrée réduite_

Probabilité de trouver une va.leur Inférieure


à u.

TI (-u) = 1 - Il (u)

•..
z 0,00 0,01 0,02 0,03 0,04 0,05 -0,06 0,07 0,08 0,09
0,0 0,500 0,504 0,508 0,512 0,516 0,520 0,524 0,528 0,532 0,536
0,1 0,540 0,544 0,548 0,552 0,556 0,560 0,564 0,567 0,571 0,575
0,2 0,579 0,583 0,587 0,591 0,595 0,599 0,603_ 0,606 0,610 0,614
0,3 0,618 0,622 0,626 0,629 0,633 0,637 0,641 0,644 0,648 0,652
0,4 0,655 0,659 0,663 0,666 0,670 0,674 o,6n 0,681 0,684 0,688
0,5 · 0,691 0,695 0,698 0,702 0,705 0,709 0,712 0,716 0,719 0,722
0,6 0,726 0,7291 0,732 0,736 0,739 0,742 0,745 0,749 . 0,752 0,755
0,7 0,758 0,761 0,764 0,767 o,no .0,n3 0,776 0,779 0,782 0,785
0,8 0,788 0,791 0,794 0,797 0,800 0,802 0,805 0,808 0,811 0,813
0,9 0,816 0,819 0,821 0,824 0,826 0,829 0,831 0,834 0,836 0,839
1,0 0,841 0,844 0,846 0,848 0,851 0,853 0,855 0,858 0,860 0,862
1,1 0,864 0,867 0,869 0,871 0,873 0,875 0,Bn 0,879 0,881 0,883
1,2 ' 0,885 0,887 0,889 0,891 0,893 0,894 0,896 0,898 0,900 0,901
1,3 0,903 0,905 0,907 0,908 .0,910 0,911 0,913 0,915 0,916 0,918
.. ~·
. - ' ..
1,4 0,919 0,921 0,922 0,924 0,925 0,926 0,928 0,929 0,931 0,932
1,5 0,933 0,934 0,936 0,937 0,938 0,939 0,941 0,942 0,943 0,944
1,6 0,945 0,946 0,947 0,948 0,949 0,951 0,952 0,953 0,954 0,954
1,7 0,955 0,956 . 0,957 0,958 0,959 .0,960 0,961 0,962 0,962 0,963
1,8 0,964 0,965 0,966 0,966 0,967 0,968 0,969 0,969 0,970 0,971
1,9 0,971 o,9n 0,973 0,973 0,974 0,974 0,975 0,976 0,976 0,9n
2,0 o,9n 0,978 0,978 0,979 0,979 0,980 0,980 0,981 0,981 0,982
2,1 0,982 0,983 0,983 0,983 0,984 0,984 0,985 0,985 0,985 0,986
2,2 0,986 0,986 0,987 0,987 0,987 . 0,988 0,988 0,988 0,989 0,989
2,3 0,989 0,990 0,990 0,990 0,990 0,991 0,991 0,991 0,991 0,992
2,4 0,992 0,992 0,992 0,992 0,993 0,993 0,993 0,993 0,993 0,994
2,5 0,994 0,994 0,994 0,994 0,994 0,995 0,995 0,995 0,995 0,995
2,6 0,995 0,995 0,996 0,996 0,996 0,996 0,996 0,996 0,996 0,996
2,7 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,997 0,997
2,8 0,997 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,998
2,9 0,998 0,998 0,998 0,998 0,998 0,998 0,998 0,999 0,999 0,999
3.2.2 Exercices d'application

EX1: On a mesuré le poids de 3000 moutons et on a trouvé une moyenne de 65


kg et un écart type de 3 kg.

En supposant que la variable poids suit une distribution normale, déterminer le


nombre de moutons ayant un poids compris entre 60 et 70 kg.

Ex2: On a constaté que la répartition du taux de cholestérol pour un grand


nombre de personnes est la suivante :

Taux inférieur à 165 cg: 57.93%

Taux compris entre 165 et 180 cg: 38.06%

Taux supérieur à 180cg: 4.01%.

1- Sachant que la répartition suit une loi normale, calculer la valeur moyenne du
taux de cholestérol et l'écart type.

2- On admet que les personnes dont le taux est supérieur à 183 cg doivent subir
un traitement. Quel est le nombre de personnes à soigner dans une population de
10 000 personnes?

3. 2. 3Approximation d'une loi binomiale par une loi normale.

Lorsque le paramètre n est grand, et que p est ni trop proche de 0, ni trop


proche de 1, on peut-approcher la loibinomiale~de=paramètres n et-p -par la loi
normale de paramètres np et ✓np(l -p)

Dans la pratique, comme l'approximation faite est une approximation d'une loi
discrète par une loi continue, nous devront effectuer une correction de
continuité, c'est à dire qu'à la valeur Xo d'une valeur discrète, nous associeront
l'intervalle [x0 -0.5; x 0 +0.5] pour la variable continue.

Exemple: On considère une variable aléatoire X suivant la loi binomiale 8(400


;0,5). On pèut approcher cette loi par la loi normale N(200 ;10). Ains,: si l'on
considère la variable Y suivant cette loi normale, on approchera P{X=190) par
P{189,5:tY:!190,5). En effectuant le changement de variable adéquat, on a
P(189,51Y:!190,5)=

P(-1,05:tYs-0.95}=0,0242, ce qui donne ici une très bonne approximation puisque le


calcul direct donne P{X=190)=0,0242.
De même, P(Xs210) sera approché par P(Ys210.5)=P(~1.05)=0,8531.

Par contre, P(X<205)=P(Xs204), (X est une variable discrète}, 1ï faudra donc


approcher cette probabilité par P(Y1204,5).

Exercice 2: Soit X une variable aléatoire suivant la loi binomial~ B(100; 0.2). En
utilisant une approximation de cette loi par une loi normale dont on précisera les
paramètres, calculer une valeur approchée de P(X=20), P(Xi22), P(18iXi22) et de
P(X>18).
Partie 3
Statistiques Inférentielles
I- Théorie de l'estimation
1 Introduction
Un phénomène biologique sera entièrement déterminé si l'on connaît la loi de probabilité
suivie par la variable aléatoire donnée dans la population. On a alors deux cas de figure :
- soit la loi de probabilité suivie par X est connue a priori et on vérifie a posteriori
que les observations faites à partir d'un échantillon sont en accord avec elle. C'est le cas
par exemple de la répartition des génotypes attendus dans une population sous le modèle
de Hardy-Weinberg. On effectue alors un test d'ajustement entre la distribution
théorique et la distribution observée.
- soit la Ici de. prob..abilité suivie pa~ Xest..inconnue Jnais...sugg.ér.ée par la description
de l'échantillon (nature de la variable, forme de la distribution des fréquences, valeurs
des paramètres descriptifs). Dans ce cas, il est nécessaire d'estimer les paramètres de
la loi de probabilité à partir des paramètres établis sur l'échantillon.
L'inférence statistique traite principalement de ces deux types de problèmes :
l'estimation de paramètres (espérance, variance, probabilité de succès) et les tests
d'hypothèses.
L'inférence statistique ne conduit jamais à une conclusion stricte, elle attache toujours
une probabilité à cette conclusion. Cela provient du fait que l'on tente de tirer des
conclusions sur une population (grand nombre d'individus) sur la base des observations
réalisées sur un échantillon, représentant une portion restreinte de la population.
L'estimation a pour objectif de déterminer les valeurs inconnues des paramètres de la
population (p, µ, o-2) ou (proportion, moyenne, variance) à partir des données de
l'échantillon (f, m~I). Il est alors nécessaire de déterminer la précision de ces
estimations en établissant un intervalle de confiance autour des valeurs prédites.

Les statistiques inf érentielles ou inductives peuvent se résumer comme suit:

Population Caractéristique de
2
p,µ,a
2 taille n l'échantillon f ,m,s

Echantillonnage aléatoire . Déduction : Stat. descriptive 1

Inférence Statistique
2 Distribution cf'échantillonnage
Pour résoudre les problèmes d'estimation de paramètres inconnus, il faut tout d'abord
étudier les distributions d'échantillonnage, c'est à dire la loi de probabilité suivie par
!'estimateur.
Remarque : En théorie de l'estimation, il s'agit de distinguer soigneusement trois
concepts différents :
► Les paramètres de la population comme la moyenne µ dont la valeur est certaine
mais inconnue symbolisés par des lettres grecques.
► Les résultats de l'échantillonnage comme la moyenne m dont la valeur est
certaine mais connue symbolisés par des minuscules.
► Les variables aléatoires des paramètres, comme la moyenne aléatoire Mdont la
valeur est incertaine puisque aléatoire mais dont la loi de probabilité est souvent
connue et symbolisées par des majuscules.

2 .1 Définition
2 . 1.1 Approche empirique
Il est possible d'extraire d'une population de paramètres p, µ ou a2 pour une
variable aléatoire X, kéchantillons aléatoires simples de même effectif, n. Sur
chaque échantillon de taille n, on calcule les paramètres descriptifs (f, m~).

Population
2
X {p, P, q)

K échantillons aléatoires simples de n individus

'~
{ml, m2, .......... mi, ......... mk}

Distribution d'échantillonnage de la moyenne

On obtient ainsi pour chaque paramètre estimé, une série statistique composée de k
éléments à savoir les kestimations du paramètre étudié. Par exemple, on aura kvaleurs
de moyennes observées (graphe ci-dessus).
La distribution associée à ces k estimations constitue kt distribution d'échantillonnage
du paramètre. On peut alors associer une variable aléatoire à chacun des paramètres .
La loi de probabilité suivie par cette variable aléatoire admet comme distribution, la

~---~---"=.-- - -:..-~- -. --.. ,~•:•.- ~~ -~ ·- ... ,. . --.. • •-· ,., ..... :.~.-•. . ·.. _- -•.•... -.. -· ·•· .--.. .. -•. . .·. . •-..., ---.-.. ... ... .. --- ---••-••- --.,...-•-~- •-"'- .-- •· ~ -•--• --. •··.,. ., ,r ••---·••• ... . ..-- ··-
distribution d'échantillonnage du paramètre auquel on pourra associer une. espérance et
une variance.

2 .1. 2 Approche théorique


En pratique, les données étudiées sont relatives à un seul échantillon. Cest pourquoi, il
faut rechercher les propriétés des échantillons susceptibles d'être prélevés de la
population ou plus précisément les lois de probabilité de variables aléatoires associées à
un échantillon aléatoire.

Population
2
X (p, p, u)

K échantillons aléatoires simples de n individus

"-..
1,........ xi, ........... xn} ........ xn}

Ainsi les n observations x1 ,x2 ,..., xi, ... , xn, faites sur un échantillon peuvent être
considérées comme n variables aléatoires X1, X2 ,...,Xi, ... , Xn. En effet, la valeur prise
par le premier élément extrait de la population Xl, dépend de l'échantillon obtenu lors
du tirage aléatoire.
Cette valeur sera différente si l'on considère un autre échantillon. Il en est de même
pour les n valeurs extraites de la population.
A partir de ces n variables aléatoires, on peut définir alors une nouvelle variable qui sera
fonction de ces dernières telle que: Y= f(Xl, X2, ... , Xi, ... , Xn)
par exemple : Y= X1 + X2+ ... + Xi+ .... Xn
Ainsi la loi de probabilité de la variable aléatoire Y dépendra à la fois de la loi de de la
variable aléatoire X et de la nature de la fonction f.
2. 2 Loi de probabilité de la moyenne
2. 2 .1 Définition
Soit Xune variable aléatoire suivant une loi normale d'espérance µ et de variance cfet
n copies indépendantes Xl,X2,. .. ,.Xi: ...,xntelle que Xi associe le ième élément de chacun
des n échantillons avec B..X1) = µ et i{X1) = cl.
On construit alors la variable aléatoire M, telle que :
_ X1 +X2 +···Xi+ ···Xn _
M - -------- - -
n n
1L n
Xi
i=l

Avec pour espérance:

Et pour variance si V(Xi) = ri

La loi de probabilité de la variable aléatoire M, moyenne de n v.a. X de loi de probabilité


N (µ, cr), est une loi normale ~ (µ, ~)
Exemple :
Des études statistiques montrent que le taux de glucose dans le sang est une variable
normale X d'espéranceµ= 1 g/1 et d'écart-type a= 0,1 g/1.
En prenant un échantillon de 9 individus dans la population, l'espérance et l'écart-type
théorique attendu de la variable aléatoire X sont alors :
M= µ =1 g/1 et ✓ v(M) =~=o. 03g/l

2.2.2 Convergence
En fonction de la nature de la variable aléatoire continue X, de la taille de
l'échantillon net de la connaissance que nous avons sur le paramètre a2 , la
variable centrée réduite construite avec X converge vers différentes lois de
probabilité

✓ Lorsque la variance a est connue et n grand (n


2
~ 30), on
se trouve dans les conditions du théorème central limite et la loi suivie
par:

~- µ ➔ N(0,1) loi normale réduite


lvn
Ceci reste vrai lorsque ni 30 seulement si la loi suivi par X suit une loi normale.
✓ Lorsque la variance 0 2 est inconnue et X suit une loi normale, la loi
suivie par la variable centrée réduite est alors :

~- µ ➔ Tn_ 1 loi de Student à n - 1 degré de liberté


1-rn
2.3 Loi de probabilité d'une fréquence
Soit une population dans laquelle une proportion p des individus présente une certaine
propriété.
Si k est le nombre d'individu présentant la propriété dans un échantillon de taille n, alors
la variable aléatoire Krésultant de différents échantillonnages suit une loi binomiale
B (n,p) avec B..KJ =npet ~K') =npq.

On construit la variable aléatoire F = K/navec pour espérance :


.(K) 1 1 .
E(F) = E - = -E(K) = -np = p
n n n
Et pour variance :

V(F) = V (-K)
n
= 1
-V(K)
n 2
= 1
-npq
n 2
= pq
-n

La loi de probabilité d'une fréquence Kin suit une loi normalel'i (p, ~)
Vrai si np> .5 e.t nq> 5

3 Estimation ponctuelle et par intervalle


L'estimation d'un paramètre quelconque e est ponctuelle si l'on associe une seule valeur
à !'estimateur ê à partir des données observables sur un échantillon aléatoire.
L'estimation par intervalle associe à un échantillon aléatoire, un intervalle [êv 0 2 ] qui
recouvre 9,avec unecertaine probabilité.

3.1. Estimation fJ"ncfuel/e


Si la distribution de la variable aléatoire X est connue, on utilise la méthode dumaximum
devraisemblance pour estimer les paramètres de la loi de probabilité. En revanche si
ladistribution n'est pas connue, on utilise la méthode des moindres carrés.
3.1.1. Espérance
Soit X une variable aléatoire continue suivant une loi normale N (µ,a) dont la valeur
desparamètres n'est pas connue et pour laquelle on souhaite estimer l'espérance µ.
Soient X1, .x2 ,... ,Xi, ... , Xn, n réalisations indépendantes de la variable aléatoire X,
unestimateur du paramètre µ est une suite de variable aléatoire e fonctions des Xi:
0 = f (Xl, ~,..., X,: ... , Xn)
La méthode des moindres carrés consiste à rechercher les coefficients de
lacombinaisonlinéaire e = a1Xl + a2.x2 +...+ aiXi+- ...+ anXntelle que E(0) =µet i{0) soit
minimale.

La moyenne arithmétique constitue le meilleur estimateur deµ, espérance dela loi de


probabilité de la variable aléatoire X:

n
µ=M=~'X·
nL i
i=l

3.1.2. Variance
Soit X une variable aléatoire continue suivant une loi normale N (µ,a) pour laquelle on
souhaite estimer la variance cl.
Soient Xi, X2 ,... ,X,·, ... , Xn, n réalisations indépendantes de la variable aléatoire
X, un estimateur du paramètre 0 2 est une suite de variable aléatoire 0 fonctions
des X,·:
0 = f (Xi ,Xz ,... ,X,·, ... , Xn)

► Cas où l'espérance µ est connue


La méthode des moindres carrés consiste à rechercher les coefficients de la
combinaisonlinéaire
0= ai(Xi- µ)z+ œ(X2- µ) 2+ ...+ ai(X;- µ) 2+ ...+ an( Xrr µ) 2telle que E(0) = 02 et v(0)
soit minimale.
La variance observée co.nstitueJe-meilleur estimateur de 02, variance de la loi
de probabilité de la variable aléatoire Xlorsque l'espéranceµ est connue :
n

az = ~ I
i=l
(Xi - µ)2

► Cas où l'espérance µest inconnue


Dans ce cas, nous allons estimer µavec P.= M et dans ce cas :
n n
Icxt - µ) Icxi -M)
2
-:;,
2

t=l i=l

Le meilleur estimateur de a2, variance de la loi de probabilité de la variable aléatoire X


lorsque l'espérance µest inconnue est :
n
1
82 n s2 =
= n-1 '(Xi - X)2
n-lL
i=l
3.1.3. Fréquence
Soit le schéma de Bernoulli dans lequel le caractère A correspond au succès. On note p
la fréquence des individus de la population possédant le caractère A. La valeur de ce
paramètre étant inconnu, on cherche à estimer la fréquence p à partir des données
observables sur un échantillon.
A chaque échantillon non exhaustif de taille n, on associe l'entier k, nombre d'individus
possédant le caractère A.
Soit Kune variable aléatoire discrète suivant une loi binomiale B (n,p) et pour laquelle on
souhaite estimer la fréquence p.
La fréquence observée du nombre de succès observé dans un échantillon de taille n
constitue le meilleur estimateur de p:

K
p=-n

Exemple :
On a prélevé au hasard, dans une population de lapin, 100 individus. Sur ces 100 lapins,
20 sont atteints par la myxomatose. Le pourcentage de lapins atteints par la
myxomatose dans la population est donc :
20 .
p = -100 = 0.2Soit 20% de lapins atteints dans la population.

Ce résultat n'aura de signification que s'il est associé à un intervalle de confiance.

3. 2 Estimation par intervalle


3. 2 .1 Définition
L'estimation par intervalle associe à un échantillon aléatoire, un intervalle [01 , ê2 ] qui
recouvr·e 6 avec une certaine probabilité.
Cet intervalle est appelé l'intervalle de confiance du paramètre 0car la probabilité que
6 dont la valeur est inconnue se trouve compris entre ê1 et ê2 2 est égale à 1-a, le
coefficient de confiance
P(0 1 < 0 < 0 2 ) =1- a
Son complément acorrespond au coefficient de risque.
P( 0 =f:. [01 ; 02]) = a
Un intervalle de confiance indique la précision d'une estimation car pour un risque a
donné, l'intervalle est d'autant plus grand que la précision est faible comme l'indiquent
les graphes ci-dessous. Pour chaque graphe, l'aire hachurée correspond au coefficient
de risque a. Ainsi de part et d'autre de la distribution, la valeur de l'aire hachurée vaut
a/2.
I
/" \ a= 0,01

/:' \ 99 chances sur 100 que la valeur du paramètre


recherché se trouve dans l'inte:rvalk dl:'.'
confiance mais la précision autour de la valeur
prédite est faible

a= 0,05
95 chances sur 100 que la valeur du paramètre
recherché se trouve dans l 'intervalk de
confiance et la précision autour de la valeur
prédite est correcte.

a= 0,10
90 chances sur 100 que la valeur du paramètre
recherché se trouve dans l'intervalle de
confiance mais la prédsion autour de la valeur
prédite est élevée.

3.2.2 Intervalle de confiance d'une moyenne


En fonction de la nature de la variable aléatoire continue X, de la taille de l'échantillon n
et de la connaissance que nous avons sur le paramètre cr2, l'établissement de l'intervalle
de confiance autour deµ sera différent.
· Quelque soit la valeur de n, si X .-N (µ, o) et a 2est connue
L'intervalle de confiance de la moyenne µ pour un coefficient de risque a est donc :

Remarque : La valeur de ~ 112est donnée par la table 1 : Loi Normale Centrée


réduitepour une valeur a donnée.
Exemple : Pour des masses comprises entre 50g et 200g, une. balance donne une pesée
avec une variance de 0,0015.Les résultats.des trois pesées.d'un !'flême corps sont: 64,32
; 64,27; 64 ,39.
On veut connaître le poids moyen de ce corps dans la population avec un coeff icîent de
confiance de 95%.

· Quelque soit la valeur de n, si X -N (µ, o)etcr2est inconnue,


L'intervalle de confiance de l'e.spérance · µ pour un coefficient de risque a est donc

P(M - ta z;n-1
{j < µ < M + ta
-y-n {j ) = 1 - a
z;n-1 ...fn
quelque soit la valeur den si X---+N (µ, a) et a2 est inconnue.
Remarque : La valeurt~-n-l est donnée par la table 3 : Table de Student pour un seuil
2'
de risque a/2 et n-1 degré de liberté.

Exemple : Dans un échantillon de 20 étudiants de même classe d'âge et de même sexe,


la taille moyenne observée est de 1,73m et l'écart-type de 10 cm.
Donner l'intervalle de la taille moyenne des étudiants dans la population avec un
coefficient de confiance de 95%.

3 . 2. 3 Intel"Valle de confianc:e d'une proportion


Etablir l'intervalle de confiance autour de la fréquence p de la population à partir de son
estimateur K/n.
Par définition, v(K/n) = pq/n n'est pas connue et on l'estime par
péj ,. K ,.., n -K
- avec p
n
= -n et q = -n-
L'intervalle de confiance de la fréquence p pour un coefficient de risque a est donc

K j,,..
K
P - - la pq < p < - + Za;z
fe),,..
pq = 1 - a
(n 2 n n n

vraie seulement si n est grand et np, nq> 5


Remarque : Si la taille de l'échantillon est faible, on a recours aux lois exactes.

Exemple:
Un laboratoire d'agronomie a effectué une étude sur le maintien du pouvoir germinatif
des graines d'uneplante·-donnéeaprès une conservation de....3-ans.
Sur un lot de 80 graines, 47ont germé. Ainsi la probabilité de germination des graines
de la plante après trois ans de conservation avec un coefficient de confiance de 95%
est donc:
Avec
...
p = -Kn = -80
47
= 0.588 et q,.., = -n-K
n
= 33
-
80
= 0.412; Za;z = 1.96 alors Z:!. f!~q
2
-n =

1.96 °·588; 0·412 = 0.l08doù p=0.588±0.108


Ainsi la probabilité de germination est comprise dans l'intervalle [0,480 et 0,696]
avec une probabilité de 0,95.
II Théorie statistique de fa décision
1 Introduction
Un test d'hypothèse est un procédé d'inférence permettant de contrôler (accepter ou
rejeter) à partir de l'étude d'un ou plusieurs échantillons aléatoires, la validité
d'hypothèses relatives à une ou plusieurs populations.
Les méthodes de l'inférence statistique nous permettent de déterminer, avec une
probabilité donnée, si les différences constatées au niveau des échantillons peuvent
être imputables au hasard ou si elles sont suffisamment importantes pour signifier que
les échantillons proviennent de populations vraisemblablement différentes.
Les tests d'hypothèses font appel à un certain nombre d'hypothèses concernant la
nature de la population dont provient l'échantillon étudié (normalité de la variable,
égalité des variances, etc.) ·

En fonction de l'hypothèse testée, plusieurs typ-es de tests peuvent être réal-isés :

Les tests destinés à vérifier si un échantillon peut être considéré comme extrait
d'une population donnée, vis-à-vis d'un paramètre comme la moyenne ou la fréquence
observée(tests de conformité) ou par rapport à sa distribution observée (tests
d'ajustement). Dans cecas la loi théorique du paramètre est connue au niveau de la
population.
Est-ce que le taux de glucose moyen mesuré dans un échantillon d'individus traités
estconforme au taux de glucose moyen connu dans la population? (test de conformité)
Est-ceque la distribution des fréquences génotypiques observées pour un locus donné
estconforme à celle attendue sous l'hypothèse du modèle de Hardy-Weinberg?
(testd' ajustement).

Les tests destinés à comparer plusieurs populations à l'aide d'un nombre équivalent
d'échantillons (tests d'égalité ou d'homogénéité) sont les plus couramment utilisés.
Dans ce cas la loi théorique du paramètre est inconnue au niveau des populations.
On peut ajouter à cette catégorie le test d'indépendance qui cherche à tester
l'indépendanceentre deux caractères, généralement qualitatifs.
Y a-t-il une différence entre le taux de glucose moyen mesuré pour deux
échantillonsd'individus ayant reçu des traitements différents? (tests d'égalité ou
d'homogénéité).
Est-ce que la distribution des fréquences génotypiques observées pour un locus donné
estindépendante du sexe des individus (tests d'indépendance).

2 Principe des tests


Le principe des tests d'hypothèse est de poser une hypothèse de travail et de prédire
les conséquences de cette hypothèse pour la population ou l'échantillon. On compare ces
prédictions avec les observations et l'on conclut en acceptant ou en rejetant
l'hypothèse de travail à partir de règles de décisions objectives.
Définir les hypothèses de travail, constitue un élément essentiel des tests d'hypothèses
de même que vérifier les conditions d'application de ces dernières (normalité de la
variable, égalité des variances ou homoscédasticité, etc.)

Différentes étapes doivent être suivies pour tester une hypothèse :


~--•·. ~
(1) définir l'hypothèse nulle (notée HO) à contrôler, -
(2) choisir un test statistique ou une statistique pour contrôler HO,
(3) définir la distribution de la statistique sous l'hypothèse« HO est réalisée»,
L
(4) définir le niveau de signification du test ou région critique notée a ,
(5) calculer, à partir des données fournies par l'échantillon, la valeur de la statistique
(6) prendre une décision concernant l'hypothèse posée et faire une interprétation.

2 .1 Choix de l'hypothèse à tester

2 .1.1 Hypothèse nulle et hypothèse alternative

L'hypothèse nulle notée HO est l'hypothèse que l'on désire contrôler: elle consiste à
dire qu'il n'existe pas de différence entre les paramètres comparés ou que la
différence observée n'est pas significative et est due aux fluctuations
d'échantillonnage.
Cette hypothèse est formulée dans le but d'être rejetée.

L'hypothèse altemative notée H1 est la négation de HO, elle est équivalente à dire«
HO est fausse». La décision de rejeter HO signifie que Hl est réalisée ou Hl est vraie.

2.1.2 Test unilatéral ou bilatéral


La nature de HO détermine la façon de formuler Hl et par conséquence la nature
unila..t~-00 bilatérale du test.

Test bilatéral
Si HO consiste à dire que la population estudiantine avec une fréquence de fumeurs
« p» est représentative de la population avec une fréquence de fumeurs « f1J », on pose
alors : HO : p =pJ et Hl : p -z fi)

Le tes.-t sera bilatéral car on considère que la


fréquence p peut être supé1·ieure ou inférieure
à la fréquence po .
La région critique <:1. en vert correspond à une

Po probabilité ~ de part et d'autre de la courbe.


2
Test unilatéral
Si l'on fait l'hypothèse que la fréquence de fumeurs dans la population estudiantine p est
supérieure à la fréquence de fumeurs dans la population pJ, on pose alors HO : p = pJ et
Hl: p>pJ

/
Ho : p = po et H1 : p > po
Le test sera unilatéral car on considère que
la fréquence p ne peut être que supérieure à

J la fréquence po .
La région critique a en vert correspond à
"o une probabilité a.

2. 2 Choix d'un test statistique


Ce choix dépend de la nature des données, du type d'hypothèse que l'on désire contrôler,
des affirmations que l'on peut admettre concernant la nature des populations étudiées
(normalité, égalité des variances) et d'autres critères que nous préciserons.

Un test statistique ou une statistique est une fonction des variables aléatoires
représentant l'échantillon dont la valeur numérique obtenue pour l'échantillon considéré
permet de distinguer entre HO vraie et HO fausse.
Dans la mesure où la loi de probabilité suivie par le paramè-tre ;fJ au niveau de la
population en général est connueron peut ainsi établir-la loi de probabilité de la
statistique Stelle que : S = p - Po

2.3 Choix de la région critique et règle de décision


Connaissant la loi de probabilité suivie par la statistique Ssous l'hypothèse HO, il est
possible d'établir une valeur seuil, Sseuil de la statistique pour une probabilité donnée
appelée le niveau de signification du test : a. ---
La région critique correspond à l'ensemble des valeurs telles que
S >S seuil
et le niveau de signification est telle que :
f{S >S seuil) = aavec f{S i S seuil) = 1 -a
Selon la nature unilatérale ou bilatérale du test, la définition de la région critique varie.
1

Test unilatéral Ho: p = f'J Test bilatéral Ho : p = PJ

Hypothèse Hl: p > po Hl: p < Po Hl: p ;t Po


alternative
Valeur de S sous H1 S>O S<O 1s 1;t 0
S=p-t>o
Niveau de signification a /{S>Sseuil) = a f{S <Sseuï1) = a P( 1sj >Sseuil) = a

Il existe deux stratégies pour prendre une décision en ce qui concerne un test
d'hypothèse : la première stratégie fixe a priori la valeur du seuil de signification a
et la seconde établit la valeur de la probabilité critique aobsa posteriori ou Pva/ue.

Règles de décision 1 :
Sous l'hypothèse « HO est vraie» et pour un seuil de signification a fixé
• si la valeur de la statistique S calculée (Sobs.) est supérieure à la valeur seuil Sseuil
Sobs>Sseuil alors l'hypothèse HO est rejetée au risque d'erreur a et l'hypothèse Hl
est acceptée.
· si la valeur de la statistique S calculée (Sobs.) est inférieure à la valeur seuil Sseuil
5:\bSi Sseuil alors l'hypothèse HO ne peut être rejetée.

Règles de décision 2 :
La probabilité critique a telle que f{S ~ Sobs.) = aobs= Pvalue est évaluée
• si Pvalue = aobs~ 0,05 l'hypothèse HO est acceptée car le risque d'erreur de rejeter
HO alorsqu'elle est vrai est trop important.
· si Pvalue= aobs< 0,05 l'hypothèse HO est rejetée car le risque d'erreur de rejeter HO
alors qu'elleest vrai est très faible.

2. 4 Risques cf erreur, puissance et robustesse d'un test


2.4.1 Risque d'erreur de première espèce a
Le risque d'erreur a est la probabilité que la valeur expérimentale ou calculée de la
statistique S appartienne à la région critique si HO est vrai. Dans ce cas HO est
rejetée et Hl est considérée comme vraie.
Le risque a de première espèce est celui de rejeter HO alors qu'elle est vraie
a= f{ rejeter HO/ HO vraie) ou accepter Hl alors qu'elle est fausse
a= f{ accepter Hl/ Hl fausse)
La valeur du risque a doit être fixée a priori par l'expérimentateur et jamais en
fonction des données. Cest un compromis entre le risque de conclure à tort et la faculté
de conclure.

2.4.2 Risque d'erreur de deuxième espèce f>


Le risque d'erreur ~ est la probabilité que la valeur expérimentale ou calculée de la
statistique n'appartienne pas à la région critique si Hl est vrai. Dans ce cas HO est
acceptée et Hl est considérée comme fausse.
Le risque f> de deuxième espèce est celui d'accepter HO alors qu'elle est fausse
~ = f{ accepter HO/ HO fausse) ou ft accepter HO / Hl vraie) ou rejeter Hl alors qu'elle
est vraie ~ = f{ rejeter Hl / Hl vraie)

2.4.3 La puissance et la robustesse d'un test (1 - e>)


Les tests ne sont pas faits pour « démontrer » HO mais pour « rejeter » HO.
L'aptitude d'un test à rejeter HO alors qu'elle est fausse constitue la puissance du test.
La puissance d'un test est: 1 - ~ = ,'{rejeter HO/ HO fausse)= ,'{accepter Hl/Hl vraie)
Les différentes situations que l'on peut rencontrer dans le cadre des tests d'hypothèse
sontrésumées dans le tableau suivant :

~
HO est vraie Ho est fausse
D
Acceptation de Bonne décision Manque de Puissance :
HO Risque de s_eçond espèce B
Rejet de HO Rejet à tort : Puissance du test 1-B
Risque
de 1erespèce a

3 Tests Statistique
3.1 Tests de conformité

Les tests de conformité sont destinés à vérifier d'une part l'ajustementd'une


distribution observée à une distribution attendue (théorique) et d'autre part voirsi
un échantillon peut être considéré comme extrait d'une population donnée ou
représentatif de cette population, vis-à-vis d'unparamètre comme la moyenne, la
variance -ou krtr-équence observée. Ceciimplique que la loithéorique du paramètre est
connue·- au niveau -de la-population.

3 .1.1 Conformité d'une distribution observée à une distribution attendue (théorique)

Introduction: Le but de ce chapitre est d'étudier quelques méthodes


permettant de vérifier la conformité ou la non-conformité d'une distribution
observée à une distribution théorique.

Distribution théorique ou attendue : La distribution théorique émane de


l'hypothèse de travail émis pour appliquer un test ou calculer l'intervalle de
confiance d'un paramètre. Lorsqu'une hypothèse de travail est vraie, les résultats
attendus se présentent souvent sous la forme d'une distribution de probabilités.
Ainsi en génétique, dans les expériences de croisement, les probabilités de
survenue de différents phénotypes se déduisent directement de !'hypothèse de
travail. Dans la plupart des situations, il s'agit d'un ajustement à l'une des lois
suivantes:
La loi binomiale, qui nécessite d'estimer ou de connaître à priori le paramètre p.
Notons que la valeur de n est généralement fixée.

La loi Poisson, qui repose sur le paramètre A connu ou estimé par la moyenne des
observations.

_J.a loi normale, qui est construite à partir de deux paramètres généralement
estimés µ et cr.

Test du khi carré

L'écart entre l'effectif attendu sous Ho, à savoir E(nï), et l'effectif observé ni
dans les différentes classes de la distribution est mesuré par la statistique du
khi carré dont la valeur observée s'écrit:

k
2 = "\7 [[ni - E(nJ] ]
2

X ~ E(na
· t=l

Les hypothèses statistiques testées sont les suivantes :

HO : La distribution observée est conforme avec les résultats attendus sous la loi
de distribution théorique ;

Hl : La distribution observée n'est pas conforme avec les résultats attendus


sous la loi de distribution-théorique.

Sous HO, la statistique du khi carré obéit à une loi du khi carré à v = k - r
degré de liberté (d.d.l).

Aussi, si xl ~ X~ ;v l'hypothèse HO est rejetée au profit de l'hypothèse Hl au


seuil de signification a, et six~ < x~;vl'hypothèse HO est retenue. Dans ce cas,
l'écart entre les deux distributions peut être expliqué par le simple hasard.

Degré de liberté : le nombre v de degré de liberté (d.d.l) est égal au nombre de


composantes indépendantes, soit au nombre total k de composantes moins le
nombre r de relations qui les lie.
1 '-À . 11.
l1'-o
\ '1/ /. ·!)1 ,y

(.···~··.
✓.1/.·• · (
{3/· / -1/

/
/_
,

1 Table.2 1 Table de xz

~ 0,90

1 0,02
0,50

0,45
0,30

1,07
0,20

1,64
0,10

2,71
0,05

3,84
0,01

6,63
0,001

10,83
2 0,21 1,39 2,41 3,22 4,61 5,99 9,21 13,82
3 0,58 2,37 3,66 4,64 6,25 7,81 11,34 16,27
4 1,06 3,36 4,88 5,99 7,78 9,49 13,28 18,47
5 1,!>1 4,35 6,06 7,29 9 ;-2-4 11,07 15,-0g 20,-52
6 2,20 5,35 7,23 8,56 10,64 12,59 16,81 22,46
7 2,83 6,35 8,38 9,80 12,02 14,07 18,48 24,32
8 3,49 7,34 9,52 11,03 13,36 15,51 20,09 26,12
~9 ·--4,17 8,34 10,66 12,24 14,68 16,92 21,67 27,88
10 4,87 9,34 11,78 13,44 15,99 18,31 23,21 29,59
11 5,58 10,34 12,90 14,63 17,28 19,68 24,72 31,26
12 6,30 11,34 14,01 15,81 18,55 21,03 26,22 32,91
13 7,04 12,34 15, 12 16,98 19,81 22,36 27,69 34,53
14 7,79 13,34 16,22 18,15 21,06 23,68 29,14 36,12
15 8,55 14,34 17,32 19,31 22,31 25,00 30,58 37,70
16 9,31 15,34 18,42 20,47 23,54 26,30 32,00 39,25
17 10,09 16,34 19,51 21,61 24,77 27,59 33,41 40,79
18 10,86 17,34 20,60 22;76 25,99 28,87 34,81 42,31
19 11,65 18,34 21,69 23,90 27,20 30,14 36,19 43,82
20 12,44 19,34 22,77 25,04 28,41 31,41 37,57 45,31
21 13,24 20,34 23,86 26,17 29,62 32,67 38,93 46,80
22 14,04 21,34 24,94 27,30 30,81 33,92 40,29 48,27
23 14,85 22,34 26,02 28,43 32,01 35,17 41,64 49,73
24 15,66 23,34 27,10 29,55 33,20 36,42 42,98 51,18
25 16,47 24,34 28,17 30,68 34,38 37,65 44,31 52,62
26 17,29 25,34 29,25 31,79 35,56 38,89 45,64 54,05
27 18,11 26,34 30,32 32,91 36,74 40,11 46,96 55,48
28 18,94 27,34 31,39 34,03 37,92 41,34 48,28 56,89
29 19,77 28,34 32,46 35,14 39,09 42,56 49,59 58,30
Application et utilisation du modèle de Hardy-
Weinberg
Test de 1'équilibre
Une question centrale est de savoir si la loi de Hardy-Weinberg établie pour une
population théorique idéale s'applique également aux populations naturelles.

Cette loi s'appuie en effet sur un raisonnement probabiliste, ne s'applique en


théorie qu'à des populations d'effectif infini, et suppose remplies toute une
série de conditions qui ne sont jamais respectées dans la nature (absence de
mutation, migration, sélection). ·

L'application de la loi de Hardy-Weinberg, peut être vérifiée pour des


caractères codominants, pour lesquels le calcul des fréquences alléliques est
possible. C'est le test de l'équilibre.

Le principe du test est simple et peut être résumé en 3 étapes:

1- échantillonnage d ' une population, dénombrement des effectifs génotypiques


réels (possible grâce à la codominance) et calcul des fréquences alléliques réelles
parmi les N individus échantillonnés soit p= f(A) et q = f(a)

2- calcul des effectifs génotypiques attendus dans une population théorique


idéale qui aurait le même effectif et les mêmes fréquences alléliques que la
population étudiée soit:

Aa = 2 pqxN; aa = q2xN
3- comparaison des effectifs observés et des effectifs attendus (comparaison
des deux distributions) par un test statistique du Chi Deux: Le test du Chi Deux
nécessite le calcul de la distance khi2 permettant de tester l'hypothèse
d'égalité entre la distribution observée et la distribution théorique (hypothèse
HO).

( e.ffecrtfs obsen 'és - e:ffecrtfs théoriques) 2


e_ffectifs théoriques
La somme est effectuée sur tous les génotypes et la valeur X2 est comparée à
une valeur seuil, lue dans une table de khi2, en fonction de 2 paramètres: un
risque a à choisi par l'utilisateur qui est en général 5% et un nombre de degrés
de liberté d.d.l égale à la différence entre le nombre de génotypes et le nombre
d'allèles du système génétique étudié.

- si X2 calculé est inférieur à X2 seuil, HO est acceptée avec un risque B et on


conclue que la population suit la loi de Hardy-Weinberg, donc équilibre.

- si X2 calculé est supérieur à X2 seuil, HO est rejetée et on conclut que la


population ne suit pas la loi de Hardy-Weinberg avec un risque a= 5% de se
tromper.

Exemple

Chez l'homme, le groupe sanguin MN est déterminé par un gène à deux allèles
codominants Met N, ce qui permet d'attribuer un génotype à chaque individu
échantillonné, puis d'estimer les fréquences alléliques dans la population. Une
étude portant sur 730 aborigènes australiens a donné les résultats suivants :

22 MM; 216 MN; 492 NN


1- Calculer les fréquences p et q des allèles M et N:

2- Calculer les effectifs théoriques attendus des différentes catégories


génotypiques:

3- La distribution.observée est-elle conforme à la distribution théorique au seuil


a= 0.05?

Réponses:

Rl:

p =(22 + 1/2 x 216) / 730 =0,178 pour l'allèle M

q = 492 + 1/2 x 216) / 730 = 0,822 pour l'allèle N.


R2:

MM= p2x 730 = (0,178)2 x 730 = 23,1


MN= 2pq x 730 = (2 x 0,178 x 0,822) x 730 = 213,6

NN =q2x 730 = (0,822)2 x 730 = 493,2

~;-~""-':'·CC"
. ~~~--~--~
- =---:-::-~,-----·-·· ... ". ._._. ,.,_.·,.,.,,_,.;·.·_,-,,.i;1.. ·•--~-- .. -- .. _ --- _... - .... -•--\-...;.,_·-··--:-"•_·•,-:··· . - - .....---_ ...... .,,.,____ --~-~---- ,.---~-- __ ,_
3 .1. 2 Comparaison d'une moyenne observée et d'une moyenne théorique
Principe du test
Soit X, une variable aléatoire observée sur une population, suivant une loi
normale et un échantillon extrait de cette population.

Le but est de savoir si un échantillon de moyenne m, estimateur de µ, appartient


à une population de référence connue d'espérance µ0 (HO vraie) et ne diffère
de µO que par des fluctuations d'échantillonnage ou bien appartient à une autre
population inconnue d'espérance µ (Hl vraie).

Hypothèses
HO : µ = µ0 H1: µ -t µ0

Pour tester cette hypothèse, il existe deux statistiques: la variance de la population de


référence est connue (test Z) ou cette variance est inconnue et il faut l'estimer
(test T).
Variance de la population connue
Statistique du test

Soit M la distribution d'échantillonnage de la moyenne dans la population inconnue suit


une loi normale telle que : M ➔ ~ (µ, Jid)
La statistique étudiée est l'écart: S= M- µ0 dont la distribution de probabilité est la

suivante :S ~ ~
(0, {;ï) avec sous
✓-;; H0 E(S) =0 et V(S) = -;
0-Z

Nous pouvons établir grâce au théorème central limite la variable Z centrée réduite
~ = J;;
= S-E(S) M-µo
telle que: Z v V(S) o-2
n
Sous Ho: µ =JJo avec cf est connu
Z = Mf;-µo
uZ
➔ suit une loi normale centrée réduite ~co,1)
n
Application et décision
L'hypothèse testée est la suivante :
HO : µ = µ0 contre H1 : µ t µ0
Une valeur z de la variable aléatoire Z est calculée :z = lmjf 1o-2
n
Dite aussi z observée est comparée à la valeur z seuil lue sur la table de la loi normale
centrée réduite pour un risque a (règle de décision 1 ).

► Sizobs >zseuil l'hypothèse HO est rejetée au risque d'erreur a:


l'échantillon appartient à une population d'espéranceµ et n'est
pas représentatif de la population de référence d'espérance µO.
► Sizobs i zseui.l l'hypothèse HO est acceptée: l'échantillon est
représentatif de la population de référence d'espérance µ0
Exemple : La glycémie d'une population suit une loi normale d'espérance µ0 = lg/1 et
dëcart-type c!(} = 0,1 g/1.
On relève les glycémies chez 9 patients. On trouve x =1,129/I.
Cet échantillon est-il représentatif de la population ?

Variance de la population incoMUe


Statistique du test
La démarche est la même que pour le test Z mais la variance de la population
n'étant pas connue, elle est estimée par:
n l In
az = -n-l
-s2 =- -
n-l
(xi - m)2
i=l

La statistique étudiée est l'écart: 5= M - µ0 dont la distribution de probabilité est la

( T5ï)
suivante :S ➔ ~ O, ✓;- avec sous H0 E(S) =0 et V(S) =:
~2

Nous pouvons établir grâce au théorème central limite la variable T centrée réduite
~ = l
r = S-E(S) M-µo
telle que : v V(S) _ a 2

n
Sous Ho: µ = µo

T = l
M-µ O
..... 2
cr
suit une loi de Student à n - l ddl

Application et décision
L'hypothèse testée est la suivante :
HO : µ = µO contre Hl : µ 1- µ0
Une valeur t de la variable aléatoire Test calculée: t = lmll
Dite aussi t observée est comparée à la valeur t seuil lue sur la table de Student pour un
risque a fixé et (n-1) ddl(règle de décision 1).

► Si tobs>tseuil l'hypothèse HO est rejetée au risque d'erreur a:


l'échantillon appartient à une population d'espérance µ et n'est
pas représentatif de la population de référence d'espérance µO.
► Si tobsi tseuil l'hypothèse HO est acceptée: l'échantillon est
représentatif de la population de référence d'espérance µ0
Remarque : Sin< 30, la variable aléatoire X étudiée doit impérativement suivre une loi
normale N (µ, a).
Pour n ~ 30, la variable de Student t converge vers une loi normale centrée réduite z.

Tab.3 : Table de Student (Conçu selon un test bilatéral)

!~ 0,0001 0,001 0,01 0,02 0,03 0,04 0,05 0,1 0,2 0,3 0,5 0,9

·~ ·
~\ 1 6366,198 636,619 63,657 31,821 21,205 15,895 12,706 6,314 3,078 1,963 1,000 0,158
\ 2 99,992 31,599 9,925 6,965 5,643 4,849 4,303 2,920 1,886 1,386 0,816 0,142
3 28,000 12,924 5,841 4,541 3,896 3,482 3,182 2,353 1,638 1,250 0,765 0,137
4 15,544 8,610 4,604 3,747 3,298 2,999 2,776 2,132 1,533 1,190 0,741 0,134
5 11,178 6,869 4,032 3,365 3,003 2,757 2,571 2,015 1,476 1,156 0,727 0,132
- . - .
6 9,082 5,959 3,707 3,143 2,829 2,612 2,447 1,943 1,440 1,134 0,718 0,131
7 7,885 5,408 3,499 2,998 2,715 2,517 2,365 1,895 1,415 1,119 0,711 0,130
8 7,120 5,041 3,355 2,896 2,634 2,449 2,306 1,860 1,397 1,108 0,706 0,130
9 6,594 4,781 3,250 2,821 2,574 2,398 2,262 1,833 1,383 1,100 0,703 0,129
10 6,211 4,587 3,169 2,764 2,527 2,359 2,228 1,812 1,372 1,093 0,700 0,129
11 5,921 4,437 3,106 . 2,718 2,491 2,328 2,201 1,796 1,363 1,088 0,697 0,129
1
12 5,694 4,318 3,055 ! 2,681 2,461 2,303 2,179 1,782 1,083 0,695
1,356 0,128
13 5,513 4,221 3,012 2,650 2,436 2,282 2,160 1,771 1,079 0,694
1,350 0,128
14 · 5,363 4,140 2,977 2,624 2,415 2,264 2,145 1,761 1,076 0,692
1,345 0,128
15 5,,239 4,073 2,947 2,602 2,397 2,249 2,131 1,753 1,341
1,074 0,691 0,128
16 5,134 4,015 2,921 2,583 2,382 2,235 2,120 1,746 1,337
1,071 0,690 0,128
17 5,044 3,965 2,898 2,567 2,368 2,224 2,110 1,740 1,069 0,689
1,333 0,128
18 4,966 3,922 2,878 2,552 2,356 2,214 2,101 1,734 1,330
1,067 0,688 0,127
19 4;897 3;883 2,861 2,539 2,346 2,205 2,093 1,729 1,066 0,688
1,328 0,127
20 4,837 3,850 2,845 2,528 2,336 2,197 2,086 1,725 . 1,325
1,064 0,687 0,127
21 4,784 3,819 2,831 2,518 2,328 2,189 2,080 1,721 1,323 1,063 0,686 0,127
22 4,736 3,792 2,819 2,508 2,320 2,183 2,074 1,717 1,321 1,061 0,686 0,127
23 4,693 3,768 2,807 2,500 2,313 2,177 2,069 1,714 1,319 1,060 0,685 0,127
24 4,654 3,745 2,797 2,492 2,307 2,172 2,064 1,711 1,318 1,059 0,685 0,127
25 4,619 3,725 2,787 2,485 2,301 2,167 2,060 1,708 1,316 1,058 0,684 0,127
26 4,587 3,707 2,779 2,479 2,296 2,162 2,056 1,706 1,315 1,058 0,684 0,127
27 4,558 3,690 2,771 2,473 2,291 2,158 2,052 1,703 1,314 1,057 . 0,684 0,127
28 4,530 3,674 2,763 2,467 2,286 2,154 2,048 1,701 1,313 1,056 0,683 I 0,127
29 4,506 3,659 2,756 2,462 2,282 2,150 2,045 1,699 1,311 1,055 0,683 0,127
30 4,482 3,646 2,750 2,457 2,278 2,147 2,042 1,697 1,310 1,055 0,683 0,127
3,944 3,323 2,592 2,339 2,180 2,063 1,968 1,650 1,284 1,038 0,675 0,126
00
1

Utilisation de lo table T
· La table de Test plus difficile à utiliser que la table de Z
· Il y a autant de table de T que de degré de libèrté
ddl c'est l'effectif d'un échantillon-1
- Pour 1 échantillon: degré de liberté (ddl) = n-1

- Pour 2 échantillons : degré de liberté (ddl) = (ni-1) + (n 2-1)

• En ligne les valeurs possible de ddl


• En colonne les valeurs de a
• Repérer la ligne correspondant au degré de liberté
• Repérer la valeur T5%dans cette ligne

H1bilaterale:
Si la valeur calculée to < à T5%, on ne rejette pas HO
Si la valeur calculée to > à T5%,
► on rejette HO et on accepte Hl
► on recherche dans la même ligne la valeur de T immédiatement
inférieure à tO.
► La valeur correspondante lue dans la colonne a donne le degré de
signification p ; dit aussi p valeur ou Pvalue.

H 1unilaterale:
Si la valeur calculée to < à T10%, on ne rejette pas HO
Si la valeur calculée to > à T10%,
► on rejette HO et on accepte Hl
► on recherche dans la même ligne la valeur de T immédiatement
inférieure à tO.
► Le p obtenu est divisé par 2 correspond .au Pvalue.

Exemple1 :Un test de T bilatéral de comparaison de moyenne a étéeffectué sur deux


échantillons comportant chacun 3sujets. Le calcul a abouti à un to= 3,9.

· · - Calculez le ddl;

· Lire T Seuil et

Conclure

Exemple2 :Un test de T unilatéral de comparaison de moyenne a étéeffectué sur deux


échantillons comportant chacun 3sujets. Le calcul a abouti à un to= 3,9.

• Calculez le ddl;

• Lire le T seuil et

· :-"..·:"-.•- ~- ..-:.~·'-··:·:.·-·~·· . ..... . . .. __ - .. --- .··-· - -·" ""·.··.--· ·--- ---- ······~-- ··•··· . .,. _. _____ _ · -·- ······--·•"",.C"""~--- ····-··--- -···-,·----· ·- ·· · · . . ~.•. ~···
Conclure

Exemple :
Pour étudier un lot de fabrication de comprimés, on prélève au hasard 10 comprimés
parmi les 30 000 produits et on les pèse. On observe les valeurs de poids en grammes :
0,81- 0,84 - 0,83 - 0,80 - 0,85 - 0,86 - 0,85 - 0,83 - 0,84 - 0,80
Le poids moyen observé est-il compatible avec la valeur 0,83g, moyenne de la production
au seuil 98%?

3 . 1. 3 Comparaison d'une fréquence observée et d'une fréquence théorique ·


Principe du test
Soit X une variable qualitative prenant deux modalités (succès X=l, échec X=O)
observée sur une population et un échantillon extrait de cette population.

::..:~••;•,':"'_•~:-~~·- ~~·~:•:. • s ,~•'.< ;::::,~•".' ·:•A •••--- .~.. 1 ~•.-, :,•;•~~•Tt• c,_~_-'"•S',0~

Popuïai/on·incon;,uë ~i Population connue


X ➔ !3(n,p) 3 X➔ E(n,po)

Echantillonnage aléatoire simple

k
n , k ' f--
-
__
....( ·.1r\~ -!P~~~i=t:.~??~~:-i;~;::sr~!~~J3~\ ·_:t;1.~rr:~-:};..;t.~<{'.'.::: ,...c,.

Hypothèses .,.,.,,:,'+·r)•
Ho:P=Po H1:P =Po

Le but est de savoir si un échantillon de fréquence observée K/n, estimateur de p,


appartient àune population de référence connue de fréquence pJ (HO vraie) ou à une
autre populationinconnue de fréquence p (Hl vraie).

Statistique du test

La distribution d'échantillonnage de la fréquence de succès dans la population inconnue


K/n suit une loi normale telle que : ; ➔ ~ (P,~), les variances étant supposées égales
dans la population de référence et dans la population d'où est extrait l'échantillon.
La statistique étudiée est l'écart : 5 = ,t1/n-p0 dont la distribution de probabilité est la

suivante :S ➔ K ( 0, ft') avec sous H0 E(S) = 0 et V(S) = P~o

Nous pouvons établir grâce au théorème central limite la variable Z centrée réduite
K
S-E(S) --Po
telle que: Z = -yltr7'M
V(S)
= n~mais seulement si np0 et nq0 ~ 10
Poqo
n
K •
Sous Ho: p = poZ = ~~-Po
Poqo
suit une loi normale centrée réduite ~(0,1)
n
Application et décision
L'hypothèse testée est la suivante :
HO : p= pO contre Hl : p t p0
Une valeur z de la variable aléatoire Z est calculée:
· ·
z = lv~-Pol
Poqo
n
Dite aussi z observée est comparée à la valeur z seuil lue sur la table de la loi rrormale
centrée réduite pour un risque a (règle de décision 1).

► Si zobs >zseuil l'hypothèse HO est rejetée au risque d'erreur a :


l'échantillon appartient à une population de fréquence p et n'est
pas représentatif de la population de référence d'espérance pO.
► Si zobs i zseuil l'hypothèse HO est acceptée: l'échantillon est
représentatif de la population de référence de fréquencepO

Exemple :
Une anomalie génétique touche en France 1/1000 des individus. On a constaté dans une
région donnée :57personnes atteintes sur 50000 naissances.
Cette région est-elle représentative de la France entière ?

3. 2 Tests d'homogénéité
Les tests d'homogénéité destinés à comparer deux ou k populations à l'aide d'un nombre
équivalent d'échantillons (tests d'égalité ou d'homogénéité) sont les plus couramment
utilisés. Dans ce cas la loi théorique du paramètre étudié (par exemple p, µ,o2)est
inconnue au niveau des populations étudiées.
3. 2. 1 Comparaison de fréquences

3. 2 .1 .1 Comparaison de deux fréquences

Principe du test
Soit X une variable qualitative prenant deux modalités (succès X=l, échec X=O)
observée sur 2 populations et deux échantillons indépendants extraits de ces deux
populations. On fait l'hypothèse que les deux échantillons proviennent de 2 populations
dont les probabilités de succès sont identiques.
Population 1
Xi. .- /S(n1.p1)

Hypothèses
Ho:p1 - p2H1:p1 #p2
Le problème est de savoir si la différence entre les deux fréquences observées est
réelle ou explicable par les fluctuations d'échantillonnage. Pour résoudre ce problème,
deux tests de comparaison de fréquences sont possibles :
Test Zou test de la variable centrée réduite et test du Khi-deux x 2
Statistique du test Z
- La distribution d'échantillonnage de la fréquence de succès dans la population 1,
Kl/nl suit une loi normale telle que :

-K1 ➔ ~
~
f,1q1)
( Pv - -
~
et de m me pour -K2 suit
.
~
~ ( p2, f,2q2)
--
¾
Si et seulement si nlpl ; nlql ; n2p2 et n2q2 ~ 10

- Kl/nl et K2/n2 étant deux variables aléatoires indépendantes, nous pouvons


établir la loi de probabilité de la variable aléatoire à étudier Kl/nl -K 2/n2

Sachant que Kl/nl -K 2/n2 sKl/nl -K 2/n2 suit une loi normale

~r- ( p1 - p2, P1q1


- - +-
pzq2)
- , , bl.1r grace
nous pouvons eta ,.. au t h,eoreme
, cen t ra 11·1m1·t e 1a
n1 nz
variable Z centrée réduite telle que :
(Kt K2)
Z = --;==n==n====suit une loi normale centrée
1 2

pq(:1+:J
réduite~(0,1).

Application et décision
La valeur p, probabilité du succès commune aux deux populations n'est en réalité pas
connue.
On l'estime à partir des résultats observés sur les deux échantillons :p = ki+k 2 où k1 et
n1 +n2
k2 représentent le nombre de succès observés respectivement pour l'échantillon 1 et
pour l'échantillon 2.

L'hypotnèse testée est la suivante : Ho: pl =p2 contre Hl : pl i p2

Une valeur z de la variable aléatoire Z est calculée :

z=
1~1
1
n n
2
avec p = ki+k 2 z calculée est comparée avec z seuil lue sur la table de la
""(--42'-)
pq n1 n2
n1 +n2

loi normale centrée réduite pour un risque d'erreur a fixé.

- Si z calculée> z seuil l'hypothèse HO est rejetée au risque d'erreur a : les 2


échantillons sont extraits de deux populations ayant des probabilités de succès
respectivement pl et p2.
- Si z calculée< z seuil l'hypothèse HO est acceptée: les 2 échantillons sont
extraits de deux populations ayant même probabilité de succès p.

Exemple: On veut tester l'impact des travaux dirigés dans la réussite à l'examen de
stat1st1que.
Groupe1 Groupe 2
Nombre d'heures de TD 20h 30h
Nombre d'étudiants 180 150
Nombre d'étudiants ayant réussi à l'examen 126 129

Qu'en concluez-vous?

3. 2.1. 2Comparaison de k échantillons

Application du test de khi2 pour vérifier l'homogénéité de k échantillons


Considérons le cas général de k échantillons aléatoires simples d'effectifs n1, n2,
· n3 ,...... ,nk dont les éléments peuvent être classés en r catégories comme indiqué dans !e
tableau de contingence suivant:

Tableau de contingence

Echantillons r
1 2 ... J .... k
1 Fll F12 ... Flj .... Flk flm
(") 2 F21 F22 ... F2j ... F2k F2m
0

('), ... ...
l.O
0
""l 1 Fil Fi2 ... fij ... fik fim
(')
U\
....
r Frl Fr2 ... frj ... frk frm
r nl n2 ... nJ ... nk n

Comme le principe du test de khi2 consiste à mesurer l'écart qui existe entre des
fréquences observées et des fréquences théoriques et à tester si cet écart est
suffisamment faible pour être imputable aux fluctuations d'échantillonnage.

Le problème consiste donc à tester les hypothèses suivantes:

Ho : Les k échantillons constituent un groupe homogène;

H 1 : Les k échantillons constituent un groupe hétérogène.

Pour soumettre ces hypothèses à une épreuve de vérité; il faut trouver une
estimation non biaisé de Khi2. Si Ho est vraie, la meilleure estimation de la
proportion Pl d'éléments qui possèdent qui possèdent la caractéristique 1 est
fourni par P'l= flm/n (voir tableau) de la même manière, les meilleures
estimations des proportions P'2;P'3 ...... etP'r sont respectivement f2m/n;
f2m/n; ........frm/n. Comme l'espérance mathématique d'une variable obéissant à
une loi binomiale= nP, la meilleure estimation de fréquence théorique d'éléments

Soit en se référant au tableau de contingence:

Total de ligne* Total de colonne


fth,i,j =
Total général
3.2.2 Comparaison de deux variances

Principe du test
Soit X, une variable aléatoire observé~ sur 2 populations suivant une loi norrMle et
deux échantillons indépendants extraits de ces deux populations.

Population 1 Population 2
X1 ➔ .\'(~L1,crl) . ,. Y-2 ➔ .1Vüt2, cr2)

Echantillonnage aléatoire simple

,,·e"''"~fi;:;t~,;'ft0,
: r-~ .

On fait l'hypothèse que les deux échantillons proviennent de 2 populations dont les
variances sont égales.
o rs de la comparaison de deux
Le test de comparaison de variance est nécessaire l_
moyennes lorsque les variances des populations ne sont pas connues.

Statistique du test
La statistique associée au test de comparaison de deux variances correspond au rapport
des deux variances estimées.
82
Sous HO : oi2 = a/ Fobs = 8~
Suit une loi de Fisher-Snedecorà (n1-1, n2 -1) degrés de liberté avec a/> a,/ car le
rapport des variances doit être supérieur à 1.
Remarque : Il existe d'autres statistiques que celle de Fisher -Snédecor pour comparer
deux variances, notamment le test de Hartley qui impose l'égalité de la taille des
échantillons comparés n1= n2.

Application et décision
.;
La valeur de la statistique F calculée (fobs) est comparée avec la valeur Fseuil lue dans
la tablede la loi de Fisher-Snedecorpour un risque d'erreur a fixé et (n1-1, n2 -1)
degrés de liberté.
• si fobs~ .Fseuil l'hypothèse HO est rejetée au risque d'erreur a: les deux échantillons
sont extraits de deux populations ayant des variances statistiquement différentes
· si fobs! .Fseuil l'hypothèse HO est acceptée: les deux échantillons sont extraits de
deux po_pulations ayant même variance a 2•
Remarque : Pour !'application de ce test, il est impératif que X ---+N(µ,a} et que les
deuxéchantillons soient indépendants.

Exemple :
Un biologiste effectue des dosages par une méthode de mesure de radioactivité et ne
dispose donc que d'un nombre très limité de valeurs. Les concentrations Cl et C2
mesurées sur deux prélèvements ont donné les valeurs suivantes:
Cl : 3,9 - 3,8 - 4,1 - 3,6 C2: 3,9 - 2,8 - 3,1 - 3,7 - 4,1
La variabilité des valeurs obtenues pour les deuxprélèvements est-elle sitruïaire?

3 .2.3 Comparaison de deux moyennes appartenant à 2 échantillons indépendants


Principe du test
Soit Xun caractère quantitatif continu obs-ervé sur 2 populations suivant une loi
normale et deux échantillons indépendants extraits de ces deux populations.
~:•:~~~'!.-:t~-::f~-'.:t;t";-:;~;t~»:1!:".-{f•;":;-::.::-r-:t•i;:~t\"'f?~~~~~ -..1'~-~--, ~-f.•'·'···. ;.-:-,::;:.-:..~·:,:t;'_. ~·:,:::~·..:·-::=:-:é.;',-,~-: :-;. ,• ·:.~· ,:.;~~~,:-..-(-, \/
._,_
•·--
., ,:

Population 1 f ,~,!.-.·.
•~.·
Population 2 .::/
..,
X1 ➔ N(µ1,cr1) ~·f
,., X2 ➔ .1\i(p.z, cr:2)

Hypothèses
Ho: ,ll1 = µ2 H1 : µ1 .e µ2

On fait l'hypothèse que les deux échantillons proviennent de 2 populations dont les
espérances sont égales.
Il existe plusieurs statistiques associées à la comparaison de deux moyennes en fonction
de la nature des données.

1
1
Les variances a12 = a22 . sont
j

Connqes Inconnues

Egales Différentes
nleJ.?e30nl ln.?<30

EJEJ Test non paramétrique


a- Les variances des populations sont connues
Statistique du test
• Soit Ml la distribution d'échantillonnage de la moyenne dans la population 1 suit uneloi
normale telle que: M1 ➔ ~ (µ 1 ; ::) de même pour M 2 ➔ ~ (µ 2 ; : : )
• Ml et M2 étant deux variables aléatoires indépendantes, nous pouvons établir la loi
deprobabilité de la variable aléatoire à étudier Ml - M2

E(Ml - M2) = E(Ml) - E(M2) = µ1 - µ2


(T2 (T2
V(Ml - M2) = V(M1) - V(M2) = 2 + 2-
n1 n2

·Sachant que Ml - M2 suit une loi normale ➔ ~ µ1 - µ2;


q2
_1.+ q2)
...1.. , nous pouvons
( n1 n2
établir grâce au théorème central limite la variable Z centrée réduite telle que :

z __(M_1_-_M-;::=2)=-=E=(=M=1=--_M_2_) _(Ml - M2) - (µ 1 - µ 2)


- . .jV(M1 - M2) - ----;:cr=2==CJ=2=---
~
n1
+ -2.
n2

2
Sous HO : µ1 = µ 2 et 01 = CJ2 2
sont connues
Z = u,t une 101. norma 1e centree
(Mi-MZ)S .
--==='-
r,2 a-2
, re'd u1te
. \l'(Q
~ ; 1)
--1+~
n1 nz

Application et décision
L'hypothèse testée est la suivante :
HO : µ 1 =µ2 contre H1 : µ1 *µ 2
. bl e a I'eato,re
Une va Ieur z de 1a varia . Z est ca Icu I'ee :z = lml-mzld.,te aussi· z ca1cu 1'ee ou
~
a-2 0"2
:::.l.+-l.
✓ n1 n2

zobservée.
zcalculée (zobs) est comparée avec la valeur zseuil lue sur la table de la loi normale
centrée réduitepour un risque d'erreur a fixé.
• si zobs~ zseuil !'hypothèse HO est rejetée au risque d'erreur a: les deux échantillons
sont extraits de deux populations ayant des espérances respectivement µ1 et µ2.
• si zobss. zseuil l'hypothèse HO est acceptée: les deux échantillons sont extraits de
deux populations ayant même espérance µ.
Remarque: Pour l'application de ce test, il est impératif que X -N (µ, o) pour les
échantillons de taille < 30 et que les deux échantillons soient indépendants.
Exemple : On a effectué une étude, en milieu urbain et en milieu rural, sur le rythme
cardiaque humain :
Milieu urbain Milieu rural
Effectif de l'échantillon 300 240
Moyenne de l'échantillon 80 77
Variance de la population 150 120

Peut-on affirmer qu'il existe une différence significative entre les rythmes cardiaques
moyens des deux populations ?

b- Les variances des populations sont inconnues et égales


Statistique du test
· Les variance.s des populations n'étant pas connues, on fait l'hypothè.se q_u_e les d.eux
populations présentent la même variance. HO : 0'1 0'2
2
=
a (Voirtest de 2
= 2

comparaison des variances)


· L'égalité des variances des deux populations ou homoscédasticité permet alors
d'établir la loi de probabilité de Ml - M2 avec: M 1 ➔ N (µ 1 ; f) et M2 ➔ ~ (µz; ::)

• Sachant que Ml-M2 suit une loi normale ➔ K ( (µ 1 - µ 2 ); a 2 (:, + :J)


, nous pouvons établir grâce au théorème central limite la variable Ttelle que:
(M1 - M2) - E(M1 - M2) (Ml - M2) - (µ1 - µz)
T-------;::=====-------;::=====--
- .jV(M1 - M2) - ( 1 1)
(f
2
-+-
n1 n2

Sous HO : µ 1 = µ 2 et cr/ = a/ = cr2


T = -;:::::===:.'.:,Uit
(Ml-MZ)
une loi de Studenta' ( nl + n2 -2 ) degreId e J"b erte, I
cr2(_!_+..!...)
n1 n2

Application et décision
L'hypothèse testée est la suivante :
HO: µ 1 =
µ 2 contre Hl : µ 1 µz *
Les variances des populations n'étant pas connues, l'égalité des variances doit être
vérifiéeHO : ai= ai contre ai* nhest de Fisher
Hl :
lm1-m21 . . ,
Une valeur t de la variable aléatoire Test calculée :t = -;::====dite aussi t calculee
a-2 (_!_+_!_)
n1 n2
tcalculée (tobs) est comparée avec la valeur tseuil lue sur la table de Studentpour un
risque d'erreur a fixé et à (nl+ n2 -2) ddl.
· si tobs~ tseuil l'hypothèse HO est rejetée au risque d'erreur a : les deux échantillons
sont extraits de deux populations ayant des espérances respectivement µ1 et µ2.
· si tobsf tseuil l'hypothèse HO est acceptée: les deux échantillons sont extraits de
deux populations ayant même espérance µ.
Remarque: Pour l'application de ce test, il est impératif que X -.N (µ, o) pour les
échantillons de taille < 30, que les deux échantillons soient indépendants et que les
deux variances soient égales.

Exemple : Dans le but d'étudier l'influence du type d'atmosphère d'élevage sur la durée
de développement des drosophiles femelles, ces dermëres ont été élevées à 14"C sous
atmosphère normale (N) ou enrichie en CO2 {CO2). Les résultats suivants ont été
obtenus:
N_ 864 768 912 804 924 984 888 816 840 936 79? 876
CO2 840 948 936 1032 912 948 1020 936 1056 876 1032 918

Que peut-on conclure ?

c-Les variances des populations sont inconnues et inégales

Si les variances des populations ne sont pas connues et si leurs estimations à partir des
échantillons sont significativement différentes (test de comparaison des variances), il
fautconsidérér deux cas de figure selon la taille des échantillons comparés :
lesgrands échantillons avec nl et n2 supérieurs à 30.
lespetits échantillons avec nl et/ou n2 inférieurs à 30.

Cas où n1 et n2 > 30
La statistique utilisée est la même que pour le cas où les variances ·sont connues.

Sous HO : µ1 = µz
Z == (Ml-MZ) .
--:::==-Suit une 1oi norma 1e centree
' re'd u,te
. 1,..,.(0 ; 1)
0'2 0'2
.::.1+::Z
n1 n2

Comme les variances sont inconnues et significativement différenteso{ uL *


onremplace les variances des populations par leurs estimations ponctuelles calculées à
partir des échantillons,

L'hypothèse testée est la suivante :


HO : µ1 =µ2 contre H1 : µ 1 *µ 2
Une vale~r z de la variable aléatoire Z est calculée :z = lml-mZ]dite aussi z calculée ou
~ cr~
-+-
n1 n2

z observée.
zcalculée (zobs) est comparée avec la valeur zseuil lue sur la table de la loi normale
centrée réduitepour un risque d'erreur a fixé.
• si zobs~ zseuil l'hypothèse HO est rejetée au risque d'erreur a : les deux échantillons
sont extraits de deux populations ayant des espérances respectivement µ1 et µ2.
• si zobSi zseuil l'hypothèse HO est acceptée: les deux échantillons sont extraits de
deux populations ayant même espérance µ.
Remarque: Pour l'application de ce test, il est impératif que X -N (µ, cr) et que les
deux échantillons soient indépendants.

Exemple:
Dans le but d'étudier lmflllence éventuelle de la lilmtêre sur la croissance du poisson
lebistesReticulus, on a élevé deux lots de ce poisson dans des conditions dëc/airage
différentes, Au95ème jour, on a mesuré en mm les longueurs xi des poissons. On a
obtenu les résultats suivants :
= =
lot 1 (180 individus): éclairage à 400 lux. IX11 3 780IXl1 84 884
lot 2 (90 individus) : éclairage à 3 000 lux. L Xa = 2 043f, Xi~= 46 586
Que peut-on conclure ?

Cas où n1 et/ou n2 < 30


Lorsque les variances sont inégales et les écnantillons de petites tailles, la loi de
probabilité suivie par M1-M2 n'est pas connue. On a recours alors à lastatistique non
paramétrique.
3. 2. 4 Comparaison de deux moyennes sur deuxséries appariées

a) Test Z (n ~ 30)

Chaque observation d'un échantillon est liée à une observationhomologue d'un


deuxième échantillon. Chaque couple de valeurconstitue une paire
On a un seul échantillon, mais 2 séries de valeurs observées et liéeà des individus.
- Ex: comparer la moyenne du poids avant et après régime

Principe du test:
• On teste l'hypothèse que les différences individuelles entre sujetsappariés sont
nulles.
• La moyenne des différences suit une loi Z normale centrée réduite de moyenne 0
et d'écart type 1.

Intérêt du test:
• élimine la variabilité entre individus de la même série. On ne prend en compte
que la variabilité des différences entre paires.
• Ce test est plus puissant qu'un simple test de comparaison de moyennes.

Formulation:
• xi et yi: valeurs observées dans chaque série
• di : différence observée entre deux valeurs appariées
• sd2 : variance des différences
• md : moyenne des différences entre sujets appariés
• smd : écart type de la moyenne des différences
• n : nombre de couples appariés

Condition d' application:


Les différences doivent être distribuées de façon normale

Calculs:
- Constituer l'échantillon des différences : di = xi - Yi
"~ id·l
- Moyenne d es d "ff,
I erences : = n
m d .L.i=
'°~ 1(d·-md)2
: Sd =
. des d"ff erences
, 2 .L.t= l
Var1ance I
n-1

- Ecart type de la moyenne: Smd = ✓-;;-


rJ
Application et décision
L'hypothèse testée est la suivante :
H0 : µx = µY ce qui équivaut µd = µx - µY= 0 contre H1 : µd *0
Une valeur z de la variable aléatoire Z est calculée :
md
z=--
5md
Dite aussi z calculée ou z observée.

zcalculée (z obs) est comparée avec la valeur z seuil lue sur la table de la loi
normale centrée réduite pour un risque d'erreur a fixé.
Hl z Rejet de Interprétation
HO
< 1.96 Non Les moyennes des deux séries ne diffèrent pas significativement
bilatéral
~ 1.96 Oui Les moyennes des deux séries diffèrent significativement

< 1.64 Non Les moyennes des deux séries ne diffèrent pas significativement
Unilatéral
~ 1.64 Oui La moyenne d'une des deux séries est supérieure (ou inférieure) à
l'autre.

Exemple : Chez 58 personnes présumées diabétiques, on a pratiqué un test


d'hyperglycémie provoquée par voie orale, et on a mesuré chez chaque sujet, dans
les mêmes conditions techniques, la glycémie juste avant et 2 heures après
l'ingestion de glucose.

xi désigne la glycémie de départ, yi la glycémie 2 heures après. On a trouvé :

r xi= 5646i:. yi= 5722Z: xi 2 = 594470i:. yi 2 = 570640i:.xiyi= 562023

Comparer les glycémies à jeun et au bout de 2 heures

b) Test T (n _< 30)

Lorsque la taille des échantillons est faible (n<30) lerapport entre les différences de
leurs moyennes et l'écarttype ne suit pas une loi normale centrée réduite Z; On utilise
alors le test T de Student.

Principe du test:
• Sous HO, les différences individuelles entres individus appariéessont nulles
• La moyenne des différences divisée par son écart type suit une loi loi T de
Student à n-1 ddl

Intérêt du test:
• On élimine la variabilité entre individus de la même série. Le testapparié est plus
puissant qu'un simple test de comparaison de 2moyennes.

Calculs:
Constituer l'échantillon des différences : di= xi - Yi

Moyenne des dI"ff'erences : md = "'~n1d·


.L.t= I

(d·-md)z
.
Var1ance des d"ff, 2
I erences : S d = "'~
.L.t=l l.

n- 1
Ecart type de la moyenne : Smd = ✓~
-;-
Application et décision
L'hypothèse testée est la suivante :
H0 : µx = µY ce qui équivaut µd = µx - µY = 0 contre H1 : µd =f=. 0

Une valeur t de la variable aléatoire T est calculée :


md
t=-
Smd
Dite aussi t calculée ou t observée.

tcalculée (tobs) est comparée avec la valeur tseuil lue sur la table de
STUclentpour un risque d'erreur a fixé ét à n-1 ddl.

Hl t Rejet de Interprétation
HO
<T 5% ;n-1 ddl Non Les moyennes des deux séries ne diffèrent pas
significativement
bilatéral
~ T 5% ; n-1 ddl Oui Les moyennes des deux séries diffèrent
significativement

< T 10%; n-1 ddl Non Les moyennes des deux séries ne diffèrent pas
significativement
Unilatéral
~ T i0% ; n-1 ddl Oui La moyenne d'une des deux séries est supérieure (ou
inférieure) à l'autre.

Exemple : On désire étudier l'effet d'une nouvelle stratégie de traitement


dudiabète sur la glycémie. On dose la glycémie chez 15 sujets avantle débuf
du nouveau protocole (série A} et 3 mois après (série 8): •

A 2.47 3.09 2.14 2.47 3.06 2.72 2.29 1.90 2.34 2.75 2.67 2.80 2.51 2.23 2.201
B 2.30 2.96 2.23 2.34 2.84 2.59 2.15 1.88 2.32 2.65 2.68 2.58 2.43 2.02 2.17 1
di 0,17 0,13 -0,09 0,13 0,22 0,13 0,14 0,02 0,02 0,10 -0,01 0,22 0,08 0,21 0,03 i

Le nouveau protocole est-il efficace?

- Formulerles hypothèses

-Quel test choisissez- vous ?

- Quelles en sont les conditions d'application?

Vous aimerez peut-être aussi