Poly Cours 3
Poly Cours 3
Poly Cours 3
Antoine Godichon-Baggioni
1 Introduction
L’analyse de variance (ANOVA) recouvre un ensemble de techniques de tests et d’estimation destinés
à apprécier l’effet d’une ou plusieurs variables qualitatives sur une variable quantitative et revient dans
le cas simple à comparer plusieurs moyennes d’échantillons gaussiens : on généralise le test classique
d’égalité de deux moyennes au test d’égalité de p moyennes (p ≥ 2).
Comme dans le test d’égalité de deux moyennes, on posera les hypothèses de normalité et d’indépen-
dance du caractère quantitatif et d’égalité des variances.
La particularité de l’ANOVA, c’est que les p moyennes vont provenir de p échantillons correspondant
chacun à une modalité du caractère qualitatif qui sert à stratifier la population.
On utilise dans l’ANOVA un vocabulaire particulier introduit par les agronômes qui ont été les premiers
à s’intéresser à ce type de problème : la variable qualitative susceptible d’influer sur la distribution de la
variable quantitative étudiée est appelée facteur et ses modalités niveaux.
Essayons d’illustrer sur un exemple la problématique de l’ANOVA à un facteur.
Essayons de modéliser ces données. En notant Yij la hauteur du j ème arbre de la forêt i et µi la hauteur
moyenne inconnue de la forêt i, on peut envisager le modèle suivant :
i = 1, · · · , 3
Yij = µi + εij avec
j = 1, · · · , ni
où εij représente la variabilité de l’arbre j par rapport à la hauteur moyenne de la forêt i. On fait sur les
variables εij les hypothèses suivantes :
— E [εij ] = 0, pour tout (i, j) ;
— Var [εij ] = σ 2 pour tout (i, j), ie. la variance de la hauteur des arbres est la même dans les 3
forêts ;
— les (εij ) sont indépendantes, ce qui est assuré par la manière dont a été fait l’échantillonnage ;
— les (Yij ) (et donc les εij ) sont des variables gaussiennes.
La question auquelle on souhaite maintenant répondre est :
Les forêts sont-elles équivalentes (du point de vue la hauteur moyenne des arbres) ?
Ceci se traduit dans le cadre de notre modèle, par le test de l’hypothèse nulle
H0 : µ1 = µ2 = µ3
H1 : µ1 6= µ2 ou µ2 6= µ3 ou µ1 6= µ3
Un des objectif de ce cours sera de voir comment on met en œuvre un tel test.
Exemple 1. Les candidats à un oral ont été répartis au hasard entre trois examinateurs. Du fait des
absents, le premier examinateur a fait passer l’oral à 6 étudiants, le second à 8 étudiants et le troisième
à 7 étudiants. Voici les notes qu’ils ont attribués :
Examinateur 1 2 3
10 11 8 11 10 13
11 12 11 13 14 14
13 15 14 15 15 16
16 16 16
Nombres de notes 6 8 7
Moyenne 12 13 14
Tableau 1. Notes obtenues à l’oral.
2 Les données et le modèle 2
Un candidat remarque que la moyenne des notes du premier examinateur est de 12, celle du deuxième
de 13 et celle du troisième de 14. Il y a 2 points d’écarts entre la meilleure moyenne qui est de 14, et la
moins bonne qui est de 12.
Avant d’entamer une procédure de recours, il se demande si une telle variation des moyennes observées
peut être due au hasard seul ou si elle est révalatrice d’un réel “effet examinateur” qui influerait sur la
moyenne des notes attribuées. Après tout, les tailles d’échantillons sont bien faibles !
On se pose alors la question suivante : peut-on conclure que les traitements ont une efficacité différente
pour le critère “temps moyen séparant de la prochaine crise” ?
Pour répondre aux questions posées dans ces deux exemples, nous mettrons en œuvre un test statis-
tique dont l’objet sera de tester l’égalité des moyennes de chaque échantillon ou bien encore de voir si
le facteur, dont on étudie l’effet, a un effet sigificatif réel. Pour cela, nous avons besoin, bien entendu,
d’un modèle probabiliste et d’une statistique de test adaptée qui prendra en compte les écarts entre les
moyennes observées.
iid
Yij = µi + εij avec (εij ) ∼ N (0, σ 2 ). (1)
p
X
µi = µ + αi avec ni αi = 0 (2)
i=1
où
• µ représente un effet global inconnu du facteur ;
• αi représente l’effet principal (spécifique) inconnu du niveau i du facteur A.
Le modèle s’écrit alors
iid
Yij = µ + αi + εij avec (εij ) ∼ N (0, σ 2 ). (3)
| {z }
µi
Lorsque l’égalité des moyennes ne sera pas retenue, le problème se posera d’estimer, selon le contexte,
soit les (µi ), soit µ et les (αi ).
3 Test de l’effet du facteur 4
H0 : µ1 = . . . = µp
contre l’alternative
H1 : ∃ (i, j) tq µi 6= µj
Ce sous-modèle étant de dimension 1 (un seul paramètre et aucune contrainte), on le notera (M1 ).
Autrement dit, tester l’absence d’effet du facteur A sur Y , c’est tester
iid
H0 : Modèle (M1 ) : Yij = µ + εij avec (εij ) ∼ N (0, σ 2 )
contre
iid
H1 : Modèle (Mp ) : Yij = µi + εij avec (εij ) ∼ N (0, σ 2 )
ni
1 X
1. On estime µi (pour tout i = 1, · · · , p) par µ
bi = Yij = Y i.
ni j=1
des (µi ).
au modèle complet
iid
(Mp ) : Yij = µi + εij avec (εij ) ∼ N (0, σ 2 )
et SCR(Mp ) ∼ σ 2
.χ 2
n−p . SCR(M1 ) ∼ σ 2 .χ2n−1 et
De plus sous H0 ,
SCR(M1 ) − SCR(Mp ) /(p − 1)
Z =
SCR(Mp )/ n − p
suit une loi de Fisher F p − 1 ; n − p .
3 Test de l’effet du facteur 6
Remarque 3.2 Le résultat Z ∼ F p − 1 ; n − p est bien évidemment faux sous H1 , ce qui fait de Z
H0
une statistique de test pour tester H0 contre H1 , ie. (M1 ) contre (Mp ).
SCR(Mp )
Le résultat SCR(Mp ) ∼ σ 2 .χ2n−p entraı̂ne que S 2 = est un estimateur sans biais de σ 2 .
n−p
Remarque 3.4 On peut aussi voir la somme des carrés SCM = SCR(M1 ) − SCR(Mp ) comme une
mesure de la réduction d’erreur, quand on passe du sous-modèle (M1 ) au modèle (Mp ), ie. quand on
ajoute dans le modèle, les effets spécifiques du facteur A à la constante (pas d’effet du facteur).
mesure l’écart des moyennes des groupes à la moyenne générale : c’est une mesure de variabilité entre les
groupes. La quantité SCR(Mp ), quant à elle, mesure l’écart de chaque individu à la moyenne du groupe
auquel il appartient : c’est une mesure de variabilité à l’intérieur de chaque groupe. Sous H0 , la variabilité
inter-groupe est comparable à la variabilité intra-groupe, sous H1 , elle est d’autant plus grande que les
(µi ) sont différentes.
Exercice E.1 Reprendre les différents exemples et dire au risque 5% si il y a un effet significatif dû
au facteur.
Définition 4.1 Un contraste entre les paramètres (µi )i=1,··· ,p est une combinaison linéaire des (µi ) de
Xp p
X
la forme ci µi où les (ci ) sont des coefficients réels constants vérifiant la condition ci = 0 .
i=1 i=1
4 Comparaisons multiples de moyennes 8
p
X
ci Y i.
i=1
Z = v
u p
! ∼ Tn−p
u SCR(Mp )
t
X c2i
n−p i=1
ni
Remarque. Sous H1 , la variable aléatoire Z ne suit plus une loi de Student Tn−p , ce qui fait de Z une
statistique de test. Notons de plus que ce résultat est vrai quelque soit le contraste considéré.
v
p p u p
X X u X c2
i
Exercice E.2 Démontrer que ci Y i. ∼ N ci µi , σ t .
i=1 i=1 i=1
n i
Preuve du théorème. Du résultat de l’exercice précédent et enPutilisant le fait que SCR(Mp )/σ 2 suit
p
une loi du khi-deux à (n−p) degrés de liberté et que SCR(Mp ) et i=1 ci Y i. sont des variables aléatoires
indépendantes (voir la remarque ci-dessous), on déduit ”en studentisant” que
p
X p
X
ci Y i. − ci µi
i=1 i=1
v
u p
! ∼ Tn−p
u SCR(Mp )
t
X c2i
n−p i=1
ni
Pp
On conclut à la preuve du théorème en remarquant que i=1 ci µi = 0 sous l’hypothèse H0 .
Remarque 4.3 Puisque les variables aléatoires (Yij ) sont globalement indépendantes, on en déduit
que les paquets de variables aléatoires (Yi1 , . . . , Yini )1≤i≤p sont aussi indépendants. Par suite, les va-
riables aléatoires (Y i. ) sont indépendantes, puisque construites à partir de paquetsdisjoints de variables
Pni 2
aléatoires globalement indépendantes. Il en va de même pour les variables aléatoires i=1 Yij − Y i. .
Pni 2
Enfin, puisque pour tout i, les variables Y i. et i=1 Yij − Y i. sont indépendantes, on en déduit que
Pp
les variables SCR(Mp ) et i=1 ci Y i. le sont aussi.
5 Robustesse aux hypothèses 9
et on adopte la stratégie suivante : si |z| ≤ tn−p,δ/2 alors on accepte H0 au risque δ et on considère que
le contraste ψ est nul, sinon (ie. |z| > tn−p,δ/2 ) alors on rejette H0 au risque δ et on considère que le
contraste ψ est différent de 0.
Notons (Si2 ) les estimateurs sans biais des variances (σi2 ) des p échantillons. On rappelle que
ni
1 X 2
∀ i ∈ {1, . . . , p} , Si2 = Yij − Y i.
ni − 1 j=1
p
X
et par conséquent, on peut réécrire SCR(Mp ) sous la forme SCR(Mp ) = (ni − 1) Si2 .
i=1
Sous l’hypothèse H0 , on montre que la statistique
p p
2.3026 h SCR(Mp ) X i 1 hX 1 1 i
(n − p) ln − (ni − 1) ln Si2 avec C = 1 + −
C n−p i=1
3(p − 1) i=1 ni − 1 p−1
suit approximativement un χ2 à (p − 1) degrés de liberté. Bien entendu, sous H1 , cette variable aléatoire
ne suit plus un χ2 (p − 1). Ce résultat est donc suffisant pour construire un test de H0 contre H1 .
Exercice E.3 Reprendre les exemples 1, 2 et 3 et tester au risque 5% l’égalité des variances.
Théorème 7.1 Sous les hypothèses de normalité et d’indépendance des p échantillons, pour tout i ∈
{1, . . . , p}, Y i. est un estimateur sans biais du paramètre µi et
σi
Y i. ∼ N µi , √
ni
ni
1 X 2
De plus, Si2 = Yij − Y i. est un estimateur sans biais de σi2 , indépendant de Y i. , et on a
ni − 1 j=1
(ni − 1) 2
σi2
Si ∼ χ2n −1
i
Conséquence. Il est possible de bâtir des intervalles de confiance pour les paramètres (µi ). En effet, on
déduit du théorème précédent que
√
ni Y i. − µi
∼ T ni −1
Si
et par suite l’intervalle de confiance au niveau de confiance (1 − δ) de µi est :
h si tni −1,δ/2 i
IC(1−δ) (µi ) = y i. ± √ ,
ni
h i
où si est la réalisation de Si sur les données et tni −1,δ/2 est tel que P |Tni −1 | < tni −1,δ/2 = 1 − δ.
Théorème P
7.2 Sous les hypothèses de normalité et d’indépendance des p échantillons et sous la
p
contrainte i=1 ni αi = 0,
– Y .. est un estimateur sans biais du paramètre µ ;
– pour tout i ∈ {1, . . . , p}, Y i. − Y .. est un estimateur sans biais du paramètre αi .