Analyses de Variance - Anova
Analyses de Variance - Anova
Analyses de Variance - Anova
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html l'original
Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.
C’est la somme des carrés des écarts par rapport à la moyenne / nombre de degrés
de liberté = SCE/ddl (ceci lorsque le nombre d’individus composant l’échantillon est
réduit ; sinon, utiliser N’=N). La variance est le carré de l’écart-type.
•Avec toujours une seule variable à expliquer, mais une ou plusieurs variables
explicatives, toutes continues, on fait appel au modèle de régression linéaire simple
ou multiple : on appelle régresseurs les variables explicatives. La régression consiste
à évaluer les paramètres d'une fonction linéaire, à estimer à l'aide de cette fonction
les valeurs de la variable à expliquer et à tester si les différences (= les résidus) entre
valeurs mesurées et valeurs estimées s'écartent de manière significative de 0.
Seuls des échantillons suivant une loi normale peuvent faire l’objet d’une analyse de
variance paramétrique. Pour vérifier que la distribution d’un échantillon suit une loi
normale, il est possible d’utiliser, dans Statview II, le test descriptif d’aplatissement et
d’asymétrie (de kurtosis and skewness, en anglais).
On considère que l’échantillon suit une loi normale à 95 % lorsque la valeur de son
aplatissement est compris enttre -2 et +2.
5.3.3. Homoscédascticité des variances par le test de Hartley
Cette valeur est comparée, dans une table de Hartley (ou du Fmax), à une valeur
théorique et doit lui être inférieure pour un seuil de risque choisi (par exemple, 95 %)
pour conserver l'hypothèse d'homogénéité des variances.
Les d.d.l. sont, pour la colonne de la table du Fmax, le nombre de traitements (=k)
(colonnes de données), et pour la ligne de la table, le nombre de données du plus
grand échantillon - 1 (=n-1).
L'hypothèse nulle H0 est l'égalité des moyennes des populations dont sont extraits
les échantillons : m1=m2=m3=...=mk
5.3.4.1. Principe
1. Manuellement, on calcule :
2. Par différence [a-b] on obtient la variance inter-groupes (qui est liée aux
différences de conditions expérimentales).
a = [a-b] + b
Variance totale = Variance inter-groupe + Variance intra-groupe
[SCE à la moyenne générale] = [SCE factorielle] + [SCE résiduelle]
3. On calcule le rapport :
Notation :
Ti Tj Tk G totaux
somme des carrés
moyennes
5.3.4.2. Exemple 1
On veut savoir si la quantité de nitrates varie d'une station à l'autre le long d'une
rivière. Pour cela, on prélève en 10 points (n=10) chaque fois une certaine quantité
d'eau dans 3 stations différentes (k=3).
Somme des carrés des écarts (SCE) entre traitements (inter-groupe) = ou = 1732,47
(S(moyTj-moyX)2)*n
Sommes des carrés des écarts (SCE) expérimentales (erreur exp) ou résidu (intra-
total
groupe) = - ou = S(S(X-moyT)2)
erreur = 67010,50 81440,90 19833,60 168285,00
170017,47
Somme totale des carrés des écarts = - ou S(X-moyX)2
D’où :
5.3.4.2.2. Utilisation de Statiew II
Conclusion de l’expérience : pour cette série de mesures, on peut donc conclure que les
taux de nitrates des trois stations ne diffèrent pas significativement ou que ces 3
stations ne diffèrent pas significativement par leur taux de nitrates avec une seuil de
signification (risque d’erreur) de 5%.
On dispose de k=3 échantillons comprenant n=5 individus dont les valeurs sont
données dans le tableau ci-après : il s’agit des différences de temps de réaction pour
trois souches de souris soumises à une même expérience.
L’hypothèse nulle est donc rejetée. On considère que les 3 échantillons diffèrent
significativement (la probabilité de se tromper est de 0,0001).
* significatif à 95%
Cette situation correspond aux échantillons appariés des tests pour deux
échantillons.
Calculs à réaliser dans le cas d’un traitement manuel (ou avec un tableur) :
5.3.5.2.. Exemple 1
X1 X2 X3 total
50,00 162,00 120,00 332,00
52,00 350,00 120,00 522,00
123,00 125,00 122,00 370,00
100,00 320,00 221,00 641,00
200,00 112,00 253,00 565,00
250,00 200,00 141,00 591,00 n
220,00 40,00 182,00 442,00 10
220,00 162,00 175,00 557,00 k
300,00 160,00 160,00 620,00 3,00
220,00 250,00 214,00 684,00 total=G
total 1735,00 1881,00 1708,00 5324,00 5324,00
944832,53
(1)=
(2)= 1114850
1735^2/n+1881^2/n+1708^2/n 946565,00
(3)=
332^2/k+522^2/k+...684^2/k 985621,33
(4)=
Somme carrés totale ou =S(Xij-moyX)2
(2)-(1) 170017,47
se décompose en :
Somme carrés inter-individus ou
(4)-(1) 40788,80
= k*(S(Pi/k-moyX)2)
Présentation des données : les échantillons étant appariés (mesures répétées), les
valeurs mesurées sont placées dans des colonnes différentes affectées des variables
X1, X2, X3, Xn.
Conclusion de l’expérience : pour cette série de mesures, on peut donc conclure que les
taux de nitrates des trois séries de mesures ne diffèrent pas significativement ou que
cette station ne présente pas de variation significative du taux de nitrates, au cours
des trois saisons de mesure, avec un seuil de signification (risque d’erreur) de 5 %.
Fiabilité pour : toutes les séries = 0,6823 ; une seule série = 0,3494
* significatif à 95%
Ainsi, la distribution des prix d'un produit présente, en général, une certaine asymétrie
(vers la gauche); mais elle est suffisamment faible pour que cette distribution puisse
être considérée, en première approximation, comme normale.
Cependant, de nombreuses études ont montré que l'analyse de variance est peu
sensible à la non-normalité des populations-parents et à l'inégalité des variances. Il
suffit en pratique d'éviter son emploi lorsque les distributions des populations-
parents sont très différentes (distributions en i ou en j par exemple ou sont de forme
très différente de l'une à l'autre (en cloches à dissymétries de sens opposés par
exemple) surtout sur de petits échantillons. Il est souvent difficile de contrôler la
validité des hypothèses de normalité et d'égalité des variances (données peu
nombreuses) ; Il est souvent préférable de tenir compte de l'ensemble des
informations dont on dispose a priori au sujet des catégories de variables. De même
l'hypothèse d'égalité des variances est secondaire lorsque les effectifs sont égaux.
Quand les différentes conditions ne sont pas satisfaites, on peut essayer de s'en
rapprocher en essayant de normaliser ces données en leur substituant une variable
auxiliaire (par exemple : log de X). Si cette façon de faire ne donne pas satisfaction,
on utilisera les tests non-paramétriques.
5.3.7. Annexe
Vocabulaire de l’ANOVA
Ligne Colonnes
Variables dépendantes Variables indépendantes
Variables à expliquer Variables explicatives
Variables catégorielles, variables
Variable expérimentale, condition expérimentale,
qualitatives, variables nominales, variables
traitement
de classification
Variables endogènes Variables exogènes
Individus échantillons, Groupes, Traitements
Résidus Facteurs
Une seule variable Plusieurs colonnes
Variance intra-groupe (concerne la variation Variance inter-groupe (concerne la variation
induite par les différents individus induite par les différents échantillons =
constituant un groupe = colonne) = variance comparaison des effets des colonnes) = variance
résiduelle inter-traitement
n = nombre d’individus dans un échantillon k = nombre d’échantillons à comparer
SCE résiduelle SCE factorielle