Variansanalyse
Variansanalyse (ANOVA, fra det engelske «analysis of variance») er en fellesbetegnelse for en rekke statistiske metoder for å teste likhet mellom to eller flere utvalg, der én eller flere faktorer gjør seg gjeldende. Variansanalyse er i de enkle tilfellene et alternativ til Z/t-testene for å sammenligne gjennomsnitt i populasjoner.
De to grunnleggende formene for variansanalyse beskrives gjerne som 'enveis' og 'toveis' variansanalyse. I enveistilfellet hensyntar man kun én egenskap som varierer mellom gruppene, i toveistilfellet hensyntar man i tillegg egenskaper som varierer mellom individene i gruppene.
Variansanalyse med én faktor
Det enkleste tilfellet for variansanalyse er tilfellet der man har grupper med like størrelser , og ønsker å sammenligne gjennomsnittene til gruppene. Den brukes gjerne der man ønsker å sammenligne forskjeller i respons på forskjellige behandlinger (treatments) i forskjellige grupper.
Hypotesen man tester er for et antall populasjoner[1]
- minst to av gruppene er forskjellige.
Forutsetningene for testen er at alle observasjonene er uavhengige normalfordelte tilfeldige variable med lik varians.
Kvadratavvik og varians
De fundamentale størrelsene i variansanalysen er kvadratavvik totalt (SST), kvadratavvik mellom individ og gruppe (SSE) og kvadratavvik mellom gruppe og totalt gjennomsnitt (SSTr). Disse er definert ved[2]
Sammenhengen mellom disse gir opphav til den fundamentale ANOVA-identiteten SST = SSTr + SSE.[3] Videre har vi at[4]
Dette gir opphavet til det man kaller en ANOVA-tabell:[5]
Variasjonskilde | Frihetsgrader | Kvadratavvik | Varians | f-verdi |
---|---|---|---|---|
Grupper | I - 1 | SSTr | MSTr = SSTr/(I - 1) | MSTr/MSE |
Error | I(J - 1) | SSE | MSE = SSE/[I(J - 1)] | |
Total | IJ - 1 | SST |
Test av nullhypotesen
For å teste nullhypotesen, bruker man ofte en f-test. Testobservatoren er gitt ved[4]
som er tilnærmet -fordelt. Forkastningsområdet for er for ønsket signifikansnivå
Tukeys prosedyre
F-testen er ment for å sammenligne gjennomsnittene i flere populasjoner, men den gir ikke svar på hvilke av populasjonene som er signifikant ulike hverandre. Tukeys prosedyre bruker en Q-fordeling til å beregne hvilke intervaller gjennomsnittene i populasjonen kan ligge i for å være signifikant like hverandre. For et signifikansnivå definerer vi som
De gjennomsnittene som har større differanse enn er være signifikant ulike, med signifikansnivå [6]
Relasjon til t-testen
For tilfellet med to populasjoner, vil variansanalyse og en alminnelig t-test gi samme resultat for hypotesen mot . T-testen er mer fleksibel, da man og kan teste hvorvidt et gjennomsnitt er større enn, eller mindre enn et annet.
For kan man i prinsippet også utføre t-tester for alle kombinasjoner av grupper, men dette vil gi større sannsynlighet for type 1-feil.[7]
Referanser
Kilder
- Jay L. Devore and Kenneth N. Berk: Modern Mathematical Statistics with Applications. Thomson 2007.