Test di verifica d'ipotesi

In statistica, il test di verifica d'ipotesi è uno strumento atto a verificare la veridicità di un'ipotesi formulata, che si presta ad essere confermata o smentita dai dati osservati sperimentalmente. La verifica di ipotesi è composta da una serie di passaggi: la fase iniziale consiste nella formulazione dell'ipotesi da saggiare (ovvero, da verificare); successivamente, viene effettuato il calcolo di una statistica di test. Infine, viene presa una decisione, confrontando la statistica di test con un valore critico o, in alternativa, valutando un valore p calcolato dalla statistica di test.

Il metodo con cui si valuta l'attendibilità di un'ipotesi è il metodo sperimentale, che consiste nel determinare le conseguenze di un'ipotesi in termini di eventi osservabili e nel valutare se la realtà osservata si accorda o meno con l'ipotesi fatta su di essa. L'intero processo, effettuato sulla base dell'evidenza campionaria, non deve essere inteso in termini assoluti: la verifica di ipotesi nasce dall'esigenza di provare a saggiare un'ipotesi sulla popolazione, la quale non è osservabile direttamente; la finitezza delle informazioni in possesso del ricercatore (il campione) permette di avanzare delle ipotesi sul totale dell'informazione (popolazione). Pertanto, le conclusioni ottenute dalla verifica di ipotesi vanno intese come probabilistiche e soggette a margini di errore, riflettendo l'incertezza intrinseca dovuta al campionamento e alla variabilità naturale dei dati.

La procedura di verifica di ipotesi coinvolge diverse fasi:

Formulazione delle ipotesi: Si definiscono l'ipotesi nulla (H0) e l'ipotesi alternativa (H1), specificando il parametro di interesse e la direzione dell'effetto che si intende testare.
Scelta del test statistico: Si seleziona un test statistico appropriato in base al tipo di dati raccolti e alla natura del problema.
Determinazione del livello di significatività: Si fissa il livello alfa (α), che rappresenta la probabilità massima accettabile di commettere un errore di tipo I (rigettare erroneamente H0 quando è vera).
Calcolo della statistica test: Si calcola la statistica test utilizzando i dati raccolti, che quantifica quanto i dati supportino l'ipotesi nulla o alternativa.
Decisione: Si confronta il valore osservato della statistica test con il valore critico dal test statistico corrispondente al livello di significatività α. Se la statistica test cade nella regione critica, si rigetta l'ipotesi nulla; altrimenti, non si ha sufficiente evidenza per rigettarla.
Conclusioni: Si trae una conclusione sulla base dei risultati ottenuti dal test statistico, valutando se ci sia sufficiente evidenza per supportare l'ipotesi alternativa formulata.

Spiegazione intuitiva

Si supponga di avere una moneta recante due facce contrassegnate con testa e croce. Volendo verificare l'ipotesi di bilanciamento della moneta si eseguono 20 lanci e si contano quelli che danno esito testa. La conseguenza del bilanciamento consiste nell'osservare un valore di teste attorno a 10. Tuttavia anche in ipotesi di bilanciamento non si può escludere di osservare 20 teste. D'altronde, l'ipotesi di bilanciamento è logicamente compatibile con un numero di teste variabile tra 0 e 20. In tale contesto una qualsiasi decisione in merito all'ipotesi da verificare comporta un rischio di errore.

Nel procedere alla verifica dell'ipotesi di bilanciamento della moneta, si considera che il numero totale di teste, se la moneta è bilanciata, è una variabile aleatoria discreta con distribuzione binomiale $\mathrm {Bin} (20;0,5)$ . Questo modello matematico ci permette di associare a ogni possibile risultato sperimentale una misura di probabilità.

Ora supponiamo di aver fatto il nostro esperimento e di aver contato 15 teste su 20 tiri: quanto è distante tale risultato dal valore medio della distribuzione $\mathrm {Bin} (20;0,5)$ ? Tale distanza è sufficiente per rigettare l'ipotesi che vorrebbe la moneta ben bilanciata? Il valore medio della distribuzione $\mathrm {Bin} (20;0,5)$ è $20\cdot 0,5=10$ , e per valutare la distanza tra il valore sperimentale e quello atteso si valuta la probabilità di ottenere un valore sperimentale pari a 15 oppure maggiore. Siccome si tratta di un test intorno al valore medio, dobbiamo anche considerare la probabilità di ottenere un valore minore o uguale a 5, per specularità. In simboli:

p=P(X\leq 5)+P(X\geq 15)=0,041;\qquad X\sim \mathrm {Bin} (20;0,5).

Tale valore p è la probabilità di ottenere un valore altrettanto o più estremo di quello osservato, ammesso che la moneta fosse effettivamente bilanciata. Nel nostro caso è 0,041, ossia il 4,1%. Giudicando bassa tale probabilità, rigettiamo l'ipotesi di bilanciamento della moneta in esame, ritenendo accettabilmente basso il rischio di compiere un errore di giudizio. La probabilità di rifiutare l'ipotesi sottoposta a verifica, nel caso questa fosse corretta, è pari al massimo valore p che saremmo stati disposti ad accettare. E a questo punto diventa chiaro perché è necessario sommare le probabilità di ottenere 5 teste o meno, a quelle di ottenerne almeno 15: se avessimo contato 5 o meno teste, avremmo parimenti giudicato la moneta sbilanciata, quindi è giusto che le due probabilità siano sommate.

Teoria dei test delle ipotesi di Fisher

L'esempio dato sopra è un test di verifica d'ipotesi secondo Fisher, che ne compose la teoria fondante intorno al 1925^[1], influenzato in particolare maniera dalle teorie in filosofia della scienza di Karl Popper, e specificamente dal principio di falsificabilità. Popper sosteneva che la conoscenza scientifica avanza tramite la creazioni di ipotesi che vengono in seguito smentite e sostituite con nuove ipotesi più generali e precise. Fisher propose un metodo statistico di verifica d'ipotesi che richiede la specificazione di un'ipotesi falsificabile, ritenuta vera fino a prova contraria. Quest'ipotesi è chiamata ipotesi nulla e viene indicata con il simbolo H₀, e il test ha lo scopo di verificare se i dati smentiscono tale ipotesi.

A seconda del tipo di problema affrontato, si sceglierà un qualche tipo di procedura valida come test delle ipotesi, nell'esempio precedente abbiamo applicato un test binomiale, ma in ogni caso, il metodo scelto consiste nel calcolare un valore, funzione del campione, che ha l'obiettivo di misurarne l'aderenza all'ipotesi nulla. Questa funzione viene chiamata "statistica test". La distribuzione della statistica test è completamente determinata sotto ipotesi nulla.

Punto centrale del test delle ipotesi secondo Fisher è il concetto di significatività statistica, rappresentato dal valore p che, come già definito sopra, è la probabilità, sotto H₀, di ottenere un valore della statistica test altrettanto o più estremo di quello osservato. Il valore p riassume quindi la significatività dell'evidenza statistica contro l'ipotesi nulla: minore è $p,$ maggiore è questa evidenza. Osservato un certo valore p, possiamo ammettere che H₀ è vera e che è avvenuto un evento tale per cui la probabilità di osservarne uno altrettanto estremo è tanto bassa quanto lo è $p,$ oppure possiamo rigettare H₀ ritenendo che fallisca nello spiegare i risultati. In genere una seconda ipotesi alternativa viene avanzata a partire dai dati, quando H₀ è rigettata^[1].

Livello di significatività e regione di rifiuto

Distribuzione della statistica test binomiale

X

dell'esempio della moneta; la regione di rifiuto è evidenziata in rosso e sono segnalati i valori critici. Nel caso di test a una coda destro, la coda sinistra esce dalla regione di rifiuto e il punto 14, evidenziato in giallo, vi entra.

Sebbene non sia necessario secondo Fisher^[1], prima di calcolare il valore sperimentale della statistica test, si consiglia in genere di scegliere il livello di significatività, indicato convenzionalmente col simbolo $\alpha .$ Questa scelta è giustificata dalla natura stocastica del risultato del test: non è possibile annullare la probabilità di rigettare H₀ per errore, per cui se si vuole conoscere tale probabilità, deve essere stabilita in anticipo. Tale valore stabilito è appunto $\alpha .$ Il suo impiego è quello di discrimine per il valore p: il risultato del test si dice significativo se $p<\alpha ,$ altrimenti si considera non significativo. H₀ è rifiutata se il risultato è significativo.

Maggiore è la fiducia riposta nell'ipotesi nulla, maggiore l'evidenza richiesta per smentirla, e minore deve essere $\alpha ,$ scelte tipiche sono 0,1 (molto lasco), 0,05 (estremamente utilizzato, addirittura convenzionale, gli studiosi mettono in guardia dallo scegliere questo valore acriticamente, solo per consuetudine), e 0,01 (nel caso si richieda una forte evidenza contro H₀).

Dato un certo livello di significatività, l'insieme dei valori della statistica test a cui corrisponde un $p$ minore di $\alpha$ si chiama regione di rifiuto. Nell'esempio precedente, per $\alpha =0,05,$ la regione di rifiuto era l'insieme $\{0,1,2,3,4,5,15,16,17,18,19,20\},$ e viceversa l'insieme $\{6,7,\ldots ,14\}$ era la cosiddetta regione di accettazione. Si chiamano invece valori critici i punti che separano le regioni di rifiuto ed accettazione.

Test a una o due code

In alcuni casi, e anche nell'esempio della moneta sbilanciata, la distribuzione della statistica test è simmetrica, e può essere sottoposta a un test "a due code", come nell'esempio sopra, oppure ad una coda. Ricorriamo alla seconda possibilità se abbiamo intenzione di rifiutare l'ipotesi nulla solo quando osserviamo un valore estremo maggiore di quello medio, ma non minore, oppure viceversa. In tal caso concentreremo la regione di rifiuto su una sola delle code della distribuzione, avvicinando il valore critico a quello medio; quando calcoliamo il valore p, non ci sarà bisogno di sommare le probabilità per entrambe le code.

Tornando all'esempio della moneta, supponiamo che noi già prima di fare l'esperimento sospettassimo che fosse sbilanciata verso la testa, in tal caso potremmo dire che l'ipotesi nulla, che noi abbiamo intenzione di smentire, è che la probabilità che esca testa sia minore o uguale a 0,5, anziché necessariamente pari a 0,5. In tal modo evitiamo di rifiutare l'ipotesi nulla se otteniamo un numero di teste basso, ma se, al contrario, contiamo più di 10 teste, calcoliamo il valore p senza tenere in considerazione i possibili risultati inferiori a 10. Come risultato, la regione di rifiuto perde gli elementi da 1 a 5, ma si allarga sulla destra includendo 14.

Per spiegare meglio la differenza tra test sulla coda sinistra, sulla coda destra e a due code, viene talvolta utilizzato il concetto di ipotesi alternativa, indicata col simbolo H₁. Per Fisher l'unica ipotesi alternativa a H₀ è la sua negazione, perciò H₁ è implicita (se H₀ afferma che la probabilità di ottenere testa con la moneta sia minore o uguale a 0,5, allora H₁ dichiara, al contrario, che quella stessa probabilità sia maggiore di 0,5) e non è necessario specificarla. Da non confondere con l'ipotesi alternativa secondo Neyman-Pearson, che è un concetto ben distinto^[1].

Teoria dei test delle ipotesi di Neyman-Pearson

Analisi della potenza del test nell'esempio della moneta, a una coda, l'ipotesi alternativa è di 80% di probabilità di ottenere testa a ogni lancio. La somma delle probabilità evidenziate in rosso è l'errore di seconda specie, la somma di quelle in verde è la potenza del test. Nel complesso la parte colorata è la distribuzione di

X

sotto ipotesi alternativa.

Jerzy Neyman e Egon Pearson erano critici nei confronti della teoria di Fisher, e proposero un approccio alternativo, per certi versi più rigido e più potente. L'approccio di Neyman-Pearson propugna un maggior lavoro di preparazione della raccolta dei dati (progettazione dell'esperimento) ed introduce un'ipotesi alternativa completamente specificata, oltre ai concetti di errore di primo e secondo tipo e di potenza del test. Da un punto di vista teorico, l'approccio di Neyman-Pearson è diverso da quello di Fisher in quanto pone maggiore enfasi sull'idea che i test delle ipotesi siano esperimenti ripetibili, perciò è più adatto a un contesto come il controllo della qualità che non alla ricerca scientifica, dove è raro che gli esperimenti vengano veramente ripetuti^[1].

Per un test secondo Neyman-Pearson, è necessario specificare in anticipo non una ipotesi, ma due, diverse ed alternative. La prima è H₀, mentre la seconda viene indicata con H₁ e chiamata ipotesi alternativa. Si conosce la distribuzione della statistica test sia sotto H₀ che sotto H₁, la statistica test stessa deve essere scelta in modo che le due distribuzioni risultino ben distinte. Le due ipotesi però non sono sullo stesso piano: in pratica si mantiene un approccio simile a quello di Fisher, per cui l'attenzione è puntata su H₀, mentre H₁ serve essenzialmente per definire la potenza del test (e scegliere quindi quello più potente) e calcolare la numerosità campionaria necessaria.

Come già osservato, il modo di condurre un test statistico comporta un rischio di errore. Nella teoria di Neyman-Pearson si individuano due tipi di errori:

rifiutare H₀ quando è vera, errore di primo tipo ( $\alpha$ ) (o errore di prima specie);
non rifiutare H₀ quando, invece, è vera H₁, errore di secondo tipo ( $\beta$ ) (o errore di seconda specie).

Una volta scelto un errore di primo tipo $\alpha$ (equivalente al livello di significatività secondo Fisher), il valore critico che separa H₀ da H₁ è univocamente determinato. A sua volta, $\beta$ dipende direttamente da tale valore. Quando si riduce $\alpha ,$ il valore critico si allontana da H₀ e si avvicina ad H₁, perciò $\beta$ aumenta. La potenza del test è definita come $1-\beta .$

Tornando all'esempio della moneta in cui la regione di accettazione è data dall'insieme di valori ${6,7,\ldots ,14},$ la probabilità di rifiutare H₀ quando è vera è 0,041. Tale probabilità rappresenta il rischio di incorrere in un errore di primo tipo e si indica con $\alpha .$ Per valutare la probabilità di un errore di secondo tipo è necessario specificare propriamente un'ipotesi alternativa. Si supponga che la nostra H₁ è che la moneta mostra testa l'80% delle volte, in tal caso la distribuzione della statistica test è nota ed è $\mathrm {Bin} (20;0,8)$ .

Con tale distribuzione di probabilità, l'errore di tipo 2 si calcola sommando le probabilità relative ai valori di $X$ della zona di accettazione, ciò supponendo H₁ vera. Si trova quindi che la probabilità cercata è circa 0,20. Tale probabilità quantifica il rischio di incorrere nell'errore di tipo 2 e si indica convenzionalmente con $\beta .$ La potenza del test è uguale a $1-\beta =0,8$ ed esprime quindi la capacità di un test statistico di riconoscere la falsità di H₀ quando questa è effettivamente falsa (ed è piuttosto vera H₁). La potenza del test trova applicazione nella pratica statistica in fase di pianificazione di un esperimento.

Differenze tra le impostazioni teoriche

Nell'uso statistico attuale, l'approccio di Fisher e quello di Neyman-Pearson sono state fuse insieme in una pratica sincretica che eredita alcuni aspetti dalla teoria di Fisher e alcuni da quella di Neyman-Pearson. Questo approccio misto è controverso, perché è ambiguo e tende a sorvolare sugli aspetti metodologici che distinguono le due teorie, e che sono ben definiti sotto la rispettiva teoria di riferimento. Bisogna sottolineare le importanti differenze filosofiche e di interpretazione dei risultati tra le due teorie in esame, ad esempio^[1]:

secondo Fisher, la scelta è tra rifiutare H₀ o meno, senza un'alternativa precisa, mentre secondo Neyman-Pearson tra due ipotesi bisogna accettare H₀ o in caso contrario H₁
secondo Fisher la scelta finale tra H₀ e il suo rifiuto è piuttosto soggettiva, il valore p mostra varie gradazioni di significatività, e può essere giudicato senza stabilire un livello di significatività in anticipo; al contrario il metodo di Neyman-Pearson porta a una scelta netta tra H₀ e H₁
secondo Neyman-Pearson i test delle ipotesi devono essere pianificati con cura prima dell'esperimento, così che il risultato sia valido da un punto di vista probabilistico; questo rigore non è necessario secondo Fisher: il test delle ipotesi può essere fatto a posteriori, e la significatività del risultato può essere giudicata di conseguenza.

Ulteriori approcci sono stati proposti, e particolare menzione va riservata ai test delle ipotesi bayesiano, la teoria della decisione, e la teoria della detezione del segnale.

Note

^ ^a ^b ^c ^d ^e ^f Jose D. Perezgonzalez, Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing, in Frontiers in Psychology, vol. 6, 3 marzo 2015, DOI:10.3389/fpsyg.2015.00223. URL consultato il 17 aprile 2020.

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file su test di verifica d'ipotesi

Collegamenti esterni

(EN) hypothesis testing, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.
(EN) Eric W. Weisstein, Test di verifica d'ipotesi, su MathWorld, Wolfram Research.

Controllo di autorità	GND (DE) 4077852-6

Portale Matematica

Portale Scienza e tecnica

[:0-1] ^ ^a ^b ^c ^d ^e ^f Jose D. Perezgonzalez, Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing, in Frontiers in Psychology, vol. 6, 3 marzo 2015, DOI:10.3389/fpsyg.2015.00223. URL consultato il 17 aprile 2020.

[1]