ANOVA: l’analisi della varianza spiegata semplice

18 Dicembre 2021 | Analisi dati

L’analisi della varianza (ANOVA, dall’inglese Analysis of Variance) comprende una serie di test statistici che rientrano nell’ambito della statistica inferenziale. Scopri in questo articolo quando si può usare, quale test scegliere e come si interpretano i risultati. 

anova: quale scegliere?

Test t ed ANOVA: che differenza c’è?

L’ANOVA è una generalizzazione del test t. Entrambe le tecniche si utilizzano infatti per il confronto di valori medi. La differenza è che:

  • il test t permette di confrontare solo due gruppi
  • l’ANOVA permette di confrontare un numero qualsiasi di gruppi

Ad esempio, immagina che il tuo obiettivo sia confrontare il punteggio medio conseguito all’esame di statistica tra chi ha frequentato il corso in presenza e chi online. In questo caso, i gruppi sono solo due (frequentanti in presenza e frequentanti online). Pertanto, per il confronto delle medie puoi usare indifferentemente il test t o l’ANOVA.

Immagina ora di voler approfondire l’analisi, suddividendo lo stesso campione di studenti in tre gruppi: chi ha frequentato solo in presenza, chi ha frequentato solo online, e chi ha frequentato un po’ online ed un po’ in presenza. In questo caso, per il confronto delle medie non puoi più usare il test t ma devi necessariamente ricorrere all’ANOVA.

Obiettivo dell’ANOVA

L’obiettivo dell’ANOVA è valutare gli effetti su una variabile di interesse (variabile dipendente-risposta di tipo continuo) di uno o più fattori di controllo (variabili indipendenti categoriali con due o più modalità).

Quando si può usare l’ANOVA?

Per il confronto tra gruppi, è corretto calcolare l’ANOVA solo quando si verificano le seguenti condizioni:

  1. normalità della distribuzione della/e variabile/i dipendente/i: verificabile, ad esempio, tramite il test di Shapiro-Wilk. Se tale test dovesse darti in esito un p-value <0.05 (e quindi ti portasse a rifiutare l’ipotesi nulla di normalità distributiva), prima di abbandonare tale procedura dai ancora un’occhiata all’indice di asimmetria. Tramite simulazioni, si è infatti notato che questo test regge anche se la distribuzione non risulta Normale ma è simmetrica (ovvero ha indice di asimmetria prossimo allo 0).
  2. omoschedasticità (o omogeneità delle varianze dei gruppi). In questo caso, puoi utilizzare il test di Levene.

Se entrambe le assunzioni sono rispettate, allora puoi procedere con il test dell’ANOVA.

Quale ANOVA usare?

L’analisi della varianza si suddivide in diverse tipologie a seconda di quante e come sono le variabili dipendenti (gli effetti) e indipendenti (le cause):

anova tabella riassuntiva

ANOVA ad una via (one-way)

Quando si ha una sola variabile dipendente e una sola variabile indipendente qualitativa.

Ad esempio, immagina che in un esperimento un campione di bambini sia stato assegnato a caso ad uno di 3 diversi gruppi. Il primo gruppo ha effettuato il trattamento A, il secondo gruppo il trattamento B, il terzo gruppo nessun trattamento (gruppo di controllo). Lo scopo è determinare se certi esercizi (diversi tra trattamento A e trattamento B) accelerano il tempo in cui i bambini imparano a pronunciare un determinato suono. In questo caso c’è una sola variabile

ANOVA fattoriale o a più vie

Quando si ha una sola variabile dipendente, ma più di una variabile indipendente qualitativa.

Ad esempio, puoi utilizzare questo metodo per confrontare il reddito medio sia in base allo stato civile che al genere.

ANCOVA

Generalizzazione dei due casi precedenti che si usa quando tra le cause ci sono anche una o più variabili quantitative.

Ad esempio, se tra le cause oltre al genere e/o lo stato civile includi anche l’età in anni compiuti.

MANOVA (Multivariate ANalysis Of Variance)

Quando c’è più di una variabile dipendente ed una o più variabili indipendenti qualitative.

Ad esempio, quando si vogliono confrontare le differenze di genere tra i punteggi medi di più sottoscale facenti parti di un unico strumento di misurazione.

MANCOVA

Come la precedente, ma tra le cause ci sono anche una o più variabili quantitative.

Ad esempio, se nel caso precedente come causa oltre al genere includi anche l’età in anni compiuti.

ANOVA a misure ripetute

Quando le osservazioni non sono tra loro indipendenti. Questa tecnica prevede tante variabili quantitative quante sono le misurazioni effettuate sulle stesse unità statistiche.

Ad esempio, quando il peso di un campione di persone è stato rilevato sia all’inizio che alla fine di un trattamento. Oppure, quando gli stessi individui sono sottoposti prima al trattamento A e poi al trattamento B.

ANOVA mista

Quando le osservazioni non sono tra loro indipendenti riguardo l’effetto ma si suddividono in gruppi tra loro indipendenti riguardo la causa.

Ad esempio, quando vuoi valutare contemporaneamente sia se ci sono state differenze tra la media del peso tra inizio e fine trattamento ma anche tra chi ha seguito la dieta A e chi ha seguito la dieta B.

ANCOVA mista

Come la precedente, ma tra le cause ci sono anche una o più variabili quantitative.

Ad esempio, quando vuoi effettuare la stessa analisi del caso precedente, ma tra le cause aggiungi anche l’età in anni compiuti. In altre parole, in questo esempio ti stai chiedendo se ci siano state variazioni statisticamente significative nella media del peso dovute solo al tempo (inizio-fine trattamento), solo al tipo di dieta seguita (dieta A o dieta B) o solo all’età dei partecipanti (in anni compiuti) oppure ad un qualche mix di queste cause.

Come funziona l’ANOVA

Per confrontare le medie di due o più gruppi, questa metodologia statistica confronta la variabilità interna a questi gruppi con la variabilità tra i gruppi.

La varianza totale di una variabile può essere infatti suddivisa in due componenti:

  • Varianza interna ai gruppi (anche detta varianza within): la differenza tra la media del gruppo ed i valori della variabile y, dovuta al caso)
  • Varianza tra i gruppi (varianza between): la differenza tra il valore della media nella popolazione e nel gruppo, dovuta all’appartenenza ad un dato gruppo.

L’ANOVA si basa sull’idea che se la variabilità interna ai gruppi (within) è relativamente elevata rispetto alla variabilità tra i gruppi (between), allora è più probabile che le differenze osservate tra le medie siano soltanto il risultato della loro variabilità interna e non di una reale differenza tra i gruppi.

Per mettere in relazione queste due parti della varianza totale, si utilizza la statistica F, che è pari al rapporto tra la varianza tra i gruppi e la varianza entro i gruppi. Questo valore di F è poi confrontato con la statistica F critica in una distribuzione di Fischer con i gradi di libertà e alfa corrispondenti.

Test d’ipotesi dell’ANOVA

Come in tutti i test d’ipotesi, anche l’ANOVA si basa su un’ipotesi nulla ed un’ipotesi alternativa.

Ipotesi nulla

L’ipotesi nulla prevede che i dati di tutti i gruppi nella popolazione abbiano la stessa media, e che le differenze osservate nel campione tra le medie dei gruppi siano dovute solo al caso. Utilizzando i simboli:
H0 : μ1 = μ2 = μ3 =…= μ ovvero F=1

Ipotesi alternativa

L’ipotesi alternativa è invece che ci sia una differenza significativa tra i gruppi. In altre parole, che almeno un gruppo abbia un valore medio significativamente diverso dagli altri. Il che equivale a:
H1 : le μi non tutte uguali tra loro (almeno una diversa dalle altre) ovvero F > 1

Obiettivo test di verifica d’ipotesi

L’obiettivo di questo test è decidere se conviene o meno rifiutare l’ipotesi nulla che le medie dei gruppi nella popolazione siano tutte uguali tra loro.

La regola di decisione è la seguente:

  • Se F calcolato è maggiore di F critico, allora si rifiuta l’ipotesi nulla e si accetta l’ipotesi H1. In questo caso il test è significativo, ovvero ha riscontrato una significativa differenza tra le medie nei gruppi.
  • Altrimenti, non rifiutare H0

Se l’ANOVA è significativa, vuol dire che esiste almeno una differenza tra gruppi.

Tuttavia, tranne nel caso in cui i gruppi siano solo due, il semplice test ANOVA non è in grado di dirti quali medie siano diverse dalle altre. Il modo per rispondere a questa domanda è usare un test a confronto multiplo.

E adesso?

Hai già scaricato la guida gratuita a 10 tra i termini statistici più utilizzati? Ti aiuterà a fare chiarezza ed a comprendere meglio cosa significano in pratica alcune delle espressioni statistiche che più si utilizzano nel corso di un’analisi dati.

Articoli correlati

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.