Quando si costruisce un modello di regressione lineare, non è sufficiente guardare la tabella dei coefficienti. In questo articolo ci soffermeremo sulla tabella ANOVA e vedremo, tramite un esempio, anche come si relaziona con il coefficiente di determinazione.
Indice
Introduzione
Per comprendere al meglio i dati contenuti all’interno di una tabella ANOVA, ti consiglio di partire da un esempio.
In questo articolo useremo a tal fine i dati contenuti all’interno del dataset “parenthood”. Questo dataset è presente tra quelli che il software statistico Jamovi mette a disposizione nella sua libreria. In particolare, qui ci occuperemo di indagare la relazione tra due variabili, ovvero le ore di sonno di un neonato e da suo padre.
Calcolo della varianza
Come prima cosa, possiamo descrivere separatamente queste due variabili utilizzando gli indici descrittivi numerici.
Come puoi osservare il sonno del padre (Dan) risulta essere in media di 6,97 ore. La deviazione standard ridotta (1,02) indica che c’è in media poca variazione dalla media di circa 7 ore di sonno e che quindi di solito dorme un discreto numero di ore. Il massimo di 9 ore ed il minimo di 4,84 ore indicano poi che nel complesso non sembra soffrire di deprivazione del sonno.
Se ci focalizziamo ora sul sonno del bambino, possiamo notare che il massimo è di 12,1 ore ad indicare che è già in grado di dormire tutta la notte senza svegliarsi. C’è però molta variazione sia tra valore massimo che minimo, ed anche la deviazione standard (2,07) rispetto al valore della media (8,05 ore) risulta maggiore di quella registrata per il padre.
Pur fornendo informazioni interessanti sul sonno di madre e figlio, le statistiche univariate appena calcolate non dicono nulla sulla relazione tra le due variabili.
Se l’obiettivo è capire se la quantità di ore di sonno del padre dipende dalle ore di sonno del bambino è necessario quindi passare alla statistica bivariata.
Analisi bivariata
Procediamo quindi a visualizzare graficamente la relazione tra queste due variabili costruendo un grafico di dispersione.
Per aiutarti nell’interpretazione, ho già aggiunto a tale rappresentazione grafica anche la retta di regressione (raffigurata dalla linea blu) e relativo intervallo di confidenza (la banda in grigio).
Quello che osserviamo è che sembra esserci una relazione tra le due variabili e che descriverla tramite una retta non sembra una cattiva idea in quanto la relazione sembra di tipo lineare.

La Tabella ANOVA
Per capire di quanto le ore di sonno del padre variano al variare di un’ora di sonno del figlio, passiamo quindi alla costruzione di un modello di regressione in cui:
Y= baby.sleep
X=dan.sleep
Ed ecco la relativa tabella dell’ANOVA che ci restituisce Jamovi:

Somma dei quadrati
Per capire cosa sono i numeri al suo interno, ti consiglio di leggerla da sinistra verso destra.
I primi valori che troviamo riguardano la somma dei quadrati (Sum of Squares). Questi due numeri rappresentano una scomposizione della varianza complessiva della variabile dipendente.
In altre parole, sommando 40,288 + 61, 882 otteniamo 102,170. Questo numero non è nient’altro che il numeratore che c’è nella formula della varianza della Y.
Come forse ricorderai, la varianza è data infatti proprio dalla somma dei quadrati delle differenze delle singole osservazioni dalla media, il tutto diviso per il numero di osservazioni meno uno (essendo la varianza campionaria).
Se quindi prendiamo il 102,170 appena calcolato e lo dividiamo per (n-1), ovvero per 99, otteniamo 1,03. Che è esattamente il valore della varianza della Y (Dan.Sleep) presente nella tabella con gli indici descrittivi.
Riguardiamo ora i due numeri presenti nella colonna Sum of Squares: il numero 40,288 rappresenta la quota di questa varianza complessiva che è in comune con la X (baby.sleep). Il 61,882 il residuo, ovvero la quota di varianza complessiva che non è in comune con la X.
R quadro
La quota di varianza complessiva della Y spiegata dalla X può essere anche descritta in termini relativi, semplicemente dividendola per la varianza totale:
40,288/102,170=0,394
E questo valore non è nient’altro che l’R quadro, ovvero il valore del coefficiente di determinazione.
Se questa prima suddivisione ti è chiara, tutto il resto della tabella ANOVA è poi molto più semplice da comprendere.
Gradi di libertà
La colonna “df” indica i gradi di libertà relativi alla distribuzione F che, complessivamente, sono pari al numero di osservazioni meno 1.
In questo esempio, le osservazioni sono 100, quindi complessivamente i gradi di libertà per la statistica F sono 99. Di questi, ogni X se ne prende uno. Per cui in questo esempio, avendo solo una X, abbiamo che quelli residui sono 98.
Media dei quadrati
La colonna “Mean Square” è data dalla divisione delle somme dei quadrati (i numeri presenti nella colonna Sum of Squares) per i rispettivi gradi di libertà.
Per baby.sleep, essendo i gradi di liberà uguali ad 1, questa operazione equivale a prendere il 40,288 che c’è nella colonna Sum of Squares ed a dividerlo per 1. Il risultato è ovviamente ancora 40,288.
Per i residui, avremo 61,882/98=0,631
Statistica F
Passiamo quindi alla colonna dove è presente il valore della statistica F: questo numero si ottiene dividendo tra loro i due valori (medie dei quadrati) ottenuti in precedenza. Quindi: 40,288/0,631=63,802
P- value
Cercando quest’ultimo numero sulla tavola della distribuzione F, e sapendo che i gradi di libertà del numeratore sono 1 e quelli del denominatore sono 98, possiamo trovare la probabilità corrispondente.
Nella pratica, i software statistici fanno questa operazione per noi e ci restituiscono il relativo valore del p-value.
In questo caso p<0,001 ad indicare che la X ha un impatto statisticamente significativo sulla Y. In altre parole, questo valore ci sta dicendo che, considerando la quota di varianza in comune tra le due variabili (ovvero l’R quadro) e la numerosità campionaria (rappresentati dai gradi di libertà), c’è evidenza a favore di una relazione statisticamente significativa tra le due variabili. Ovvero, che la X contribuisce a spiegare la Y.
E se invertissimo X e Y?
Proviamo ora a ribaltare il problema. Come forse già saprai, la regressione è una tecnica di analisi di tipo asimmetrico, ovvero non si ottengono gli stessi risultati invertendo la X con la Y. D’altra parte, la correlazione (e di conseguenza l’R quadro che ne è il quadrato), è una misura simmetrica, ovvero Y ed X sono interscambiabili tra loro.
Per capire come si tengono assieme queste due affermazioni, poniamo ora come Y le ore di sonno dormite dal bambino e come X le ore di sonno dormite dal papà.
Ti invito a fare gli stessi calcoli effettuati per la tabella precedente anche su quella che vedi qui sotto, sapendo che in questo caso la varianza di riferimento è quella del bambino.
Quello che però ci tengo a farti notare è che l’R quadro è esattamente lo stesso di prima.
Inoltre, trattandosi di quadrati, possiamo anche pensare alle somme dei quadrati da un punto di vista geometrico, come puoi vedere nel disegno qui sotto.
In sostanza, pur cambiando i valori assoluti di varianza tra i due gruppi, la percentuale di varianza in comune tra X e Y è la stessa. Questo rispecchia il fatto che l’R quadro è una misura simmetrica (le percentuali sono le stesse) ma anche che la regressione è una tecnica asimmetrica (le varianze assolute sono diverse).
Se poi dai quadrati volessimo passare ai diagrammi di Venn, in cui ogni cerchio rappresenta il 100% di varianza della variabile (cioè la sua varianza totale), il coefficiente di determinazione può essere anche rappresentato in questo modo:
E adesso?
Scopri la definizione pratica e tanti esempi applicativi dei termini statistici più utilizzati in un’analisi dati in questa guida gratuita di statistica.