Gradi di libertà in statistica spiegati semplice

27 Marzo 2021 | Analisi dati

I gradi di libertà sono dei numeri che si ritrovano spesso associati alle analisi statistiche campionarie. In questo articolo troverai una spiegazione semplice di cosa sono, quando si utilizzano, come si calcolano ed a cosa servono.

gradi di libertà statistica

Che cosa si intende per gradi di libertà in statistica?

I gradi di libertà (gdl, in inglese degree of freedom=df) sono dei numeri, in genere interi positivi, che si utilizzano per poter verificare delle ipotesi sulla popolazione da cui è stato estratto un campione.

Se un campione contiene n osservazioni, possiamo dire che è costituito da n pezzi individuali di informazioni.

I gradi di libertà corrispondono al numero di informazioni indipendenti che sono libere di variare nel calcolo di una determinata stima di un parametro.

Gradi di libertà e vincoli

Immagina che un gruppo di 20 persone entri in un’aula con 20 posti a sedere. Le prime 19 persone sceglieranno dove sedersi, mentre la decima non sarà “libera” di scegliere il posto ma sarà vincolata a sedersi nell’unico posto rimasto disponibile.

Oppure pensa al gioco del tris. In totale i posti disponibili nella griglia sono 9. Se inizi tu e non interrompi il gioco prima perché uno dei due ha fatto tris, all’inizio avrai libertà di scegliere la casella ma alla fine rimarrà una sola casella disponibile e quindi non avrai più la libertà di scegliere.

Il concetto di “libertà” e di “vincolo” in statistica è molto simile.

Se sai che il peso medio di un gruppo di 5 persone è di 80 kg, a quante di queste persone ti servirà chiedere il peso per poterlo conoscere di tutti e 5?

Ipotizziamo che, tra queste 5 persone, 4 pesano ognuna 90 kg. Ti serve davvero chiedere il peso anche al quinto componente o hai già tutto quello che ti serve per ricavarne il peso?

In questo esempio, il peso del quinto componente lo puoi ricavare facilmente per differenza. La media è data infatti dalla somma dei valori per tutte le osservazioni divisa per il numero di osservazioni. Pertanto, se la media è uguale a 80 ed il numero di osservazioni è pari a 5, la somma dei valori sarà pari a 80*5=400. Se sommi i primi 4 valori, avrai 90+90+90+90=360. Per arrivare a 400 mancano 40 kg che deve essere quindi necessariamente il peso della quinta persona.

Stimare il parametro media impone quindi un vincolo alla libertà di variare delle osservazioni. Di conseguenza, dopo aver stimato la media, abbiamo solo 4 pezzi di informazioni indipendenti, anche se la numerosità campionaria è pari a 5. Tutte le volte quindi che in un’analisi si utilizza la stima di una media, il numero dei gradi di libertà di ridurrà di 1.

Quando si usano?

I gradi di libertà si utilizzano quando si stimano dei parametri su un campione di osservazioni. Ad esempio, la varianza ma anche il chi quadrato, il t di Student o i coefficienti di un modello di regressione.
La forma precisa di molte distribuzioni statistiche (ad esempio, distribuzione del Chi quadro, t di Student e F di Fisher) che si utilizzano per valutare la significatività statistica di un parametro dipende infatti dai gradi di libertà.

In queste situazioni, i gradi di libertà servono per definire la forma della distribuzione che il test utilizzerà per il calcolo del p-value. Vediamone alcuni esempi.

Come si calcolano i gradi di libertà?

Gradi di libertà per singolo campione

Come abbiamo visto, quando si formula un’ipotesi sulla media di una popolazione, i gradi di libertà sono gdl=n-1.

Nel caso della varianza, la formula di questo parametro si basa sugli scarti delle singole osservazioni dalla media. E, per definizione, la somma di tutti gli scarti è uguale a 0. Pertanto, se si conoscono n-1 scarti dalla media, l’ultimo si potrà ricavare come differenza tra il valore raggiunto dalla sommatoria degli scarti e lo zero. Questo è la ragione per cui, nel calcolo della varianza campionaria, si divide per n-1 e non per n.

Gradi di libertà per confronto medie tra due gruppi appaiati

Effettuare un test t per campioni appaiati equivale nella pratica ad effettuare un test t a campione singolo. Perché quello che si fa nei campioni appaiati è creare una nuova variabile differenza delle due colonne con i dati appaiati. E poi la media campionaria di questa nuova variabile si confronta con un valore di riferimento pari a 0.

Quindi questa situazione ricade nel caso del calcolo dei gradi di libertà relativo alla stima di una media.
Pertanto, sia nel test t a singolo campione che ne test t per campioni appaiati i gradi di libertà saranno pari a gdl=n-1.

Ad esempio, se vuoi confrontare la media di una variabile (es. la frequenza respiratoria) rilevata prima e dopo un determinato trattamento (es. una seduta di allenamento) su un campione di 28 individui, i gradi di libertà saranno pari a gdl=28-1=27.

Gradi di libertà nella t di Student per campioni indipendenti

Nel caso del confronto tra le medie di due campioni tra loro indipendenti, se la varianza dei due gruppi è omogenea, i gradi di libertà che si utilizzano per la distribuzione t di Student sono dati dal numero totale di osservazioni (n1 + n2) meno i parametri utilizzati per ottenere la stima della deviazione standard.

Per ottenere questo parametro serve infatti stimare i valori delle due medie. E come abbiamo visto ogni volta che si stima la media si “perde” un grado di libertà. Quindi se dobbiamo stimare due medie, i pezzi di informazione che non sono più liberi di variare sono due. Pertanto, per stimare la variabilità si avranno a disposizione gdl= n1+n2-2.

Se invece la varianza non è omogena, si utilizza la formula di Welch-Satterthwaite che è un po’ più complessa ma puoi trovare facilmente sui libri di statistica oppure online.

Gradi di libertà nel chi quadro per tabelle di contingenza

I gradi di libertà per valutare l’associazione tra due variabili qualitative X1 e X2 tramite un test del chi quadrato sono uguali a:

gdl = (numero di modalità di X1-1)*(numero di modalità di X2-1)

Ad esempio, ipotizziamo che il chi quadrato sia stato calcolato tra genere (maschio/femmina) e fumatore (sì/no). In questo caso i gradi di libertà saranno pari a (2-1)*(2-1)=1

Questo perché se sai che complessivamente nel campione ci sono n=50 individui, e sai che di questo 30 sono femmine, non ti serve sapere quanti sono i maschi. Puoi ricavarlo semplicemente per sottrazione: 50-30= 20 maschi. Stessa cosa per i fumatori. Se sai che su 50 individui 25 fumano, puoi ricavare quanti sono quelli che appartengono alla categoria non fumatori come differenza: 50-25=25 non fumatori. Quindi quando si hanno solo due modalità, te ne basta conoscere una per poter ricavare l’altra.

E se invece il chi quadrato è stato calcolato tra stato civile (celibe/sposato/divorziato/vedovo) e nazionalità (italiana/estera)? Allora gdl=(4-1)*(2-1)=3

Nel caso dello stato civile, se sai che su 50 individui 15 sono celibi, 20 sposati e 10 divorziati, puoi ricavare il valore relativo alla modalità vedovo per differenza: 50-15-20-10=5 vedovi.

Gradi di libertà nella regressione semplice

Nell’output del modello di regressione troverai due informazioni relative ai gradi di libertà: una parte infatti si riferisce ai gradi utilizzati dai coefficienti angolari e l’altra ai gradi di libertà che vengono attribuiti all’errore.

Nella regressione semplice (quella con una sola variabile indipendente) il grado di libertà associato alla regressione è pari a 1 perché solo 1 è il coefficiente angolare.

I gradi di libertà associati all’errore sono invece pari a gdl=n-2. Il calcolo dell’errore infatti si basa su tutte le n unità statistiche a cui si tolgono due gradi di libertà “persi” a causa dei due parametri: intercetta e coefficiente angolare.

Quindi se ad esempio hai n=50 osservazioni, avrai che i gradi di libertà associati alla regressione saranno pari ad 1 ed i gradi di libertà associati all’errore saranno pari a 48. Se sommi questi due gradi di libertà otterrai n-1.

Gradi di libertà nella regressione multipla

Nella regressione multipla (in cui ci sono k variabili indipendenti) i gradi di libertà associati all’errore sono gdl=n-k-1. In questo caso infatti il modello è determinato da 1 intercetta più k coefficienti angolari, uno per ogni variabile indipendente inserita nel modello.

I gradi di libertà del modello saranno invece pari al numero dei coefficienti di regressione, ovvero gdl=k.

Più variabili inserisci nel modello di regressione, più i gradi di libertà associati al modello aumenteranno e di conseguenza diminuiranno quelli associati all’errore. In altre parole, avrai meno pezzi di informazioni disponibili per stimare i coefficienti.

Questo è il motivo per cui quando la numerosità campionaria è bassa si consiglia di non inserire troppe variabili come indipendenti all’interno dei modelli di regressione. All’estremo, se utilizzi tutti i gradi di libertà per il modello e non te ne rimangono più per l’errore, non potrai neanche più calcolare i p-value.

Nel calcolo dei gradi di libertà per la regressione, fai attenzione se come variabili indipendenti stai includendo delle variabili qualitative come dummy. In questo caso il conteggio dipende dal numero di coefficienti angolari ad essa associata (pari al numero di modalità meno 1).

A cosa servono in pratica?

In pratica, i gradi di libertà necessari per calcolare i p-value relativi ad un determinato parametro sono calcolati direttamente dai software statistici. Quindi li ritroverai in molti output di statistica inferenziale, ma non è necessario che tu conosca tutte le formule per calcolarli. Ed in genere si riportano nelle pubblicazioni senza particolari spiegazioni.

Tuttavia, sapere che cosa significano può tornarti molto utile non solo in fase di lettura dei risultati di un’analisi dati anche in fase di interpretazione dei risultati di una pubblicazione di cui non hai a disposizione il dataset di partenza. I gradi di libertà infatti ti possono infatti fornire informazioni importanti sulla numerosità campionaria (come nel caso dei gradi di libertà associati alla regressione) o sul numero di modalità considerate per le singole variabili (come nel caso dei gradi di libertà associati al chi quadrato per tabelle di contingenza).

Un’analisi che presenta un numero di gradi di libertà più elevato avrà stime più precise e test d’ipotesi più potenti. Viceversa, più i gradi di libertà sono bassi, più le stime saranno imprecise ed avranno un bassa potenza statistica.

E adesso?

Puoi trovare altri termini spiegati in modo semplice in questa guida gratuita di statistica.

E, se ti serve supporto per interpretare i risultati di un’analisi dati, dai un’occhiata alla mia consulenza check-up. Un soluzione pratica, veloce ed economica per chiarirti le idee e risolvere i tuoi dubbi di statistica.

Articoli correlati

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.