Analisi dei residui del modello di regressione lineare

19 Settembre 2020 | Analisi dati

Quando si realizza un modello di regressione lineare, una delle prime cose da fare è l’analisi dei residui. La retta di regressione è infatti una semplificazione della realtà e non coglie tutta la variabilità presente in un insieme di dati. La parte di variabilità che non è spiegata dal modello costituisce proprio il residuo della regressione. In questo articolo scoprirai in cosa consiste e come si interpreta l’analisi di questi residui.

esempio dispersione casuale dei residui intorno alla retta di regressione

A cosa serve la regressione?

La regressione è una tecnica statistica che si utilizza per modellare le relazione tra una variabile risposta ed una o più variabili esplicative.

Nella pratica, la relazione tra due variabili non è però quasi mai perfettamente riassumibile tramite un’equazione.

Ad esempio, una persona che ha un livello molto elevato di colesterolo nel sangue probabilmente avrà anche un livello molto elevato di trigliceridi. Tuttavia, la relazione tra queste due variabili non è perfetta. Per una persona che ha un livello di colesterolo pari a 220 mg/dl non si può predire il valore preciso che avrà di trigliceridi.

Che cosa si intende per residuo della regressione?

Per tenere conto di questo margine di imprecisione, nei modelli di regressione si aggiunge un termine di errore, che è indiato dalla lettera greca Epsilon (ε).

La variabile risposta (la y) nell’equazione di regressione è quindi determinata dai valori delle variabili esplicative (le x) più un termine d’errore (ε).

Affinché il modello di regressione riesca ad avere un buon potere predittivo, questo errore deve essere una variazione imprevedibile nella variabile risposta.

Per verificare se è effettivamente così, quando costruisci un modello di regressione devi fare alcune verifiche su come si distribuiscono i residui.

I valori residui in un’analisi di regressione rappresentato proprio la parte di errore di previsione del modello di regressione.

I residui, detti anche scarti, rappresentano infatti le differenze tra i valori osservati nel dataset e i valori stimati calcolati con l’equazione di regressione. In altre parole, i residui indicano la variabilità dei dati attorno alla retta di regressione.

Analisi dei residui: cosa verificare?

Ecco su cosa devi concentrarti analizzando i residui:

  •  I residui hanno una distribuzione normale?
  •  Le variabili indipendenti sono incorrelate con l’errore?
  •  La varianza dei residui è omogenea?
  •  La distribuzione dei residui è lineare?
  •  Ci sono degli outliers che influenzano la pendenza della retta?
  •  I residui sono tra loro correlati?

Come si fa l’analisi dei residui di un modello di regressione?

Per rispondere a tutte queste domande è necessario costruire alcuni grafici e calcolare alcuni indici numerici.

Per fortuna, tutte queste operazioni sono fatte automaticamente da tutti i software statistici, come SPSS ed R. Su Excel invece non c’è una funzione ad hoc per i residui. Pertanto, seppur possibili, queste analisi risultano più complesse e più lunghe da effettuare con Excel e pertanto ti sconsiglio questo strumento per l’analisi dei residui.

I residui hanno una distribuzione normale?

La distribuzione normale degli errori può essere verificata attraverso un grafico dei quantili, detto anche q-q plot.

In questa tipologia di grafico, i quantili teorici di una distribuzione Normale sono riportati sull’asse orizzontale. I quantili dei residui standardizzati sono invece riportati sull’asse verticale.

L’idea è che se i residui hanno una distribuzione normale, i loro quantili dovrebbero coincidere con quelli della distribuzione Normale. A livello visivo, questo significa che i punti dovrebbero disporsi lungo la bisettrice, indicata dalla retta presente nel grafico.

grafico dei quantili per verificare normalità distributivaNella pratica, non capita quasi mai che i punti si dispongano esattamente lungo la bisettrice. Per poter dire che gli errori hanno una distribuzione normale ci si accontenta quindi che i punti siano vicino alla linea presente nel grafico. Questa è effettivamente la situazione presente nel grafico qui sopra.

Tuttavia, l’ipotesi di normalità dei residui non è così importante come le altre ipotesi. Si dimostra infatti che le stime sui coefficienti di regressione sono abbastanza robuste a violazioni della normalità distributiva dei residui.

Le variabili indipendenti sono incorrelate con l’errore?

Se una variabile esplicativa è correlata con il termine d’errore, puoi utilizzare questa variabile esplicativa per predire quale sarà l’errore del modello di regressione. E questo non va bene, perché la componente di errore di un modello di previsione deve essere imprevedibile.

Per verificare se questo è il caso del tuo modello, devi costruire tanti grafici di dispersione quante solo le x del tuo modello di regressione. Sull’asse orizzontale devi mettere i valori della x, mentre sull’asse verticale i valori dei residui.

Ne trovi un esempio nel grafico qui sotto, che studia la relazione tra la velocità (x) ed i residui di un modello di regressione che aveva come obiettivo quello di predire la distanza percorsa da un auto (la y) in base alla sua velocità.

esempio grafico per valutare relazione tra residui e variabili esplicative in un modello di regressione lineare

Osservando il grafico, l’ipotesi è confermata se non è individuabile nessuna relazione tra le due variabili.

La varianza dei residui è omogenea?

Per verificare l’ipotesi di omogeneità delle varianze dei residui, è necessario creare un grafico a dispersione.  I valori stimati della y si riportano sull’asse orizzontale delle x. Sull’asse verticale delle y invece si indicano i valori dei residui.

Se c’è omogeneità della varianza dei residui, i punti saranno dispersi in modo simile sia nella parte sinistra che in quella destra del grafico.

Trovi un esempio di come interpretare il grafico qui sotto.

esempio grafico per analisi residui modello di regressioneIn questo esempio puoi notare come i punti tendono a disperdersi di più nella parte destra della distribuzione rispetto che nella parte sinistra. Per capire meglio se si può accettare l’ipotesi di omogeneità, ti consiglio di dare un’occhiata anche al grafico Scale-Location e di effettuare il test di Breusch Pagan.

La distribuzione dei residui è lineare?

Per facilitarti con le verifiche di linearità e la presenza di outliers, alcuni software aggiungono alcune informazioni a questo grafico di dispersione. Uno dei mie preferiti è R Commander, che in automatico crea il grafico che trovi qui sotto:

esempio analisi residui su R

Come puoi osservare, in questo grafico è infatti riportata una linea orizzontale tratteggiata in corrispondenza dei residui con media zero. Ricordati che i residui di un modello di regressione costruito con il metodo dei minimi quadrati (OLS) hanno per definizione sempre media zero.

La linea rossa invece è una linea di tendenza, che ti aiuta a verificare la prima ipotesi. Se la linea rossa è abbastanza sovrapponibile alla linea tratteggiata, come in questo caso, allora l’ipotesi di linearità è verificata.

Secondo l’ipotesi di linearità, i dati devono infatti distribuirsi in modo casuale intorno allo 0.

Una situazione in cui non c’è invece linearità tra i residui è quella riportata nel grafico qui sotto:

Linearità residui modello di regressione: quando non è verificata

In questo grafico la relazione risulta essere non lineare perché i puntini hanno un preciso andamento intorno allo 0. In altre parole, in questo caso sapendo quale è il valore stimato (il fitted value nel grafico) puoi predire quale sarà il valore del residuo.

Ad esempio, valori stimati della y vicino a 120 oppure a 160 tendono ad avere residui positivi. Valori stimati della y intorno a 130 e 140 tendono invece ad avere residui negativi. Se i residui avessero una distribuzione imprevedibile non dovresti poter fare queste previsioni.

Ci sono degli outliers che influenzano la pendenza della retta?

Il grafico a dispersione tra valori predetti e residui ti permette di individuare anche i possibili outliers, ovvero i punti isolati nel grafico. I possibili outliers, quelli con i residui più grandi, sono identificati infatti su questo grafico tramite il loro codice identificativo.

Tuttavia, per verificare se ci sono outliers in un modello di regressione, ti consiglio di non basarti solo sul grafico, ma di utilizzare anche le seguenti misure:

  • I punteggi di leva: sono compresi tra 0 ed 1. Un punteggio elevato di leva è quindi un valore vicino ad 1.
  • I residui studentizzati: si considerano valori elevati quelli maggiori di 3 o minori di -3.
  • La distanza di Cook: si considerano elevati i valori superiori ad 1

Osservazioni che hanno valori elevati per tutte queste misure sono considerate un possibile problema. 

Se il modello che hai realizzato rientra in questa casistica, ti consiglio di provare a rifare le analisi di regressione escludendo le osservazioni potenzialmente problematiche. In questo modo potrai vedere se ci sono differenze nei coefficienti del modello. Nei modelli di regressione infatti anche un singolo outlier può influenzare in maniera sostanziale la capacità di adattamento del modello ai dati, soprattutto se il campione non è molto numeroso.

 I residui sono tra loro correlati?

L’ultima ipotesi sui residui richiede di verificare che i residui non siano tra loro autocorrelati.

Per poterlo capire, si utilizza il coefficiente d di Durbin –Watson. Questo indice è compreso tra 0 e 4. Valori vicini a 2 indicano che non c’è autocorrelazione.

Valori piccoli di d indicano invece che due residui successivi tra loro sono, in media, vicini in valore l’uno all’altro, o correlati positivamente. Al contrario, valori grandi di d indicano che due residui successivi tra loro sono, in media, molto differenti in valore l’uno dall’altro, o correlati negativamente.

L’autocorrelazione dei residui si verifica ad esempio quando hai delle misure ripetute nel tempo sugli stessi individui (oppure su identiche aree). In queste situazioni, i modelli di regressione lineare non sono adatti a descrivere i dati ed è preferibile utilizzare dei modelli basati sulle analisi longitudinali dei dati.

Analisi dei residui: e adesso?

Scarica questa guida gratuita di statistica per capire cosa significano e come si interpretano tanti altri termini statistici. Al suo interno troverai tanti esempi concreti e definizioni spiegate in modo chiaro e comprensibile.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.