Quando si realizza un modello di regressione lineare, una delle prime cose da fare è l’analisi dei residui. La retta di regressione è infatti una semplificazione della realtà e non coglie tutta la variabilità presente in un insieme di dati. La parte di variabilità che non è spiegata dal modello costituisce proprio il residuo della regressione. In questo articolo scoprirai in cosa consiste e come si interpreta l’analisi di questi residui.
Indice
A cosa serve la regressione?
La regressione è una tecnica statistica che si utilizza per modellare le relazione tra una variabile risposta ed una o più variabili esplicative.
Nella pratica, la relazione tra due variabili non è però quasi mai perfettamente riassumibile tramite un’equazione.
Ad esempio, una persona che ha un livello molto elevato di colesterolo nel sangue probabilmente avrà anche un livello molto elevato di trigliceridi. Tuttavia, la relazione tra queste due variabili non è perfetta. Per una persona che ha un livello di colesterolo pari a 220 mg/dl non si può predire il valore preciso che avrà di trigliceridi.
Che verifiche fare?
A livello pratico, prima di costruire un modello di regressione lineare, quello che è importante fare è:
- Statistiche descrittive e grafici per le singole variabili (ad esempio istogrammi)
- Controllare la presenza di valori impossibili (ad esempio, un’età negativa) o inusuali
- Costruire i diagrammi di dispersione per controllare la presenza di combinazioni inusuali di valori (in gergo, outliers bivariati).
Una volta costruito il modello, è invece importante:
- Valutare graficamente i residui (cioè le stime osservate degli errori) per capire in primo luogo se sono tra loro i.i.d. ed in secondo luogo se hanno una distribuzione Normale (per verificarlo, puoi costruire un istogramma dei residui o un grafico quantile-quantile), come vedremo tra poco.
- Esaminare le misure di influenza (distanza di Cook, DFBETA, DFITS, residui studentizzati,…). Questo perché, in generale, un’osservazione è considerata influente se la sua eliminazione dal campione provoca un cambio sostanziale nei risultati della regressione.
Che cosa si intende per residuo della regressione?
Per tenere conto di questo margine di imprecisione, nei modelli di regressione si aggiunge un termine di errore, che è indiato dalla lettera greca Epsilon (ε).
La variabile risposta (la y) nell’equazione di regressione è quindi determinata dai valori delle variabili esplicative (le x) più un termine d’errore (ε).
Affinché il modello di regressione riesca ad avere un buon potere predittivo, questo errore deve essere una variazione imprevedibile nella variabile risposta.
Per verificare se è effettivamente così, quando costruisci un modello di regressione devi fare alcune verifiche su come si distribuiscono i residui.
I valori residui in un’analisi di regressione rappresentato proprio la parte di errore di previsione del modello di regressione.
I residui, detti anche scarti, rappresentano infatti le differenze tra i valori osservati nel dataset e i valori stimati calcolati con l’equazione di regressione. In altre parole, i residui indicano la variabilità dei dati attorno alla retta di regressione.
Analisi dei residui: cosa verificare?
Ecco su cosa devi concentrarti analizzando i residui:
- I residui hanno una distribuzione normale?
- Le variabili indipendenti sono incorrelate con l’errore?
- La varianza dei residui è omogenea?
- La distribuzione dei residui è lineare?
- Ci sono degli outliers che influenzano la pendenza della retta?
- I residui sono tra loro correlati?
Come si fa l’analisi dei residui di un modello di regressione?
Per rispondere a tutte queste domande è necessario costruire alcuni grafici e calcolare alcuni indici numerici.
Per fortuna, tutte queste operazioni sono fatte automaticamente da tutti i software statistici, come SPSS ed R. Su Excel invece non c’è una funzione ad hoc per i residui. Pertanto, seppur possibili, queste analisi risultano più complesse e più lunghe da effettuare con Excel e pertanto ti sconsiglio questo strumento per l’analisi dei residui.
Distribuzione Normale delle variabili: un falso mito
Il modello di regressione lineare non richiede né che la variabile dipendente (la y) né che le variabili indipendenti (le x) abbiano una distribuzione Normale.
Quello che in realtà richiede il modello è che gli errori siano tra loro indipendenti ed identicamente distribuiti (in gergo tecnico i.i.d.) in modo approssimabile ad una distribuzione Normale con media pari a 0 e varianza pari a σ ²
ε~ i.i.d. N(0, σ²)
Di questa formula, la parte più importante (ma anche meno verificata) è quella relativa agli errori i.i.d. Il fatto che gli errori abbiano una distribuzione Normale invece è quella meno importante in quanto basta che ci sia un’approssimazione a tale distribuzione.
I residui hanno una distribuzione normale?
La distribuzione normale degli errori può essere verificata attraverso un grafico dei quantili, detto anche q-q plot.
In questa tipologia di grafico, i quantili teorici di una distribuzione Normale sono riportati sull’asse orizzontale. I quantili dei residui standardizzati sono invece riportati sull’asse verticale.
L’idea è che se i residui hanno una distribuzione normale, i loro quantili dovrebbero coincidere con quelli della distribuzione Normale. A livello visivo, questo significa che i punti dovrebbero disporsi lungo la bisettrice, indicata dalla retta presente nel grafico.
Nella pratica, non capita quasi mai che i punti si dispongano esattamente lungo la bisettrice. Per poter dire che gli errori hanno una distribuzione normale ci si accontenta quindi che i punti siano vicino alla linea presente nel grafico. Questa è effettivamente la situazione presente nel grafico qui sopra.
Tuttavia, l’ipotesi di normalità dei residui non è così importante come le altre ipotesi. Si dimostra infatti che, soprattutto per campioni numerosi, la regressione lineare è abbastanza robusta alla non Normalità distributiva degli errori.
In particolare, la differenza è che nella regressione lineare il test F ed il test t sono considerati test esatti se gli errori hanno una distribuzione perfettamente normale (e i.i.d.). In caso contrario, sono semplicemente considerati come test approssimati ma, a livello pratico, funzionano lo stesso.
Le variabili indipendenti sono incorrelate con l’errore?
Se una variabile esplicativa è correlata con il termine d’errore, puoi utilizzare questa variabile esplicativa per predire quale sarà l’errore del modello di regressione. E questo non va bene, perché la componente di errore di un modello di previsione deve essere imprevedibile.
Per verificare se questo è il caso del tuo modello, devi costruire tanti grafici di dispersione quante solo le x del tuo modello di regressione. Sull’asse orizzontale devi mettere i valori della x, mentre sull’asse verticale i valori dei residui.
Ne trovi un esempio nel grafico qui sotto, che studia la relazione tra la velocità (x) ed i residui di un modello di regressione che aveva come obiettivo quello di predire la distanza percorsa da un auto (la y) in base alla sua velocità.
Osservando il grafico, l’ipotesi è confermata se non è individuabile nessuna relazione tra le due variabili.
La varianza dei residui è omogenea?
Per verificare l’ipotesi di omogeneità delle varianze dei residui, è necessario creare un grafico a dispersione. I valori stimati della y si riportano sull’asse orizzontale delle x. Sull’asse verticale delle y invece si indicano i valori dei residui.
Se c’è omogeneità della varianza dei residui, i punti saranno dispersi in modo simile sia nella parte sinistra che in quella destra del grafico.
Trovi un esempio di come interpretare il grafico qui sotto.
In questo esempio puoi notare come i punti tendono a disperdersi di più nella parte destra della distribuzione rispetto che nella parte sinistra. Per capire meglio se si può accettare l’ipotesi di omogeneità, ti consiglio di dare un’occhiata anche al grafico Scale-Location e di effettuare il test di Breusch Pagan.
La distribuzione dei residui è lineare?
Per facilitarti con le verifiche di linearità e la presenza di outliers, alcuni software aggiungono alcune informazioni a questo grafico di dispersione. Uno dei mie preferiti è R Commander, che in automatico crea il grafico che trovi qui sotto:
Come puoi osservare, in questo grafico è infatti riportata una linea orizzontale tratteggiata in corrispondenza dei residui con media zero. Ricordati che i residui di un modello di regressione costruito con il metodo dei minimi quadrati (OLS) hanno per definizione sempre media zero.
La linea rossa invece è una linea di tendenza, che ti aiuta a verificare la prima ipotesi. Se la linea rossa è abbastanza sovrapponibile alla linea tratteggiata, come in questo caso, allora l’ipotesi di linearità è verificata.
Secondo l’ipotesi di linearità, i dati devono infatti distribuirsi in modo casuale intorno allo 0.
Una situazione in cui non c’è invece linearità tra i residui è quella riportata nel grafico qui sotto:
In questo grafico la relazione risulta essere non lineare perché i puntini hanno un preciso andamento intorno allo 0. In altre parole, in questo caso sapendo quale è il valore stimato (il fitted value nel grafico) puoi predire quale sarà il valore del residuo.
Ad esempio, valori stimati della y vicino a 120 oppure a 160 tendono ad avere residui positivi. Valori stimati della y intorno a 130 e 140 tendono invece ad avere residui negativi. Se i residui avessero una distribuzione imprevedibile non dovresti poter fare queste previsioni.
Ci sono degli outliers che influenzano la pendenza della retta?
Il grafico a dispersione tra valori predetti e residui ti permette di individuare anche i possibili outliers, ovvero i punti isolati nel grafico. I possibili outliers, quelli con i residui più grandi, sono identificati infatti su questo grafico tramite il loro codice identificativo.
Tuttavia, per verificare se ci sono outliers in un modello di regressione, ti consiglio di non basarti solo sul grafico, ma di utilizzare anche le seguenti misure:
- I punteggi di leva: sono compresi tra 0 ed 1. Un punteggio elevato di leva è quindi un valore vicino ad 1.
- I residui studentizzati: si considerano valori elevati quelli maggiori di 3 o minori di -3.
- La distanza di Cook: si considerano elevati i valori superiori ad 1
Tutte queste tecniche utilizzano come approccio quello del togliere un’osservazione alla volta dal campione e vedere cosa cambia nei risultati. Osservazioni che hanno valori elevati per tutte queste misure sono considerate un possibile problema.
Se il modello che hai realizzato rientra in questa casistica, ti consiglio di provare a rifare le analisi di regressione escludendo le osservazioni potenzialmente problematiche. In questo modo potrai vedere se ci sono differenze nei coefficienti del modello. Nei modelli di regressione infatti anche un singolo outlier può influenzare in maniera sostanziale la capacità di adattamento del modello ai dati, soprattutto se il campione non è molto numeroso.
In generale, ricordati comunque che tutte queste misure hanno delle soglie per determinare se un’osservazione è etichettabile come influente o meno, ma, come sempre in statistica, le soglie sono sempre da prendere come riferimenti e non come valori immodificabili.
I residui sono tra loro correlati?
L’ultima ipotesi sui residui richiede di verificare che i residui non siano tra loro autocorrelati.
Per poterlo capire, si utilizza il coefficiente d di Durbin –Watson. Questo indice è compreso tra 0 e 4. Valori vicini a 2 indicano che non c’è autocorrelazione.
Valori piccoli di d indicano invece che due residui successivi tra loro sono, in media, vicini in valore l’uno all’altro, o correlati positivamente. Al contrario, valori grandi di d indicano che due residui successivi tra loro sono, in media, molto differenti in valore l’uno dall’altro, o correlati negativamente.
L’autocorrelazione dei residui si verifica ad esempio quando hai delle misure ripetute nel tempo sugli stessi individui (oppure su identiche aree). In queste situazioni, i modelli di regressione lineare non sono adatti a descrivere i dati ed è preferibile utilizzare dei modelli basati sulle analisi longitudinali dei dati.
Analisi dei residui: e adesso?
Se né i residui, né le misure di influenza rilevano nulla di anomalo, allora significa che puoi guardare con fiducia ai risultati del modello.
Se invece risultano anomalie, considera l’utilizzo di modelli di regressione alternativi, come la regressione robusta o i GLM (modelli lineari generalizzati) che permettono di specificare una più appropriata distribuzione degli errori.
Se poi vuoi scoprire cosa significano e come si interpretano tanti altri termini “tecnici”, ti consiglio di scaricare questa guida gratuita di statistica. Al suo interno troverai tanti esempi concreti e definizioni spiegate in modo chiaro e comprensibile.