La retta di regressione si utilizza in statistica per studiare una relazione di tipo lineare tra due variabili quantitative. In questo articolo scoprirai quando usarla, come si calcola e come si interpretano i suoi parametri.
Indice
Che cosa si intende per regressione
Per capire davvero che cosa è una retta di regressione, è necessario prima avere ben chiaro cosa si intende per “retta” e cosa per “regressione”.
Il termine regressione si fa risalire agli studi effettuati a fine Ottocento del biologo inglese Galton. Esaminando le altezze dei figli (Y) in funzione delle altezze dei genitori (X), notò una relazione tra le due variabili: più alti erano i genitori, più alti erano i figli e viceversa.
Tuttavia, a genitori molto bassi o molto alti non corrispondevano figli con altezze altrettanto estreme. In altre parole, l’altezza dei figli si spostava (regrediva) verso la media. Da qui il concetto alla base della regressione statistica: lo studio della regressione verso la media.
Che cosa è una retta
Se vai a cercare tra i ricordi delle scuole medie o superiori, probabilmente ti torneranno in mente frasi come:
- La retta è una linea infinita
- Per un punto passano infinite rette
Ma come si decide come deve essere disegnata una retta? Servono due informazioni:
- quanto è inclinata
- a che altezza si colloca
Sono proprio questi due i parametri della formula di una generica retta: Y= q + m*x
Il parametro q è l’intercetta, ovvero il punto in cui la retta interseca l’asse delle y. Questo parametro ci permette di poter capire a che altezza sull’asse delle y si colloca la retta. Questo parametro può andare da meno infinito a più infinito. Se:
- q<0: intercetta negativa. La retta interseca l’asse verticale sotto lo 0
- q=0: intercetta nulla. La retta passa per l’origine degli assi. Ovvero per il punto di coordinate (0,0)
- q>0: intercetta positiva. La retta interseca l’asse verticale sopra lo
Il parametro m è il coefficiente angolare, ovvero la pendenza della retta. Anche questo valore può andare de meno infinito a più infinito. Se:
- m<0: pendenza negativa. Più il valore negativo è grande, più la retta scenderà rapidamente andando da sinistra verso destra.
- m=0: pendenza nulla. La retta è parallela all’asse orizzontale
- m>0: pendenza positiva. Più il valore positivo è grande, più la retta salirà rapidamente andando da sinistra verso destra.
A cosa serve la regressione?
La retta di regressione si usa all’interno del modello di regressione lineare semplice per stimare il valore di una variabile quantitativa (Y) partendo dai valori di un’altra variabile quantitativa (X):
- La X è la variabile esplicativa (detta anche indipendente o covariata)
- La Y è la variabile risposta (detta anche dipendente)
I modelli di regressione sono una delle tecniche statistiche più studiate ed utilizzate. Per la loro versatilità, possono essere infatti adattati a qualsiasi contesto. In ambito medico, puoi usare una retta di regressione per capire quanto la dose di un farmaco (in mg) incide sulla pressione sistolica (in Hg/mm) dei pazienti. Oppure, in psicologia, per studiare quanto l’età (in anni compiuti) di un campione di individui influenzi ad esempio il loro livello di stress percepito (su una scala da 0 a 100).
Proprio questa estrema popolarità in vari ambiti ha generato nel tempo una gran confusione nei termini da utilizzare. Se c’è qualcosa che non ti torna nella terminologia, o non sai quale sia nel tuo caso a quale variabile assegnare il ruolo di X ed a quale il ruolo di Y, ti consiglio di dare un’occhiata a questo articolo in cui troverai esempi e sinonimi di variabile dipendente ed indipendente.
Retta di regressione: quando non usarla
Per capire se ha senso utilizzare una retta di regressione, è importante prima costruire un diagramma di dispersione. E’ infatti solo osservando l’andamento dei punti nel piano cartesiano che puoi capire se una retta può essere una loro buona approssimazione. La regressione lineare semplice si usa infatti solo quando le due variabili hanno tra loro una relazione lineare. In altre parole, quando i punti del diagramma di dispersione tendono a disporsi secondo una linea retta.
Regressione e correlazione: che differenza c’è?
La correlazione lineare è il passaggio precedente dei modelli di regressione lineare.
Con la correlazione valuti se c’è una relazione di tipo lineare tra due variabili quantitative, se è positiva o negativa e quanto è forte.
In altre parole, la correlazione ti permette di dire se all’aumentare dei valori della X aumentano (se l’indice di correlazione è positivo) o diminuiscono (se l’indice di correlazione è negativo) in media anche i valori della Y. E viceversa, se all’aumentare dei valori della Y i valori della X tendono in media ad aumentare (sempre se l’indice di correlazione è positivo) o a diminuire (se l’indice di correlazione è negativo.
Ti ricordo infatti che la correlazione è una misura statistica di tipo simmetrico: se inverti X ed Y il risultato non cambia.
La regressione invece ti permette di quantificare di quanto aumenta (se la pendenza della retta è positiva) o diminuisce (se la pendenza è negativa) la Y all’aumentare di un’unità della X.
A differenza della correlazione, la regressione è asimmetrica. Le due variabili non sono infatti tra di loro interscambiabili. Questo significa che se inverti X con Y otterrai un risultato diverso.
Come si trovano i parametri della retta di regressione?
L’idea su cui si basa l’individuazione della retta di regressione è molto semplice. Intuitivamente, la retta “giusta” dovrà passare il più vicino possibile a tutti i punti presenti sul grafico di dispersione.
Come abbiamo ricordato prima, per un punto passano infinite rette. Quindi come prima cosa per poter trovare una retta di regressione serve fissare un punto. Il punto in questione è dato dalle coordinate (media di X, media di Y). Ti ricordi quello che abbiamo detto prima riguardo la regressione verso la media? Ecco, come vedi la media è la grande protagonista di questo metodo.
La retta di regressione passa infatti sempre per il valore medio di X e per il valore medio di Y.
E questo è esattamente il motivo per cui se la media non è un buon indicatore per la tua variabile (perché ad esempio ci sono outliers estremi) allora anche il modello di regressione lineare non sarà un buon modello per i tuoi dati.
Passiamo quindi a trovare quale tra le infinite rette che passano per questo punto è quella che serve a noi. In altre parole, quella che meglio di tutte si avvicina ai nostri punti.
Metodo dei minimi quadrati
La procedura matematica standard che permette di trovare i due parametri che definiscono la retta è detta “metodo dei minimi quadrati” (in inglese, OLS).
“Minimi quadrati” significa che questo metodo ha l’obiettivo di trovare due parametri (chiamati nei modelli di regressione β0 e β1) che rendono minime le distanze al quadrato dei singoli punti dalla retta di regressione. Il quadrato serve per evitare che gli scarti positivi si compensino con quelli negativi.
Equazione retta di regressione
L’equazione della retta di regressione può essere scritta in due modi:
- yi= β0 + β1*xi + εi
- yi^= β0 + β1*xi
Vediamo adesso come interpretare tutti questi simboli.
Coefficiente di regressione: come si interpreta?
Come abbiamo appena visto, la retta di regressione, come tutte le rette, è determinata da due parametri:
Pendenza della retta
Coincide con il valore β1 del modello. A volte nei modelli di regressione lineare semplice è indicato anche solo come β. Il valore di questo coefficiente indica la variazione della Y conseguente ad una variazione unitaria della X.
Proprio come nell’equazione generica della retta, il segno del coefficiente indica il “verso” della relazione:
- β1>0: ad un aumento della X corrisponde in media un aumento della Y
- β1<0: ad un aumento della X corrisponde in media una diminuzione della Y
- β1=0: al variare dei valori della X il valore della Y si mantiene costante.
Intercetta
Corrisponde con il coefficiente β0 del modello. A volte è indicata anche come Alpha o costante. Indica l’altezza in cui la retta interseca l’asse verticale.
Retta di regressione e retta geometrica: che differenza c’è?
Confronta le formule e segna tutte le differenze che trovi:
- Equazione generica della retta: y=q+m*x (1)
- yi^= β0 + β1*xi (2) oppure yi= β0 + β1*xi + εi (3)
Come avrai osservato, seppur simili, le due formule presentano alcune differenze.
Diversa simbologia
Come prima cosa, nei simboli utilizzati:
– m è stato sostituito da β1
– q è stato sostituito da β0
I parametri utilizzati della retta di regressione sono scritti usando le lettere greche in quanto sono delle stime. Lo puoi notare perché:
- nella (2) il valore di y ha a fianco “^” che indica che è un valore stimato
- nella (3) è stato necessario inserire nell’equazione un termine di errore (εi).
La relazione statistica tra le due variabili infatti non sarà mai perfetta. Lo sarebbe solo nel caso in cui nel diagramma di dispersione tutti i punti si trovassero esattamente lungo una retta. In altre parole, conoscendo il valore di X possiamo fare una stima di quale sarà il valore di Y, ma non lo potremo mai conoscere con assoluta certezza. A differenza dell’equazione generica di una retta, la formula della retta di regressione deve quindi tenere conto di un termine di errore.
In termini statistici, si dice che l’equazione di regressione lineare stima la media condizionata di Y, ovvero la media stimata di Y, per ogni valore assunto da X.
Inoltre, dato che la retta di regressione è stata calcolata su un campione composto da più unità statistiche, si utilizzano le “i” che vedi nelle formule (2) e (3) a fianco (o come pedice) dei nomi delle variabili (in questo caso x e y) in modo che si capisca che la formula non si riferisce ad un’unica unità statistica ma a tutte quelle che sono state incluse nell’analisi.
Attenzione al range di valori!
La retta di regressione è interpretabile solo per un range di valori, quelli assunti dalla variabile dipendente.
Se vuoi analizzare la relazione tra la dose di un farmaco e la pressione sistolica. La dose (in mg) sarà la variabile esplicativa ed il valore di pressione sistolica (in Hg/mm) la variabile risposta. Se il tuo campione è composto da 30 individui a cui sono state somministrate dosi del farmaco comprese tra 0 e 7mg, tutte le tue considerazioni dovranno essere limitate a questo range di valori.
Non è infatti affidabile utilizzare l’equazione della retta trovata per, ad esempio, predire di quanto una dose di 10 mg del farmaco influenzerà il valore della pressione.
Come calcolare la retta di regressione con Excel?
Su Excel ci sono vari metodi per calcolare i coefficienti della retta di regressione in modo automatico.
Quello che ti consiglio io è l’approccio grafico.
Seleziona le due variabili e poi nel Menù in alto vai su Inserisci | Grafico a dispersione.
Clicca quindi sul + che vedi subito a destra del grafico. Si aprirà un nuovo menù da cui selezionare Linea di tendenza e quindi l’opzione Lineare.
Ti consiglio anche di mettere la spunta su Visualizza l’equazione sul grafico e Visualizza il valore R quadrato sul grafico. Di cosa fartene di quest’ultima informazione lo puoi scoprire in questo articolo sul coefficiente di determinazione.
In alternativa, puoi usare lo Strumento di Analisi Dati oppure la funzione =regr.lin()
Come si calcola la regressione su SPSS?
Dal menù principale di SPSS, ti basterà andare su Analizza | Regressione |Lineare.. ed indicare quale è la variabile esplicativa (SPSS la chiama Indipendenti) e quale è quella di risposta (Dipendente).
Retta di regressione su R Commander
Dopo aver caricato caricato il dataset, nel Menù in alto vai su Statistiche | Fitta i modelli.. | Regressione lineare. La variabile di risposta è la Y, la variabile esplicativa è la X.
Come si calcola la regressione su Jamovi?
Dal menù Analyses, clicca su Regression | Linear Regression
In questo caso la Y è la “dependent variable” e la X va in “Covariates”.
Retta di regressione: e adesso?
Se ti serve aiuto per interpretare l’output di una regressione o altre formule statistiche, non esitare e scarica subito questa guida gratuita di statistica!