Correlazione e regressione: che differenza c’è?

29 Gennaio 2022 | Analisi dati

Correlazione e regressione sono due tipologie di analisi statistiche strettamente legate tra loro. In questo articolo scoprirai in cosa sono simili ed in cosa invece si differenziano.

correlazione regressione lineare

Introduzione

Se hai seguito almeno un corso di statistica, quasi sicuramente avrai sentito parlare del coefficiente di correlazione r di Pearson.

Questo indice, infatti, permette di quantificare la direzione e la forza della relazione lineare tra due variabili quantitative. Ad esempio, tra peso corporeo e livello di colesterolo nel sangue. Oppure tra un indicatore di stress ed il numero di ore trascorse facendo esercizio fisico.

Sapevi però che quella r in realtà nasce come r di regressione?

Correlazione e regressione infatti sono due tipologie di analisi statistiche strettamente legate tra loro. Di solito prima si studia la correlazione e poi la regressione ma in realtà la prima è nata come conseguenza della seconda.

Chi ha ideato la correlazione?

Lo sviluppo del coefficiente di correlazione lineare non è infatti tutto merito di Karl Pearson, a cui si deve più che altro la sua presentazione formale. L’idea alla base di questa analisi statistica è venuta a Sir Francis Galton, di cui Karl era allievo e di cui scrisse anche una biografia. E proprio all’interno di questa biografia, Pearson spiega nel dettaglio come questa r sia passata da essere associata al coefficiente di regressione a quello di correlazione.

Correlazione e coefficiente di regressione: cosa hanno in comune?

Proprio perché l’indice di correlazione r nasce come conseguenza del coefficiente di regressione (quello che in genere si indica con b), questi due indici hanno molto in comune tra loro.

Espresse nella loro forma estesa, le loro formule possono essere scritte così:

formule correlazione e regressione lineare

Cosa noti?

Il numeratore è sempre lo stesso mentre il denominatore è diverso se la varianza di x e y sono diverse tra loro. Invece, se la varianza di x è uguale alla varianza di y, i due indici saranno tra loro uguali.

Inoltre, il denominatore per definizione è sempre un numero positivo. Pertanto, se il numeratore è un numero:

  • negativo, ovvero all’aumentare di x, y tende in media a diminuire: entrambi gli indici saranno negativi
  • positivo, allora all’aumentare di x anche y tende in media ad aumentare: entrambi gli indici saranno positivi.
  • pari a 0, ovvero le due variabili sono tra loro indipendenti: entrambi gli indici saranno pari a zero.

Questo è il motivo per cui entrambi gli indici possono essere utilizzati per valutare se sia presente una relazione di tipo lineare tra due variabili e se questa sia diretta/positiva o inversa/negativa.

Correlazione e coefficiente di regressione: che differenza c’è?

Se le varianze di x ed y sono diverse tra loro, allora i due indici assumeranno valori che, seppur entrambi positivi o negativi, saranno diversi tra loro.

Questo perché il denominatore dell’indice di correlazione tiene conto sia della variabilità di x che di quella di y. Il denominatore del coefficiente di regressione, invece, tiene conto solo della varianza della variabile esplicativa/indipendente.

Per questo l’indice di correlazione può variare solo tra -1 e +1, mentre il coefficiente di regressione può assumere qualsiasi valore.

valori di correlazione

Questo è anche il motivo per cui se inverti x con y la correlazione non cambia mentre il coefficiente b sarà diverso. L’indice di correlazione è infatti una tipologia di analisi simmetrica mentre la regressione è un’analisi asimmetrica.

Quale coefficiente scegliere?

Valutare la presenza di una relazione tra peso e livello di colesterolo è uguale a valutare se c’è una relazione tra livello di colesterolo e peso. Ed entrambi i coefficienti ti permettono di fare questa analisi.

Chiedersi se il peso (x) influisca sul livello di colesterolo (y) o possa predirlo è invece diverso dal chiedersi se il livello di colesterolo (x) influisca sul peso di un individuo (y) o possa predirlo.

In queste situazioni devi utilizzare il coefficiente di regressione e fare attenzione a quale variabile utilizzi come x e quale come y perché i risultati che otterrai saranno molto probabilmente diversi tra loro.

Allo stesso modo, se vuoi valutare se esiste una relazione lineare positiva o negativa tra stress e ore trascorse facendo attività fisica, puoi utilizzare entrambi i coefficienti.

Per quantificare invece di quanto diminuisce in media il livello di stress all’aumentare di un’ora di esercizio fisico, allora dovrai necessariamente utilizzare il coefficiente di regressione. Nello specifico, dovrai impostare lo stress come variabile risposta/dipendente (la y) e le ore come variabile esplicativa/indipendente (la x).

Infine, se inverti la x con la y, il coefficiente di regressione ti dirà di quanto aumentano o diminuiscono in media le ore dedicate all’attività fisica all’aumentare di uno nel punteggio di stress.

E adesso?

Spero con questi esempi di averti un po’ chiarito le idee su questi due coefficienti ed averti aiutato a fare un utile ripasso di quelle nozioni di base che troppo spesso vengono date per scontate.

Per aiutarti a fare chiarezza ed a comprendere meglio cosa significano in pratica anche altre espressioni statistiche, ho preparato per te una guida gratuita a 10 tra i termini statistici più utilizzati. Buona lettura!

Articoli correlati

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.