La correlazione lineare r di Pearson spiegata semplice

28 Marzo 2020 | Analisi dati

Il coefficiente di correlazione r di Pearson è la tecnica statistica più conosciuta per valutare la correlazione lineare tra due variabili. Spesso però questo indice è utilizzato in modo sbagliato. In questo articolo scoprirai quali sono tutte le verifiche da fare per capire se puoi utilizzare questa analisi di correlazione. Ma anche come interpretare l’indice e come riportare i risultati in un report. Inoltre, ti mostrerò quali sono tutte le strategie alternative che puoi adottare.

coefficiente di correlazione di Pearson

Correlazione lineare statistica: a cosa serve?

Indice r di Bravais-Pearson: perchè si chiama così?

Quando si può usare il coefficiente di correlazione?

Come si calcola r su Excel, SPSS ed R?

Come si interpretano i valori del coefficiente di Pearson?

Correlazione e causalità sono sinonimi?

Come riportare i risultati dell’analisi di correlazione?

Scarica lo schema riassuntivo in pdf

Correlazione lineare statistica: a cosa serve?

In statistica, l’indice di correlazione lineare r di Pearson si utilizza per determinare la forza e la direzione di una relazione lineare tra due variabili continue. 

Ad esempio, puoi utilizzarla per determinare la forza e la direzione di una relazione lineare tra i valori della pressione sistolica ed il peso di un campione di pazienti. Oppure per valutare la relazione lineare tra il numero di parole scritte in un racconto e l’età di un campione di studenti. O magari per verificare se ci sia una correlazione lineare tra la capacità polmonare e la performance sportiva in una gara sui 100 metri piani.

Indice r di Bravais-Pearson: perchè si chiama così?

L’indice di Pearson è anche detto coefficiente di correlazione lineare di Bravais-Pearson. Per arrivare alla sua formulazione matematica alla fine dell’Ottocento è stato necessario infatti il lavoro di tre diversi statistici:

  • Nel 1846, August Bravais è il primo a pubblicare un paper in cui viene presentata la formulazione matematica di “correlazione statistica”
  • Qualche anno dopo, nel 1885, Sir Francis Galton (cugino di primo grado di Charles Darwin e come lui interessato a studiare l’ereditarietà dei caratteri innati) è stato il primo ad utilizzare la lettera r (come abbreviazione di regressione). Voleva infatti calcolare un indice che quantificasse la forza della relazione tra le stature dei genitori e dei figli.
  • Nel 1890 infine Karl Pearson ha ripreso il lavoro di Galton e Bravais ed ha sviluppato il coefficiente così come è conosciuto attualmente

Se questo indice fa riferimento alla popolazione viene indicato con la lettera greca rho (ρ), mentre se ci si riferisce ad un campione si utilizza la lettera r dell’alfabeto latino. In generale, ricordati infatti che in statistica si utilizzano le lettere dell’alfabeto greco per riferirsi ai parametri della popolazione, mentre le lettere latine indicano che ci si sta riferendo ad una statistica del campione.

Quando si può usare il coefficiente di correlazione?

Per poter effettuare questa analisi devi prima verificare che le due variabili superino una checklist composta da 5 controlli. Solo se i tuoi dati passano tutti questi controlli allora puoi utilizzare la correlazione di Pearson per ottenere dei risultati validi dalle tue analisi.

I primi due controlli sono teorici e riguardano il disegno di studio. Gli altri tre invece richiedono delle verifiche operative, che si possono svolgere su un qualsiasi software statistico.

CONTROLLO 1: le due variabili devono essere entrambe quantitative.

Ad esempio, l’età misurata in anni compiuti è una variabile quantitativa e può essere utilizzata per l’analisi della correlazione di Pearson, mentre l’età misurata per fasce (18-30 anni, 31-40 anni, 41-50 anni, ….) è una variabile qualitativa ordinale e pertanto non si può utilizzare la correlazione di Pearson. Per esaminare la relazione quando almeno una variabile è qualitativa ordinale, ma sarà necessario scegliere un altro metodo di analisi, come la correlazione di Spearman o la correlazione di Kendall.

CONTROLLO 2: Le due variabili quantitative devono essere appaiate sugli stessi casi.

Ovvero, per ogni unità statistica (es. ogni intervistato) deve essere stato misurato un valore sia per la prima che per la seconda variabile. Se i dati non sono appaiati, sarà necessario pensare ad un’ analisi basata sui campioni indipendenti per esaminare le relazioni tra le variabili.

CONTROLLO 3: Il grafico di correlazione deve mostrare una relazione di tipo lineare tra le due variabili.

Grafici di correlazione:

grafici di dispersione

Per poter utilizzare l’r di Pearson, l’analisi di correlazione tra variabili deve mostrare un’andamento lineare, come nel caso del grafico 1. Se la relazione non risultasse invece lineare, devi verificare se è almeno monotona : all’aumentare dei valori di una variabile, i valori dell’altra variabile aumentano anche se non in modo lineare? Oppure, all’aumentare dei valori di una variabile, i valori dell’altra variabile diminuiscono anche se non in modo lineare?

Se hai risposto sì ad una delle due domande, allora puoi semplicemente valutare la relazione utilizzando l’indice di correlazione di Spearman o di Kendall. In alternativa, con qualche passaggio intermedio, puoi provare a trasformare una o più variabili (ad esempio calcolandone il logaritmo) per “linearizzare” la relazione e poter così utilizzare l’indice di correlazione di Pearson.

Se invece hai risposto no ad entrambe le domande, allora puoi trasformare una o entrambe le variabili per provare a rendere la relazione almeno monotona e poi rifare tutti i controlli. In alternativa, puoi adottare un modello non-lineare. Trovi spiegato in modo più dettagliato come interpretare gli altri grafici in questa guida gratuita di statistica.

CONTROLLO 4: Non devono essere presenti outliers influenti.

Gli outliers sono dei casi all’interno del campione che hanno caratteristiche diverse rispetto al resto delle osservazioni. Come il precedente, anche questo controllo può essere effettuato tramite un grafico di dispersione.

Se ci fossero degli outliers, come prima cosa devi verificare che questi valori anomali non siano dovuti ad errore di imputazione o di misura, come ti ho spiegato in questa guida gratuita di statistica.

Se i dati sono corretti, puoi decidere se eliminare questi casi dal dataset e poi rifare tutti i controlli oppure tenerli sapendo che i risultati saranno influenzati da tali casi anomali. Il coefficiente di correlazione di Pearson è infatti, come la media e la varianza, un indice poco robusto il cui valore può cambiare sensibilmente in base a pochi valori estremi. In caso di indecisione su quale approccio scegliere, puoi anche calcolare la correlazione sia con sia senza gli outliers e, se non ci sono differenze di rilievo, decidere di tenere gli outliers nel dataset.

CONTROLLO 5: La distribuzione di entrambe le variabili deve essere normale.

Questa verifica può essere fatta tramite un test di normalità. Tra i più utilizzati ci sono Shapiro-Wilk, che è preferibile per campioni di piccole dimensioni, e Kolmogorov-Smirnov, che invece si utilizza per campioni più numerosi.

In ogni caso, quando il campione è molto grande, questi test posso indicare di rifiutare l’ipotesi nulla di normalità distributiva anche quando in realtà la variabile ha una distribuzione approssimativamente normale. In questi casi, è preferibile valutare la normalità attraverso dei grafici come il q-q plot o il p-p plot.

Se la distribuzione non risultasse normale (ovvero se il p-value<0,05), allora puoi scegliere tra due alternative. Puoi trasformare i dati per provare a “normalizzarli” e poi rifare tutti i controlli oppure optare per un diverso metodo di analisi, utilizzando ad esempio il coefficiente di correlazione statistica di Spearman o quello di Kendall.

Indice r di Pearson: come si calcola?

Se le tue variabili hanno superato tutti i controlli, puoi passare a calcolare l’indice di Pearson. Questo coefficiente di correlazione si calcola come rapporto tra la covarianza delle due variabili e il prodotto delle loro deviazioni standard.

Ma non ti preoccupare per la formula. Per ottenere il valore di r ti basterà selezionare su Excel o su un qualsiasi software statistico sull’apposita funzione ed il programma farà i calcoli al posto tuo.

Correlazione Excel

Su Excel, per calcolare l’indice di correlazione r di Pearson puoi utilizzare l’apposita funzione =CORRELAZIONE (variabile1;variabile2).

Correlazione in R

Su R ci sono diverse formule che permettono di calcolare l’indice di correlazione di Pearson. Ad esempio, puoi utilizzare la funzione cor(variabile1, variabile2) che è disponibile anche dal menù a discesa di R Commander

Correlazione in SPSS

Anche su SPSS puoi ottenere l’indice di correlazione molto velocemente tramite i menù a discesa andando su Analizza | Correlazione | Bivariata

Come si interpretano i valori del coefficiente di Pearson?

L’indice di correlazione di Pearson è un numero che fornisce informazioni sia sulla forza sia sulla direzione della correlazione tra due variabili quantitative.

Forza della correlazione

L’indice r sarà sempre compreso tra i valori -1 (che indica una perfetta relazione negativa lineare tra le due variabili) e + 1 (che indica una perfetta relazione positiva lineare tra le due variabili). In pratica, valori uguali esattamente a +1 oppure a -1 non capitano mai con dati reali.

Un valore di 0 indica che non è presente una relazione lineare tra le due variabili. Anche un indice esattamente pari a 0 si osserva molto raramente con dati reali.

Quello che capita normalmente è infatti trovare un valore intermedio.

Per interpretarlo, ricordati che più l’indice è vicino a zero, più la relazione sarà debole, più si avvicina a -1 oppure a + 1 più la relazione sarà forte. 

In altre parole, più è grande il numero in valore assoluto (quindi privato del segno), più la correlazione tra le due variabili sarà approssimabile ad una retta. Più è piccolo l’indice in valore assoluto, più la correlazione tra le due variabili sarà nulla o non lineare.

Ma quanto deve essere forte una correlazione per essere considerata accettabile? In questo caso non c’è una risposta univoca, in quanto dipende da cosa stai osservando. Ad esempio, in fenomeni fisici basati su misurazioni molto precise spesso si osservano dei valori di correlazione molto vicini agli estremi +1 oppure -1. Quando si tratta invece di comportamenti umani, spesso le correlazioni risultano molto più basse.

Direzione della correlazione

Il segno del coefficiente di correlazione indica se la relazione tra le due variabili è positiva o negativa.

Quando due variabili quantitative sono correlate positivamente?

Quando le unità statistiche che hanno valori elevati di una variabile tendono ad avere anche valori elevati per l’altra variabile. O se preferisci, le unità statistiche con valori bassi di una variabile tendono ad avere bassi valori anche per l’altra variabile.

Quando due variabili quantitative sono invece correlate negativamente?

Quando le unità statistiche che hanno valori elevati di una variabile tendono ad avere valori bassi per l’altra variabile. Di conseguenza, le unità statistiche con valori bassi di una variabile tendono ad avere valori elevati per l’altra variabile.

Ad esempio, ipotizziamo che calcolando l’indice di correlazione di Pearson tra il peso ed i valori di pressione sistolica di un gruppo di 98 pazienti adulti ottieni r=0,45. Questo significa che tra queste due variabili c’è una relazione lineare positiva moderata. Se invece avessi ottenuto un r=-0,86 significava che tra queste due variabili c’è una forte relazione lineare negativa.

Correlazione e causalità sono sinonimi?

Quando interpreti i risultati  di un’analisi della correlazione fai attenzione a non confondere la correlazione con la relazione di causa-effetto. L’analisi della correlazione non fornisce infatti nessuna indicazione sul fatto che il legame osservato sia o meno di causa-effetto.

Ad esempio, il fatto che stai osservando una relazione tra peso e pressione sistolica non significa automaticamente che sia l’aumento di peso la causa di un aumento della pressione sistolica. Potrebbe esserci infatti un’altra variabile che spiega i cambiamenti sia nel peso che nella pressione sistolica.

Per poter affermare che una relazione tra due variabili sia di causa-effetto devono essere presenti almeno tre condizioni:

  • l’isolamento: le due variabili devono essere accuratamente isolate da tutte le altre possibili variabili intervenienti sulla loro relazione. Non devono quindi essere presenti variabili di confondimento o variabili confuse.
  • la relazione: la relazione tra due variabili non deve essere troppo debole. Nel caso di variabili quantitative, questo comporta che l’indice di correlazione non deve essere troppo vicino a zero.
  • la direzione: la causa deve sempre precedere l’effetto.

Come riportare i risultati dell’analisi di correlazione

Ecco come potresti riportare i risultati dell’esempio precedente in un report:

E’ stato calcolato l’indice r di Pearson per valutare la relazione tra il peso (in kg) ed i valori di pressione sistolica (in mmHg) in un campione composto da 98 pazienti adulti.

Dalle analisi preliminari è infatti emerso che la relazione è lineare, entrambe le variabili sono distribuite secondo una normale (come verificato dal test di Shapiro-Wilk (p>0.5), e che non sono presenti outliers.

L’ aumento del peso di un pazienti risulta moderatamente correlato con un incremento nei valori della pressione sistolica nei pazienti adulti, r(98)=0,45.

Correlazione di Pearson: schema riassuntivo in pdf

Per aiutarti a svolgere velocemente tutti i controlli ho creato uno schema riassuntivo alla correlazione di Pearson: salvalo sul tuo pc e consultalo ogni volta che ti trovi a dover analizzare la relazione tra due variabili, così da non perderti nessun passaggio ed avere la sicurezza di aver svolto tutte le analisi in modo corretto.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.