Coefficiente di correlazione di Spearman: quando si usa?

18 Aprile 2020 | Analisi dati

La correlazione per ranghi di Spearman è una tecnica statistica non parametrica utilizzata per valutare la relazione tra due variabili quantitative o qualitative ordinali. In questo articolo scoprirai quali sono tutte le verifiche da fare per capire se puoi utilizzare questo indice, come interpretarlo e come riportare i risultati in un report. Inoltre, ti mostrerò quali sono tutte le strategie alternative che puoi adottare.

Indice di correlazione di Spearman

La correlazione per ranghi di Spearman, detta anche indice di cograduazione di Spearman, prende il nome dallo psicologo Charles Spearman, che la ideò agli inizi del Novecento. E’ una correlazione basata sui ranghi che prende spunto dalla più famosa correlazione parametrica r di Pearson, ideata da Karl Pearson alcuni anni prima per l’analisi di relazioni lineari tra due variabili quantitative.

Il coefficiente di correlazione di Spearman misura la forza e la direzione della relazione tra i ranghi di due variabili quantitative oppure qualitative ordinali.

Correlazione di Spearman: esempi pratici

Ad esempio, potresti utilizzare la correlazione di Spearman per determinare se negli anziani ci sia una relazione tra il livello di attività fisica svolto e la concentrazione di colesterolo nel sangue. In questo caso, l’attività fisica è una variabile qualitativa ordinale che ha come modalità: nessuna attività fisica, leggera attività fisica, moderata attività fisica, intensa attività fisica. La concentrazione di colesterolo è invece una variabile quantitativa continua il cui valore è espresso in mmol/L.

Oppure potresti utilizzare questo indice per valutare se in un campione di neo-assunti ci sia una relazione tra il più alto titolo di studio conseguito ed il risultato conseguito in un test. In questo esempio, entrambe le variabili sono qualitative ordinali. Il titolo di studio ha come modalità: licenza elementare o media; diploma di scuola superiore; laurea; superiore alla laurea. Il risultato del test invece ha come modalità: insufficiente, sufficiente, discreto, buono, eccellente.

O ancora, potresti adottare questa tecnica per valutare la relazione tra due variabili quantitative, come la relazione tra l’età (espressa in anni compiuti) e la frequenza cardiaca (espressa in numero di battiti al minuto) su un campione di atleti.

Coefficiente di correlazione di Spearman: le verifiche da fare

Per poter effettuare questa analisi devi prima verificare che le due variabili superino una checklist composta da 3 controlli. Solo se i tuoi dati passano tutti questi controlli allora puoi utilizzare la correlazione di Spearman per ottenere dei risultati validi dalle tue analisi.

I primi due controlli sono teorici e riguardano il disegno di studio. Il terzo invece richiede la costruzione di un diagramma di dispersione, che puoi creare velocemente sia con Excel sia con un qualsiasi software statistico.

CONTROLLO 1: le due variabili devono essere quantitative oppure qualitative ordinali.

Puoi utilizzare questo indice se entrambe le variabili sono quantitative, se una è qualitativa ed una è quantitativa, oppure se entrambe sono qualitative ordinali.

Questo indice è quindi adatto per misurare le relazioni tra variabili su scale Likert. Ad esempio, quando si deve indicare quando si è d’accordo con una determinata affermazione su una scala a 5 punti che va da “totalmente disaccordo” a “totalmente d’accordo.

CONTROLLO 2: Le due variabili devono essere appaiate sugli stessi casi.

Ovvero, per ogni unità statistica (es. ogni intervistato) deve essere stato misurato un valore sia per la prima che per la seconda variabile. Se i dati non sono appaiati, sarà necessario pensare ad un’ analisi basata sui campioni indipendenti per esaminare le relazioni tra le variabili.

CONTROLLO 3: Deve esistere una relazione monotona tra le due variabili.

Una relazione è monotona quando all’aumentare dei valori di una variabile, i valori dell’altra variabile aumentano anche se non in modo lineare. Oppure, quando all’aumentare dei valori di una variabile, i valori dell’altra variabile diminuiscono anche se non in modo lineare.

Per scoprirlo, è necessario visualizzare la relazione tra le due variabili su un diagramma di dispersione, come ti ho spiegato in questa guida.

esempi relazione monotona tra due variabili

Se la relazione non è monotona, allora puoi trasformare una o entrambe le variabili per provare a rendere la relazione monotona e poi rifare tutti i controlli. In alternativa, puoi adottare un modello non-lineare.

Indice di correlazione per ranghi: come si calcola?

Il coefficiente di correlazione per ranghi di Spearman è semplicemente il coefficiente di correlazione di Pearson applicato ai ranghi. 

Per calcolarlo, è necessario avere a disposizione i dati grezzi. Non è possibile infatti calcolare questa correlazione se hai a disposizione solo una tabella con le distribuzioni di frequenza delle due variabili. Ti servirà invece avere un dataset con indicati i valori delle variabili per tutte le singole unità statistiche oggetto di studio

Se le due variabili hanno superato tutti e tre i controlli precedenti, allora puoi calcolare la correlazione di Spearman. Per farlo, ti basterà selezionare su un qualsiasi software statistico le due variabili che vuoi mettere in relazione e poi eseguire l’apposita funzione.

Su Excel invece non c’è una funzione dedicata, ma puoi facilmente calcolare tale correlazione in due passaggi. Prima dovrai creare due nuove variabili che contengano i ranghi delle due variabili che vuoi correlare tramite l’apposita funzione.

In sostanza, i valori di ogni variabile verranno ordinati fra di loro in modo crescente, e quindi ad ogni valore sarà associato nella nuova variabile il rango corrispondente: al valore più basso sarà associato il rango 1, a quello immediatamente successivo il rango 2 e così via.

Una volta create le due nuove variabili con i valori dei ranghi, ti basterà applicare la funzione della correlazione di Pearson a queste due nuove variabili per ottenere il coefficiente di correlazione di Spearman.

Come si interpreta l’indice di correlazione di Spearman?

Come risultato otterrai un numero sempre compreso tra -1 (che indica una perfetta relazione negativa tra i ranghi) e + 1 (che indica una perfetta relazione positiva tra i ranghi). Un valore di 0 indica che non è presente alcuna relazione tra i ranghi. Pertanto, più l’indice è vicino a zero, più la relazione sarà debole, più si avvicina a -1 oppure a + 1 più la relazione sarà forte.

Ad esempio, se calcolando l’indice di correlazione di Spearman tra il livello di attività fisica e la concentrazione di colesterolo nel sangue in un gruppo di 120 anziani ottieni come risultato rs= -0,19 significa che tra i ranghi di queste due variabili c’è una debole relazione negativa.

Come riportare i risultati del coefficiente di Spearman

Ecco come potresti riportare i risultati dell’esempio precedente in un report:

E’ stato calcolato l’indice di correlazione di Spearman per valutare la relazione tra il livello di attività fisica (avente 4 modalità: nessuna, leggera, moderata, intensa) e la concentrazione di colesterolo nel sangue (in mmol/L) in un campione composto da 120 individui con età superiore ai 65 anni.

Le due variabili presentavano infatti una relazione monotona negativa, come evidenziato dal diagramma di dispersione.

Dalle analisi risulta che aumento di attività fisica risulta debolmente correlato con un decremento nei valori del colesterolo negli anziani, r=-0,19

Differenze tra correlazione di Spearman e Pearson

Se stai studiando la relazione tra due variabili quantitative e provi a calcolare sia l’indice di correlazione di Spearman (rs) che quello di Pearson (r) noterai che, se la relazione è lineare, r risulterà maggiore a rs.

Quando invece la relazione è monotona ma non lineare, r risulterà minore a rs. . Una perfetta correlazione di Spearman si ha infatti quanto le due variabili sono correlate da una funzione monotona.

Il coefficiente di correlazione di Spearman è un indice non parametrico. . Questo significa che per prima di calcolarlo non è necessario fare ipotesi sulla distribuzione delle due variabili. . Al contrario, il coefficiente di correlazione di Pearson è un indice parametrico e pertanto, come ti ho spiegato in questo articolo (link articolo), è necessario verificare l’ipotesi di normalità distributiva delle due variabili.

Per variabili quantitative, l’indice di correlazione di Spearman si utilizza quindi per valutare la direzione e la forza della relazione tra due variabili quando le ipotesi di normalità e di linearità dell’indice di correlazione di Pearson non sono soddisfatte.

Inoltre, potrebbe capitare che nel diagramma di dispersione ci siano uno o più valori anomali che non si ritiene opportuno eliminare dalle analisi. In questi casi, potrebbe essere preferibile utilizzare l’indice di correlazione di Spearman. Come tutti i test non parametrici, l’indice di correlazione di Spearman, basandosi sui ranghi, è molto meno influenzato dagli outliers. .

L’indice di correlazione di Spearman può essere quindi più potente della correlazione r di Pearson quando le ipotesi parametriche non sono pienamente soddisfatte.

Quando entrambe le variabili sono quantitative, puoi calcolare entrambi gli indici. Risultati simili serviranno come ulteriore dimostrazione e verifica delle conclusioni raggiunte. .

Correlazione non implica causalità

Nell’interpretare e riportare i risultati dai attenzione a non confondere la correlazione con la relazione di causa-effetto. L’analisi della correlazione non fornisce infatti nessuna indicazione sul fatto che il legame osservato sia o meno di causa-effetto.

Ad esempio, il fatto che stai osservando una relazione tra livello di attività fisica e colesterolo non significa automaticamente che aumentare l’attività fisica causi una diminuzione nella concentrazione di colesterolo nel sangue.

Quando invece supponi che ci sia una relazione di causa-effetto ed hai due variabili quantitative ordinali allora ti consiglio di utilizzare l’indice d di Somers. L’indice di Spearman non fa infatti nessuna distinzione tra variabile dipendente e variabile indipendente.

Se invece vuoi studiare la relazione tra una variabile quantitativa che dipende da una variabile qualitativa ordinale, allora ti consiglio di utilizzare il test H di Kruskal-Wallis.

Nel caso fosse la variabile qualitativa ordinale a dipendere da una variabile quantitativa, allora per analizzare la relazione tra le due variabili dovresti utilizzare il modello di regressione logistica ordinale.

E adesso?

Per aiutarti a svolgere velocemente tutti i controlli ho creato uno schema riassuntivo sulla correlazione di Spearman: salvalo sul tuo pc e consultalo ogni volta che ti trovi a dover analizzare la relazione tra due variabili quantitative o qualitative ordinali, così da non perderti nessun passaggio ed avere la sicurezza di aver svolto tutte le analisi in modo corretto.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.