Correlazione di Pearson o Spearman? E se fosse meglio Kendall?

2 Maggio 2020 | Analisi dati

La correlazione tau di Kendall è un indice statistico che si utilizza per quantificare la relazione tra due variabili quantitative o qualitative ordinali . In questo articolo scoprirai tutti i casi in cui è preferibile utilizzare questo indice rispetto ai più famosi indici di Pearson o Spearman.

correlazione statistica di kendall

Il coefficiente di correlazione tau di Kendall misura la forza e la direzione della relazione tra due variabili quantitative oppure qualitative ordinali. .

Ad esempio, potresti utilizzare la correlazione di Kendall per determinare se negli anziani ci sia una relazione tra il livello di attività fisica svolto e la concentrazione di colesterolo nel sangue. In questo caso, l’attività fisica è una variabile qualitativa ordinale che ha come modalità: 0-nessuna attività fisica, 1-leggera attività fisica, 2-moderata attività fisica, 3-intensa attività fisica. La concentrazione di colesterolo è invece una variabile quantitativa continua il cui valore è espresso in mmol/L.

Oppure potresti utilizzare questo indice per valutare se in un campione di neo-assunti ci sia una relazione tra il più alto titolo di studio conseguito ed il risultato conseguito in un test. In questo esempio, entrambe le variabili sono qualitative ordinali. Il titolo di studio ha come modalità: 1-licenza elementare o media; 2-diploma di scuola superiore; 3-laurea; 4-superiore alla laurea. Il risultato del test invece ha come modalità: insufficiente, sufficiente, discreto, buono, eccellente.

O ancora, potresti adottare questa tecnica per valutare la relazione tra due variabili quantitative, come la relazione tra l’età (espressa in anni compiuti) e la frequenza cardiaca (espressa in numero di battiti al minuto) su un campione di atleti.

Correlazione di Pearson, Spearman o Kendall?

Quando devi valutare la relazione tra due variabili quantitative puoi utilizzare anche i coefficienti di correlazione di Pearson e Spearman. Se invece almeno una delle due variabili è quantitativa ordinale, Pearson è utilizzabile ma Spearman rimane un’alternativa a Kendall. Come districarsi allora tra questi indici?

Negli articoli scientifici più datati, probabilmente troverai molte più analisi effettuate con l’indice di Spearman che con Kendall. Ma non farti trarre in inganno: questa preferenza era spesso dovuta al fatto che Spearman era molto più veloce da calcolare quando i computer erano ancora poco potenti e non ad una superiorità in sé dell’indice.

Test parametrico o non parametrico?

La prima distinzione da fare è tra metodi parametrici (Pearson) e non parametrici (Spearman e Kendall). Il coefficiente di correlazione r di Pearson è quello che risponde a regole più restrittive. Riassumendo, si può usare solo se le due variabili hanno una distribuzione normale, se la relazione è lineare e se non ci sono outliers.

Quando tutte queste ipotesi sono verificate e le due variabili sono entrambe quantitative, va benissimo utilizzare Pearson.

Se invece almeno una di queste ipotesi non è verificate oppure almeno una delle due variabili è qualitativa ordinale, allora per ottenere risultati validi dall’analisi della correlazione è necessario utilizzare un test non parametrico.

I test non parametrici infatti sono meno restrittivi di quelli parametrici, non richiedono né la normalità distributiva delle variabili, né che la relazione sia lineare. Inoltre, sono più robusti rispetto ai valori anomali.

La differenza tra gli indici di Spearman e Kendall sta tutta nelle formule utilizzate per il loro calcolo.
Il coefficiente di correlazione di Spearman utilizza la stessa formula della correlazione di Pearson, semplicemente applicandola ai ranghi delle variabili. Questa formula si basa sulle deviazioni dei dati dai valori medi delle le due variabili. Per questo motivo, di solito il valore dell’indice di correlazione di Spearman risulta più simile a quello di Pearson rispetto a quello di Kendall.

Kendall utilizza infatti una formula totalmente diversa che si basa sull’accordo o disaccordo tra le coppie di osservazioni.

Di solito il valore dell’indice di Kendall risulta più piccolo rispetto a quello dell’indice di Spearman calcolato sugli stessi dati. Questo non significa però che sia meno preciso, ma solo che si sta valutando la relazione da un punto di vista diverso.

Numerosità del campione

Ti consiglio di utilizzare Kendall soprattutto se il tuo campione è poco numeroso perché la stima dell’indice di correlazione calcolata con questo indice risulta più precisa rispetto a quello di Spearman.

Coefficiente di correlazione di Kendall: 3 controlli da fare

Per poter calcolare questo indice devi prima verificare che le due variabili superino una checklist composta da 3 controlli. Solo se i tuoi dati passano tutti questi controlli allora puoi utilizzare la correlazione di Kendall per ottenere dei risultati validi dalle tue analisi.

I primi due controlli sono teorici e riguardano il disegno di studio. Il terzo invece richiede la costruzione di un diagramma di dispersione, che puoi creare velocemente con un qualsiasi software statistico.

CONTROLLO 1: le due variabili devono essere quantitative oppure qualitative ordinali.

Puoi utilizzare questo indice se entrambe le variabili sono quantitative, se una è qualitativa ed una è quantitativa, oppure se entrambe sono qualitative ordinali.
Questo indice è quindi adatto per misurare le relazioni tra variabili su scale Likert. Ad esempio, quando si deve indicare quando si è d’accordo con una determinata affermazione su una scala a 5 punti che va da “totalmente disaccordo” a “totalmente d’accordo.

CONTROLLO 2: Le due variabili devono essere appaiate sugli stessi casi.

Ovvero, per ogni unità statistica (es. ogni intervistato) deve essere stato misurato un valore sia per la prima che per la seconda variabile. Se i dati non sono appaiati, sarà necessario pensare ad un’ analisi basata sui campioni indipendenti per esaminare le relazioni tra le variabili.

CONTROLLO 3: Deve esistere una relazione monotona tra le due variabili.

Una relazione è monotona quando all’aumentare dei valori di una variabile, i valori dell’altra variabile aumentano anche se non in modo lineare. Oppure, quando all’aumentare dei valori di una variabile, i valori dell’altra variabile diminuiscono anche se non in modo lineare.

Per scoprirlo, è necessario visualizzare la relazione tra le due variabili su un diagramma di dispersione, come trovi spiegato in questa guida gratuita di statistica.

Come si interpreta l’indice di correlazione tau di Kendall?

Quando calcoli uno qualsiasi degli indici tau di Kendall, come risultato otterrai un numero sempre compreso tra -1 (che indica una perfetta concordanza negativa tra le due variabili) e + 1 (che indica una perfetta concordanza positiva tra le due variabili). Un valore di 0 indica che non è presente alcuna concordanza tra le due variabili.

La relazione sarà tanto più forte quanto più le coppie di valori risulteranno concordi tra loro. In particolare, la correlazione sarà perfetta quando le unità statistiche sono perfettamente concordi tra loro.

Pertanto, più l’indice è vicino a zero, più la concordanza sarà debole, più si avvicina a -1 oppure a + 1 più la concordanza sarà forte.

Ad esempio, se calcolando l’indice di correlazione di Kendall tra il titolo di studio più alto conseguito ed il punteggio in un test in un gruppo di 40 adulti ottieni come risultato tau-b= 0,45 significa che tra queste due variabili c’è una moderata concordanza positiva.

Se la relazione non è monotona, allora puoi trasformare una o entrambe le variabili per provare a rendere la relazione monotona e poi rifare tutti i controlli. In alternativa, puoi adottare un modello non-lineare.

Il coefficiente di correlazione di Kendall: come si calcola?

Per calcolarlo, è necessario avere a disposizione i dati grezzi. . Non è possibile infatti calcolare questa correlazione se hai a disposizione solo una tabella con le distribuzioni di frequenza delle due variabili. Ti servirà invece avere un dataset con indicati i valori delle variabili per tutte le singole unità statistiche oggetto di studio

Se le due variabili hanno superato tutti e tre i controlli precedenti, per calcolare la correlazione di Kendall ti basterà selezionare su un qualsiasi software statistico le due variabili che vuoi mettere in relazione e poi eseguire l’apposita funzione. Non è invece possibile calcolarlo velocemente con Excel in quanto non c’è una funzione predefinita.

In realtà di indici tau di Kendall ne esistono tre: c’è il tau-a, il tau-b ed il tau-c. In generale, il tau-b è il più utilizzato ed è quello proposto di default nella maggior parte dei software.

Cosa se c’è dietro queste formule?

In sostanza, tutti e tre gli indici di correlazione di Kendall si basano sul confronto i valori delle due variabili per tutte le possibili coppie di osservazioni. Ogni confronto restituisce uno dei seguenti risultati:

La coppia è concorde

Quando la prima unità statistica della coppia ha valori più piccoli o più grandi della seconda unità statistica per entrambe le variabili.

Ad esempio, supponi di voler confrontare il livello di studio conseguito con il risultato di un test. Il primo intervistato ha la laurea (codificata come “3”) ed ha conseguito un punteggio di 60/100. Il secondo intervistato ha il diploma di scuola superiore (codificato come “2”) ed ha conseguito un punteggio pari a 50/100. In questo caso il primo intervistato ha valori più grandi del secondo intervistato per entrambe le variabili. Quando si verifica questa condizione, si dice che la coppia è concorde.

La coppia è discorde

Quando una delle due unità statistiche delle coppia ha valori più piccoli della seconda unità statistica per la prima variabile ma più grandi per la seconda variabile.

Ad esempio, il terzo intervistato ha la licenza media (codificata come “1”) ma ha conseguito al test un punteggio pari a 55/100. In questo caso, se lo confrontiamo con il secondo intervistato notiamo che il terzo intervistato ha un titolo di studi inferiore ma un punteggio superiore al test. Quando si verifica questa condizione, si dice che la coppia è discorde.

La coppia è coincidente per una sola variabile

Quando per una variabile le due unità statistiche hanno lo stesso valore.

Ad esempio, il quarto intervistato ha il diploma di scuola superiore (codificato come “2”) e ha un punteggio pari a 60/100. In questo caso, se lo confrontiamo con il primo intervistato, avremo che la coppia è coincidente sulla seconda variabile (perché hanno stesso punteggio ma diverso titolo di studio). Se lo confrontiamo con il secondo intervistato, avremo che la coppia è coincidente sulla prima variabile (perché hanno lo stesso titolo di studio ma diverso punteggio). Il quarto intervistato potrà costituire una coppia coincidente su entrambe le variabili con il quindi intervistato se, ad esempio, il quinto intervistato ha anche lui il diploma di scuola superiore ed ha raggiunto un punteggio pari a 60/100.

La coppia è coincidente per entrambe le variabili

Quando le due unità statistiche hanno lo stesso valore per entrambe le variabili.

Ad esempio, il quarto intervistato potrà costituire una coppia coincidente su entrambe le variabili con il quindi intervistato se, ad esempio, il quinto intervistato ha anche lui il diploma di scuola superiore ed ha raggiunto un punteggio pari a 60/100.

Le differenze tra gli indici di Kendall

Il coefficiente tau-a si calcola come la proporzione di coppie concordi meno la proporzione di coppie discordi. La proporzione di coppie concordi si calcola dividendo il numero coppie concordi per il numero di coppie concordi e discordi. La proporzione di coppie discordi si calcola invece dividendo il numero di coppie discordi per il numero di coppie concordi e discordi. L’indice tau-a non tiene quindi conto di tutte le coppie coincidenti che, se numerose, possono influenzare il risultato riducendo la numerosità delle coppie analizzate.

Il coefficiente tau-b si calcola sempre come la proporzione di coppie concordi meno la proporzione di coppie discordi ma tiene conto anche delle coppie coincidenti su una sola variabile, sommandole al denominatore delle proporzioni. La proporzione di coppie concordi sarà quindi in questo caso pari al numero di coppie concordi dividendo il numero totale di coppie analizzate (concordi, discordi e coincidenti su una variabile), escludendo dal denominatore solo le coppie coincidenti su entrambe le variabili. La proporzione di coppie discordi si ottiene invece dividendo il numero di coppie discordi per il numero totale di coppie analizzate (concordi, discordi e coincidenti su una variabile), escludendo dal denominatore solo le coppie coincidenti su entrambe le variabili.

Le caratteristiche di questa formula del tau-b rendono l’indice di Kendall preferibile a quello di Spearman quando ci sono molte coppie coincidenti.

Il tau-c è l’indice con la formula più complessa in cui si tiene conto sia delle coppie concidenti sia della numerosita’ delle misure che potrebbe autocorrelarsi spontaneamente.

Come riportare i risultati della correlazione

Ecco come potresti riportare i risultati dell’esempio precedente in un report:

E’ stato calcolato l’indice di correlazione tau-b di Kendall per valutare la relazione tra il titolo di studio (avente 4 modalità: 1-licenza elementare o media; 2-diploma di scuola superiore; 3-laurea; 4-superiore alla laurea) ed il punteggio conseguito in un test (espresso in centesimi) in un campione composto da 40 individui adulti.

Le due variabili presentavano infatti una relazione monotona positiva, come evidenziato dal diagramma di dispersione.

Dall’analisi risulta che il titolo di studio risulta moderatamente correlato con un aumento nel punteggio del test, tau-b=-0,45

Correlazione non implica causalità

Nell’interpretare e riportare i risultati dai attenzione a non confondere la correlazione con la relazione di causa-effetto. L’analisi della correlazione non fornisce infatti nessuna indicazione sul fatto che il legame osservato sia o meno di causa-effetto.

Ad esempio, il fatto che stai osservando una relazione tra livello di attività fisica e colesterolo non significa automaticamente che aumentare l’attività fisica causi una diminuzione nella concentrazione di colesterolo nel sangue.

Quando invece supponi che ci sia una relazione di causa-effetto ed hai due variabili quantitative ordinali allora ti consiglio di utilizzare l’indice d di Somers. Gli indici di Kendall o di Spearman non fanno infatti nessuna distinzione tra variabile dipendente e variabile indipendente.

Se invece vuoi studiare la relazione tra una variabile quantitativa che dipende da una variabile qualitativa ordinale, allora ti consiglio di utilizzare il test H di Kruskal-Wallis.

Nel caso fosse la variabile qualitativa ordinale a dipendere da una variabile quantitativa, allora per analizzare la relazione tra le due variabili dovresti utilizzare il modello di regressione logistica ordinale.

E adesso?

Per aiutarti a svolgere velocemente tutti i controlli ho creato uno schema riassuntivo del coefficiente di correlazione di Kendall: salvalo sul tuo pc e consultalo ogni volta che ti trovi a dover analizzare la relazione tra due variabili quantitative o qualitative ordinali, così da non perderti nessun passaggio ed avere la sicurezza di aver svolto tutte le analisi in modo corretto.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.