Gli indici di correlazione sono dei valori statistici che permettono di quantificare la forza e la direzione della relazione tra due variabili quantitative o qualitative ordinali. In questo articolo scoprirai quando usarli e quale scegliere.
Indice
Che cosa si intende per correlazione?
In statistica per correlazione si intende la tendenza di una variabile (X1) al variare proporzionalmente ad un’altra (X2). Questa correlazione può essere:
- di causa-effetto
- indiretta: dovuta alla relazione di X1 e X2 con altra variabili. Ad esempio, durante la Seconda Guerra Mondiale si osservò che i bombardamenti alleati in Europa risultavano tanto più precisi quanto più
intensa era la reazione della contraerea. Sembra assurdo vero? Tuttavia, l’incongruenza può essere spiegata dal fatto che esisteva sì una correlazione tra le due variabili, ma non un nesso causale. Infatti, quando il cielo era nuvoloso, i bombardieri avevano scarsa visibilità e per la stessa ragione la
contraerea era meno efficace. - spuria: dovuta al caso.
Indice parametrico o non parametrico?
Quando si parla di indici di correlazione, la prima distinzione da fare è tra metodi parametrici (Pearson) e non parametrici (Spearman e Kendall).
Indice parametrico di Pearson
Tra questi, il coefficiente di correlazione r di Pearson è quello che risponde a regole più restrittive. Si può infatti usare solo se:
- le due variabili sono entrambe quantitative ed hanno una distribuzione normale
- la relazione è lineare
- non ci sono outliers.
Quando almeno una di queste ipotesi non è verificate, allora per ottenere risultati validi dall’analisi della correlazione è necessario utilizzare un test non parametrico.
Indici non parametrici
I test non parametrici, infatti, sono meno restrittivi di quelli parametrici, non richiedono né la normalità distributiva delle variabili, né che la relazione sia lineare. Inoltre, sono più robusti rispetto ai valori anomali. E più il campione è piccolo, più si nota la differenza nei risultati rispetto al test parametrico.
La differenza tra gli indici di Spearman e Kendall sta tutta nelle formule utilizzate per il loro calcolo.
Coefficiente di Spearman
Il coefficiente di correlazione di Spearman utilizza la stessa formula della correlazione di Pearson, semplicemente applicandola ai ranghi delle variabili. Questa formula si basa sulle deviazioni dei dati dai valori medi delle le due variabili. Per questo motivo, di solito il valore dell’indice di correlazione di Spearman risulta più simile a quello di Pearson rispetto a quello di Kendall.
Coefficiente di Kendall
Kendall utilizza invece una formula che si basa sull’accordo o disaccordo tra le coppie di osservazioni.
Di solito, il valore dell’indice di Kendall risulta più piccolo rispetto a quello dell’indice di Spearman calcolato sugli stessi dati. Questo non significa però che sia meno preciso, ma solo che si sta valutando la relazione da un punto di vista diverso.
Coefficiente di correlazione: 3 controlli preliminari
Per poter calcolare un indice di correlazione devi prima verificare che le due variabili superino una checklist composta da 3 controlli. Solo se i tuoi dati passano tutti questi controlli allora puoi utilizzare uno di questi indici di correlazione per ottenere dei risultati validi dalle tue analisi.
I primi due controlli sono teorici e riguardano il disegno di studio. Il terzo invece richiede la costruzione di un diagramma di dispersione, che puoi creare velocemente con un qualsiasi software statistico.
CHECK 1: tipo di variabili
Puoi utilizzare questo indice se entrambe le variabili sono quantitative, se una è qualitativa ed una è quantitativa, oppure se entrambe sono qualitative ordinali.
CHECK 2: variabili appaiate sugli stessi casi.
Ovvero, per ogni unità statistica (es. ogni intervistato) deve essere stato misurato un valore sia per la prima che per la seconda variabile. Se i dati non sono appaiati, sarà necessario pensare ad un’analisi basata sui campioni indipendenti per esaminare le relazioni tra le variabili.
CHECK 3: relazione monotona
Una relazione è monotona quando all’aumentare dei valori di una variabile, i valori dell’altra variabile aumentano anche se non in modo lineare. Oppure, quando all’aumentare dei valori di una variabile, i valori dell’altra variabile diminuiscono anche se non in modo lineare.
Per scoprirlo, è necessario visualizzare la relazione tra le due variabili su un diagramma di dispersione. Se la relazione non è monotona, allora puoi trasformare una o entrambe le variabili per provare a rendere la relazione monotona e poi rifare tutti i controlli. In alternativa, puoi adottare un modello non-lineare.
Come si interpreta l’indice di correlazione?
L’indice di correlazione è sempre un numero sempre compreso tra:
- -1: indica una perfetta correlazione negativa tra le due variabili
- + 1: indica una perfetta correlazione positiva tra le due variabili.
Un valore di 0 indica che non è presente alcuna relazione lineare o monotona tra le due variabili. La relazione sarà tanto più forte quanto più le coppie di valori risulteranno correlate tra loro. Pertanto, più l’indice è vicino a zero, più la correlazione sarà debole, più si avvicina a -1 oppure a + 1 più la correlazione sarà forte.
Direzione della correlazione
Il segno del coefficiente di correlazione indica se la relazione tra le due variabili è positiva o negativa.
Correlazione positiva
Quando le unità statistiche che hanno valori elevati di una variabile tendono ad avere anche valori elevati per l’altra variabile. O se preferisci, le unità statistiche con valori bassi di una variabile tendono ad avere bassi valori anche per l’altra variabile.
Correlazione negativa
Quando le unità statistiche che hanno valori elevati di una variabile tendono ad avere valori bassi per l’altra variabile. Di conseguenza, le unità statistiche con valori bassi di una variabile tendono ad avere valori elevati per l’altra variabile.
Correlazione non implica causalità
Nell’interpretare e riportare i risultati fai attenzione a non confondere la correlazione con la relazione di causa-effetto. L’analisi della correlazione non fornisce infatti nessuna indicazione sul fatto che il legame osservato sia o meno di causa-effetto.
Ad esempio, il fatto che stai osservando una relazione tra livello di attività fisica e colesterolo non significa automaticamente che aumentare l’attività fisica causi una diminuzione nella concentrazione di colesterolo nel sangue.
Quando invece supponi che ci sia una relazione di causa-effetto ed hai due variabili quantitative ordinali allora ti consiglio di utilizzare l’indice d di Somers. Gli indici di Kendall o di Spearman non fanno infatti nessuna distinzione tra variabile dipendente e variabile indipendente.
Se invece vuoi studiare la relazione tra una variabile quantitativa che dipende da una variabile qualitativa ordinale, allora ti consiglio di utilizzare il test H di Kruskal-Wallis.
Nel caso fosse la variabile qualitativa ordinale a dipendere da una variabile quantitativa, allora per analizzare la relazione tra le due variabili dovresti utilizzare il modello di regressione logistica ordinale.
Matrice di correlazione: quando si usa?
Come abbiamo visto, i coefficienti di correlazione bivariata sono uno degli indici statistici più utilizzati per valutare la relazione tra variabili. All’interno di un progetto di ricerca, spesso ne sono calcolati diversi che vengono poi riassunti in un’unica tabella, detta matrice di correlazione.
La matrice di correlazione è una tabella quadrata che riporta al suo interno gli indici di correlazione tra due o più variabili.
Correlazione e regressione: sono la stessa cosa?
Entrambi gli indici possono essere utilizzati per valutare se sia presente una relazione di tipo lineare tra due variabili e se questa sia diretta/positiva o inversa/negativa.
Tuttavia, l’indice di correlazione può variare solo tra -1 e +1, mentre il coefficiente di regressione può assumere qualsiasi valore.
Questo è anche il motivo per cui se inverti x con y la correlazione non cambia mentre il coefficiente b sarà diverso. L’indice di correlazione è infatti una tipologia di analisi simmetrica mentre la regressione è un’analisi asimmetrica.
E adesso?
Se vuoi scoprire cosa significano in pratica tanti altri termini statistici, ti consiglio questa guida gratuita di statistica!