In questo articolo troverai le linee guida da seguire per scegliere il metodo di analisi più adatto per valutare la relazione statistica tra due variabili della stessa tipologia.
Per poter analizzare la relazione statistica tra una coppia di variabili, come prima cosa devi capire su che scala di misura sono espresse. In questo articolo vedremo i casi in cui le due variabili sono dello stesso tipo, ovvero quando vuoi valutare la relazione tra due variabili entrambe:
- qualitative nominali
- qualitative ordinali
- quantitative
Una volta stabilita la tipologia delle variabili, devi decidere se la relazione è di tipo simmetrico o asimmetrico. La scelta dell’indice varia infatti a seconda del tipo e del ruolo che assumono le variabili.
Indice
Relazione statistica: simmetrica o asimmetrica?
Si dice che la relazione tra due variabili è simmetrica quando non c’è una distinzione tra il loro ruolo. In altre parole, quando non è possibile attribuire ad una variabile il ruolo di dipendente ed all’altra quella di indipendente. Quando la relazione è simmetrica quindi la misura di associazione è la stessa indipendentemente dall’ordine con cui vengono considerate le due variabili.
La relazione tra due variabili è invece definita asimmetrica quando una variabile è dipendente e l’altra indipendente. Ad esempio, tra l’abitudine al fumo e l’insorgenza di una malattia. In questo caso, l’indice di associazione varia a seconda del ruolo che viene attribuito alle due variabili.
Relazioni statistiche asimmetriche
Indici simmetrici per variabili qualitative nominali
In questo caso, come prima cosa ti consiglio di costruire una tabella a doppia entrata (detta tabella di contingenza) in cui riportare le frequenze assolute per tutte le possibili combinazioni delle due variabili qualitative. In questo modo, ti potrai accorgere se ci sono delle modalità con frequenze molto basse ed eventualmente decidere di aggregarle.
Puoi quindi procedere all’analisi della relazione, utilizzando l’indice V di Cramer. Questo indice varia tra 0 (assenza di associazione) ed 1 (associazione perfetta tra le due variabili).
Quando entrambe le variabili sono dicotomiche, invece dell’indice V di Cramer puoi anche utilizzare il coefficiente Phi.
Se invece almeno una delle due variabili qualitative nominali ha più di due modalità, allora devi necessariamente optare per la V di Cramer. In questi casi infatti il Phi può assumere valori maggiori di 1 e pertanto non è interpretabile.
Entrambi questi indici sono calcolati a partire dalla statistica chi quadro. In pratica, il p-value del chi quadro ti permette di capire se esiste un’associazione tra le due variabili. Il Phi e la V di Cramer ti permettono invece di quantificare la forza di tale associazione.
Indici simmetrici per variabili qualitative ordinali
Puoi usare l’indice rho di Spearman o l’indice tau di Kendall. Entrambi variano tra -1 e +1. Valori vicini a 0 indicano una scarsa associazione tra le due variabili, valori vicini agli estremi indicano invece la presenza di una forte associazione negativa (per valori vicini a -1) o positiva (+1).
Indici simmetrici per variabili quantitative
Per misurare quanto forte sia l’associazione tra due variabili quantitative, puoi utilizzare un indice di correlazione come il coefficiente di correlazione di Pearson, di Spearman o di Kendall.
Tutti questi indici variano tra -1 e + 1. Valori vicini a 0 indicano una scarsa associazione tra le due variabili, valori vicini agli estremi indicano invece la presenza di una forte associazione negativa (per valori vicini a -1) o positiva (+1).
Relazioni statistiche asimmetriche
Indici asimmetrici per variabili qualitative nominali
Se entrambe le variabili sono dicotomiche, per valutarne l’associazione puoi utilizzare le misure di rischio come il rischio relativo (RR) e l’odds ratio (OR). RR si utilizza principalmente negli studi prospettivi, OR negli studi retrospettivi. Entrambe queste misure possono assumere valori compresi tra 0 e più infinito ed in questo caso si parla di associazione nulla quando il valore è pari ad 1.
Se invece almeno una delle variabili qualitative nominali ha più di due modalità, come misura di associazione asimmetrica puoi utilizzare la Lambda di Goodman Kruskal. Questo indice varia tra 0 (nessuna associazione tra variabile indipendente e dipendenti) ad 1 ( associazione perfetta tra le due variabili).
Indici asimmetrici per variabili qualitative ordinali
Puoi usare l’indice delta di Somers. Questo indice varia tra -1 e +1. Valori vicini a 0 indicano una scarsa associazione tra le due variabili, valori vicini agli estremi indicano invece la presenza di una forte discordanza (per valori vicini a -1) o concordanza (+1) tra le due variabili.
Indici asimmetrici per variabili quantitative
Puoi utilizzare il modello di regressione lineare semplice. In questo caso, per valutare l’associazione puoi basarti sia R quadro sia sul valore del coefficiente di regressione. Un valore negativo di tale coefficiente indica che la correlazione tra le due variabili è negativa. Viceversa, un valore positivo indica che la correlazione è positiva.
Per capire poi quanto è il potere predittivo del modello, puoi basarti sull’indice di determinazione R quadro. Questo indice varia tra 0 ed 1. Un valore vicino a 0 indica che il modello ha uno scarso potere predittivo. Valori vicini ad 1 invece indicano un’elevata bontà di adattamento del modello ai dati.
Relazione statistica: e adesso?
Il tuo caso non rientra tra quelli proposti o temi di non riuscire ad individuare, calcolare ed interpretare in autonomia l’indice più adatto per la tua analisi? La soluzione perfetta per te è la consulenza check-up: veloce ed economica ti permetterà di chiarirti le idee e proseguire in modo corretto con l’elaborazione dei tuoi dati. Dagli un’occhiata!