Relazione statistica tra due variabili dello stesso tipo: quale indice usare?

17 Ottobre 2020 | Analisi dati

In questo articolo troverai le linee guida da seguire per scegliere il metodo di analisi più adatto per valutare la relazione statistica tra due variabili della stessa tipologia.

relazione tra due variabili

Per poter analizzare la relazione statistica tra una coppia di variabili, come prima cosa devi capire su che scala di misura sono espresse. In questo articolo vedremo i casi in cui le due variabili sono dello stesso tipo, ovvero quando vuoi valutare la relazione tra due variabili entrambe:

  • qualitative nominali
  • qualitative ordinali
  • quantitative

Una volta stabilita la tipologia delle variabili, devi decidere se la relazione è di tipo simmetrico o asimmetrico. La scelta dell’indice varia infatti a seconda del tipo e del ruolo che assumono le variabili.

Relazione statistica: simmetrica o asimmetrica?

Si dice che la relazione tra due variabili è simmetrica quando non c’è una distinzione tra il loro ruolo. In altre parole, quando non è possibile attribuire ad una variabile il ruolo di dipendente ed all’altra quella di indipendente. Quando la relazione è simmetrica quindi la misura di associazione è la stessa indipendentemente dall’ordine con cui vengono considerate le due variabili.

La relazione tra due variabili è invece definita asimmetrica quando una variabile è dipendente e l’altra indipendente. Ad esempio, tra l’abitudine al fumo e l’insorgenza di una malattia. In questo caso, l’indice di associazione varia a seconda del ruolo che viene attribuito alle due variabili.

Relazioni statistiche asimmetriche

Indici simmetrici per variabili qualitative nominali

In questo caso, come prima cosa ti consiglio di costruire una tabella a doppia entrata (detta tabella di contingenza) in cui riportare le frequenze assolute per tutte le possibili combinazioni delle due variabili qualitative. In questo modo, ti potrai accorgere se ci sono delle modalità con frequenze molto basse ed eventualmente decidere di aggregarle.

Puoi quindi procedere all’analisi della relazione, utilizzando l’indice V di Cramer. Questo indice varia tra 0 (assenza di associazione) ed 1 (associazione perfetta tra le due variabili).

Quando entrambe le variabili sono dicotomiche, invece dell’indice V di Cramer puoi anche utilizzare il coefficiente Phi.

Se invece almeno una delle due variabili qualitative nominali ha più di due modalità, allora devi necessariamente optare per la V di Cramer. In questi casi infatti il Phi può assumere valori maggiori di 1 e pertanto non è interpretabile.

Entrambi questi indici sono calcolati a partire dalla statistica chi quadro. In pratica, il p-value del chi quadro ti permette di capire se esiste un’associazione tra le due variabili. Il Phi e la V di Cramer ti permettono invece di quantificare la forza di tale associazione.

Indici simmetrici per variabili qualitative ordinali

Puoi usare l’indice rho di Spearman o l’indice tau di Kendall. Entrambi variano tra -1 e +1. Valori vicini a 0 indicano una scarsa associazione tra le due variabili, valori vicini agli estremi indicano invece la presenza di una forte associazione negativa (per valori vicini a -1) o positiva (+1).

Indici simmetrici per variabili quantitative

Per misurare quanto forte sia l’associazione tra due variabili quantitative, puoi utilizzare un indice di correlazione come il coefficiente di correlazione di Pearson, di Spearman o di Kendall.

Tutti questi indici variano tra -1 e + 1. Valori vicini a 0 indicano una scarsa associazione tra le due variabili, valori vicini agli estremi indicano invece la presenza di una forte associazione negativa (per valori vicini a -1) o positiva (+1).

Relazioni statistiche asimmetriche

Indici asimmetrici per variabili qualitative nominali

Se entrambe le variabili sono dicotomiche, per valutarne l’associazione puoi utilizzare le misure di rischio come il rischio relativo (RR) e l’odds ratio (OR). RR si utilizza principalmente negli studi prospettivi, OR negli studi retrospettivi. Entrambe queste misure possono assumere valori compresi tra 0 e più infinito ed in questo caso si parla di associazione nulla quando il valore è pari ad 1.

Se invece almeno una delle variabili qualitative nominali ha più di due modalità, come misura di associazione asimmetrica puoi utilizzare la Lambda di Goodman Kruskal. Questo indice varia tra 0 (nessuna associazione tra variabile indipendente e dipendenti) ad 1 ( associazione perfetta tra le due variabili).

Indici asimmetrici per variabili qualitative ordinali

Puoi usare l’indice delta di Somers. Questo indice varia tra -1 e +1. Valori vicini a 0 indicano una scarsa associazione tra le due variabili, valori vicini agli estremi indicano invece la presenza di una forte discordanza (per valori vicini a -1) o concordanza (+1) tra le due variabili.

Indici asimmetrici per variabili quantitative

Puoi utilizzare il modello di regressione lineare semplice. In questo caso, per valutare l’associazione puoi basarti sia R quadro sia sul valore del coefficiente di regressione. Un valore negativo di tale coefficiente indica che la correlazione tra le due variabili è negativa. Viceversa, un valore positivo indica che la correlazione è positiva.

Per capire poi quanto è il potere predittivo del modello, puoi basarti sull’indice di determinazione R quadro. Questo indice varia tra 0 ed 1. Un valore vicino a 0 indica che il modello ha uno scarso potere predittivo. Valori vicini ad 1 invece indicano un’elevata bontà di adattamento del modello ai dati.

Relazione statistica: e adesso?

Il tuo caso non rientra tra quelli proposti o temi di non riuscire ad individuare, calcolare ed interpretare in autonomia l’indice più adatto per la tua analisi? La soluzione perfetta per te è la consulenza check-up: veloce ed economica ti permetterà di chiarirti le idee e proseguire in modo corretto con l’elaborazione dei tuoi dati. Dagli un’occhiata!

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.