La matrice di correlazione è una tabella quadrata che riporta al suo interno gli indici di correlazione tra due o più variabili. Scopri in questo articolo come si costruisce e come leggere in modo corretto i valori contenuti al suo interno.
Indice
Cos’è la matrice di correlazione?
I coefficienti di correlazione bivariata sono uno degli indici statistici più utilizzati per valutare la relazione tra variabili. All’interno di un progetto di ricerca, spesso ne sono calcolati diversi che vengono poi riassunti in un’unica tabella, detta matrice di correlazione.
La matrice di correlazione è una tabella quadrata (cioè con lo stesso numero di righe e colonne) che riporta nelle intestazioni di riga e di colonna l’elenco delle variabili su cui si vuole valutare la correlazione. Nelle singole celle all’interno della tabella sono invece indicati i singoli indici di correlazione bivariata. Proprio come puoi vedere in questa tabella:
Struttura matrice di correlazione
Per analizzare più nel dettaglio questa tabella possiamo suddividerla in tre parti: una diagonale principale e due triangoli, uno in basso a sinistra ed uno in alto a destra.
La diagonale principale
Le correlazioni sulla diagonale che va dall’angolo in alto a sinistra a quello in basso a destra (ovvero sulla diagonale principale della matrice di correlazione) sono tutte uguali ad 1.
Questi 1 sulla diagonale principale semplicemente indicato che la correlazione di una variabile con se stessa per definizione è sempre pari ad 1.
Essendo scontato questo valore, può viene omesso e nelle celle presenti sulla diagonale principale si può inserire semplicemente un trattino oppure lasciare proprio tali celle vuote.
I triangoli
All’interno di una matrice di correlazione, l’indice di correlazione tra ciascuna coppia di variabili appare sempre due volte.
I valori presenti nel triangolo inferiore sinistro della matrice di correlazione (quello evidenziato in giallo nella tabella qui sopra) sono infatti gli stessi riportati nelle celle presenti nel triangolo superiore destro della stessa matrice.
Questo perché l’indice di correlazione è una misura statistica di tipo simmetrico che non tiene conto dell’ordine con cui le variabili sono inserite all’interno della formula.
In altre parole, se calcoli la correlazione tra x ed y e poi provi a calcolare la correlazione tra y ed x otterrai sempre lo stesso indice di correlazione.
Proprio per questo la matrice di correlazione è una matrice simmetrica. E sempre per questo motivo in alcuni casi sono riportati i valori solo di uno dei due triangoli. L’altro triangolo infatti contiene una ripetizione degli stessi identici dati.
Quale indice inserire?
Gli indici di correlazione che puoi inserire all’interno di una matrice di correlazione sono diversi e dipendono dalla tipologia delle variabili che stai considerando e dalla loro distribuzione.
L’indice probabilmente più conosciuto ed utilizzato è l’indice r di Pearson, ma anche il rho di Spearman ed il tau di Kendall sono indici che spesso vengono usati nelle analisi della correlazione.
A volte poi all’interno di una matrice di correlazione viene anche riportato il test di significatività fatto sui singoli indice di correlazione, indicandone il p-value in forma estesa o tramite asterischi.
In generale, prima di costruire una matrice di correlazione è comunque sempre buona norma valutare la relazione tra le coppie di variabili attraverso la costruzione di diagrammi di dispersione.
Come leggere una matrice di correlazione
Hai mai giocato a battaglia navale? Come prima cosa si disegna una griglia quadrata identificata da lettere e numeri (proprio come la matrice di correlazione che è quadrata e contiene i nomi delle variabili sui bordi delle righe e delle colonne).
Nel gioco della battaglia navale, all’interno di questa griglia si disegnano delle navi e ad ogni combinazione di lettera e numero può corrispondere un colpo nell’acqua oppure un colpo ad una nave.
Qui sotto trovi un esempio della griglia a cui mi riferisco: ad esempio, se vuoi colpire dove c’è la X dovrai comunicare all’avversario le coordinate E-4.
Leggere una matrice di correlazione è qualcosa di molto simile a giocare a battaglia navale.
Devi prima individuare le variabili di cui vuoi studiare la correlazione cercandone una sulle righe e l’altra sulle colonne. Poi incrociando la riga con la colonna che hai scelto troverai il corrispondente indice di correlazione.
Esempio matrice di correlazione
All’interno della tabella che trovi qui sotto sono riportati i coefficienti di correlazione di Pearson per 4 variabili quantitative.
Guardandola, possiamo osservare che:
- la variabile 3 risulta correlata negativamente con le variabili 1 (r=-0,3) e 2 (r=-0,1) e positivamente con la variabile 4 (r=+0,6)
- tutte le altre correlazioni sono positive e di moderata (ad esempio, tra la variabile 2 e la variabile 4 l’indice di correlazione è pari a +0,4) o forte intensità (ad esempio, tra la variabile 1 e la variabile 4 r è uguale a +0,8).
Matrice di correlazione su Excel
Su Excel è possibile costruire una matrice di correlazione a mano. Prima dovrai calcolare i singoli indici di correlazione di Pearson o Spearman tra coppie di variabili utilizzando la funzione =correlazione(). Poi dovrai riportare tali indici nella giusta posizione all’interno di una tabella che avrà tante righe e tante colonne quante sono le variabili su cui vuoi analizzare la correlazione.
Matrice di correlazione su R Commander ed altri software statistici
Tutti i principali software statistici permettono di calcolare la matrice di correlazione in modo automatico. Devi semplicemente seguire la procedura prevista dal software e, nell’opportuna schermata, selezionare le variabili su cui vuoi calcolare la correlazione e quale indice di correlazione che vuoi ottenere.
Matrice di correlazione su SPSS
La procedura è la stessa che se vuoi calcolare un solo coefficiente di correlazione. Ovvero, dal menù principale di SPSS, clicca su:
Analizza | Correlazione | Bivariata…
Se poi ti interessa la relazione di una sola variabile con le altre, invece di cliccare su OK, clicca su Incolla. Si aprirà un file di Sintassi che riporterà un codice simile al seguente:
CORRELATIONS
/VARIABLES=Variabile1 Variabile2 Variabile3
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
Se ti interessa solo la relazione della Variabile3 con le altre due, puoi aggiungere with, così:
CORRELATIONS
/VARIABLES=Variabile1 Variabile2 with Variabile3
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
Quindi esegui il codice e troverai la tabella con solo le correlazioni di tuo interesse.
Attenzione ai dati mancanti
Nel calcolo dell’indice di correlazione sono incluse solo le unità statistiche per cui è presente un dato valido per entrambe le variabili oggetto di studio. Questo comporta che, se nel tuo dataset hai molti dati mancanti, la numerosità campionaria utilizzata per questa analisi potrebbe ridursi sensibilmente.
Nel caso della matrice di correlazione in cui sono presenti più di due variabili ed almeno una di queste presenta dati mancanti, hai due scelte:
-
metodo listwise deletion
Questa procedura utilizza la stessa numerosità campionaria per il calcolo di tutti gli indici di correlazione. In altre parole, esclude dalle analisi tutte le unità statistiche che presentano almeno un dato mancante per una delle variabili oggetto di studio
-
metodo pairwise deletion
Con questo approccio invece si assegna una diversa numerosità campionaria per ogni indice di correlazione. Sono quindi escluse per ogni coppia di variabili solo le unità statistiche che effettivamente presentano almeno un valore mancante per una delle due variabili su cui si sta calcolando quello specifico indice di correlazione. In questo approccio quindi ogni coppia di variabili è indipendente dalle altre.
Matrice di correlazione nell’analisi fattoriale
La matrice di correlazione, oltre ad essere un’analisi di statistica descrittiva, è anche utilizzata in altri contesti. Ad esempio, nell’analisi fattoriale e nell’analisi delle componenti principali per valutare il grado di correlazione tra le variabili originarie ed i nuovi fattori o componenti estratti dal modello. Il modo di leggere tale matrice è però per fortuna sempre lo stesso.
Matrice di correlazione: e adesso?
Troverai tante altre definizioni pratiche in questa guida gratuita di statistica. Scaricala subito!