Matrice di correlazione: come si legge?

12 Dicembre 2020 | Analisi dati

La matrice di correlazione è una tabella quadrata che riporta al suo interno gli indici di correlazione tra due o più variabili. Scopri in questo articolo come si costruisce e come leggere in modo corretto i valori contenuti al suo interno.

griglia matrice di correlazione

Cos’è la matrice di correlazione?

I coefficienti di correlazione bivariata sono uno degli indici statistici più utilizzati per valutare la relazione tra variabili. All’interno di un progetto di ricerca, spesso ne sono calcolati diversi che vengono poi riassunti in un’unica tabella, detta matrice di correlazione.

La matrice di correlazione è una tabella quadrata (cioè con lo stesso numero di righe e colonne) che riporta nelle intestazioni di riga e di colonna l’elenco delle variabili su cui si vuole valutare la correlazione. Nelle singole celle all’interno della tabella sono invece indicati i singoli indici di correlazione bivariata. Proprio come puoi vedere in questa tabella:

struttura matrice di correlazione

Struttura matrice di correlazione

Per analizzare più nel dettaglio questa tabella possiamo suddividerla in tre parti: una diagonale principale e due triangoli, uno in basso a sinistra ed uno in alto a destra.

La diagonale principale

Le correlazioni sulla diagonale che va dall’angolo in alto a sinistra a quello in basso a destra (ovvero sulla diagonale principale della matrice di correlazione) sono tutte uguali ad 1.

Questi 1 sulla diagonale principale semplicemente indicato che la correlazione di una variabile con se stessa per definizione è sempre pari ad 1.

Essendo scontato questo valore, può viene omesso e nelle celle presenti sulla diagonale principale si può inserire semplicemente un trattino oppure lasciare proprio tali celle vuote.

I triangoli

All’interno di una matrice di correlazione, l’indice di correlazione tra ciascuna coppia di variabili appare sempre due volte.

I valori presenti nel triangolo inferiore sinistro della matrice di correlazione (quello evidenziato in giallo nella tabella qui sopra) sono infatti gli stessi riportati nelle celle presenti nel triangolo superiore destro della stessa matrice.

Questo perché l’indice di correlazione è una misura statistica di tipo simmetrico che non tiene conto dell’ordine con cui le variabili sono inserite all’interno della formula.

In altre parole, se calcoli la correlazione tra x ed y e poi provi a calcolare la correlazione tra y ed x otterrai sempre lo stesso indice di correlazione.

Proprio per questo la matrice di correlazione è una matrice simmetrica. E sempre per questo motivo in alcuni casi sono riportati i valori solo di uno dei due triangoli. L’altro triangolo infatti contiene una ripetizione degli stessi identici dati.

Quale indice inserire?

Gli indici di correlazione che puoi inserire all’interno di una matrice di correlazione sono diversi e dipendono dalla tipologia delle variabili che stai considerando e dalla loro distribuzione.

L’indice probabilmente più conosciuto ed utilizzato è l’indice r di Pearson, ma anche il rho di Spearman ed il tau di Kendall sono indici che spesso vengono usati nelle analisi della correlazione.

A volte poi all’interno di una matrice di correlazione viene anche riportato il test di significatività fatto sui singoli indice di correlazione, indicandone il p-value in forma estesa o tramite asterischi.

In generale, prima di costruire una matrice di correlazione è comunque sempre buona norma valutare la relazione tra le coppie di variabili attraverso la costruzione di diagrammi di dispersione.

Come leggere una matrice di correlazione

Hai mai giocato a battaglia navale? Come prima cosa si disegna una griglia quadrata identificata da lettere e numeri (proprio come la matrice di correlazione che è quadrata e contiene i nomi delle variabili sui bordi delle righe e delle colonne).

Nel gioco della battaglia navale, all’interno di questa griglia si disegnano delle navi e ad ogni combinazione di lettera e numero può corrispondere un colpo nell’acqua oppure un colpo ad una nave.

Qui sotto trovi un esempio della griglia a cui mi riferisco: ad esempio, se vuoi colpire dove c’è la X dovrai comunicare all’avversario le coordinate E-4.

esempio griglia battaglia navale

Leggere una matrice di correlazione è qualcosa di molto simile a giocare a battaglia navale.

Devi prima individuare le variabili di cui vuoi studiare la correlazione cercandone una sulle righe e l’altra sulle colonne. Poi incrociando la riga con la colonna che hai scelto troverai il corrispondente indice di correlazione.

Esempio matrice di correlazione

All’interno della tabella che trovi qui sotto sono riportati i coefficienti di correlazione di Pearson per 4 variabili quantitative.

esempio matrice di correlazione

Guardandola, possiamo osservare che:

  • la variabile 3 risulta correlata negativamente con le variabili 1 (r=-0,3) e 2 (r=-0,1) e positivamente con la variabile 4 (r=+0,6)
  • tutte le altre correlazioni sono positive e di moderata (ad esempio, tra la variabile 2 e la variabile 4 l’indice di correlazione è pari a +0,4) o forte intensità (ad esempio, tra la variabile 1 e la variabile 4 r è uguale a +0,8).

Matrice di correlazione su Excel

Su Excel è possibile costruire una matrice di correlazione a mano. Prima dovrai calcolare i singoli indici di correlazione di Pearson o Spearman tra coppie di variabili utilizzando la funzione =correlazione(). Poi dovrai riportare tali indici nella giusta posizione all’interno di una tabella che avrà tante righe e tante colonne quante sono le variabili su cui vuoi analizzare la correlazione.

Matrice di correlazione su R Commander ed altri software statistici

Tutti i principali software statistici permettono di calcolare la matrice di correlazione in modo automatico. Devi semplicemente seguire la procedura prevista dal software e, nell’opportuna schermata, selezionare le variabili su cui vuoi calcolare la correlazione e quale indice di correlazione che vuoi ottenere.

Attenzione ai dati mancanti

Nel calcolo dell’indice di correlazione sono incluse solo le unità statistiche per cui è presente un dato valido per entrambe le variabili oggetto di studio. Questo comporta che, se nel tuo dataset hai molti dati mancanti, la numerosità campionaria utilizzata per questa analisi potrebbe ridursi sensibilmente.

Nel caso della matrice di correlazione in cui sono presenti più di due variabili ed almeno una di queste presenta dati mancanti, hai due scelte:

  • metodo listwise deletion

    Questa procedura utilizza la stessa numerosità campionaria per il calcolo di tutti gli indici di correlazione. In altre parole, esclude dalle analisi tutte le unità statistiche che presentano almeno un dato mancante per una delle variabili oggetto di studio

  • metodo pairwise deletion

    Con questo approccio invece si assegna una diversa numerosità campionaria per ogni indice di correlazione. Sono quindi escluse per ogni coppia di variabili solo le unità statistiche che effettivamente presentano almeno un valore mancante per una delle due variabili su cui si sta calcolando quello specifico indice di correlazione. In questo approccio quindi ogni coppia di variabili è indipendente dalle altre.

Matrice di correlazione nell’analisi fattoriale

La matrice di correlazione, oltre ad essere un’analisi di statistica descrittiva, è anche utilizzata in altri contesti. Ad esempio, nell’analisi fattoriale e nell’analisi delle componenti principali per valutare il grado di correlazione tra le variabili originarie ed i nuovi fattori o componenti estratti dal modello. Il modo di leggere tale matrice è però per fortuna sempre lo stesso.

Matrice di correlazione: e adesso?

Troverai tante altre definizioni pratiche in questa guida gratuita di statistica. Scaricala subito!

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.