L’analisi delle componenti principali è una tecnica statistica che ha come obiettivo la riduzione del numero di colonne di un dataset. Per poterla realizzare, è necessario sia effettuare alcuni controlli preliminari sulle variabili sia decidere il numero di componenti da estrarre. In questo articolo scoprirai in pratica come fare.
Indice
Analisi delle componenti principali: quando si usa?
L’analisi delle componenti principali (ACP) è una tecnica statistica per la riduzione delle dimensioni. In pratica, si utilizza quando all’interno di un dataset ci sono molte variabili correlate tra di loro e si vorrebbe ridurne il numero perdendo la minore quantità di informazione possibile.
L’ACP (in inglese principal component analysis o, abbreviando, PCA) ha proprio l’obiettivo di massimizzare la varianza, calcolando il peso da attribuire ad ogni variabile di partenza per poterle concentrare in una o più nuove variabili (dette componenti principali) che saranno combinazione lineare delle variabili di partenza.
ACP e analisi fattoriale: che differenza c’è?
Questa tecnica è molto simile all’analisi fattoriale esplorativa. Spesso nei software statistici (ad esempio, su SPSS) compare addirittura come metodo da selezionare all’interno delle tecniche fattoriali. Tuttavia, vi è una differenza di fondo tra questi due metodi: l’analisi delle componenti principali ha l’obiettivo di estrarre delle nuove componenti che spieghino più varianza possibile delle variabili di partenza, mentre l’analisi fattoriale è finalizzata a individuare fattori latenti che spieghino più covarianza possibile.
In pratica, questa differenza comporta che l’ACP analizza la varianza totale (varianza comune + unica) delle variabili, mentre l’analisi fattoriale analizza solo la varianza comune.
ACP: i controlli da fare
Per poter realizzare un’analisi delle componenti principali, le tue variabili devono superare i seguenti controlli:
CONTROLLO 1: Le variabili sono di tipo quantitativo
L’analisi delle componenti principali è il metodo di riduzione delle variabili più indicato solo quando le variabili sono quantitative.
In alcuni casi è però utilizzata anche per variabili su scala Likert e per variabili binarie. Tuttavia, seppur a livello numerico i risultati siano molto simili tra loro, in questi casi sarebbe preferibile utilizzare metodi alternativi come la CATPCA o la PCA logistica.
CONTROLLO 2: Relazione lineare tra tutte le variabili
La prima operazione da fare quando si effettua un’ACP è calcolare la matrice di varianza/covarianza o la matrice di correlazione di Pearson. Tra le due, la matrice di correlazione è quella maggiormente utilizzata in quanto permette di poter trattare variabili espresse anche su scale di misura diverse tra loro senza che questo influenzi il loro peso sulla soluzione finale. Pertanto, l’ACP è una tecnica utilizzabile quando sono rispettate le ipotesi dell’indice di correlazione lineare di Pearson.
CONTROLLO 3: Correlazione almeno moderata tra le variabili
Dal momento che l’ACP si basa sulla varianza in comune tra le variabili, ha senso includere nel modello solo variabili che risultano almeno moderatamente correlate con le altre.
Se una variabile ha indici di correlazione molto vicini a 0 con tutte le altre variabili (in genere, è considerata debole una correlazione compresa tra -0,3 e + 0,3), allora quella variabile non dovrebbe essere inclusa nell’ACP.
Questo perché il forzare tale variabile a fondersi con altre comporterà una perdita di informazione molto elevata e questa è una situazione che in genere si preferisce evitare.
CONTROLLO 4: Assenza di outliers
Come per tutte le analisi basate sulla varianza, singoli valori anomali possono influenzare i risultati soprattutto se molto estremi e se la numerosità campionaria è bassa.
Un primo controllo lo puoi fare sia a livello univariato (ad esempio costruendo i boxplot) che bivariato (costruendo i grafici a dispersione tra coppie di variabili).
Tuttavia, una volta estratte le componenti, ti consiglio anche di verificare se e quante sono le osservazioni che si discostano per più di 3 deviazioni standard dalla media.
CONTROLLO 5: Numerosità del campione abbastanza elevata
Per effettuare un’ACP è necessario che il numero di variabili che vuoi includere in un’ACP sia in numero molto minore del numero di unità statistiche incluse nel dataset.
Non vi è un valore soglia univoco, ma in generale è consigliabile avere almeno 5-10 unità statistiche per ogni variabile che vuoi includere nell’ACP.
Se ad esempio vuoi provare a riassumere con delle nuove componenti 10 variabili, sarebbe consigliabile avere un campione composto da almeno 150 osservazioni.
Analisi delle componenti principali: che software usare
Se le tue variabili hanno superato tutti i controlli precedenti, allora puoi partire con le analisi.
Con i software statistici ( come SPSS, Jamovi e R Commander) questa operazione è molto semplice e con pochi click riuscirai ad ottenere un output da interpretare.
Non c’è quindi un software preferibile agli altri in quanto è una tecnica molto utilizzata e tutti i programmi statistici ne permettono l’esecuzione in modo agevole e senza dover effettuare calcoli a mano.
Adeguatezza del campione: come si verifica?
Una volta ottenuto l’output dell’analisi, la prima cosa da verificare è l’adeguatezza del campione. Per farlo, puoi basarti su due indici:
KMO
Soffermati subito sul valore dell’indice KMO (Kaiser-Meyer-Olkin). Questo indice può assumere valori compresi tra 0 e 1 e, affinché abbia senso effettuare un’analisi delle componenti principali, deve avere un valore almeno superiore a 0,5.
Più il valore si avvicina ad 1, più l’adeguatezza del campione migliora. In genere, valori compresi tra 0,5 e 0,6 sono considerati al limite dell’accettabilità, superiori a 0,6 sufficienti e superiori a 0,8 buoni.
Questo indice può essere calcolato complessivamente per tutte le variabili incluse nella ACP.
Ma è consigliabile calcolarlo anche per ogni singola variabile. Di solito, gli indici KMO per ogni singola variabile sono riportati sulla diagonale principale di una tabella chiamata “matrice anti-immagine”.
Se sia per tutte le variabili sia con l’indice complessivo ottieni valori superiori a 0,5, puoi passare al test successivo.
In caso contrario, se il KMO complessivo è inferiore a 0,5 significa che devi rivedere la tipologia di analisi da svolgere sulle variabili. Se invece è solo una variabile ad avere un KMO inferiore a 0,5, allora puoi provare ad escluderla dalla ACP e provare a rifare tutti i calcoli.
Test di sfericità di Bartlett
Il test di sfericità di Bartlett è un test d’ipotesi che ha come ipotesi nulla quella che la matrice di correlazione coincida con la matrice identità. Se così fosse, non avrebbe senso performare una ACP in quanto significherebbe che le variabili che hai incluso nell’ACP non sono per nulla correlate linearmente tra loro.
Come per tutti i test d’ipotesi, il valore su cui ti devi soffermare per decidere se rifiutare o meno l’ipotesi nulla è il p-value. In questo caso, perché il modello sia considerabile valido, devi ottenere un p-value inferiore a 0,05. In questo caso infatti si può rifiutare con un livello di significatività del 5% l’ipotesi nulla.
Quante componenti principali estrarre?
Il numero di componenti da estrarre è un passaggio cruciale in un’ACP ed è la decisione più importante da prendere per questa tipologia di analisi. Pertanto, nella restante parte di questo articolo ci concentreremo proprio sui diversi metodi di scelta.
Ho utilizzato il plurale parlando di “metodi di scelta” in quanto non vi è un metodo univoco che permette di ottenere il numero ideale di componenti principali, ma la scelta è in genere dettata dall’osservazione di diversi parametri.
Immagina che il tuo dataset sia una città a te sconosciuta, ed ogni componente principale sia una strada di questa città. Se tu volessi conoscere questa città, quante strade visiteresti? Probabilmente partiresti dalla via centrale (la prima componente principale) e poi ti addentreresti in altre vie. Ma in quante?
Per poter dire di conoscere a sufficienza una città, ovviamente il numero di vie da visitare cambia a seconda delle dimensioni della città e di quante le vie sono simili o diverse tra loro. Allo stesso modo, il numero di componenti da estrarre dipendono da quante variabili hai scelto di includere all’interno dell’analisi delle componenti principali e da quanto queste sono simili tra loro.
Più sono correlate infatti, minore sarà il numero di componenti principali necessario per ottenere una buona conoscenza delle variabili di partenza. Al contrario, meno sono correlate, maggiore sarà il numero di componenti principali da estrarre per poter avere un’informazione accurata del dataset.
I criteri di scelta principali si basano su:
Autovalori maggiori di 1
Secondo questa regola, proposta da Kaiser nel 1960, si dovrebbero includere nel modello finale tutte le componenti a cui corrisponde un autovalore uguale o maggiore di 1.
In generale, ricordati che le soglie in statistica hanno sempre un valore relativo. Ad esempio, ipotizziamo che la seconda componente abbia un autovalore pari a 1,045, la terza pari a 0,982 e la quarta pari a 0,822. In questo caso sia una soluzione a due che a tre componenti potrebbe essere considerata valida secondo questo criterio.
Proporzione di varianza spiegata
Seguendo questo criterio, le componenti da estrarre devono garantire che almeno il 60%-80% della variabilità complessiva delle variabili di partenza non venga persa. Inoltre, ogni singola componente da estrarre dovrebbe apportare un incremento di rilievo alla varianza complessiva (ad esempio, almeno un 5% o un 10% in più di variabilità spiegata).
Scree-plot
Questo metodo, proposto da Cattell nel 1966, si basa su un grafico in cui sull’asse verticale sono riportati i valori degli autovalori e sull’asse orizzontale tutte le possibili componenti da estrarre (che saranno quindi in numero pari alle variabili di partenza). Unendo i punti si otterrà una linea spezzata che in alcune parti avrà una forma concava ed in altri convessa. Seguendo questo criterio, il numero di componenti da estrarre è quello che coincide con il cambio di pendenza, ovvero con il gomito della curva, dopo il quale in genere la spezzata tende ad appiattirsi.
Interpretabilità della soluzione
Il numero di componenti influenza l’interpretabilità della soluzione finale. Pertanto, ti consiglio sempre, prima di scegliere quante estrarne basandoti sui criteri precedenti, di assicurarti che sia possibile attribuire un ‘etichetta’ ad ogni componente.
In particolare, se hai deciso di estrarre più di una componente, dovrai valutare come le componente pesa sulle variabili di partenza basandoti sui valori presenti nella matrice delle componenti.
Analisi parallela
Questa tecnica non è ancora disponibile su tutti i software statistici ma fornisce un valido supporto alla scelta del numero di componenti da estrarre. Si utilizzano infatti procedure di simulazione che generano dati casuali. La regola in questo caso prevede di scegliere sono quelle componenti che hanno autovalori superiori a quelli casuali.
Altri criteri di scelta
Sappi comunque che, a seconda del software che stai utilizzando, vi sono anche altri criteri di scelta (bontà di adattamento, massima correlazione residua, cross-validation,..) che possono essere valutati.
L’ideale sarebbe basarsi su più criteri possibili e selezionare il numero di componenti che risulta essere ottimale in base al numero maggiore di criteri.
Analisi delle componenti principali: e adesso?
Se ti serve supporto per realizzare un’analisi delle componenti principali on interpretarne i risultati, la consulenza check-up è la soluzione perfetta per te. Dagli un’occhiata ora!