Cluster analysis: da dove partire

26 Dicembre 2020 | Analisi dati

L’analisi dei gruppi (in inglese cluster analysis) comprende una serie di tecniche di statistica multivariata che permettono di suddividere un campione eterogeneo di unità statistiche in sottoinsiemi (cluster) ognuno costituito da unità statistiche simili tra loro, in base ad un determinato criterio. In questo articolo scoprirai quale tecnica scegliere e con quali software è possibile effettuare tale analisi.

Che cos’è un cluster?

In statistica, con il termine cluster si intende un raggruppamento di elementi che hanno una o più caratteristiche in comune tra loro.

Ad esempio, potresti decidere di suddividere un campione costituito da 100 individui di cui 80 femmine e 20 maschi in due cluster: uno formato da tutti i 20 maschi e l’altro da tutte e 80 le femmine.

Così come potresti decidere di suddividere il campione non solo in base al genere ma anche all’età e quindi, ad esempio, ottenere 4 cluster: uno costituito dalle donne di giovane età, uno dai maschi giovani e due costituiti rispettivamente dalle donne e dagli uomini di età più avanzata.

In generale, l’analisi dei cluster si utilizza quando si hanno più variabili di suddivisione e pertanto la distinzione tra i gruppi non è così netta.

A cosa serve un’analisi dei cluster?

Questa tipologia di analisi può essere utilizzata in vari settori. Ad esempio, in ambito medico o psicologico per identificare gruppi di pazienti che hanno sintomi simili tra loro. Oppure in ambito economico per segmentare i clienti in gruppi in base ai loro comportamenti di acquisto. O ancora, in ambito pedagogico per riconoscere gli studenti che hanno determinati attitudini.

Cluster analysis: i passaggi da fare

1. Scelta delle variabili

Come prima cosa devi decidere quali sono le variabili che si vuoi utilizzare per la suddivisione. In base al tipo di variabili selezionate (tutte quantitative, tutte qualitative o un misto dei due) potrai valutare il tipo di approccio da adottare.

2. Clustering esclusivo o non esclusivo?

  • Clustering esclusivo: ogni unità statistica può essere assegnata ad uno e ad un solo gruppo. Quindi i cluster risultanti non possono avere elementi in comune. Questo approccio è detto anche hard clustering.
  • Clustering non-esclusivo: ogni unità statistica può appartenere a più cluster con gradi di appartenenza diversi. Questo approccio è noto anche con il nome di soft clustering o fuzzy clustering.

3. Tipo di metrica

E’ necessario poi decidere quale metrica, ovvero quale formula, utilizzare per calcolare la distanza tra gli elementi. Esempi di metriche sono la distanza euclidea, la distanza di Manhattan e la distanza di Hamming.

4. Clustering gerarchico o non gerarchico?

  • Clustering non gerarchico (detto anche partizionale, o k-clustering): si definisce a priori il numero di gruppi che si vuole ottenere. Tra questa tipologia di analisi, la tecnica più conosciuta è quella basata sul metodo delle k-medie. Un altro algoritmo abbastanza conosciuto appartenente a questa classe è il Partitioning Around Medioid (PAM). Questa tecnica si può utilizzare solo per variabili quantitative ed è adatta anche per campioni molto numerosi.
  • Clustering gerarchico: viene costruita una gerarchia di cluster caratterizzate da un numero (de)crescente di gruppi, visualizzabile mediante una rappresentazione grafica detta dendrogramma. Dovrai poi essere tu a valutare quale sia il numero ideale di gruppi da estrarre. Ti consiglio di adottare questa tecnica solo se il tuo campione è di piccole dimensioni, ovvero composto da massimo qualche centinaio di unità statistiche. Inoltre, questo approccio si può utilizzare solo per variabili quantitative o qualitative dicotomiche.

5. Metodo aggregativo o divisivo?

Dovrai poi decidere quale criterio utilizzare per considerare due unità statistiche simili tra loro. In termini più statistici, questa operazione si effettua scegliendo quale tecnica di aggregazione o suddivisione utilizzare.

  • Dal basso verso l’alto (metodi aggregativi o bottom-up):
    Secondo questo approccio, tutte le unità statistiche sono inizialmente considerare come cluster a sé. Se il tuo campione è costituito da 70 unità statistiche, inizialmente avrai quindi 70 cluster, ognuno costituito da una singola unità statistica. L’algoritmo provvede poi ad unire i cluster più vicini tra loro utilizzando una funzione che ne misura la distanza fino ad una certa regola di arresto prefissata. Ad esempio, l’algoritmo può interrompersi ad un determinato numero di gruppi, oppure quando la distanza minima tra i cluster supera una certa soglia. Tra le funzioni aggregative ci sono quelle basate sul legame singolo, il legame medio, il legame completo e la distanza tra centroidi.
  • Dall’alto verso il basso (metodi divisivi o top-down):
    All’inizio tutte le unità statistiche fanno parte di un unico cluster. Ad esempio, se il tuo campione è costituito da 70 unità statistiche, inizialmente avrai quindi un unico cluster composto da tutte e 70 le unità. L’algoritmo inizia poi a dividere, basandosi su funzioni che misurano la compattezza dei gruppi, il cluster in sottoinsiemi al fine di ottenere gruppi sempre più omogenei. Anche in questo caso l’algoritmo procede fino a che non viene soddisfatta una regola di arresto generalmente legata al raggiungimento di un numero prefissato di cluster.

6. Avvio algoritmo

A questo punto avrai tutte le impostazioni necessarie per avviare l’algoritmo che ha come obiettivo quello di assegnare un cluster ad ogni unità statistica.

7. Valutazione risultati

Dovrai quindi valutare la suddivisione ottenuta e scegliere il numero ottimale di gruppi.

Infine dovrai interpretare i risultati ottenuti sulla base delle variabili osservate.

Cluster analysis: quale software scegliere?

Analisi dei cluster su Excel

Effettuare un’analisi dei cluster su Excel è possibile ma non è la soluzione preferibile. Dovrai infatti impostare a mano alcune funzioni oppure scaricare dei componenti aggiuntivi che ti permettano di effettuare i calcoli in modo più automatico.

Analisi dei cluster su SPSS

SPSS permette di effettuare tre tipologie di analisi dei cluster:

  • Metodo delle k-medie
  • Metodo gerarchico
  • Cluster Two-Step: attraverso la comparazione dei valori di un criterio di scelta tra i modelli, questa procedura determina automaticamente, da un punto di vista numerico, quale è il numero ideale dei cluster. Si può utilizzare sia per variabili qualitative e quantitative ed è adatta anche per dataset di grandi dimensioni.

Per selezionare quella di tuo interesse, nel menù in alto clicca su Analizza | Classifica.

Analisi dei cluster su Jamovi

Nelle ultime versioni disponibili di Jamovi (dalla 6.0.1 in poi) è presente un modulo aggiuntivo, che puoi installare gratuitamente cliccando su Modules, che ti permette di effettuare le principali analisi multivariate. Con questo componente aggiuntivo denominato snowCluster potrai effettuare velocemente l’analisi dei cluster sia gerarchica che con il metodo delle k-medie e costruire dendogrammi.

Analisi dei cluster su R Commander

Per effettuare un’analisi dei cluster su R Commander, una volta aperta l’interfaccia grafica, dovrai cliccare nel menù in alto su Statistiche | Analisi dimensionale | Analisi dei cluster. Come su Jamovi, potrai scegliere tra analisi gerarchica ed analisi delle k-medie.

Analisi dei cluster o analisi discriminante?

La cluster analysis ha alcune caratteristiche in comune con l’analisi del discriminante. Entrambe le tecniche infatti riguardano la classificazione di unità statistiche in gruppi omogenei. Proprio per questo, nelle interfacce grafiche dei vari software statistici queste due tecniche sono spesso posizionate vicine tra loro.

Per non fare confusione e scegliere l’analisi corretta, concentrati sull’obiettivo del tuo lavoro.

L’analisi dei cluster ha come obiettivo la creazione di una nuova variabile che assegni ogni unità statistica ad un gruppo, mentre l’analisi del discriminante ti permette di ottenere una funzione matematica che puoi utilizzare per assegnare, il più correttamente possibile, ulteriori unità statistiche ad uno dei gruppi conosciuti a priori.

Confronto pratico

Ad esempio, ipotizziamo che tu abbia un campione di 100 studenti universitari che due anni fa si sono iscritti ad un determinato corso di laurea magistrale. Questi studenti possono essere suddivisi in due gruppi: quelli che ad oggi si sono già laureati ed i restanti (che stanno ancora frequentando il corso o hanno abbandonato). A tutti questi studenti è stato somministrato un questionario per conoscere il loro voto di maturità, il numero di esami sostenuti ed il voto medio conseguito nel primo anno di corso ed il loro reddito famigliare.

Con l’analisi discriminante puoi trovare una funzione di tali variabili che ti permetta di distinguere tra i due gruppi.

Conoscendo quindi i valori delle stesse variabili (voto di maturità, numero e votazione media agli esami del primo anno, reddito) per un nuovo campione di studenti appena immatricolati allo stesso corso di laurea, con tale tecnica è possibile predire quali di queste matricole dopo 2 anni saranno laureate e quali no. In altre parole, l’analisi discriminante ti permette di assegnare le nuove unità statistiche ad uno dei gruppi conosciuti a priori (in questo caso, laureati o non laureati dopo due anni).

La cluster analysis ha invece un obiettivo più esplorativo. Questa tecnica ti permette infatti di identificare se all’interno del campione ci sono dei gruppi omogenei di unità statistiche. Pertanto, l’analisi dei cluster si utilizza di solito quando a priori non si ha la certezza che tali gruppi omogenei siano davvero presenti all’interno del campione che si sta osservando.

Riprendendo l’esempio precedente, l’analisi dei cluster ti può aiutare a suddividere gli studenti in gruppi in base alle 4 variabili oggetto di studio. Ad esempio, potresti ottenere un gruppo composto dagli studenti che presentano valori più elevati dalla media per ognuna delle variabili ed un altro composto invece da studenti con valori più bassi della media per le 4 variabili.

Cluster analysis: e adesso?

Scarica subito la guida gratuita che ti permetterà di scoprire tante risorse disponibili online ed in italiano che ti aiuteranno a migliorare ogni fase delle tue analisi dei dati.

Articoli correlati

Tabella di contingenza

Tabella di contingenza

Per tabella di contingenza si intende una tabella a doppia entrata che mette in relazione, calcolandone le frequenze congiunte, le modalità di due variabili.

leggi tutto
Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.