Boxplot ed outliers

4 Luglio 2020 | Analisi dati

Il boxplot è un grafico statistico che si utilizza per variabili quantitative. E’ molto utile per capire se la distribuzione è simmetrica oppure asimmetrica e per confrontare la forma di più distribuzioni. Ma soprattutto ti permette di identificare in modo rapido e preciso valori anomali e outliers. Scopri in questo articolo come sfruttare al meglio tutte le su potenzialità (e cosa c’entra il gatto della foto)

grafico a scatola e baffi

Rispetto al calcolo dei soli indici numerici (come la media e la deviazione standard), i grafici permettono di descrivere la forma di qualsiasi tipo di variabile quantitativa. Anche in presenza in outliers e forti asimmetrie. Per questo quando inizi un’elaborazione dei dati ti consiglio sempre di partire dalla statistica descrittiva, analizzando sia gli indici riassuntivi sia diverse tipologie di grafico.

Istogramma o boxplot?

I boxplot, insieme agli istogrammi, sono tra i grafici più utilizzati per rappresentare graficamente le variabili quantitative. Entrambi i grafici infatti ti permettono di farti velocemente un’idea della distribuzione della variabile e valutarne la variabilità.

Tuttavia, istogramma e boxplot fornisco informazioni diverse sui dati e per sintetizzare i dati in modo completo ti consiglio di utilizzarli entrambi.

Il boxplot non mostra alcune caratteristiche della distribuzione come eventuali picchi o valli che invece si possono osservare con un istogramma. Non ti permette quindi, ad esempio, di capire se una distribuzione è bimodale, cioè se ha due picchi distinti. E non ti dice neanche se c’è un “buco” tra le osservazioni. Come nell’esempio qui sotto.

confronto istogramma e boxplot

D’altra parte, il boxplot permette di individuare con maggiore precisione i potenziali valori anomali rispetto all’istogramma. Inoltre, la semplicità del boxplot lo rende preferibile soprattutto per campioni di piccole dimensioni, nel caso si vogliano confrontare graficamente più distribuzioni.

Boxplot: che cos’è

In particolare, il boxplot permette di rappresentare sullo stesso grafico cinque tra le misure di posizione più utilizzate in statistica.

Indici riassuntivi numerici

La sintesi a cinque numeri di una variabile quantitativa costituisce infatti la struttura del boxplot. Al suo interno troverai infatti indicati il valore minimo (Q0), il primo quartile (Q1), la mediana (Q2), il terzo quartile (Q3) ed il valore massimo (Q4) di una variabile.

esempio tabella statistiche descrittive

Ad esempio, qui sopra trovi un esempio di sommario a 5 indici, i cui valori sono riportati nel boxplot qui sotto.

Rappresentazione grafica degli indici numerici: il boxplot

Il nome completo di questo grafico è “box and whiskers plot”, che in italiano è spesso tradotto come “diagramma a scatola e baffi”.

interpretazione boxplot

La scatola (il box) è compresa tra il primo e terzo quartile e mostra l’ampiezza della metà centrale della distribuzione. L’altezza della scatola è infatti pari al range interquartile (IQR) e contiene il 50% centrale delle osservazioni effettuate, quelle comprese tra il primo ed il terzo quartile.

La linea all’interno della scatola invece rappresenta la mediana.

I due segmenti che partono dalla scatola e si prolungano verso l’alto e verso il basso sono detti “baffi”. I baffi indicano la dispersione dei valori inferiori al primo quartile e superiori al terzo quartile non classificati come outliers.

Il valore più alto tra quelli presenti nella variabile che non identifica un valore anomalo definisce la fine del baffo superiore. Allo stesso modo, il valore più basso, che non identifica un valore anomalo, definisce la fine del basso inferiore.

Nel caso in cui ci fossero dei valori anomali, questi ultimi sarebbero rappresentati nel boxplot come dei punti isolati posizionati al di sopra e/o al di sotto dei baffi della distribuzione.

In altre parole, la scatola ti permette di capire cosa succede al 50% dei valori osservati, i baffi ti aiutano a studiare le code della distribuzione, i punti isolati indicano i possibili outliers.

Boxplot: come si interpreta

Per poterlo interpretare in modo corretto, come prima cosa bisogna guardare quale è la scala di misura della variabile oggetto di studio. La troverai indicata sull’asse verticale delle y.

Dopo aver individuato la scala numerica, ti consiglio di concentrarti come prima cosa sulla linea della mediana, che indica il valore centrale della distribuzione. Passa quindi ad osservare la dispersione, osservando sia quanto è alta la scatola sia quanto sono lunghi i baffi.

Il baffo superiore si estende verso l’alto fino al valore massimo che è minore o uguale di 1,5 volte il range interquartile (IQR). Il baffo inferiore invece si estende verso il basso fino al più piccolo valore maggiore o uguale a 1,5 volte il range interquartile.

I valori che fuoriescono dai baffi, ovvero che sia allontanano dal box di più di 1,5*IQR verso l’alto o il basso sono considerati potenziali outliers e rappresentati con dei punti.

Outliers e baffi

Uno degli aspetti che spesso genera più confusione nell’interpretazione del boxplot è legata al significato degli estremi dei baffi quando ci sono degli outliers.

Per aiutarti a capire il significato di tali valori, ti può essere utile conoscere come è stato inventato il boxplot.

Già nel 1952, Mary Eleanor Spear presentò una prima versione del grafico a scatola, denominandolo range-bar. Questo grafico comprendeva una parte centrale (il box) e due segmenti laterali che si allungavano da una parte fino al valore minimo e dall’altra fino al valore massimo. Quindi, in questa prima versione, gli estremi dei baffi coincidevano sempre con i valori estremi della distribuzione. Questa soluzione risultava però fuorviante in presenza di outliers, che allungavano di molto le lunghezze dei baffi.

Proprio per superare questo limite, nel 1970 lo statistico americano John Tukey partì proprio dal range-bar per ideare il boxplot. Questo grafico permette non solo di descrivere la distribuzione dei dati ma anche di individuare i potenziali outliers.

Per permettere l’individuazione di tali valori anomali, Tukey fissò delle soglie (fences in inglese) che permettessero di isolare gli outliers.

La soglia inferiore è stata fissata in Q1-1,5*IQR
La soglia superiore è stata fissata in Q3 + 1,5*IQR

In pratica, si moltiplica per 1,5 l’altezza della scatola e si riporta questa distanza al di sopra del terzo quartile ed al di sotto del primo quartile. I valori che non rientrano in tale distanza sono considerati outliers.

Ricordati infatti che, in caso di valori anomali, gli estremi dei baffi del boxplot non coincidono con il valore minimo e massimo della variabile ma con i valori più estremi inferiori ai Tukey fences.

Boxplot in Excel

Oltre che con tutti i software statistici, anche con Excel, a partire dalla versione 2016, è possibile realizzare in automatico il grafico a scatole e baffi, ovvero il Box and Whiskers plot. Nelle versioni precedenti invece è necessario costruire questo grafico passo a passo creando prima la tabella con gli indici e poi adattando un grafico a barre.

Boxplot in SPSS

Alcuni software statistici distinguono gli outliers in due categorie. Ad esempio, SPSS identifica con un punto gli outliers deboli e con un asterisco gli outliers forti (detti anche outliers estremi). Questi ultimi sono le osservazioni che sono più lontani di 3 volte la distanza del range interquartile dai rispettivi quartili.

Soprattutto in presenza di outliers estremi, è importante verificare che non siano dati registrati in modo scorretto. Ma spesso è utile effettuare le successive analisi sia con sia senza questi outliers per essere sicuri che i risultati non siano troppo sensibili ad una singola osservazione.

Boxplot in R: esempio per una variabile

Ad esempio, potresti utilizzare questa tipologia di grafico per analizzare la distribuzione dei voti degli studenti che hanno sostenuto l’esame di statistica nelle prime due sessioni del 2020.

Come prima cosa puoi partire osservando gli indici riassuntivi per la variabile “voti”. Li trovi tutti nella tabella qui sotto, che ho realizzato con Jamovi (un’interfaccia grafica e gratuita di R). Il voto medio degli studenti è 26/30 e la relativa deviazione standard è di 3,66. Gli studenti passano quindi questo esame con un voto medio abbastanza alto (26) e non risulta esserci tantissima variabilità tra i voti (3,66 rispetto a 26 non è un valore molto grande).

tabella media, deviazione standard e quartili

Guardando gli altri indici otteniamo anche altre informazioni molto utili, le stesse che puoi vedere rappresentate nel boxplot sottostante.

esempio boxplot

I limiti superiore ed inferiore della scatola e dei baffi sono stati calcolati infatti partendo proprio dagli indici che trovi nella tabella qui sopra.

In particolare, il boxplot evidenzia come il 50% dei voti ricada nell’intervallo compreso tra 24 (primo quartile, corrispondente al 25esimo percentile) e 29 (terzo quartile, corrispondente al 75esimo percentile).

Inoltre, non sono presenti valori anomali e di conseguenza gli estremi dei baffi corrispondo con il valore minimo (18) e massimo (30) conseguito dagli studenti all’esame di statistica durante le due sessioni considerate.

Asimmetria statistica e boxplot

Questo grafico ti permette anche di capire se la variabile che stai analizzando ha una distribuzione simmetrica oppure asimmetrica. Quando la distribuzione è simmetrica, il primo ed il terzo quartile sono alla stessa distanza dalla mediana. In altre parole, la linea della mediana si trova esattamente a metà della scatola.

Nella maggior parte delle distribuzioni asimmetriche a destra, il terzo quartile sarà invece più lontano dalla mediana di quanto non lo sia il primo quartile.

Nel caso invece di distribuzioni asimmetriche a sinistra, la mediana risulta più vicina al terzo quartile rispetto al primo quartile. Questo è il caso, ad esempio, del boxplot riportato qui sopra relativo ai voti universitari.

In questo esempio infatti il valore mediano è 27/30 (secondo quartile, corrispondente al 50esimo percentile) e risulta maggiore rispetto a quello della media (26/30). Ed in generale, quando la media è minore della mediana si ha la presenza di un’asimmetria negativa.

Puoi anche osservare che il baffo inferiore risulta più lungo rispetto a quello superiore, ad indicare che la coda a sinistra è più lunga rispetto della coda destra della distribuzione. Questo significa che la maggior parte degli studenti consegue un punteggio elevato all’esame (il 25% degli studenti prende un voto compreso tra 29 e 30, ovvero tra il terzo quartile ed il valore massimo).

Ricordati però di non fare affidamento solo sui baffi per valutare l’asimmetria di una distribuzione, in quanto la loro lunghezza è influenzata dalla presenza di outliers.

Esempio boxplot per il confronto tra distribuzioni

La semplicità visiva di questi grafici li rende particolarmente utili per mettere a confronto fianco a fianco più distribuzioni.

Nell’esempio precedente abbiamo analizzato i risultati insieme i risultati che hanno conseguito gli studenti all’esame di statistica nelle prime due sessioni del 2020. A causa dell’emergenza covid-19, è capitato però che nella prima sessione l’esame si sia tenuto in presenza mentre nella seconda sessione l’esame si sia tenuto in modalità online.

Come possiamo capire se c’è differenza tra i voti conseguiti con queste due modalità (in presenza ed a distanza)?

Confronto medie tra due gruppi

Possiamo partire osservando gli indici riportati nella tabella sottostante. Sono gli stessi della tabella precedente, solo suddivisi tra le due modalità. La media è esattamente la stessa nei due gruppi ed è pari a 26/30. Possiamo quindi concludere che non c’è differenza tra effettuare l’esame di statistica a distanza invece che in frequenza?

tabella statistiche descrittive per due gruppi

Per poter rispondere a questa domanda non fare affidamento solo sulla media, ma guarda anche i valori degli altri indici riportati nella tabella. Noterai così che qui ci sono differenze tra i due gruppi. Ad esempio, la deviazione standard è leggermente maggiore per il gruppo di studenti che ha svolto l’esame a distanza (4,11) rispetto a chi ha svolto l’esame in presenza (3,37).

Confronto tra due distribuzioni

Per capire meglio cosa significa in pratica questa differenza puoi dare un’occhiata al boxplot qui sotto.

esempio boxplot per gruppi

Da questo grafico puoi notare come chi ha svolto l’esame in presenza ha conseguito un voto mediano più alto rispetto a chi ha sostenuto l’esame a distanza. Sia il primo quartile che la mediana sono infatti più alti nel boxplot a destra, quello che descrive la distribuzione dei voti degli studenti che hanno svolto l’esame in presenza.

Tuttavia, il terzo quartile è posizionato nettamente più in alto nel boxplot a sinistra, quello relativo agli studenti che hanno effettuato l’esame a distanza.

Puoi anche osservare come per il 50% dei voti centrali (rappresentati nel grafico dall’altezza della scatola che corrisponde al range interquartile) ci sia una maggiore variabilità tra chi ha sostenuto l’esame a distanza rispetto che in presenza.

Infine, relativamente al boxplot a destra, puoi anche osservare che è presente un “outliers” (corrispondente ad uno studente che ha preso solo 18 all’esame) che nel grafico è indicato con un puntino.

E adesso?

Se hai ancora dubbi su come realizzare oppure interpretare un boxplot o altri grafici o indici statistici, puoi richiedere una consulenza check-up: la soluzione veloce, economica e personalizzata sui tuoi dati.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.