Coefficiente di variazione statistica

20 Marzo 2021 | Analisi dati

Il coefficiente di variazione (CV) è una misura di statistica descrittiva che ti aiuta a quantificare in modo oggettivo quanto sia grande il valore di una deviazione standard rispetto alla sua media. In questo articolo scoprirai quando è consigliabile utilizzarlo, come come si calcola e come interpretarne correttamente il risultato.

Coefficiente di variazione o Deviazione standard relativa

Il coefficiente di variazione è un indice descrittivo numerico che fornisce informazioni sulla variabilità di una variabile quantitativa.

In alcuni manuali lo puoi trovare indicato anche come RSD (deviazione standard relativa) in quanto è una misura di variabilità relativa.

E’ infatti un indice che si definisce adimensionale in quanto il suo valore non dipende né dall’unità di misura né dalla grandezza della variabile considerata.

Come si calcola in coefficiente di variazione

Questo indice è calcolabile solo su variabili di tipo quantitativo. Per ottenerlo, è infatti necessario come prima cosa calcolare la media e la deviazione standard della variabile.

Una volta ottenuti questi due valori, il coefficiente di variazione può essere ottenuto automaticamente da alcuni software statistici (come R Commander). Puoi anche però effettuare il suo calcolo manualmente con una calcolatrice, in quanto consiste in una sola divisione.

Ti basterà prendere il valore della deviazione standard, dividerlo per il valore assoluto della media ed otterrai il coefficiente di variazione:

CV= deviazione standard/valore assoluto della media

Ad esempio, ipotizziamo che il peso medio di un campione di studenti sia di 80 kg e la sua deviazione standard sia di 20 kg. In questo caso avremo che il coefficiente di variazione sarà pari a 20/80=0,25

Per l’interpretazione di questo indice non è importante il segno del coefficiente (come invece accade ad esempio per l’indice di correlazione) ma solo la sua grandezza in termini assoluti. Questo è il motivo per cui al denominatore si utilizza il valore assoluto della media.

Essendo il coefficiente di variazione dato dal rapporto tra un numeratore sempre positivo (la deviazione standard è per costruzione sempre un numero pari o maggiore di 0) ed un denominatore che invece può essere sia positivo che negativo (la media), quando la media è negativa allora anche il CV diventerebbe infatti negativo se non si utilizzasse il valore assoluto della media.

Questo comporterebbe però solo una complicazione nell’interpretazione del risultato e quindi nella maggior parte dei casi si preferisce riportare nella formula il valore della media senza il segno.

Come si interpreta il coefficiente di variazione

Il valore del coefficiente di correlazione ipoteticamente potrebbe andare da meno infinito a più infinito in quanto non è un indice normalizzato, ma in genere sta tra 0 +1. In caso di forte variabilità, il valore può però superare l’unità.

CV=0

Il CV è pari a zero solo nel caso che la deviazione standard sia pari a 0. Questa situazione in genere non si verifica mai in quanto vorrebbe dire che tutte le unità statistiche assumono lo stesso valore e pertanto non si parla neanche più di variabile ma di costante.

Ad esempio, se il tuo campione è costituito solo da neo-maggiorenni che hanno appena compiuto 18 anni, allora la variabile età avrà un unico valore (18) che rimarrà costante per tutte le unità statistiche.

In questo caso la deviazione standard sarà pari a 0 e di conseguenza anche il coefficiente di variazione assumerà valore 0. CV=0 significa quindi che non c’è variazione tra i dati per quanto riguarda la variabile oggetto di studio.

CV vicino a 0

Questo indice assume valori vicini allo zero quando la variabilità e bassa.

Più il valore del CV è vicino a 0, più significa che la deviazione standard è relativamente piccola rispetto alla media e pertanto c’è poca variabilità relativa tra i dati.

Nell’esempio precedente del peso, il coefficiente di variazione di 0,25 indica la grandezza relativa della deviazione standard rispetto al valore medio del peso.

In alcuni casi questo valore è riportato in percentuale. Ad esempio, se CV=0,25 puoi dire che la deviazione standard è pari al 25% della grandezza della media.

CV=0,5

Per interpretare il grado di variabilità di una variabile puoi considerare come soglia CV=0,5.

Se ottieni un valore del CV inferiore a 0,5, allora significa la variabilità dei dati è contenuta e quindi la media può essere considerato un buon indicatore.

Se invece ottieni un valore di CV maggiore di 0,5, allora la variabilità dei dati è elevata e quindi la media potrebbe non essere un buon indicatore.

Ho utilizzato il condizionale “potrebbe” in quanto un valore relativamente elevato della deviazione standard rispetto a quello della media, potrebbe essere dovuto a più fattori. Ad esempio, alla presenza di outliers. Oppure ad una forte asimmetria. Per cui in questo caso l’interpretazione del risultato dipende dalle caratteristiche del fenomeno che stai considerando.

CV grande

Più il valore di questo indice si allontana da 0, minore sarà l’attendibilità della media.

Un valore molto elevato di questo indice implica infatti un valore relativamente grande della deviazione standard rispetto al valore medio. In altre parole, un cv elevato indica che le singole osservazioni saranno molto distanziate rispetto alla media stessa.

Valori molto grandi di CV si possono poi ottenere quando la media è vicino a zero. Se la media di una variabile è pari a 0, allora il denominatore della formula del CV sarà pari a 0 e quindi il coefficiente di variazione tenderà all’infinito. Per fortuna, questa situazione non capita spesso ma in generale ricordati che se il valore medio è molto vicino a 0, il valore del coefficiente di variazione tende a diventare molto grande e questo potrebbe essere un problema ai fini interpretativi.

CV=1

Il CV avrà valore pari a 1, ovvero al 100%, quando la deviazione standard è uguale al valore della media.

Ad esempio, se il tempo di attesa al pronto soccorso è di 50 minuti e la sua deviazione standard è pari a 50 minuti, si avrà CV=50/50=1. Questo significa che il tempo di attesa è molto variabile.

In generale, valori di CV inferiori ad 1 indicano che il valore della deviazione standard è minore di quello della media.

Al contrario, valori di CV più grandi di 1 o inferiori a -1 indicano che il valore della deviazione standard è superiore a quello della media.

CV: quando è consigliabile utilizzarlo

Più che a livello univariato, per valutare la variabilità di una variabile come abbiamo visto sopra, questo indice si utilizza a livello multivariato per confrontare la variabilità di due o più gruppi o caratteristiche.

Il coefficiente di variazione, rispetto ad altre misure di variabilità, facilita infatti l’interpretazione dei dati quando è necessario effettuare confronti tra gruppi o variabili che hanno diversa unità di misura oppure ordine di grandezza.

In questi due casi, utilizzare una misura assoluta di variabilità, come la deviazione standard, potrebbe infatti essere problematico. Per effettuare un confronto tra variabilità, la deviazione standard non è infatti sempre l’indice più indicato in quanto assume sempre la stessa unità di misura ed ordine di grandezza della variabile su cui è calcolata.

Stessa unità di misura ma diverso ordine di grandezza

Se vuoi confrontare il peso di un gruppo di adulti e di neonati, una deviazione standard di 2kg potrebbe essere considerata piccola per gli adulti ma elevata per i neonati.

Facciamo un altro esempio. Ipotizziamo che tu voglia confrontare la variabilità del costo delle case di una grande città con un piccolo centro, potresti trovarti a ragionare con diversi ordini di grandezza.

Ipotizziamo che a Milano un determinato tipo di appartamento abbia un costo medio di 300 mila euro ed una deviazione standard di 100 mila euro. A Monza invece la stessa tipologia di appartamento potrebbe avere un costo medio di 200 mila euro ed una deviazione standard di 70 mila euro.

Per capire se c’è più variabilità di prezzo a Milano o a Monza, confrontare direttamente le due deviazioni standard non è una buona idea in quanto questi due valori (100 e 70) dipendono dalle rispettive medie.

Calcoliamo allora il coefficiente di variazione:

Il CV per Milano sarà pari a 100/300=0,33 mentre a Monza sarà pari a 70/200=0,35

Possiamo quindi concludere che c’è leggermente più variabilità tra il costo degli appartamenti di un certo tipo a Monza rispetto che a Milano perché il coefficiente di variazione risulta più lontano da 0 per Monza (0,35) che per Milano (0,33).

Diversa unità di misura

C’era più variabilità tra i tuoi voti alle superiori o all’università?

Dal momento che i voti alle superiori sono di solito espressi su una scala da 0 a 10, mentre all’università su una scala in trentesimi, non è possibile confrontare direttamente le due deviazioni standard.

Ad esempio, ipotizziamo che all’ultimo anno delle superiori tu avessi una media dell’8 ed una deviazione standard di 2 punti. Il primo anno all’università invece hai una media del 27 ed una deviazione standard di 3 punti.

In questo caso per dire dove c’è più variabilità non puoi confrontare direttamente il 3 con il 2 perché le unità di misura sono diverse. Puoi però calcolare i due coefficienti di variazione.

Per i voti delle superiori il CV sarà pari a 2/8=0,25. Per l’università invece avremo CV=3/27=0,11

Possiamo quindi affermare che c’è più variabilità tra i voti presi alle superiori che all’università perché 0,25>0,11.

Esercizio sul coefficiente di variazione

Per capire se c’è più variabilità tra il peso o tra l’altezza di un gruppo di studenti, non è possibile basarsi solo sulla deviazione standard.

In altre parole, se la deviazione standard è di 10 cm per l’altezza e di 8 kg per il peso, non è possibile affermare che ci sia necessariamente più variabilità tra le altezze che tra i pesi perché le unità di misura (cm e kg) differiscono tra loro.

Sapendo che l’altezza media è di 170 cm ed il peso medio del campione è di 80 kg, come possiamo allora affermare se c’è più variabilità tra il peso o tra l’altezza degli studenti?

Soluzione esercizio

Per rispondere alla domanda, è necessario calcolare il coefficiente di variazione per il peso (CVpeso:8/80=0,10) e per l’altezza (CValtezza: 10/170=0,06). Confrontando i due valori, possiamo osservare come ci sia più variabilità tra il peso che l’altezza in quanto CVpeso>CValtezza.

Coefficiente di variazione: e adesso?

Trovi tante altre definizioni pratiche dei principali indici di statistica descrittiva in questa guida gratuita di statistica. Scaricala subito!

 

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.