Deviazione standard e varianza sono probabilmente gli indici di variabilità statistici più conosciuti. Ma quando si possono utilizzare? Come si calcolano? Come si interpretano? Scoprilo in questo articolo.
Indice
Introduzione
Per descrivere correttamente una variabile, non è sufficiente utilizzare una media statistica come la media aritmetica o la mediana. Questi indici, seppur molto importanti per sintetizzare i dati, forniscono infatti una visione solo parziale della della variabile che stai analizzando. Serve anche utilizzare un indice di variabilità, come la deviazione standard.
L’indice di posizione ti permette di farti un’idea di cosa avviene nella parte centrale della distribuzione, ma non ti permette di capire cosa avviene nelle altre parti della distribuzione e, in assenza di variabilità, fare un’analisi statistica su una variabile non avrebbe senso: una singola osservazione sarebbe sufficiente per conoscere tutto ciò che riguarda quella variabile.
Per questo, agli indici di posizione è sempre importante abbinare anche un indice di variabilità, come la deviazione standard oppure il range interquartile.
Ad esempio, una delle combinazioni più frequentemente utilizzate per descrivere una variabile quantitativa è la media associata con la deviazione standard. La media infatti serve per misurare il baricentro della distribuzione ma da sola non è sufficiente per descrivere adeguatamente la distribuzione di una variabile quantitativa. Non ti dice nulla, infatti, sulla variabilità dei dati.
Per sopperire a questa mancanza, c’è la deviazione standard che si utilizza proprio per misurare quanto sono lontane le unità statistiche dalla media. In pratica, la deviazione standard sintetizza le deviazioni dalla media.
In questo articolo scoprirai quando utilizzare la deviazione standard, il suo significato, come calcolarla ed interpretarla. Inoltre, ti aiuterà a capire finalmente che differenza c’è tra deviazione standard e varianza e quando questi indici possono essere ingannevoli.
Che cos’è la deviazione standard?
La deviazione standard di una variabile è un indice riassuntivo delle differenze dei valori di ogni osservazione rispetto alla media della variabile.
Ogni osservazione ha infatti uno scostamento (detto anche scarto o deviazione) dalla media. Questo scostamento è pari a 0 se l’osservazione ha esattamente lo stesso valore della media. Lo scostamento sarà invece negativo se l’osservazione ha un valore più piccolo di quello della media. Al contrario, questo scostamento sarà positivo se l’osservazione ha un valore più grande di quello della media.
Tuttavia, la somma di tutti questi scostamenti non può essere utilizzata come misura di variabilità. Se si sommassero tutte le differenze, gli scostamenti negativi si compenserebbero esattamente con gli scostamenti positivi e la loro somma sarebbe pari a zero. Per definizione, infatti, la media corrisponde sempre al baricentro di una distribuzione.
Devianza: definizione
Per questo motivo per calcolare la deviazione standard si usano i quadrati degli scostamenti. Elevando al quadrato uno scostamento si ottiene infatti un numero positivo sia che lo scostamento sia positivo sia che sia negativo. Il quadrato permette infatti di sommare gli scarti negativi a quelli positivi senza che i segni influenzino il risultato rendendolo nullo. La somma di tutti gli scarti della media al quadrato prende il nome di devianza.
Varianza: definizione
La media delle deviazioni quadratiche prende il nome di varianza. Per come è costruita, la varianza è espressa nel quadrato dell’unità di misura utilizzata per la variabile.
Per esempio, se l’unità di misura della variabile è l’Euro, la varianza risulterà espressa in Euro al quadrato, una quantità di fatto non molto interpretabile dal punto di vista pratico.
Deviazione standard: definizione
Proprio perché interpretare il valore di un’unità di misura al quadrato non è semplice, si preferisce utilizzare la radice quadrata che ha la stessa unità di misura della variabile e della media. La radice quadrata con segno positivo della varianza è detta deviazione standard o scarto quadratico medio. In altre parole, varianza e deviazione standard sono entrambe misure di dispersione legate tra loro dal fatto che la varianza è pari al quadrato della deviazione standard.
Simbolo varianza e deviazione standard
Con la lettera s in statistica si indica la deviazione standard del campione. Il suo quadrato indica invece la varianza del campione.
Con la lettera greca sigma ci si riferisce invece alla popolazione: sigma indica la deviazione standard della popolazione e sigma quadro indica la varianza della popolazione.
Deviazione standard: significato
Il termine standard si riferisce al fatto che la deviazione calcolata rappresenta una distanza media, ovvero una distanza “tipica” di ogni singola osservazione dalla media.
Più c’è variabilità tra le osservazioni, più grandi sono gli scostamenti dalla media, maggiore è la somma dei quadrati e, quindi, più elevato è il valore dalla varianza e di conseguenza anche dallo scarto quadratico medio.
Per capirci meglio, nella tabella qui sotto ho riportato come esempio i valori relativi alla variabile quantitativa “numero di figli” per 3 diversi campioni (A, B e C), ognuno costituito da 7 individui.
Come puoi osservare dalla penultima riga della tabella, tutti e tre i campioni hanno la stessa media. Quello che varia è il valore dello scarto quadratico medio.
Deviazione standard nulla
Il valore minimo che può assumere la deviazione standard è zero. Come puoi vedere dalla tabella questa situazione si verifica per il campione A in cui tutti gli individui hanno lo stesso identico numero di figli. In particolare, in questo esempio nel campione A sono stati inclusi solo individui che hanno due figli e quindi non c’è alcuna variabilità tra i dati. In questo caso, più che di variabile sarebbe più opportuno parlare del “n. di figli” come di una costante.
Deviazione standard piccola
Nel campione B c’è una bassa variabilità: i valori non sono tutti uguali tra di loro, ma la deviazione standard è piccola rispetto al valore della media. I dati sono quindi poco sparsi intorno alla media: c’è chi ha 2 figli, chi ne ha 1 e chi ne ha 3 ma questi sono tutti valori vicini a quello della media (in questo caso pari a 2 figli).
Quando la deviazione standard è alta?
Il campione C è invece caratterizzato da una maggiore variabilità dei dati: c’è chi non ha nessun figlio e chi ne ha addirittura cinque. Questa ampia variabilità si riscontra anche nel valore della deviazione standard che risulta essere alta, ovvero maggiore rispetto a quella calcolata sul campione B.
Deviazione standard: quando si può utilizzare?
Lo scarto quadratico medio misura la dispersione rispetto alla media e dovrebbe essere usata soltanto quando la media è scelta come indice di posizione. E proprio come la media, si può utilizzare solo per variabili quantitative.
Ci sono poi delle situazioni in cui la media, e di conseguenza la deviazione standard, non è l’indice di posizione più indicato anche se la variabile è quantitativa. Questi due indici si calcolano considerando tutte le osservazioni che fanno parte del campione. Una forte asimmetria o la presenza di outliers possono far aumentare di molto il valore dello scarto quadratico medio e di conseguenza falsare i risultati dell’analisi. In queste situazioni potrebbe anche capitare che il valore della deviazione standard sia maggiore di quello della media. Non è un errore, ma semplicemente un’indicazione che le unità statistiche hanno valori molto diversi tra loro.
In questi casi, è preferibile utilizzare come media statistica la mediana. E utilizzare la deviazione standard in combinazione con la mediana non è una buona soluzione ed è preferibile ricorrere al calcolo del range interquartile come misura di variabilità.
In ogni caso, ricordati che gli indici numerici non rilevano la presenza di dati concentrati in un unico punto o di intervalli vuoti e possono pertanto essere ingannevoli. Due campioni possono avere per una variabile la stessa media e lo stesso scarto quadratico medio ma distribuzioni molto differenti tra loro. Per questo motivo ti consiglio sempre di rappresentare i dati anche graficamente. Nel caso di variabili quantitative, puoi utilizzare ad esempio l’istogramma oppure il boxplot.
Come si calcola la deviazione standard campionaria?
Lo scarto quadratico medio di un campione può essere calcolato molto velocemente utilizzando un qualsiasi software statistico, come SPSS o R, oppure con un foglio elettronico o anche con una semplice calcolatrice.
Calcolo scarto quadratico medio e varianza su Excel
Per effettuare i calcoli su Excel o Fogli Google non ti servirà neanche ricordare formule perché la deviazione standard e la varianza sono due funzioni già preimpostate: =DEV.ST() e =VAR()
Calcolo deviazione standard con la calcolatrice
Se devi invece fare il calcolo a mano, dovrai prima calcolare la varianza e poi fare la radice quadrata del numero ottenuto per ricavare il valore dello scarto quadratico medio.
Calcolo varianza campionaria
La varianza di un insieme di unità statistiche si ottiene in 3 passaggi:
- Prima si calcola la media della variabile.
- Poi si determina la devianza: si calcola la differenza di ogni osservazione dalla media e poi se ne calcola il quadrato. Infine si fa la somma di tutti le differenze al quadrato.
- Infine si divide per i gradi di libertà, che coincidono con la numerosità del campione meno uno, vale a dire n-1 invece che n. Quando si hanno i dati riferiti ad un’intera popolazione, invece che solo ad un campione, si sostituisce (n-1) con l’effettiva numerosità della popolazione (N).
Formula deviazione standard campionaria
La deviazione standard è la radice quadrata con segno positivo della varianza. La formula pertanto è:
Questa formula è composta da:
- una differenza al quadrato, ovvero gli scarti al quadrato di ogni singola osservazione dalla media
- una sommatoria, perché gli scarti al quadrato vanno tra loro sommati
- una divisione per n-1, perché la somma degli scarti al quadrato è divisa per il numero di osservazioni del campione meno 1. Ricordati che il “-1” è una caratteristica propria della deviazione standard campionaria e non è presente nella formula riferita alla popolazione.
- una radice quadrata, perché la deviazione standard è la radice quadrata con segno positivo della varianza campionaria, che è esattamente quello che hai calcolato sotto radice.
Come si interpreta la deviazione standard?
La deviazione standard è pari a 0 solo quando non c’è dispersione. Questa situazione si verifica solo quando tutte le unità statistiche hanno lo stesso valore. In tutti gli altri casi, è sempre maggiore di 0. Quanto più i valori sono lontani dalla media, tanto più la deviazione standard sarà grande.
Quando n=1 la deviazione standard è indefinita perché con una sola osservazione non ha senso calcolare la variabilità che prevede la presenza di almeno 2 osservazioni.
Deviazione standard: esercizio pratico
Ipotizziamo che ad un esame di inglese si sono presentati 100 studenti che hanno conseguito un punteggio medio di 26/30. Quale valore fra 0, 2 e 12 è più plausibile per la deviazione standard?
Soluzione esercizio sullo scarto quadratico medio
Uno scarto quadratico medio pari a zero è abbastanza inverosimile. Significherebbe infatti che tutti e 100 gli studenti hanno ottenuto il punteggio di 26 all’esame.
Anche una deviazione standard pari a 12 è inverosimile perché una distanza tipica di 26+12 è implausibilmente elevato. Per esempio, non si può conseguire un punteggio di 38 ad un esame il cui voto è espresso in trentesimi.
Ci si può invece aspettare di trovare una una deviazione standard pari a 2. In questo caso infatti la distanza tipica prevede che siano plausibili votazioni di 24 e di 28 che effettivamente sono possibili.
Proprietà della deviazione standard
Quando la distribuzione ha una forma a campana, lo scarto quadratico medio ha un’interpretazione più precisa:
- Il 68% circa delle osservazioni cade entro 1 ds dalla media.
- Il 95% circa delle osservazioni cade entro 2 ds dalla media.
- Il 99% circa delle osservazioni cade entro 3 ds dalla media.
Ricordati che questa regola empirica vale però solo per le distribuzioni con un solo picco (unimodali) e approssimativamente simmetriche con forma a campana. Quando la distribuzione è molto asimmetrica, l’osservazione più estrema in una delle due direzioni potrebbe non essere poi così lontana dalla media.
Nell’esempio precedente dell’esame universitario di inglese, il voto massimo (30) cade solamente entro 2 volte la deviazione standard dalla media (cioè 30=26+2*2). Al contrario, il voto minimo (18) cade a più di 3 deviazioni standard dalla media (cioè 18 è inferiore a 26-3*2=20). Questo accade perché la distribuzione dei voti dell’esame è fortemente asimmetrica a sinistra.
Non puoi quindi utilizzare questa interpretazione di ciò che lo scarto quadratico medio misura. In generale, la deviazione standard misura la distanza tipica delle osservazioni dalla media. E questa definizione vale per tutte le distribuzioni.
Nel caso invece di un caso particolare di distribuzioni con forma a campana, le distribuzioni normali, la regola empirica permette non solo di individuare quanta percentuale di osservazioni si trova ad 1, 2 o 3 deviazioni standard dalla media ma anche di poter calcolare la probabilità di distribuzione ad ogni distanza, semplicemente conoscendo la media e lo scarto quadratico medio della variabile.
E adesso?
Se vuoi scoprire cosa significano e quando si usano tanti altri termini statistici scarica subito questa guida gratuita di statistica.