La distribuzione normale è sicuramente la distribuzione statistica più conosciuta ed anche la più utilizzata nella vita di tutti i giorni. Ma che cosa si intende in pratica con questo termine, come si fa un test di normalità ed a cosa serve in un’analisi dati? Scoprilo in questo articolo.
Indice
Introduzione
La curva normale è usata continuamente in tantissimi ambiti diversi per produrre ed organizzare conoscenza: dalla medicina all’astronomia, dalla psicologia alle scienze motorie. Questo anche perché è la distribuzione che tipicamente si associa ai fenomeni casuali. Inoltre, per il teorema del limite centrale, ad essa tendono le altre distribuzioni quando il numero dei casi osservati diventa molto grande.
Questa distribuzione infatti permette di ottenere informazioni su tantissimi fenomeni che vengono misurati tramite delle variabili quantitative.
Per analizzare questa tipologia di variabile, ti consiglio sempre di partire dalle statistiche descrittive. Grafici ed indici numerici ti permettono infatti di farti fin da subito un’idea della distribuzione di una variabile, individuandone la forma, il centro e la dispersione. E, per descrive una distribuzione Normale, si fa riferimento, come vedremo, proprio a due di questi: la media e la deviazione standard.
Perché è importante capire come si distribuisce una variabile?
A volte però queste statistiche non bastano, soprattutto quando vuoi generalizzare i risultati ottenuti da un campione di osservazione alla popolazione.
Questo passaggio in statistica è chiamato inferenza e si fa sfruttando le proprietà di alcune funzioni teoriche di riferimento.
Infatti, soprattutto quando si lavora con campioni abbastanza numerosi, spesso l’andamento dei dati risulta talmente regolare da poterlo rappresentare con una semplice funzione matematica.
Una distribuzione teorica è ovviamente una rappresentazione idealizzata dei dati: riporta cioè un’immagine compatta della distribuzione di una variabile, che non tiene conto di irregolarità minori e possibili outliers.
Tuttavia, quando i dati presenti in un campione possono essere modellati attraverso una distribuzione di probabilità, si possono utilizzare le tecniche statistiche parametriche.
Per fare inferenza statistica
Infatti, è molto raro, per non dire impossibile, che una variabile abbia esattamente una distribuzione teorica come ad esempio la distribuzione normale. Tuttavia, la curva normale è un’approssimazione spesso abbastanza attendibile per poterla utilizzare per fare stime e previsioni, cioè proprio per fare inferenza.
Per ottenere più informazioni dalla deviazione standard
Inoltre, se una variabile ha una distribuzione approssimabile ad una normale, è possibile utilizzare la regola 68-95-99.7 per interpretarne la deviazione standard.
Per sfruttare le proprietà della distribuzione normale standard
Tutte le distribuzioni normali possono essere ricondotte ad una sola distribuzione: la distribuzione normale standard. Qualsiasi valore infatti può essere standardizzato attraverso un processo che viene detto standardizzazione.
Il vantaggio di utilizzare la distribuzione normale standard è il poter lavorare con gli z-score. Questo punteggio ti dice di quante deviazioni standard un dato valore dista dal valore medio della sua distribuzione.
Ad esempio, uno dei modi per individuare gli outliers univariati, ovvero relativi ad una singola variabile, è standardizzando i punteggi relativi alla variabile oggetto di studio. Vengono considerati come potenziali valori anomali quei punteggi che corrispondono an un valore standardizzato maggiore di 3 o minore di -3. A questo punto, valuta di quanto questi valori si discostano dagli altri:
- se sono casi molto isolati, allora probabilmente si tratterà di outliers
- se i punteggi sono vicini agli altri della distribuzione, allora probabilmente non saranno outliers.
Questo non è però l’unico approccio possibile per individuare gli outliers. Ad esempio, un altro metodo si basa sull’analisi visiva dei boxplot e sui Tukey Fences.
Esempio distribuzione Normale
Il grafico qui sotto rappresenta l’andamento di una variabile che si distribuisce secondo una Normale. L’asse orizzontale riporta i valori delle misurazioni effettuate. L’asse verticale invece ne indica la frequenza.
Il grafico che rappresenta la funzione di densità di probabilità associata alla distribuzione Normale ha sempre le caratteristiche di essere perfettamente simmetrico e di avere una forma a campana.
Nella distribuzione normale le osservazioni sono infatti più frequenti per i valori centrali della curva. Come puoi vedere dal grafico, le osservazioni diventano invece via via meno frequenti man mano ci si allontana dal centro della distribuzione. Le osservazioni più lontane dal centro corrispondo quindi ai valori più rari, quelli che si verificano con minore frequenza.
Curva degli errori accidentali
La curva normale è anche detta curva degli errori accidentali perché rappresenta il modello distributivo di tali fenomeni. Il nome “normale” deriva dal fatto che rappresenta la norma dei modelli distributivi di molti fenomeni con hanno un andamento analogo a quello degli errori accidentali.
Ad esempio, ti è mai capitato di pesare più volte la stessa quantità di farina su una bilancia da cucina ed ottenere delle misurazioni leggermente diverse tra loro? Questi errori di misurazione potrebbero essere dovuti ad un malfunzionamento dello strumento, ad una anomalia di lettura, ad un disturbo esterno oppure ad altre cause che possono provocare oscillazioni intorno alla misura esatta del peso.
Curva di Gauss
Un altro termine che viene spesso utilizzato per indicare una curva normale è curva di Gauss, o curva gaussiana, anche se in realtà non è stata scoperta da Gauss.
Il termine “gaussiana” deriva dal fatto che nel 1809 Gauss sia stato il primo a ricavare la formula di tale distribuzione nell’ambito dei suoi studi sulle curve di errore nelle traiettorie degli asteroidi. Per questo motivo la curva normale è anche chiamata curva degli errori accidentali.
Per farti capire quanto è forte il binomio tra Gauss e la distribuzione normale ti basti sapere che, prima dell’avvento dell’euro, il ritratto di Gauss con accanto il disegno e la formula di una normale compariva su tutte le banconote da 10 marchi tedeschi.
Origine della distribuzione normale
L’origine della distribuzione normale si fa però risalire ad una pubblicazione del 1733 ad opera del matematico Abraham De Moivre, forse più famoso per la leggenda secondo cui avesse predetto con esattezza la data della sua morte.
De Moivre, nei suoi studi sul gioco d’azzardo, fu infatti il primo ad accorgersi che la distribuzione binomiale per grandi numerosità assumeva una forma a campana.
Proprio quella tipica campana che caratterizza la distribuzione normale è il motivo per cui ancora oggi, la distribuzione binomiale si approssima ad una normale quando n*p ed n*(1-p) sono entrambi almeno uguali a 5.
Devi sapere però che né De Moivre né Gauss hanno mai utilizzato il termine “normale” per riferirsi alla distribuzione a campana che stavano studiando. La prima pubblicazione in cui si parla di “distribuzione normale” risale infatti al 1873, quando entrambi erano già passati a miglior vita.
Insomma, è trascorso un secolo e mezzo da quando De Moivre ha per prima studiato la forma di questa distribuzione a quando è stata ufficialmente battezzata come “distribuzione normale”. Nel mezzo, ci sta la scoperta della sua formula da parte di Gauss.
Che cosa si intende con “normale”?
L’aggettivo “normale” non ha sempre assunto il significato che gli attribuiamo ora. Il termine deriva infatti dal latino “norma”, che indicava la squadra, intesa come lo strumento a forma di triangolo rettangolo che sicuramente ti sarà capitato di utilizzare a scuola.
L’associazione tra questo aggettivo e il suo significato odierno è avvenuta nella prima metà del 1800, quando l’astronomo e statistico Adolphe Quetelet decise di applicare i criteri con cui venivano effettuate le misurazioni astronomiche allo studio dell’essere umano e della società.
In astronomia era infatti comune che più misurazioni effettuate su uno stesso corpo celeste (ad esempio, il calcolo della distanza) dessero risultati leggermente diversi tra loro. Partendo dall’idea di ‘distribuzione degli errori’, da cui era stata derivata la formula della distribuzione Normale, Quetelet iniziò a pensare anche all’individuo come ad un oggetto tanto più imperfetto quanto più si discostava da un valore ideale frutto di una media statistica: l’uomo medio.
Seguendo questo approccio, Quetelet realizzò statistiche su molte caratteristiche fisiche e psichiche degli individui: dalla moralità al tasso di suicidi, dal matrimonio ai crimini. Fu inoltre lui a inventare quello che chiamò ‘indice Quetelet’ e che oggi conosciamo come BMI o Indice di Massa Corporea. A questa sua “passione” per trovare la media di ogni fenomeno si deve la nascita dell’idea attuale di normalità relativa all’individuo e alla società.
La formula della distribuzione normale
La formula matematica che descrive la distribuzione normale può apparire piuttosto complessa:
Tuttavia, a livello pratico, quello che ci dice questa equazione è semplicemente che per poter disegnare una distribuzione normale è sufficiente conoscerne due valori:
- deviazione standard
- media
Tutte le curve normali sono definite infatti in base a questi parametri. Modificando tali valori si ottengono quindi curve di forma e posizione differente.
I parametri di una distribuzione normale: media e deviazione standard
La forma più o meno appuntita della distribuzione normale dipende dal valore della deviazione standard.
Una deviazione standard elevata indica che la variabilità dei dati è alta. Questo fa si che le code della distribuzione siano più alte e la parte centrale più bassa. Si avrà quindi una curva più piatta al centro e larga ai lati.
Una deviazione standard piccola invece indica che c’è poca variabilità tra i dati. In questo caso le code della distribuzione sono invece basse e la parte centrale sarà più alta. Si avrà quindi una curva più appuntita al centro e stretta ai lati.
La posizione della curva sull’asse orizzontale invece dipende dal valore della media. A parità di deviazione standard, una distribuzione con media minore sarà quindi più spostata verso sinistra rispetto ad una come media maggiore.
Ad esempio, la distribuzione normale standardizzata è una distribuzione normale caratterizzata dal fatto di avere sempre la media pari a 0 e la deviazione standard pari a 1.
Distribuzione normale: cosa vuol dire in pratica?
La curva normale è caratterizzata da un solo picco, ovvero da una sola moda. Inoltre, questa curva risulta essere perfettamente simmetrica con una forma a campana.
Per questi motivi la curva normale ha la particolare caratteristica di avere il valore della media che coincide esattamente con il valore della mediana e della moda.
Questa caratteristica è molto importante in statistica. Quando una distribuzione è normale si può utilizzare un test parametrico. Quando invece la distribuzione non è normale è necessario utilizzare un test non parametrico. Ad esempio, il test t, il test F e le analisi di regressione richiedono di verificare se le distribuzioni sono approssimabili ad una normale.
Quando una distribuzione è normale?
Per riconoscere se una distribuzione è normale puoi basarti su:
- Grafici, come l’istogramma, il boxplot o il grafico dei quantili
- Indici descrittivi, come l’asimmetria e la curtosi
- Test di normalità, come Shapiro-Wilk o Kolmogorov-Smirnov
Istogramma
Una variabile ha una distribuzione gaussiana se il suo istogramma risulta essere simmetrico. Le barre che lo compongono devono poi diminuire in modo uniforme passando dal centro ai lati del grafico. Inoltre, non ci devono essere né grandi spazi vuoti tra le barre né evidenti outliers.
Boxplot
Per indagare ancora meglio la presenza di outliers, puoi disegnare un boxplot. Questo grafico infatti ti segnala con dei punti o degli asterischi (a seconda del software) i possibili outliers.
Grafico dei quantili o q-q plot
Il grafico dei quantili, detto anche q-q plot, è un grafico a dispersione che ti permette di confrontare i quantili della variabile osservata con quelli di una distribuzione normale. Se la variabile ha una distribuzione normale, i punti saranno vicini alla linea che indica la diagonale.
Indici di asimmetria e curtosi
Una curva normale ha indici di asimmetria e curtosi nulli. Quindi se la variabile che stai analizzando ha dei valori molto alti, in valore assoluto, di questi indici significa che sicuramente la distribuzione di quella variabile non sarà normale.
Test di normalità
Tra i test più utilizzati per verificare se una distribuzione è approssimabile ad una normale ci sono:
- Shapiro-Wilk, che è preferibile per campioni di piccole dimensioni
- Kolmogorov-Smirnov, che invece si utilizza per campioni più numerosi
Test normalità su Excel, SPSS ed R
Entrambi questi test sono disponibili su tutti i software statistici, come SPSS ed R, per cui è molto facile calcolarli. Su Excel invece non c’è una funzione specifica e quindi dovrai ricorrere alle formule per poter ricavare i risultati di questi due indici.
In ogni caso, se scegli di utilizzare un test di normalità, fai sempre attenzione alla numerosità campionaria. Infatti, quando si hanno campioni molto numerosi, questi test tendono a rifiutare l’ipotesi nulla di normalità distributiva anche quando in realtà la variabile ha una distribuzione approssimativamente normale. Se questa è la tua situazione, è preferibile valutare la normalità attraverso dei grafici come il q-q plot.
Distribuzione normale: e adesso?
Scarica la guida gratuita di statistica: al suo interno troverai tante altre definizioni pratiche ed esempi dei principali strumenti che si utilizzano per effettuare un’analisi dati.