Analisi dati con Excel per variabili quantitative

19 Dicembre 2020 | Analisi dati

Gli indici descrittivi numerici ti aiutano a riassumere le informazioni contenute nelle variabili di tipo quantitativo ed a farti un’idea generale di come si distribuiscono i tuoi dati. In questo articolo scoprirai come effettuare un’analisi dati calcolando velocemente tutte queste misure di statistica descrittiva con un’unica funzione di Excel.

Analisi dati su Excel

Come forse già saprai, Excel non nasce come software statistico. Tuttavia, negli anni sono state sempre più incrementate al suo interno le funzioni che permettono di calcolare su un insieme di dati tutte le principali statistiche di base.

In particolare, per le variabili quantitative con Excel è possibile calcolare tutti i principali indici descrittivi numerici. Questa operazione si può effettuare sia utilizzando le singole funzioni di calcolo di media, mediana, deviazione standard e così via. Ma anche in modo più veloce con un unico passaggio.

In questo articolo ti mostrerò proprio come calcolare queste statistiche descrittive più velocemente utilizzando uno strumento specifico di Excel per l’analisi dei dati. Inoltre, ti aiuterò a capire come interpretare i risultati e quali sono, in base ai tuoi dati ed ai tuoi obiettivi di ricerca, quali gli indici che ha più senso riportare in un elaborato o in una presentazione.

Strumento analisi dati di Excel

Come prima cosa, apri Excel, clicca nel menù in alto su Dati e verifica se tutto a destra nel sottomenù è presente la voce Analisi dati.

Se così non fosse, significa che devi prima installare gratuitamente questo componente aggiuntivo sul tuo Excel.

Come installare lo strumento di analisi dati su Excel

Se hai Windows, nel menù in alto di Excel, clicca su File, quindi su Opzioni ed infine seleziona la categoria Componenti aggiuntivi. Si aprirà una nuova finestra che permette di visualizzare e gestire i componenti aggiuntivi di Office. Tutto in basso troverai la voce Gestisci. Verifica che sia selezionato Componenti aggiuntivi di Excel e quindi fai clic su Vai.

Se invece stai usando Excel per Mac, nel menù File passa a Strumenti > Componenti aggiuntivi di Excel

A questo punto, sia se stai utilizzando Windows che Mac, nella nuova finestra di dialogo che ti comparirà metti la spunta su Strumenti Analisi e poi clicca su OK.

Nel caso Strumenti di analisi non fosse incluso nell’elenco Componenti aggiuntivi disponibili, fai clic su Sfoglia per trovarlo e selezionarlo. A questo punto cliccando nel menù in alto di Excel su Dati, nel sottomenù dovrebbe essere comparsa la voce Analisi dati.

Statistica descrittiva su Excel

Una volta installato lo strumento di analisi dati su Excel ed aver aperto il foglio dove sono registrati i dati che vuoi analizzare, per calcolare velocemente tutti i principali indici descrittivi numerici ti basterà cliccare su Dati, poi su Analisi Dati e quindi mettere una spunta su Statistica descrittiva e cliccare su OK.

Si aprirà una nuova finestra in cui dovrai indicare le caratteristiche dei dati su cui vuoi calcolare queste statistiche descrittive.

Ecco come compilare le varie voci:

Input

Nel foglio Excel, seleziona le righe (ovvero le unità statistiche) e le colonne (ovvero le variabili quantitative) del tuo dataset su cui vuoi calcolare questi indici descrittivi numerici. Includi nella selezione anche la prima riga del dataset, contenente i nomi delle variabili. Il range di celle che selezionerai verrà riportato nella cella bianca a fianco di Intervallo di input. Se selezioni più colonne, verrà effettuata un’analisi univariata per ogni singola colonna/variabile del tuo dataset.

Ad esempio, supponiamo che abbia chiesto l’età in anni compiuti ad un gruppo di 40 individui e che tu voglia calcolare le principali statistiche descrittive per questa variabile.

Se hai registrato i dati su Excel seguendo la procedura spiegata in questo articolo sulla costruzione del dataset, dovresti avere tutti i valori di questa variabile racchiusi in una colonna del tuo foglio di calcolo.

Ipotizziamo che i valori della variabile età sono contenuti nella colonna C del tuo foglio di lavoro. Allora il range da selezionare sarà quello da C1 (dove è presente il nome della variabile) e C41 dove è presente il valore dell’età per l’ultimo individuo incluso nel campione.

In Dati raggruppati per lascia selezionata l’opzione Colonne. Per convenzione infatti di solito le variabili si inseriscono sempre sulle colonne mentre le righe rappresentano le unità statistiche. Se nel tuo caso fosse il contrario, allora puoi selezionare l’opzione Righe.

Metti la spunta su Etichetta nella prima riga. Questa opzione ti aiuterà ad interpretare più facilmente l’output, soprattutto se hai selezionato più variabili.

Output

In Opzioni di output, puoi decidere dove vuoi visualizzare le statistiche descrittive. Io ti consiglio di cliccare su Nuovo Foglio di lavoro. In questo modo avrai l’output nello stesso file ma in un foglio separato rispetto a quello dove hai il tuo dataset. Nella cella a fianco di Nuovo Foglio di lavoro, puoi inserire il nome che vuoi attribuire a questo nuovo foglio: ad esempio, Statistiche.

Metti quindi la spunta su Riepilogo statistiche. In questo modo potrai visualizzare nell’output tutte le principali statistiche descrittive.

Se vuoi, puoi anche richiedere il calcolo dell’intervallo di confidenza della media. Se metti la spunta su questa opzione, puoi anche impostare il livello di confidenza per la media. Questa voce si riferisce però già alla statistica inferenziale e non rientra nelle statistiche descrittive di base. Per cui per un’analisi statistica di base non è indispensabile.

Anche le ultime due voci K-esimo più grande e K-esimo più piccolo sono opzionali. Queste due opzioni ti possono essere però utili per individuare eventuali valori anomali. Ad esempio, se inserisci in entrambe le celle bianche a lato di K-esimo più grande e più piccolo il valore 1, otterrai indicato nell’output quale è il valore minimo e massimo di ogni variabile. Se inserisci 2, Excel ti mostrerà nell’output invece quale è il secondo valore più piccolo e più grande per ogni variabile selezionata.

Una volta sistemate tutte le impostazioni, clicca su OK.

Analisi dei dati su Excel: come interpretare i risultati

Una volta impostate tutte le opzioni nella finestra Statistica Descrittiva e cliccato su OK, Excel aprirà il nuovo foglio di lavoro con l’output, che dovrebbe essere simile a questo:

Al suo interno troverai molte informazioni utili, tra cui:

Misure di tendenza centrale: Moda, Media e Mediana

Se la distribuzione è Normale, o comunque perfettamente simmetrica, queste tre misure coincideranno tra loro. Se invece la distribuzione è anche solo leggermente asimmetrica, ci saranno invece delle differenze nei valori di queste tre misure. In genere, per le variabili quantitative si preferisce riportare il valore della media quando è molto simile a quello della mediana, ovvero nei casi in cui la distribuzione è abbastanza simmetrica.

Si riportano invece entrambi (sia media che mediana) quando i due valori sono abbastanza diversi tra loro, ovvero quando c’è molta asimmetria nella distribuzione.

In generale, ricordati poi che la media è un indicatore meno robusto della mediana in quanto la media è influenzata dai valori anomali, soprattutto per campioni di piccole dimensioni e/o in caso di outliers molto estremi. Se non vuoi che i tuoi risultati risentano di tali valori anomali, allora è preferibile riportare la mediana invece che la media.

La moda invece di solito non si riporta per variabili quantitative. Spesso per le variabili quantitative Excel non riporta neanche tale valore, che sostituisce con la dicitura N/A. Questo avviene quando ogni valore è unico e non ci sono due unità statistiche che hanno esattamente lo stesso valore per la variabile che stai analizzando.

Misure di variabilità: deviazione standard, varianza campionaria, intervallo

Quando si descrive una variabile quantitativa, è sempre buona norma associare agli indici di tendenza centrale degli indici di variabilità. Queste misure forniscono un’indicazione sommaria di quanto i valori delle singole unità statistiche sono vicine o lontane dal centro della distribuzione.

In generale, ti consiglio di riportare la deviazione standard quando scegli di utilizzare la media come indice di posizione. Rispetto alla varianza, la deviazione standard infatti ha la stessa unità di misura della media e quindi è più semplice da interpretare.

Se invece scegli la mediana, allora è meglio far riferimento all’intervallo. Tuttavia, in questo caso ti consiglio di preferire l’intervallo interquartile a quello assoluto che presenta Excel. L’intervallo è infatti la differenza tra valore massimo e valore minimo (detto anche range assoluto) ma, proprio per questa caratteristica di considerare gli estremi, risente dei valori anomali. L’intervallo interquartile, che puoi calcolare come differenza tra terzo e primo quartile, esclude invece i valori estremi e quindi è una misura più robusta.

Misure di forma: asimmetria e curtosi

Più questi due indici sono diversi da zero, più significa che la distribuzione della variabile che stai analizzando si allontana dalla normalità. Puoi utilizzarli quindi per farti una prima idea della forma della tua distribuzione. In ogni caso, per poter decidere in modo più oggettivo se una distribuzione può essere considerata normale o meno ti consiglio di affidarti anche ad altri analisi sia grafiche (ad esempio, i boxplot) sia numeriche (ad esempio, i test di normalità).

Minimo e massimo

Il numero più basso e più alto assunto dalle tue unità statistiche per la variabile oggetto di studio ti permette di capire il range di valori in cui ricade il tuo campione.

Ad esempio, se il tuo obiettivo era analizzare un campione composto da individui maggiorenni ma nella pratica hai estratto delle persone con un’età compresa tra 18 e 50 anni, allora non potrai fare assunzioni o generalizzare i risultati anche per la popolazione anziana. Questi due valori ti aiutano anche ad identificare outliers ed errori di imputazione. Se trovi una persona che ha un valore negativo per l’età o pari a 200 sarà necessariamente un errore.

Somma e Conteggio

La somma è semplicemente la somma di tutti i valori della variabile. Nella maggior parte dei casi non è un’informazione particolarmente utile livello pratico e pertanto e la puoi tralasciare. Il conteggio invece ti dice quanti sono i valori presenti per quella variabile. Puoi quindi utilizzare questo dato per vedere se ci sono dati mancanti.

Precisione della media: errore standard ed intervallo di confidenza

Queste due misure valutano quanto precisamente la media del campione stima la media della popolazione. Parlando di stima, fanno riferimento alla statistica inferenziale e pertanto non sono delle misure di statistica descrittiva e non si possono sempre applicare ai dati. Ad esempio, sarebbe meglio non utilizzarle quando si ritiene che il campione, per le sue caratteristiche, non sia rappresentativo dell’intera popolazione che si voleva indagare in partenza.

In generale, non è necessario quindi che riporti queste misure nei risultati se hai deciso di valutare il campione sono da un punto di vista descrittivo.

In ogni caso, quando ha senso utilizzarlo, l’errore standard della media corrisponde con la deviazione standard della distribuzione campionaria delle media. Più il valore è piccolo, più significa che il campione fornisce una stima precisa del valore media nella popolazione.

L’intervallo di confidenza invece indica l’estremo inferiore e superiore di un range di valori in cui è probabile, con un certo grado di confidenza (di solito 95%), che si trovi il valore medio della popolazione. Anche in questo caso, più l’intervallo è piccolo più significa che la stima della media è precisa. Excel non fornisce direttamente l’estremo inferiore e superiore ma la quantità che deve essere aggiunta e sottratta alla media per calcolarli.

Ad esempio, se la media dell’età è 58 ed la quantità da sottrarre/sommare è 3, significa che l’intervallo di confidenza al 95% per la media andrà da 55 (ovvero 58-3) a 61 (58+3).

Analisi statistica dei dati su Excel: e adesso?

Se vuoi approfondire gli indici descrittivi numerici puoi scaricare questa guida statistica gratuita. Buona lettura!

Articoli correlati

Tabella di contingenza

Tabella di contingenza

Per tabella di contingenza si intende una tabella a doppia entrata che mette in relazione, calcolandone le frequenze congiunte, le modalità di due variabili.

leggi tutto
Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.