Le analisi esplorative dei dati e la statistica descrittiva sono il primo passaggio importante da fare quando si deve realizzare un’elaborazione statistica. In poco tempo ti permettono di farti un’idea realistica di come i dati sono organizzati e su cosa hanno da dirti. Inoltre, ti aiutano ad individuare valori anomali ed errori. Sono anche molto utili per studiare le relazioni tra le variabili. Insomma, sono indispensabili se per condurre una qualsiasi analisi statistica, dal livello base a quello avanzato, in modo corretto.
Indice
Introduzione
Hai definito gli obiettivi della tua ricerca, individuato la popolazione di riferimento, scelto il tipo di campionamento, raccolto i dati ed li hai anche inseriti in una tabella. E adesso puoi finalmente iniziare ad analizzarli. Ma come?
L’analisi dei dati può essere finalizzata a descrivere fenomeni già conosciuti oppure a scoprire nuove informazioni. E spesso entrambe le situazioni si verificano nella stessa indagine statistica. Nel primo caso si parla di analisi descrittiva. Nel secondo caso, invece, si parla di analisi esplorativa dei dati
Questa distinzione, seppur importante a livello teorico, nella pratica è più fumosa perché spesso entrambe le situazioni si verificano contemporaneamente nella stessa indagine statistica e le metodologie di analisi che si utilizzano sono molto simili.
Cosa si intende per analisi esplorativa?
L’analisi esplorativa dei dati (in inglese Exploratory Data Analysis o EDA) si pone l’obiettivo di esplorare i dati, alla ricerca di nuove informazioni e relazioni.
Cosa si intende per statistica descrittiva?
La statistica descrittiva è invece la branca della statistica che ha come obiettivo quello di descrivere, rappresentare e sintetizzare le caratteristiche di un campione o di una popolazione.
Con il termine statistica descrittiva si intende infatti un insieme di tecniche e strumenti finalizzati a “raccontare” in maniera opportuna un insieme di un’unità statistiche relativamente ad un certo fenomeno.
In altre parole, la statistica descrittiva serve a capire le caratteristiche proprie della variabili e delle unità statistiche oggetto di analisi.
Che differenza c’è tra statistica descrittiva e induttiva?
La statistica descrittiva si differenzia dalla statistica induttiva (inferenziale e bayesiana) in quanto nel primo caso i risultati ottenuti si basano su valori effettivi mentre nel secondo su stime.
Variabili qualitative o quantitative?
Come prima cosa, devi capire quale è la scala di misura delle variabili presenti nel tuo dataset. Le analisi da fare sono infatti diverse a seconda che le variabili siano qualitative o quantitative.
Le variabili quantitative contengono dei valori numerici, come i conteggi e le grandezze fisiche. L’età (in anni compiuti), il peso (in kg), la temperatura (in gradi), il numero di posti letto in un ospedale o il numero di figli sono tutte variabili quantitative.
Le variabili qualitative sono invece costituite da diverse modalità. Il colore di accesso al pronto soccorso, il genere, il titolo di studio e lo stato civile sono tutti esempi di variabili qualitative.
Entrambe le tipologie di variabile si possono poi suddividere ulteriormente in sotto classificazioni. Tuttavia, questa suddivisione in qualitative e quantitative è già sufficiente per la maggior parte delle analisi esplorative.
Ci sono valori mancanti?
La prima analisi da fare è poi calcolare quanti sono in percentuale i valori mancanti per ogni variabile, sia che sia qualitativa sia che sia quantitativa. Una variabile che ha tantissimi valori mancanti infatti spesso non può essere utilizzata così come è per le successive analisi ma sarà necessario prima effettuare un trattamento dei dati mancanti.
Sintesi dei dati
Sia per effettuare un’analisi esplorativa che descrittiva dei dati puoi partire infatti dalle analisi univariate, cioè da quelle analisi che si effettuano sulle singole variabili del tuo dataset. E, solo dopo averle completate, ti consiglio di passare alla analisi bivariate per mettere in relazione due variabili alla volta.
Quali sono i principali indicatori di statistica descrittiva?
I dati rilevati su un’intera popolazione o su un suo sottoinsieme (campione) possono essere sintetizzati a livello numerico attraverso diverse tipologie di indici:
- indici di posizione (detti anche indici di tendenza centrale)
- indici di variabilità
- indici di forma
- coefficienti di relazione tra più variabili
A livello grafico, la descrizione delle variabili può avvenire invece attraverso diagrammi quali:
- grafico a torta
- grafico a barre
- istogramma
- grafico a scatole e baffi (boxplot)
- grafico a dispersione (per coppie di variabili)
Probabilmente molti di questi grafici ed indici li conosci già. Ma forse quello che ti manca è proprio una visione d’insieme per capire cosa utilizzare e come si interpretano i risultati. Oppure sei all’inizio, e per te sono tutti termini nuovi. In ogni caso ti consiglio poi anche di scaricarti questa guida gratuita di statistica che sono sicura ti tornerà molto utile!
Analisi univariata
Per le variabili quantitative puoi iniziare calcolando il valore minimo e massimo, così da individuare eventuali valori errati. Ad esempio, un’età negativa oppure un numero di figli superiore a 100.
Costruisci poi un istogramma ed un boxplot (detto anche diagramma a scatola e baffi). Questi grafici ti aiuteranno a farti un’idea della forma della distribuzione.
A questo punto calcola gli indici di forma (asimmetria e curtosi) così da poter valutare la forma della tua distribuzione in modo più oggettivo. Più questi indici si avvicinano a 0 più la distribuzione della variabile è sovrapponibile a quella di una Normale e pertanto è simmetrica e senza outliers.
Puoi quindi passare a calcolare gli indici di posizione, scegliendo la media statistica più appropriata in base al tipo di variabile ed alla sua distribuzione.
Se la distribuzione risulta simmetrica e non ci sono outliers, puoi poi procedere calcolando una media analitica e la deviazione standard.
Se invece la distribuzione è fortemente asimmetrica o ci sono degli outliers, ti consiglio di utilizzare come indici descrittivi numerici la mediana ed il range interquartile (dato dal terzo quartile meno il primo quartile).
Per le variabili qualitative crea invece delle tabelle di frequenza in cui potrai riportare le modalità sia come frequenza assoluta che percentuale. Se ci sono delle modalità con frequenza molto bassa puoi anche decidere di raggrupparle insieme così da aumentare la numerosità delle modalità.
In questo caso come rappresentazioni grafiche puoi utilizzare i diagrammi a torta o ancora meglio i grafici a barre.
Analisi bivariata
Due variabili quantitative
Se entrambe le variabili sono quantitative puoi partire costruendo un diagramma a dispersione e poi eventualmente calcolare l’indice di correlazione. Ad esempio, puoi utilizzare questa procedura per valutare se c’è una relazione tra età e peso.
Due variabili qualitative
Quando entrambe le variabili sono qualitative puoi costruire una tabella di contingenza in cui riporterai le modalità di una variabile sulle righe e le modalità dell’altra variabile sulle colonne. Ad esempio, puoi creare una tabella di contingenza per valutare la relazione tra il titolo di studio e le risposte su scala Likert ad una determinata domanda di un questionario.
Come grafici puoi utilizzare ad esempio i grafici a pila.
Una variabile qualitativa ed una variabile quantitativa
L’ultima combinazione riguarda invece il caso in cui una variabile sia qualitativa mentre l’altra sia quantitativa. In questo caso puoi calcolare per la variabile quantitativa gli indici descrittivi numerici che abbiamo visto prima (media e deviazione standard oppure mediana e range interquartile) per ogni modalità della variabile qualitativa.
Ad esempio, puoi calcolare il peso medio (e la relativa deviazione standard) sia per i maschi che per le femmine.
Come nel caso univariato, come grafico ti consiglio il boxplot. In questo caso però avrai un boxplot per ogni modalità della variabile qualitativa.
E adesso?
Ovviamente ci sono molti altri approcci grafici e numerici che si possono utilizzare per descrivere le variabili. Ma le procedure indicate sono sufficienti per presentare le statistiche descrittive nella maggior parte delle tesi di laurea e degli articoli scientifici.
E se hai dei dubbi su come effettuare le analisi o su come interpretare i risultati, puoi contare sul supporto fornito dalla consulenza statistica check-up: veloce, economica e super pratica.