Come si costruisce un dataset? Nella fase di progettazione di un’indagine statistica, è importante avere ben chiaro come raccogliere i dati. Ma anche decidere come saranno poi registrati in modo strutturato. In questo articolo scoprirai passo passo come realizzare una corretta tabella dati su Excel che ti permetta ad elaborare le informazioni raccolte più velocemente.
Indice
Introduzione
Per poter effettuare un’analisi statistica, è necessario che i dati raccolti siano organizzati secondo una determinata struttura. Non c’è un’unica regola su come questi dati dovrebbero essere sistemati, ma uno dei metodi più utilizzati è quello di incasellarli in una tabella denominata dataset.
Quando in statistica si parla di costruzione di un dataset si intende infatti la fase di registrazione in una tabella dati tutte le caratteristiche (le variabili statistiche) che si vogliono analizzare su un insieme di unità statistiche (il campione).
Che differenza c’è tra dati strutturati e non strutturati?
Il termine dataset indica una collezione strutturata di dati. Quando si progetta una raccolta dati o se ne analizza il risultato, una delle prime cose da fare è capire la struttura dei dati.
Dati strutturati
Si dice che i dati sono strutturati quando sono organizzati in modo ordinato in una struttura a righe e colonne. Ogni riga rappresenta un’unica osservazione e ogni colonna descrive una caratteristica di tale osservazione. Questo è proprio il caso del dataset.
Se ci fai caso, tutti i fogli elettronici, come Excel o Fogli Google, e tutti i software di statistica, come SPSS o R, hanno una struttura preimpostata a righe e colonne. Questo perché la maggior parte delle analisi statistiche possono essere effettuate solo su dati strutturati. Anche le risposte ai questionari che puoi costruire gratuitamente online con Moduli Google o altri strumenti sono in automatico registrate in una griglia a righe e colonne.
Partire fin da subito impostando un dataset ben strutturato ti permetterà di risparmiare molto tempo e di realizzare con maggiore facilità un’analisi statistica corretta.
Dati non strutturati
I dati non strutturati invece sono dati non organizzati, normalmente numeri sparsi, testo o audio grezzo o segnali che devono essere analizzati meglio per poter essere organizzati. Esempi di dati non strutturati sono le risposte ad una domanda a risposta aperta in un questionario. Oppure la trascrizione di quanto dichiarato in un’intervista. O ancora i turni di lavoro riportati in forma sparsa su un foglio.
In questi casi, è necessario procedere con delle tecniche di pre-analisi che permettono di dare una struttura almeno parziale ai dati raccolti. Ad esempio, contando il numero di parole o frasi presenti all’interno del testo. Oppure, individuando la presenza di determinati caratteri speciali come il punto interrogativo o il punto esclamativo. O ancora individuando il tema degli argomenti trattati.
Tabella dati, tabella pivot, dataset, database: che differenza c’è?
Tabella dati: significato
Con il termine tabella si intende genericamente una griglia costituita da un determinato intervallo di celle. La tabella nella maggior parte dei casi comprende un’intestazione per le colonne. In alcuni casi, anche le righe possono avere una loro intestazione.
Dataset: significato
Il dataset è una forma particolare di tabella in cui le variabili sulle colonne e le unità statistiche sulle righe.
Tabella pivot: significato
La tabella pivot è un tipo particolare di tabella che si può creare con Excel per realizzare dei report. Permette di combinare i dati presenti in un dataset in tanti modi diversi, individuando relazioni e calcolando dati di riepilogo.
Per esempio, con una tabella pivot puoi calcolare le frequenze di una variabile ed incrociare due o più variabili dei dati creando una tabella a doppia entrata.
Database: significato
Il termine database invece è più generico e si riferisce alla “base di dati”, ovvero a tutti i dati che si hanno a disposizione riguardo un certo progetto. Un database può essere quindi composto da uno o più dataset collegati tra loro in base ai valori di determinate variabili. Ad esempio, potresti avere un dataset con le informazioni anagrafiche dei dipendenti di un’azienda ed un altro dataset con le informazioni sui turni di lavoro effettuati da ciascun dipendente. In questo esempio, i due dataset potrebbero essere collegati tra loro attraverso una variabile di identificazione univoca dei dipendenti come il codice fiscale o la loro matricola.
Come fare una tabella dati su Excel
Excel fa parte di una categoria di software spesso identificati con il termine inglese spreadsheet. In italiano: foglio elettronico. La caratteristica principale di questo programma è infatti quella di essere strutturato da fogli composti da celle allineate per righe e per colonne. Di seguito troverai un esempio di come costruire un dataset utilizzando proprio questa struttura.
Esempio costruzione dataset
Qui sotto trovi un esempio di un dataset costruito su Excel partendo da 6 diverse caratteristiche (variabili) raccolte su un insieme di 10 unità statistiche ed il metodo in 4 step che puoi utilizzare anche tu per costruire il tuo dataset.
Codice identificativo univoco: STEP 1
Nella prima colonna scrivi un codice identificativo univoco per ogni singola unità statistica che fa parte del campione che stai analizzando.
In questo esempio, nella prima colonna, denominata “ID”, ho riportato in modo progressivo e non ripetuto i numeri compresi da 1 a 10 perché il campione è composto da 10 unità statistiche. Se il campione è composto da 50 unità statistiche, dovrai riportare i numeri compresi da 1 e 50. Questi numeri ti permetteranno di identificare velocemente le singole unità statistiche senza dover riportare dati sensibili (come il nome e cognome oppure il codice fiscale) all’interno del dataset.
Nomi delle variabili: STEP 2
Nella prima riga della tabella scrivi i nomi delle variabili che vuoi analizzare, una variabile per ogni colonna.
In questo esempio, nella prima cella in alto a sinistra ho scritto “ID”, perché la prima colonna si riferisce proprio ai dati relativi all’ID. Nella cella a fianco a destra ho scritto “Sesso” perché in questa colonna sono riportare le informazioni riguardo al genere dei partecipanti allo studio. Nella terza cella in alto ho scritto “Livello di istruzione” perché in questa colonna sono riportare le informazioni relative al titolo di studio conseguito da ogni singola unità statistica inclusa nel campione. E così via fino all’ultima variabile.
Profilo delle unità statistiche: STEP 3
Dalla seconda riga in poi della tabella, riporta riga per riga i profili delle singole unità statistiche. In pratica, su ogni riga devi scrivere, cella per cella, seguendo l’ordine di inserimento delle variabili, tutte le caratteristiche che si riferiscono ad una singola unità statistica.
In questo esempio, la riga evidenziata riporta tutti i dati relativi al profilo dell’unità statistica a cui è stato attribuito come codice identificativo l’ID=3. I dati contenuti su questa riga ci dicono che l’ID=3 è una donna (Sesso=F), è laureata (Livello di istruzione=Laurea), non sappiamo se ha figli (N.figli=MD, ovvero dato mancante) ma sappiamo che ha 21 anni (Età=21) e che non è una fumatrice (Fumatore=No)
Codifica dati mancanti: STEP 4
Infine, codifica tutte le celle vuote con una sigla. Non c’è una regola fissa per decidere come codificare i dati, ma spesso si utilizza l’etichetta “MD” per indicare i dati mancanti e l’etichetta “NA” per indicare “non applicabile”. Non applicabile significa che in quella cella era già previsto che non dovesse esserci nessun dato a causa di una precedente domanda filtro.
In questo esempio, in fase di costruzione del questionario, si era deciso che alla variabile “N.sigarette fumate/die” rispondessero solo coloro che avevano dichiarato di essere fumatori, ovvero che avevano risposto “Si” alla variabile “Fumatore”. In questo dataset la variabile “Fumatore” è quindi una domanda filtro e pertanto, tutti quelli che hanno risposto “No” a questa domanda, come nel caso dell’ID=3, sono poi stati codificati come NA (non applicabile) nelle celle corrispondenti della colonna “N.sigarette fumate/die”.
E adesso?
La terminologia statistica è spesso la parte che crea più confusione tra chi si approccia all’analisi dati. Per aiutarti a capire cosa significano e quando si utilizzano alcune delle espressioni statistiche più ricorrenti ho creato per te una guida gratuita di statistica. Al suo interno troverai una serie di esempi pratici per impostare correttamente le tue analisi dei dati ed utilizzare al meglio le principali funzioni statistiche. Buona lettura!