Dataset di esempio per analisi statistiche

20 Giugno 2020 | Software e strumenti

Stai cercando dati non elaborati gratuiti per analisi statistiche? In questo articolo scoprirai dove trovare dataset tratti da casi reali per la regressione lineare multipla per la cluster analysis, per l’analisi delle componenti principali e per ogni altro tipo di esercitazione statistica su Excel, SPSS, R ed altri software per l’analisi dati.

raccolta dataset

Quando si ha necessità di trovare dataset pubblici e gratuiti, spesso i primi posti in cui si vanno a cercare sono la banca dati dell’Istat oppure il database dell’Eurostat o di altre organizzazioni mondiali come Unesco oppure Oms.

E sicuramente queste sono tutte ottime fonti dati. Ma quando l’obiettivo è esercitarsi o costruire una semplice analisi dati questi archivi possono risultare fin troppo complessi ed è facile perdersi tra i troppi dati.

Fortunatamente online sono disponibili anche altri archivi dei dati, alcuni creati appositamente per le esercitazioni. In questo articolo troverai i cinque siti dove scaricare dataset per le analisi statistiche a cui attingo più di frequente.

Dataset per analisi statistiche: dove trovarli?

AMSTAT

L’American Statistical Association è la principale associazione americana di statistica. Tra le sue pubblicazioni, c’è il Journal of Statistics Education (JSE) in cui sono riportati tantissimi esempi pratici di analisi dei dati. Tutti i dataset di riferimento sono raccolti in un archivio e per ognuno è disponibile anche un file con la descrizione delle variabili ed alcuni spunti su come analizzarle.

UCI Machine Learning Repository

La UCI Machine Learning Repository è una collezione di più di 400 set di dati ben strutturati e già suddivisi per tecnica di analisi e campo di applicazione. Questo archivio è stato ideato nel 1987 per cui alcuni dataset sono un po’ datati ma per esercitarsi vanno più che bene. Per velocizzare la ricerca, puoi filtrare anche per numero di variabili, numero di casi e per tipo di variabili (qualitative, quantitative o miste). Per ogni set di dati troverai anche i riferimenti alla letteratura pertinente.

Kaggle

Kaggle è una piattaforma online in cui puoi trovare più di 30 mila dataset di ogni dimensione e formato tratti da casi reali e spesso recenti sulle tematiche più varie: dalla medicina allo sport, dalla scienza all’economia. Molti dataset hanno generato nel tempo delle vere e proprie community dove puoi trovare interessanti discussioni sulle possibili analisi effettuabili con quei dati ed in alcuni casi anche del codice già pronto per realizzare su software come R o Phyton.

Su Kaggle si svolgono periodicamente anche delle vere e proprie gare in cui vengono premiate le migliori tipologie di analisi per risolvere un problema compelsso proposto da un’azienda o un centro di ricerca. Dalla ricerca sull’HIV ai punteggi degli scacchi, fino alla stima dei valori degli immobili. Insomma ce ne è davvero per tutti i gusti.

Dataset Search 

Dataset Search è un motore di ricerca specifico per i dataset che è stato lanciato da Google alla fine del 2018. Proprio come nella classica barra di ricerca di Google, puoi ricercare un dataset o un argomento per nome. Tra i risultati troverai non solo i link a migliaia di set di dati gratuiti provenienti da tutti i principali archivi disponibili online ma anche la descrizione del dataset e la data dell’ultimo aggiornamento.

Microsoft Research Open Data

Simile al precedente, anche qui puoi trovare una collezione di dataset gratuiti riguardanti varie tematiche. Generalmente sono però dataset un po’ più complessi e spesso di grandi dimensioni in quanto provengono da studi di ricerca già pubblicati. Ti consiglio quindi di utilizzarlo soprattutto se hai già delle buone basi di statistica e ti interessa approfondire. I file di dati possono essere scaricati o anche utilizzati direttamente in cloud.

Consigli pratici per trovare i dati giusti

Una volta scaricato il dataset, come prima cosa verifica che la tabella dati sia costruita bene:

  1. Controlla che le variabili ed i dati abbiano nomi comprensibili. Se disponibili, verifica che le informazioni contenute nel file con la descrizione dei dati coincidano con quanto riportato nella tabella dati.
  2. Verifica che il numero di casi sia sufficiente. A seconda del tipo di analisi, per ottenere risultati sensati, è necessario avere almeno un certo numero di osservazioni.
  3. Scegli il set di dati in base al numero ed al tipo di variabili.

Dataset per regressione lineare multipla

Ad esempio, se il tuo obiettivo è realizzare una regressione lineare multipla ti servirà trovare un dataset in cui ci siano molti più casi che variabili (idealmente in un rapporto almeno di 10:1). Dovrà poi essere presente una variabile quantitativa da utilizzare come variabile dipendente ed una serie di variabili indipendenti.

Potrebbe quindi andare bene un dataset che ha come variabili il prezzo e le caratteristiche di case o macchine. Oppure un dataset che riguarda la qualità dell’aria o la soddisfazione degli utenti rispetto ad una serie di parametri.

Dataset per cluster analysis

Se vuoi realizzare una cluster analysis, cerca un dataset in cui abbia senso suddividere i casi in gruppi in base a delle variabili quantitative.

Ad esempio, potresti utilizzare un dataset sui principi nutrizionali di una serie di alimenti e realizzare una cluster analysis per suddividere gli alimenti in classi nutrizionali omogenee. Oppure potresti scegliere un dataset in cui sono riportate una serie di indicatori psicologici che ti permettano di segmentare gli individui oggetto di studio in categorie.

Dataset per analisi delle componenti principali

L’obiettivo dell’analisi delle componenti principali (acp) è ridurre il numero di variabili presenti all’interno di un dataset, creando delle nuove variabili (dette componenti) che sono combinazione lineare delle variabili di partenza. In questo caso ti servirà quindi un dataset con molte variabili quantitative correlate tra loro.

Ad esempio, potresti cercare un set di dati con tutta una serie di variabili legate ai vari aspetti della qualità di vita degli individui o delle città. Oppure su una serie di misurazioni effettuate su un campione di atleti per misurarne le performance sportive.

E adesso?

Trovi tante altre risorse online per gestire al meglio tutte le fasi di un’analisi dei dati in questa guida gratuita alle fonti statistiche online.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.