Non gestire correttamente i dati mancanti può portare a svolgere analisi statistiche che producono risultati fuorvianti e inesatti. Se stai cercando un libro introduttivo sul trattamento dei dati mancanti, o se vuoi approfondire il ragionamento che c’è dietro questo concetto, questo è il saggio perfetto per te.
Indice
Introduzione
La maggior parte dei libri di statistica ti spiega come analizzare ed interpretare i dati che hai raccolto. Nel saggio “Il tradimento dei numeri. I dark data e l’arte di nascondere la verità”, David J. Hand, ex presidente della Royal Statistical Society, ti spiega invece come gestire i dati mancanti. In altre parole, i dati che non hai raccolto, ma che dovresti o avresti voluto avere a scopi analitici, statistici e decisionali nei settori più disparati.
Ad esempio, mancate risposte ad un questionario, informazioni omesse su una cartella clinica, dati non disponibili per questioni di privacy o per un errore di valutazione. Ma anche dati che sono stati sottovalutati oppure omessi per nascondere una truffa.
Per analogia con la dark matter, cioè la materia oscura della fisica, per indicare questi vari tipi di dati mancanti l’autore utilizza il termine dark data, in quanto questi dati sono invisibili.
Non sempre i dati raccolti sono infatti portatori di verità, ma in alcuni casi possono rivelarsi fuorvianti o errati ed essere forieri di disservizi, truffe e persino tragedie passate alla storia.
Dalla medicina, alle politiche pubbliche e sociali, alla finanza: i dark data sono ovunque, soprattutto nell’era di internet.
Questo libro ti aiuterà a capire come gestirli nel modo corretto. In primo luogo spiegandoti come distinguere tra loro i tipi differenti di dark data. E successivamente aiutandoti a comprendere:
- a priori quali misure puoi adottare per evitare a il loro emergere
- a posteriori cosa puoi fare in pratica quando scopri di averne
In altre parole, se ti stai chiedendo se ha senso fidarsi dei numeri, la risposta è sì ma con cautela. Per poterlo fare serve infatti capirli bene e analizzarli sotto tutti i punti di vista.
Punti di forza del libro
Ho trovato questa lettura particolarmente interessante perché introduce il concetto di “trattamento dei dati mancanti” senza ricorrere a formule o termini tecnici.
L’autore, infatti, ti spiega con un linguaggio sempre chiaro e comprensibile quali sono tutte le tipologie di dark data, come distinguerle e soprattutto poi come gestirle, regalandoti una prospettiva nuova nel lavoro con i dati.
Essendo poi ricco di aneddoti e casi concreti, ti permetterà di capire in pratica cosa fare nelle diverse situazioni che potrai incontrare.
Proprio per questo, trovo che sia un ottimo punto di partenza per chi si trova a dover analizzare dataset in cui sono presenti dati mancanti e non sa quale approccio utilizzare. Ma, essendo un libro molto originale nel suo genere e ricco di stimoli, è adatto anche a chi già ha competenze sull’argomento ma vorrebbe saperne di più.
Struttura del libro
Il libro ha 368 pagine suddivise in 2 sezioni. La prima si articola in 7 capitoli in cui troverai spiegate le origini e le conseguenze dei dark data. La seconda, invece, è suddivisa in 3 capitoli in cui è spiegato come riconoscerli ed utilizzarli a proprio vantaggio.
1- Dark data
In questo primo capitolo troverai spiegato, tramite molti casi pratici, dal morbillo alle frodi, cosa l’autore intende per dark data. Ad esempio, ti spiegherà perché una delle frasi che più ti deve mettere in allarme è “Non era successo niente, quindi non l’abbiamo preso in considerazione”.
2- Scoprire i dark data
I dark data sono dappertutto: ogni volta che effettuiamo una raccolta dati, ci sono infatti informazioni che registriamo ed altre che lasciamo indietro. La creazione del dataset è quindi un aspetto cruciale di un’analisi dati e qui troverai indicati i pro ed i contro di ognuna delle tre strategie principali che puoi adottare per crearne uno.
3- Definizioni e dark data
Quali sono i rischi relativi ai dark data in base al tipo di dati che si vogliono raccogliere.
4- Dark data non intenzionali
Arrotondamenti, approssimazioni, errore umano, limiti degli strumenti di misurazione, mancanza di collegamento tra dataset diversi sono tutti esempi di dark data non intenzionali che qui vengono spiegati nel dettaglio.
5 – Dark data strategici
In questo capitolo sono illustrate le situazioni in cui i dark data sono dovuti allo sfruttamento ambiguo delle regole, manipolandole per ottenere un vantaggio. Ma anche il ruolo del feedback e dell’asimmetria dell’informazione.
6- Dark data intenzionali
Nascondere qualche dettaglio in modo da portare le persone a credere che le cose siano diverse da ciò che in realtà sono è un tentativo esplicito di ingannare qualcuno, ovvero una frode. Qui ne troverai elencate molte, insieme a consigli sulle strategie da adottare per affrontarle.
7- La scienza e i dark data
L’obiettivo della scienza è offrire delle spiegazioni plausibili al perché si verifica un certo fenomeno. Tuttavia, non si potrà mai essere sicuri di aver trovato il “vero” meccanismo di un fenomeno in quanto è sempre possibile che tali spiegazioni vengano confutate da nuove prove sperimentali. Qui troverai consigli su quale approccio utilizzare per interpretare in modo critico i risultati di una ricerca scientifica, tenendo in considerazione il possibile ruolo giocato dai dark data.
8- Lavorare con i dark data
In questo capitolo troverai le strategie da adottare per trattare i dati mancanti o ingannevoli.
9- Trarre vantaggio dai dark data
I dark data non sono necessariamente solo un problema. Esistono, infatti, degli strumenti per sfruttare proprio questa tipologia di dati per acquisire una maggiore comprensione di un determinato fenomeno, fare previsioni migliori, scegliere linee d’azione più efficaci e, persino, risparmiare denaro. Qui scoprirai come.
10- Classificare i dark data
In questo ultimo capitolo troverai un riassunto con tutte le 15 tipologie di dati mancanti citate nel libro: dai dati di cui conosciamo la mancanza a quelli di cui la ignoriamo. Ma anche riguardo lo scegliere solo alcuni casi oppure l’autoselezione. Dal lasciarsi sfuggire ciò che conta ai dati che avremmo potuto avere. All’impatto dei cambiamenti nel tempo e della definizione di dati. Dai riassunti di dati all’errore di misurazione e margine di incertezza. Inoltre, il ruolo del feedback e del giocare con le regole, l’asimmetria dell’informazione, i dati intenzionalmente oscurati e quelli fabbricati e sintetici ed i rischi legati all’estrapolazione.
E adesso?
Ti è piaciuta questa recensione? Allora ti consiglio dare un’occhiata anche agli libri che ho già recensito: li ho raggruppati tutti insieme per te in questa pagina dedicata ai libri di statistica. Buona lettura!