Campionamento statistico: quale scegliere?

8 Febbraio 2020 | Disegno di ricerca

Come si ottiene un campione che sia rappresentativo dell’intera popolazione? Come si decide quali unità statistiche includere al suo interno? Scopri quali sono i metodi di campionamento più utilizzati in statistica e come scegliere quello più adatto per i tuoi obiettivi di ricerca.

campionamento statistico

Introduzione

Lo scopo di un’indagine statistica è conoscere o comprendere meglio un determinato aspetto della realtà che ci circonda. Per raggiungere tale obiettivo, ci si può basare su dati già raccolti da altri oppure eseguire una nuova rilevazione statistica.

Se hai scelto la seconda opzione, devi innanzitutto decidere se la raccolta dati avverrà su tutta la popolazione (realizzando un censimento) o solo su una parte di essa, tramite un’indagine campionaria.

Spesso la rilevazione su tutta la popolazione non è conveniente per questioni di tempi di realizzazione molto lunghi e di costi difficilmente sostenibili. In alcuni casi poi è proprio impossibile (ad esempio, non possiamo prelevare tutto il sangue di una persona per sapere quanti sono i suoi globuli bianchi).

Pertanto, per effettuare la maggior parte delle indagini è necessario ricorrere ad un campionamento delle unità statistiche.

Campione vs campionamento statistico

Per campione si intende una porzione della popolazione obiettivo dell’indagine che si analizza con la speranza di ottenere delle informazioni estendibili all’intera popolazione. Infatti, anche nel caso di rilevazioni effettuate su un campione, l’obiettivo di una ricerca resta sempre quello di migliorare la conoscenza della popolazione obiettivo.

Per campionamento si intende invece il procedimento pratico attraverso cui vengono selezionate , all’interno della popolazione obiettivo, le unità statistiche che andranno a far parte del campione.

Piani di campionamento

La scelta del procedimento cui si selezionano le unità statistiche è molto importante: campioni costruiti in modo errato possono infatti portare a conclusioni sbagliate e non generalizzabili alla popolazione obiettivo.

La più importante distinzione riguardo il tipo di campionamento è tra campioni probabilistici e campioni non probabilistici.

Che cos’è un campionamento probabilistico

Se la scelta delle unità da inserire nel campione è casuale si parla di campionamento probabilistico. In questo tipo di campionamento, ogni unità statistica della popolazione oggetto di indagine avrà una probabilità maggiore di zero ed individuabile a priori di essere inclusa nel campione.

Per poter effettuare un campionamento probabilistico è quindi indispensabile disporre di una lista contenente l’elenco di tutte le unità che costituiscono la popolazione che si vuole analizzare.

La lista identifica la popolazione di selezione, ovvero quella che sarà utilizzata per il campionamento. Spesso non esiste perfetta coincidenza tra popolazione di selezione e popolazione obiettivo dell’indagine perché, per qualche motivo, la lista è incompleta. In questi casi, la popolazione di selezione risulta più piccola rispetto alla popolazione obiettivo.

Una volta selezionato il campione, spesso non sarà possibile osservare tutte le unità selezionate, o per l’impossibilità di contattarle, o per un loro rifiuto di partecipazione all’indagine. La popolazione di selezione quindi spesso è ancora diversa dalla popolazione di indagine.

Che cos’è un campionamento non probabilistico

Quando invece non è proprio possibile ottenere una lista, allora la scelta delle unità da includere nel campione è svolta in modo non casuale e si parla di campionamento non probabilistico.

I campionamenti non probabilistici hanno in genere tempi e costi di rilevazione molto più bassi di quelli probabilistici. Per questo motivo molte ricerche sono in realtà svolte ricorrendo a questo tipo di campionamento.

Infatti, anche se un campione è non probabilistico, è comunque tratto dalla popolazione obiettivo. Pertanto, anche con questo di tipo di campionamento è possibile ottenere stime delle caratteristiche fondamentali del fenomeno che si sta studiando, mentre è più difficile valutarne la precisione.

Quale campionamento scegliere?

Quando è disponibile una lista della popolazione obiettivo, è sempre preferibile utilizzare un campionamento probabilistico. Ad esempio, la lista degli studenti universitari iscritti ad uno specifico corso di laurea o dei professionisti iscritti ad un albo è, nella maggior parte, facilmente recuperabile.

Tuttavia, per ragioni di tempi, costi e spesso anche per timore di ottenere troppi rifiuti o mancati contatti, nella pratica spesso vengono scelti campionamenti non probabilistici. Ad esempio, inviando il link per rispondere ad un questionario online ai propri contatti e chiedendo a questi ultimi di inoltrare a loro volta il link ai loro contatti con un effetto valanga.

Per capire come procedere in questi casi, è molto importante capire quali sono le caratteristiche del campione estratto.

Esempio pratico

Ad esempio, mi è capitato un caso in cui la popolazione obiettivo era composta da tutti i maggiorenni residenti in una determinata provincia, ma nel campione c’era una proporzione molto più elevata di giovani rispetto a quanto risultasse dai dati Istat relativi a quella provincia.

Nelle analisi si è quindi dovuto tenere conto di questa differenza ed attribuire un peso diverso alle persone in base alla loro fascia di età.

In generale, ricordati che, per poter fare delle valide generalizzazioni, in un report che presenta i risultati di un campionamento non probabilistico è importante riportare con la massima precisione possibile non solo i criteri di inclusione e di esclusione ma anche il processo di selezione e le caratteristiche del campione così che chi legge possa decidere in autonomia se tale campione è rappresentativo della realtà di interesse.

Quali sono i campionamenti probabilistici?

Un campione probabilistico è un campione scelto in modo casuale. Si può scegliere “a caso” in vari modi ed i campioni probabilistici più utilizzati sono:

Campionamento casuale semplice

Le unità statistiche sono estratte a sorte (come se ogni unità statistica fosse un numero del Lotto da estrarre in modo casuale da un’urna) e non è possibile l’autoselezione tra chi deve rispondere. Inoltre, ogni campione possibile ha la stessa probabilità di essere estratto.

Campionamento sistematico

Le unità statistiche sono ordinate in una lista. La prima unità da selezionare è scelta tramite un campionamento casuale semplice. Le successive unità da includere nel campione sono invece selezionate utilizzando un passo di campionamento fisso. Ad esempio, ogni dieci unità della lista se ne seleziona una fino a raggiungere la numerosità campionaria prescelta.

Campionamento stratificato

Si utilizza quando le unità statistiche possono essere suddivise in gruppi distinti (detti strati) sulla base delle conoscenze che si hanno a priori sulla popolazione. Ad esempio, gli strati possono essere utilizzati per suddividere le unità tra aree rurali ed aree urbane oppure per fasce di età.

Da ogni strato si estraggono poi a sorte le unità statistiche con un campionamento casuale semplice. Si ottengono così tanti campioni quanti sono gli strati della popolazione. Questi campioni sono poi riuniti tutti insieme in modo da formare un unico grande campione che sarà quello su cui si effettuerà l’analisi statistica.

In generale, a parità di numerosità campionaria, il campionamento casuale stratificato può produrre risultati più precisi rispetto ad un campionamento casuale semplice, in quanto tiene conto della somiglianza delle unità che fanno parte dello stesso strato e quindi è preferibile quando si vogliono ridurre i tempi ed i costi della fase di raccolta dati.

Campionamento a grappoli

La popolazione è suddivisa in gruppi (detti grappoli). Si estraggono poi casualmente alcuni di questi grappoli e nel campione vengono incluse tutte le unità statistiche appartenenti ai gruppi selezionati.

Campionamento a più stadi

Il primo stadio è uguale a quello del campionamento a grappoli. Successivamente, da ogni grappolo selezionato è estratto un campione casuale di unità statistiche di secondo stadio e così via per il numero di stadi prefissati.

Quali sono i campionamenti non probabilistici?

I metodi più utilizzati per effettuare un campionamento non probabilistico sono:

Il campionamento a scelta ragionata

Le unità statistiche da includere nel campione sono scelte in modo ragionato (ad esempio, basandosi sul parere di esperti con conoscenza specialistica del problema o sulla letteratura) così da selezionare solo quelle che meglio rispondono agli obiettivi di ricerca.

Il campionamento per quote

Le unità statistiche da includere nel campione sono selezionate in modo che il campione rispetti le proporzioni presenti nella popolazione oggetto di studio in base ad alcune variabili (ad esempio, il genere, la fascia di età, l’area geografica). Si arriva in questo modo alla definizione delle “quote”, cioè del numero di unità statistiche che dovranno essere inserite nel campione per ogni classe.

Il campionamento per quote è simile al campionamento casuale stratificato, ma la scelta delle unità, in ciascuna classe, non è casuale ma dipende da una scelta di convenienza. In questo tipo di campionamento gli effetti provocati dalle mancate risposte non sono controllabili, perché verranno selezionate sempre nuove unità per raggiungere la quota prefissata. Questa metodologia può provocare distorsioni nelle stime, in quanto le unità incluse nel campione potrebbero avere caratteristiche diverse rispetto alle mancate risposte.

Il campionamento a valanga

E’ utilizzato soprattutto nelle indagini che affrontano temi sensibili o su popolazioni i cui componenti sono in gran parte ignoti e di difficile reperibilità (senzatetto, lavoratori in nero, clandestini,…). Tale campionamento consiste infatti nello scegliere un gruppo iniziale di poche persone, dalle quali poi risalire a catena ad altre unità appartenenti alla stessa popolazione. Ad esempio, in un’indagine sui lavoratori in nero, si contattano alcuni lavoratori in nero e poi a fine intervista si chiede loro di indicare i nomi di altri lavoratori in nero di loro conoscenza da includere nello studio.

Campionamento semi probabilistico

Ci sono poi anche tipologie di campionamento ibride, dette semiprobabilistiche. In questo tipo di campionamento:

  • per una parte della popolazione la scelta delle unità avviene con un campionamento probabilistico.
  • per la restante parte della popolazione invece la scelta delle unità avviene con un campionamento non probabilistico.

E adesso?

Dal punto di vista strettamente statistico, è sempre preferibile scegliere un campionamento probabilistico. Nella maggior parte dei casi risulta infatti essere il più rappresentativo della popolazione. Inoltre, i dati raccolti restituiscono stime precise del fenomeno che si vuole studiare.

Tuttavia, la scelta dello schema di campionamento dipende da tanti fattori diversi. Ad esempio, le caratteristiche intrinseche della popolazione ma anche il tempo ed il budget a disposizione.

Se vuoi chiarirti bene le idee tra le varie opzioni, ho creato per te un workbook sugli schemi di campionamento. Al suo interno troverai tanti schemi ed esercizi pratici che ti aiuteranno a confrontare tra loro i diversi tipi di campionamento e trovare così quello migliore per te. Buona scelta!

Articoli correlati

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.