Un questionario, uno strumento o un test si definisce validato se effettivamente misura il fenomeno che si vuole misurare. Facile a dirsi, un po’ meno a farsi. La validazione prevede infatti tutta una serie di analisi statistiche. Scopri quali sono ed a cosa servono in pratica in questo articolo.
Indice
Cosa si intende per questionario validato?
Il concetto alla base di “questionario validato” è che per misurare un determinato fenomeno ha senso utilizzare un determinato strumento solo se questo strumento misura davvero quel fenomeno.
In pratica, se vuoi misurare lo stress dei lavoratori, dovrai porre loro domande che misurano davvero il loro livello di stress. Il che significa sostanzialmente due cose:
- Lo strumento scelto deve misurare solo quello che ti interessa. Nell’esempio, deve misurare solo lo stress e non misurare una combinazione di stress, depressione ed ansia dei rispondenti.
- Lo strumento scelto deve misurare lo stress nel modo più accurato possibile.
In gergo tecnico, si dice che lo strumento che scegli per misurare il fenomeno di tuo interesse deve essere attendibile (1) e valido (2).
Nella teoria sembra tutto molto logico e “facile”, ma nella pratica come si fa?
Se ti è già capitato di avere a che fare con un questionario validato, avrai probabilmente notato come intorno a questi due concetti girino tutta una serie di termini tecnici. Lo studio dell’attendibilità e della validità di una misura è infatti un’operazione per nulla banale, che richiede l’utilizzo di diverse tecniche statistiche.
Studio dell’attendibilità e della validità: quando farli?
Lo studio di validità e lo studio di attendibilità richiedono tecniche diverse e sono svolti in momenti separati della ricerca.
In particolare, dato che lo studio di validità è molto più oneroso, in genere si fa solo quando una nuova misurazione è introdotta nel proprio ambito di ricerca, così da capire se lo strumento creato ad hoc per quello studio possa essere utilizzato anche per applicazioni successive.
Lo studio di attendibilità invece è buona norma farlo ogni volta che una misura è utilizzata, in quanto un errore di misura (tra poco vedremo di cosa si tratta) può influenzare in modo non trascurabile la stima di molte degli indici statistici (ad esempio, la media) che possono essere calcolati su tale misura.
Che differenza c’è tra misura e costrutto?
Per poter comprendere il concetto di attendibilità e validità, è necessario prima avere chiaro il legame che c’è tra misura e costrutto latente.
Costrutto latente
Con il termine “costrutto latente” si intende genericamente un concetto teorico che non può essere misurato direttamente. Ad esempio, stress, depressione ed ansia sono tutti costrutti latenti, mentre non lo sono l’età, il peso e l’altezza. La differenza è il fatto che i secondi sono direttamente osservabili, mentre i primi no.
Tuttavia, il fatto che qualcosa non sia direttamente osservabile non significa che possa essere comunque oggetto di studio. Quello che si fa in questi casi è approssimare il punteggio del costrutto latente (non direttamente misurabile) con quello di una misura che invece è osservabile.
Misurazione
Per misurazione si intende quindi la procedura volta a produrre dei punteggi osservati corrispondenti a quantità o qualità di un costrutto latente.
E, come abbiamo già visto, affinché abbia senso utilizzare una certa misura per misurare un costrutto latente, è necessario che questa misura si riveli attendibile e valida.
Che cosa si intende per modello di misura?
In gergo tecnico, la descrizione di cosa influenza la variazione della misurazione è detta “modello di misura”. In pratica, ogni misurazione di un costrutto latente può essere influenzata da:
- La variabilità intrinseca del costrutto latente che si intende misurare. In altre parole, ci aspettiamo che non tutti i rispondenti abbiano esattamente lo stesso punteggio del costrutto latente. Ad esempio, è altamente improbabile che un gruppo di lavoratori presenti esattamente lo stesso livello di stress. Questa è la variabilità “buona”, che ci permette di studiare il fenomeno che ci interessa.
- Variabilità dovuta ad altri costrutti intervenienti. Questa è la variabilità “cattiva”, che ci può portare a prendere decisioni sbagliate. Nell’esempio precedente, altri costrutti intervenienti potrebbero essere la depressione e l’ansia.
- Errore di misura. E’ la distorsione nella misurazione di un costrutto. Si suddivide in errore casuale ed errore sistematico. Nello specifico, per errore sistematico si intende la parte di errore nella misura dovuta all’influenza di altri costrutti collegati a quello che si vuole misurare, oppure al fatto che il metodo scelto per la misurazione sia più preciso per certi valori del costrutto rispetto che per altri. Per errore casuale invece le restanti distorsioni nella misurazione che sono dovute solo al caso. In generale, meno errore c’è, meglio è, e, tra i due, meglio che sia casuale piuttosto che sistematico.
Attendibilità
Nel linguaggio statistico, per attendibilità (o affidabilità) si intende il grado di precisione di una misurazione.
Nello specifico, una misurazione si definisce attendibile quando i punteggi ottenuti su un campione di soggetti sono coerenti, stabili nel tempo e costanti anche a seguito di somministrazioni multiple.
Ovviamente, l’attendibilità ha senso solo se nel tempo trascorso tra le somministrazioni non ci sono stati cambiamenti evidenti nei soggetti (ad esempio, non sono stati sottoposti ad un trattamento che potrebbe influire sulla misurazione) e nell’ambiente in cui ha luogo la misurazione (ad esempio, non è stato cambiato lo strumento di misurazione).
In altre parole, lo studio dell’attendibilità serve a stabilire quanto una misura è in grado di riprodurre lo stesso punteggio a parità di punteggio latente. A livello un po’ più tecnico, una misura si definisce attendibile se la sua variabilità è dovuta più alla variabilità del costrutto latente a cui si riferisce che a quella dell’errore.
Analisi dell’attendibilità di una misura
Per valutare l’attendibilità, si può ricorrere a varie tecniche statistiche. Tutti i metodi sono raggruppabili in due categorie distinte: alcuni richiedono infatti due somministrazioni distinte, altri solo una.
Metodi che richiedono due somministrazioni
Confronto test-retest
Lo strumento viene somministrato agli stessi soggetti due volte di seguito, tra cui intercorre un predeterminato intervallo di tempo (in genere, inferiore ai 6 mesi).
I punteggi ottenuti nelle due somministrazioni vengono poi correlati calcolando il coefficiente di correlazione di Pearson che, in questo contesto, è anche definito come coefficiente di stabilità. Maggiore è il valore del coefficiente, maggiormente affidabile è lo strumento utilizzato. In questo contesto, un coefficiente è considerato attendibile se superiore a 0.80.
Se uno strumento è stato progettato per essere somministrato più di una volta a distanza di tempo, questa è la procedura più appropriata. In particolare, è consigliata per gli strumenti che misurano costrutti latenti relativamente stabili nel tempo (ad esempio, tratti di personalità) mentre non va bene per misure di fattori suscettibili di sensibili variazioni temporali (ad esempio, il tono dell’umore o l’ansia di stato).
Inoltre, non è consigliata nel caso in cui lo strumento presupponga ragionamenti o procedure di calcolo. Potrebbe infatti succedere che i processi cognitivi attivati dalla prima somministrazione vengano trasferiti alla seconda. Il rischio in questo caso è che le due somministrazioni non risultino più equivalenti sia sotto il profilo della difficoltà che della natura stessa del quesito.
Confronto per forme parallele
Sono formulate due versioni dello strumento, diverse tra loro ma il più possibile equivalenti fra loro in termini di contenuto, modalità di risposta e caratteristiche statistiche (da qui, il termine “parallele”).
Si somministra quindi una versione del test ad una parte del campione di individui e l’altra versione alla restante parte.
Si calcola quindi il coefficiente di correlazione fra i punteggi ottenuti nelle due versioni.
Questa soluzione permette di ovviare soprattutto all’ultimo problema citato nel caso del test-retest, ovvero la non equivalenza delle somministrazioni. Inoltre, permette una valutazione in tempi più rapidi dell’affidabilità, in quanto non è necessario attendere abbastanza tempo perché i soggetti dimentichino cosa avevano risposto nella prima somministrazione.
I punti critici qui invece sono la scelta di come allocare i soggetti nei due gruppi e di come rendere il più equivalenti possibili i due strumenti.
Metodi che richiedono un’unica somministrazione
Cosa fare quando invece per ragioni pratiche, di tempo ed economiche, si può procedere ad un’unica somministrazione?
Confronto split-half
Si ottiene correlando i punteggi delle due metà di un costrutto (in genere, suddividendo gli item in pari e dispari). Il coefficiente di correlazione di Pearson ottenuto viene poi corretto con la formula di Spearman-Brown per stimare l’attendibilità del costrutto nel suo complesso.
Indici di coerenza interna
Indicano il grado con cui gli item di una scala sono correlati tra loro. In sostanza, fanno una sorta di confronto per forme parallele in cui lo strumento totale è considerato come insieme di test paralleli composti da un solo item.
Per variabili continue o approssimabili ad esse si utilizzano misure quali Alpha di Cronbach oppure Omega di Mc Donald. In particolare, l’alpha puoi pensarlo anche come una media di tutti i possibili coefficienti split-half corretti con la formula di Spearman-Brown.
Per variabili ordinali, si utilizza l’indice di correlazione intraclasse (ICC) oppure il W di Kendall.
Per variabili nominali, il K di Cohen (per due forme) o il K di Fleiss (per molte forme).
Confronto tra valutatori
L’obiettivo di questo confronto è valutare il grado di accordo tra i valutatori nei test che lasciano un margine al giudizio soggettivo nell’attribuzione dei punteggi.
Validità
Per validità si intende il grado di accuratezza di una misurazione. Come già detto, una misura è valida se misura effettivamente il costrutto che si vuole misurare e non altro. In altre parole, una misura è valida quando la maggior parte della variabilità dei punteggi è dovuta alla variabilità del costrutto misurato e non alla variabilità di costrutti correlati ma non centrali per la misura.
Validità di criterio
Si ha validità di criterio quando la misura è correlata con un’altra misura già utilizzato in letteratura per misurare lo stesso costrutto latente. Quando sono disponibili criteri dalla validità già confermata (i cosiddetti gold standard), allora l’associazione fra misura da validare e criterio rappresenta un indice diretto di validità. La validità di criterio può essere poi distinta in validità concorrente e validità predittiva.
Validità concorrente
E’ una sottocategoria della validità di criterio. Nello specifico, si parla di validità concorrente quando il criterio viene misurato nello stesso momento o occasione in cui viene raccolta la misura di cui si vuole stabilire la validità. Nell’esempio precedente, la misurazione del livello di ansia e di sudorazione delle mani viene fatta nello stesso momento.
Validità predittiva
E’ una sottocategoria della validità di criterio. A differenza della validità concorrente, in questo caso il criterio con cui si vuole valutare l’associazione con la misura da validare è misurato in un momento successivo rispetto a quello dello strumento da validare.
Questo tipo di validità si utilizza ad esempio per studiare la capacità del questionario di predire lo stato futuro di salute o il profitto in un corso di studi tramite un test somministrato all’inizio dello stesso. In altre parole, esprime il grado di relazione tra i punteggi ottenuti con la misura oggetto di studio e con una misurazione diversa che si rende disponibile in futuro.
Validità convergente
Si utilizza quando non è disponibile un gold standard per misurare un determinato costrutto. In questo caso, ci si concentra su almeno due diversi tentativi, ottenuti con metodi o in occasioni diverse, di misura di un medesimo costrutto.
La validità convergente si utilizza quando questi metodi hanno una correlazione positiva forte tra loro, e quindi si può supporre che offrano un’indicazione convergente della variabilità di un medesimo costrutto. Ad esempio, si utilizza quando si vuole confrontare un costrutto sulla depressione con altre misure di depressione già presenti in letteratura, seppur nessuna di queste ultime sia considerata migliore delle altre.
Validità discriminante
Come la validità convergente, si utilizza quando non è disponibile un gold standard per misurare un determinato costrutto. A differenza della precedente, si utilizza quando le diverse misurazioni disponibili non sono eccessivamente correlate tra loro.
L’idea è infatti che, se due concetti sono effettivamente distinti tra loro da un punto di vista concettuale, allora anche l’indice di correlazione tra loro non dovrà essere troppo elevato. Il quanto debbano essere poco correlate dipende dall’oggetto dell’analisi. Ad esempio, ansia e depressione sono due costrutti diversi ma dovremmo comunque aspettarci una correlazione piuttosto elevata tra i due. Tra depressione ed intelligenza, invece, una correlazione più debole.
Matrice multitratto-multimetodo
Questo disegno di ricerca si utilizza per verificare la validità convergente e discriminante. Si chiama così perché valuta due o più tratti attraverso due o più metodi.
Validità nomologica
Riguarda la conferma di una serie di previsioni derivate dalla teoria circa le relazioni del costrutto di cui si sta validando una misura con misure di altri costrutti. E’ un’estensione della validità di criterio, convergente e discriminante su un piano più ampio che prevede l’analisi di una rete di relazioni fra misure di diversi concetti all’interno di una teoria.
Ad esempio, ipotizziamo che tu voglia validare un costrutto che misura la depressione. Dalla letteratura emerge che la depressione ha una correlazione positiva forte con l’ansia, positiva moderata con disregolazioni alimentari, debole con intelligenza ed apertura mentale.
Se le correlazioni osservate tra queste misure con i dati raccolti rispettano quelle che emergono dalla letteratura, puoi dire di aver raggiunto una soddisfacente validità nomologica.
Validità di contenuto
Si ha validità di contenuto quando una misura rappresenta in modo esaustivo tutte le caratteristiche teoriche e gli ambiti comportamentali caratteristici del costrutto oggetto di studio. Questo tipo di validità viene giudicata solo in base a ragionamenti logici e teorici e non prevede l’utilizzo di tecniche statistiche.
Validità esteriore o di facciata
E’ riferita al punto di vista del soggetto cui lo strumento è somministrato, ha a che fare quindi con l’aspetto esteriore del test, con l’impressione che può produrre nell’ipotetico soggetto.
Validità illusoria
Si ha quando, nel campo delle tecniche proiettive, gli esaminatori ignorano i dati di disconferma, e si affidano ai loro preesistenti stereotipi
Validità di costrutto
Indica il grado in cui un test misura un determinato costrutto latente. In altre parole, quanto i risultati ottenuti sono consistenti con quelli teorici derivati da ipotesi a priori riguardo i concetti che sono oggetto di misurazione.
Validità diagnostica
Valuta l’accuratezza di un questionario nel diagnosticare certe condizioni (es. il dolore neuropatico)
Analisi fattoriale
Nei manuali degli strumenti e negli articoli che propongono questionari validati è molto frequente trovare anche l’analisi fattoriale tra le procedure di verifica di validità di costrutto. In pratica, ci sono due tipologie di analisi fattoriale:
- Analisi fattoriale esplorativa: che ha come obiettivo quello di trovare una buona soluzione fattoriale
- Analisi fattoriale confermativa: che permette di confermare empiricamente la struttura teorica dello strumento. In pratica, la struttura teorica elaborata a priori e che ha guidato nella costruzione dello strumento (quanti e quali fattori, e con quali item) è confrontata con la struttura che emerge dai dati campionari. Se le due strutture sono simili, allora si può sostenere la validità della misura.
E adesso?
Se vuoi approfondire l’analisi dei questionari, ti consiglio di dare un’occhiata anche a questi articoli. E se pensi ti possa essere utile una consulenza personalizzata, non esitare a scrivermi.