Il test t di Student in statistica comprende un insieme di tecniche parametriche che ti permettono di confrontare le medie di due gruppi per capire se la differenza osservata è reale o dovuta al caso.
In questo articolo scoprirai quando puoi utilizzare il test t a due code per valutare le differenze di due gruppi tra loro indipendenti. Inoltre, ti guiderò passo passo nella risoluzione di un esercizio per aiutarti a capire come interpretare e riportare i risultati.
Indice
Introduzione
Il test t di Student per campioni indipendenti si usa per determinare se c’è una differenza statisticamente significativa tra le medie di due gruppi tra loro indipendenti.
Ad esempio, puoi utilizzare questo test per valutare se c’è differenza nei tempi medi di attesa al pronto soccorso tra due diversi ospedali. Oppure per capire se chi pratica un determinato sport ha in media una percentuale di massa magra superiore rispetto a chi non lo pratica. O ancora per valutare se tra gli studenti iscritti ad una determinata facoltà universitaria c’è una relazione tra il risultato medio conseguito all’esame di matematica ed il genere.
Quanto deve essere numeroso il campione per poter effettuare questo test?
Il tuo dataset dovrebbe contenere almeno una decina di unità statistiche per ogni gruppo, ma ovviamente se sono di più il risultato che otterrai sarà più facilmente generalizzabile. Se ne hai meno, ma i due gruppi hanno all’incirca la stessa varianza, puoi comunque provare ad effettuare questo test ma senza utilizzare la correzione di Welch che è invece indicata per campioni più numerosi.
Test t di Student: esempio pratico
Per capire in pratica come utilizzare questo test, ho creato un dataset di esempio che puoi scaricare gratuitamente qui. Contiene i voti conseguiti all’esame di statistica da parte di 40 studenti (20 maschi e 20 femmine) iscritti ad una determinata facoltà e che hanno sostenuto questo esame negli ultimi tre anni.
Questi dati ci serviranno per rispondere a questa domanda: gli studenti maschi prendono in media un voto più alto all’esame di matematica rispetto alle femmine?
La prima cosa da fare per rispondere a questa domanda è calcolare la differenza media tra i voti dei maschi e quelli delle femmine. Questa operazione è molto semplice. In questo caso, i maschi hanno ottenuto un voto medio di 26/30 e le femmine di 23/30. La differenza tra le due medie è quindi pari a 26-23=3.
Popolazione o campione?
Devi poi chiederti se questi dati sono stati rilevati sull’intera popolazione o solo su una parte di essa.
Se i voti conseguiti all’esame di matematica fossero stati rilevati sull’intera popolazione (in questo caso tutte le matricole della facoltà universitaria) a questo punto potresti già affermare che i maschi conseguono all’esame in media un voto superiore alle femmine.
Quando invece, come in questo caso, le rilevazioni sono fatte solo su una parte della popolazione attraverso un campionamento, per rispondere è necessario effettuare qualche calcolo ulteriore. Non è infatti così facile generalizzare i risultati perché entra in gioco anche la variabilità del campione, che potrebbe essere diversa da quella della popolazione.
Se un altro campione di studenti universitari della stessa numerosità e con le stesse caratteristiche del precedente si sottoponesse allo stesso esame, molto probabilmente i valori medi che otterresti sarebbero infatti diversi da quelli osservati nel primo campione. Ad esempio, potrebbe capitare che nel secondo campione i maschi ottengano un voto medio di 22/30 e le femmine di 25/30. O ancora, che sia i maschi che le femmine conseguano un voto medio di 23/30.
Il test t per campioni indipendenti ti permette proprio di capire quanto accuratamente la differenza tra le due medie campionarie stima la differenza tra le medie delle due popolazioni (quella dei maschi e quella delle femmine).
La checklist dei controlli preliminari da fare
Per poter utilizzare questo test, ci sono cinque controlli che devi fare. I primi 3 controlli sono teorici e riguardano il disegno di studi, mentre i restanti due devono essere verificati operativamente con un software statistico.
CONTROLLO 1: la variabile dipendente deve essere quantitativa.
Il test t di Student si basa sul confronto tra le medie aritmetiche dei due gruppi. Si può quindi utilizzare solo per variabili quantitative. Ad esempio: la concentrazione di colesterolo nel sangue (in mmol/l), l’età (in anni compiuti), il peso (in kg).
Nel caso degli studenti, la variabile dipendente è il voto conseguito all’esame che, essendo espresso in trentesimi, è una variabile quantitativa.
CONTROLLO 2: la variabile indipendente deve essere qualitativa e deve avere solo due modalità.
In statistica le variabili che hanno solo due modalità sono definite dicotomiche. Ad esempio, l’età le cui modalità sono “minorenne” e maggiorenne”, una domanda le cui possibili risposte sono solo “no” o “si”.
In questo caso, la variabile indipendente è il genere che è qualitativa ed ha solo due modalità (maschio e femmina).
CONTROLLO 3: le unità statistiche devono essere tra loro indipendenti.
Non ci deve essere alcun tipo di relazione tra le unità statistiche del primo e del secondo campione. Vale a dire che le unità statistiche che rientrano in una modalità della variabile indipendente non possono rientrare anche nell’altra modalità.
Ad esempio, una persona o è maggiorenne o è minorenne. La stessa unità statistica non può avere entrambe le modalità contemporaneamente. Inoltre, le unità statistiche potrebbero risultare tra loro legate se ad esempio vengono inclusi marito e moglie oppure fratello e sorella.
In questo esercizio, si suppone che gli studenti siano tra loro casi indipendenti.
CONTROLLO 4: la variabile quantitativa non deve avere valori anomali in nessuno dei due gruppi.
Un metodo molto veloce per effettuare questo controllo è costruire un boxplot per entrambi i gruppi e vedere se ci sono dei punti che fuoriescono dai baffi. Nel nostro esempio, come puoi vedere nel grafico qui sotto, non risultano esserci valori anomali.
Se invece nel grafico risultassero esserci degli outliers, come prima cosa devi verificare che questi valori anomali non siano dovuti ad errore di imputazione o di misura, come ti ho spiegato in questa guida gratuita di statistica.
Se i dati sono corretti ma sono presenti valori anomali, puoi decidere se eliminare questi outliers dal dataset e poi rifare tutti i controlli, oppure tenere questi casi sapendo che i risultati saranno influenzati da tali casi anomali oppure scegliere di utilizzare un test diverso.
Soprattutto se il tuo campione è composto da poche unità, anche un solo valore anomalo potrebbe infatti cambiare di molto il valore della media.
Se non sai quale approccio scegliere, puoi anche calcolare il test t sia con che senza i valori anomali e poi confrontare i risultati:
- Nel caso in cui le conclusioni sono simili, allora i valori anomali non influenzano l’analisi.
- Quando invece in cui le conclusioni a cui arrivi sono diverse, allora saprai che questi valori anomali sono molto influenti sui tuoi risultati e sarebbe preferibile o eliminarli oppure utilizzare un test non parametrico che non risente di questi valori anomali, come il test U di Mann-Whitney.
Altre alternative meno utilizzate sono quelle di sostituire i valori dei casi anomali con dei valori meno estremi (ad esempio, con il valore coincidente all’estremità del baffo in cui si trova l’outlier) oppure trasformare la variabile dipendente
In ogni caso, ricordati di scrivere nel report quale decisione hai preso.
CONTROLLO 5: la variabile quantitativa deve essere distribuita approssimativamente come una normale in entrambi gruppi.
Questo controllo è molto importante soprattutto se il tuo campione è poco numeroso. Se invece hai almeno 30 osservazioni in ogni gruppo, allora anche se la distribuzione non è normale è comunque possibile utilizzare questo test. Infatti, grazie al Teorema del Limite Centrale, i risultati ottenuti in questo caso si possono comunque considerare validi. Questa verifica può essere fatta tramite un test di normalità.
In questa analisi, è stato effettuato il test di Shapiro-Wilk, da cui risulta che entrambe le distribuzioni sono normali (p>0.05)
E se i tuoi dati non hanno invece una distribuzione normale? Puoi provare a trasformare la variabile dipendente per renderla più simmetrica. Oppure usare un test non parametrico , come il test U di Mann-Whytney. O ancora, potresti calcolare il test t attraverso la tecnica bootstrap che non richiede nessuna assunzione sulla distribuzione della variabile dipendente.
In alternativa, soprattutto se hai una numerosità simile e molto grande per entrambi i gruppi, puoi anche decidere di proseguire con il calcolo del test t di Student sapendo che il risultato potrebbe essere influenzato dal risultato di questo controllo.
Test ipotesi per il test t: il p-value per il test a due code
Una volta effettuati tutti i controlli, puoi procedere con il calcolo del test t. Come per tutti i test d’ipotesi, per poter calcolare il p-value ed interpretare la significatività statistica della differenza osservata tra i due gruppi è necessario prima aver ben chiaro quale sia il sistema d’ipotesi.
In questo esempio vediamo il caso in cui non sappiamo prima di estrarre il campione quale gruppo ha una media maggiore dell’altro e pertanto utilizzeremo un test a due code. Se invece puoi predire a priori la direzione della differenza, potrai utilizzare un ipotesi di tipo direzionale tramite i test ad una coda.
L’ipotesi nulla (H0) è che le medie dei due gruppi nella popolazione sono uguali tra di loro, cioè che la differenza tra le medie sia pari a zero. In altre parole, l’idea alla base di questa ipotesi è che la differenza osservata nei voti per i due gruppi sia dovuta solo all’errore campionario.
L’ipotesi alternativa (H1) è che le medie dei due gruppi nella popolazione sono diverse tra loro, cioè che la differenza tra le medie sia diversa da zero.
L’ipotesi nulla non può essere mai rifiutata con assoluta certezza. Quello che ti consente di fare questa tecnica statistica è stimare la probabilità di ottenere una differenza tra i valori delle due medie ampia almeno come quella osservata nel campione quando l’ipotesi nulla è vera. Questa probabilità non è nient’altro che il p-value.
Se questa probabilità è molto bassa, allora si può concludere che la differenza osservata tra le medie dei due gruppi è statisticamente significativa. Questa situazione si verifica infatti quando il p-value è molto vicino a zero (il famoso p-value<alpha).
Quando invece questa probabilità è elevata, allora si può concludere che la differenza osservata tra le medie dei due gruppi non è statisticamente significativa. Questa situazione si verifica quando il p-value è grande (il famoso p-value>alpha).
In questo esempio, il p-value relativo al test t risulta essere pari a 0,003. Questa probabilità è molto bassa e pertanto possiamo affermare che la differenza di 3 punti osservata tra le medie dei due gruppi di studenti è statisticamente significativa.
La d di Cohen per il calcolo dell’effect size
Il test d’ipotesi ti dice se la differenza osservata tra le due medie è statisticamente significativa ma non ti fornisce informazioni sulla grandezza di questa differenza. Il fatto che la differenza sia statisticamente significativa infatti non si associa per forza al fatto che l’effetto sia grande abbastanza da avere un qualche interesse pratico.
Per ottenere anche questa informazione, devi utilizzare una misura standardizzata della dimensione dell’effetto come la d di Cohen. Questo indice può essere utilizzato quando i due gruppi sono composti da un numero simile di unità statistiche. Più il valore di questo indice si avvicina a zero, più l’effetto è debole. Più è grande, più l’effetto è grande.
Seguendo le linee guida proposte da Cohen (1988), un effetto pari a 0.2 è considerato piccolo ed indentifica una sovrapposizione delle due distribuzioni dell’85%. Se invece l’effetto è pari a 0.5 è considerato medio e corrisponde al 67% di sovrapposizione. Un effetto pari a 0.8 è considerato grande e rappresenta una sovrapposizione del 53%. Infine, un effetto molto grande (maggiore di 1.5) rappresenta invece meno del 25% di sovrapposizione.
In questo caso, il d di Cohen risulta pari a 1,02 e pertanto l’effetto è considerato grande.
Test di Student: formula test t con varianze uguali o con varianze diverse?
La maggior parte dei software ti permette di ottenere sia una statistica t con “varianze uguali” sia una statistica t con “varianze diverse” (a volte presentato anche come test t di Welch).
Ti consiglio di utilizzare sempre la procedura con “varianze diverse” perché è più accurata di quella basata sulle varianze uguali tutte le volte in cui le due varianze nella popolazione non sono esattamente uguali tra loro. Quando invece le varianze sono uguali, otterrai esattamente lo stesso risultato con entrambe le formule.
Nella pratica, i calcoli li fanno i software. Nel file di calcolo che puoi scaricare gratuitamente qui ti ho riportato le formule che stanno alla base di questo test t per campioni indipendenti con e senza correzione di Welch.
Come puoi facilmente vedere anche tu, la formula utilizzata per effettuare il test t con correzione di Welch permette di tenere conto della diversa variabilità e della numerosità dei due gruppi.
Come si calcola il t test su Excel, SPSS ed R Commander?
In teoria, potresti effettuare tutti i controlli preliminari e calcolare il test t per campioni indipendenti a mano utilizzando la tavola della t di Student oppure impostando a mano le formule su Google Fogli.
Tuttavia, per ottimizzare i tempi ed avere la sicurezza di non commettere errori con le formule, ti consiglio di utilizzare Excel con lo strumento di Analisi dati oppure ancora meglio un software statistico come SPSS o R che ti permetterà con facilità ed in pochi passaggi di ottenere tutti i risultati che ti servono.
Excel
Nel selezionare la formula del test di Student su Excel sullo Strumento di analisi dati puoi decidere infatti se effettuare il calcolo considerando due campioni assumendo uguale varianza oppure varianze diverse. Ma poi dovrai effettuare a mano il calcolo della d di Cohen.
SPSS
Su SPSS clicca nel menù in alto su:
Analizza | Confronta medie | Test t per campioni indipendenti
Quindi indica come variabili del test la variabile quantitativa e come variabile di raggruppamento la variabile qualitativa dicotomica.
Nell’output troverai per la t di Student una tabella con una riga relativa ai risultati nel caso che le varianze siano omogenee e nella riga successiva i risultati nel caso le varianze non siano tra loro omogenee.
R Commander
Su R Commander la procedura da seguire è del tutto simile a quella che ti ho spiegato per SPSS e di default R presume già che le varianze dei due gruppi siano tra loro diverse.
Come si interpreta la tabella del test t di Student?
Diff. medie | Errore std. | t | gdl | p-value | d | |
---|---|---|---|---|---|---|
Varianze omogenee | 3.00 | 0.929 | 3.23 | 38 | 0.003 | 1.02 |
Varianze diverse | 3.00 | 0.929 | 3.23 | 37 | 0.003 | 1.02 |
In questa tabella ho riportato sia le informazioni ottenute utilizzando sia la formula del t test per le varianze uguali sia quella per le varianze diverse. In questo caso, dato che la numerosità campionaria è la stessa nei due gruppi e le varianze erano omogenee, come puoi vedere i risultati sono identici. L’unica differenza è data dai gradi di libertà (gdl) che sono più bassi nel caso di varianze diverse. Nella pratica, poi scegliere di non riportare la riga corrispondente alle varianze uguali.
Ti consiglio di riportare sia la differenza delle medie (in questo caso pari a 3) sia l’errore standard che permette di poter calcolare l’intervallo di confidenza. Si riporta poi solitamente il valore della statistica t ed il numero di gradi di libertà della t di Student. Queste informazioni ti servirebbero se dovessi calcolare la probabilità utilizzando le tavole della distribuzione t di Student. Fortunatamente, i software fanno già per noi questo lavoro e ai fini interpretativi ti basta guardare le ultime due colonne, relative al p-value ed alla d di Cohen.
Come si descrivono i risultati?
Il campione è composto da 40 studenti, 20 maschi e 20 femmine che sono iscritti ad una determinata facoltà universitaria.
E’ stato realizzato un test t per campioni indipendenti per determinare se ci fossero differenze nel voti conseguiti nell’esame di matematica. Le analisi preliminari condotte tramite la costruzione dei boxplot non ha evidenziato la presenza di outliers. Il voto è risultato essere distribuito secondo una normale in entrambi i gruppi, come verificato dal test di Shapiro-Wilk (p>0.05).
Il voto medio conseguito all’esame risulta maggiore per i maschi (26/100) che per le femmine (23/30). La differenza media è risultata pari a 3. Risulta esserci una differenza statisticamente significativa nel voto medio tra i due gruppi, t(38)=3.23; p=0.003; d=1.02
E adesso?
Scarica il file gratuito con il dataset utilizzato per questa esercitazione. In questo file ho riportato due dataset.
Uno è già impostato infatti per essere importato su SPSS o R. L’altro invece è perfetto se vuoi effettuare le analisi con e senza correzione di Welch sfruttando la funzione Analisi dati di Excel, di cui troverai anche riportati i risultati per tua maggiore comodità. Non dimenticare di scaricare anche la guida gratuita di statistica.