One sample t test

22 Ottobre 2022 | Analisi dati

Puoi utilizzare il one sample t test (detto anche test a campione unico o singolo) quando hai una variabile quantitativa ed un valore medio di riferimento. In questo articolo scoprirai in pratica che caratteristiche devono avere i dati per poterlo usare in modo corretto, come calcolarlo con Excel o i software statistici e come interpretarne i risultati.

one sample t test

Introduzione

Sui principali software statistici ad interfaccia grafica (come SPSS, Jamovi ed R Commander), il confronto tra due medie è possibile attraverso tre diverse procedure:

  1. per un solo campione (one sample t test)
  2. per due campioni indipendenti
  3. per campioni appaiati

In questo articolo ci concentreremo sulla prima procedura. Come vedremo, questa è tuttavia nient’altro che un caso particolare degli altri due. In altre parole, se sai come funziona il test t per campioni indipendenti, in realtà sai già anche come funzionano gli altri due.

Il test t per un campione

Il test t per un campione si usa per determinare se un campione deriva da una popolazione con una determinata media. Per poter effettuare questo test, la media della popolazione deve essere conosciuta o quantomeno se ne deve ipotizzare un valore.

In altre parole, questo test ti consente di confrontare la media di una variabile quantitativa con un valore di riferimento che specifichi tu.

Ad esempio, puoi utilizzare il test t sulla media di un campione per confrontare un punteggio medio conseguito da un gruppo di individui con il punteggio normativo. Oppure per verificare se il valore medio di pressione sistolica di un campione di pazienti affetti da una certa malattia differisce in modo statisticamente significativo da quello della popolazione sana.

Paired t test: Test sulla media per due campioni appaiati

Lo stesso test si utilizza anche per il confronto delle medie di due campioni appaiati. Ad esempio, questo test si utilizza per confrontare i valori medi di una variabile prima e dopo un determinato trattamento.

In questo caso, infatti, il software prima calcolano la differenza tra le due medie. Poi effettuano il test t per un campione su questa differenza.

T-test: 3 formule che diventano una

T test campioni indipendenti

La formula del t-test per campioni indipendenti e varianze non omogenee è:

formula t test campioni indipendenti e varianza non omogenea

T test campione singolo

Se adesso a x2 sostituisci il valore medio di riferimento (µ), avrai che la media di x2, sarà uguale alla media di µ che è uguale a µ. Questo perché, se hai un singolo valore (ad esempio µ=10), allora la media di quel valore è uguale al valore stesso, cioè a 10.

La varianza di µ sarà poi uguale a 0, in quanto è un singolo numero, e quindi una costante che quindi ha variabilità nulla.

Per calcolare il t test per campione singolo possiamo quindi riscrivere la formula di prima come:

test t campione singolo

in quanto una divisione con zero al numeratore restituisce come risultato zero.

T test campioni accoppiati

Nel caso dei campioni accoppiati, la stessa formula può essere poi riscritta sostituendo a x1 la differenza tra le due misurazioni (xpre e xpost) e ponendo µ=0

formula t test campioni accoppiati

In questo caso, n corrisponderà alla numerosità minima tra pre e post, in quanto siamo interessati solo alle osservazioni per cui sono stati rilevati entrambi i valori

One sample t test: quando si può utilizzare

Il test t per un campione si può utilizzare quando i dati superano i seguenti 4 controlli.

Controllo 1: hai una variabile dipendente che è quantitativa. Questo test si basa infatti sulla media aritmetica. Questa media statistica è calcolabile solo per variabili quantitative.

Controllo 2: le osservazioni sono tra loro indipendenti. Ad esempio, non puoi utilizzare questo test se le tue unità statistiche rappresentano il momento temporale in cui è stata eseguita una determinata rilevazione. In questo esempio infatti i dati potrebbero essere tra loro autocorrelati.

Controllo 3: non ci devono essere outliers influenti. Per verificarlo, puoi costruire un boxplot. Se trovi degli outliers, come prima cosa accertati che non siano dovuti ad errori di misurazione o di imputazione. Se i dati sono corretti, e soprattutto se gli outliers sono estremi, dovrai decidere se:

  • Eliminare gli outliers e ricalcolare la media della variabile
  • Calcolare il test t sia con che senza outliers e valutare se ci sono differenze nei risultati
  • Sostituire i valori degli outliers più estremi con valori meno estremi.

Controllo 4: la distribuzione dei residui della variabile qualitativa deve essere normale. Per verificare se la distribuzione dei residui approssima una distribuzione normale, puoi calcolare per la variabile oggetto di studio un test per la normalità, gli indici di asimmetria e curtosi o costruire un istogramma. Se il tuo campione è poco numeroso e la distribuzione non risulta neanche simmetrica, puoi:

  • Provare a trasformare la variabile (ad esempio calcolandone il logaritmo) così da ridurne l’asimmetria.
  • Utilizzare un test non parametrico, come il test dei segni per ranghi di Wilcoxon.

Test d’ipotesi alla base del one sample t-test

Ipotesi nulla

Il test per la media di un campione confronta il valore della media osservato in una variabile con un valore medio di riferimento.

Nel caso di test a due code, l’ipotesi nulla è che la media della variabile nella popolazione da cui è stato estratto il campione oggetto di studio sia uguale al valore medio di riferimento.

In altre parole, l’ipotesi nulla è che il valore di riferimento non differisca significativamente dalla media della variabile osservata nel campione. Ovvero, che i due valori (media del campione e valore di riferimento) non siano significativamente differenti tra loro.

Ipotesi alternativa

Nel caso di test a due code, l’ipotesi alternativa è che la media della variabile nella popolazione da cui è stato estratto il campione oggetto di studio sia diversa dal valore medio di riferimento.

Nel caso di test ad una coda, l’ipotesi alternativa è che la media della variabile nella popolazione da cui è stato estratto il campione oggetto di studio sia strettamente maggiore (o minore) del valore medio di riferimento.

Come calcolare il test a campione singolo

One sample t test su Excel

Non c’è una funzione specifica per effettuare velocemente questo test. Puoi però sfruttare la formula del t test per campioni indipendenti.

Come prima cosa, devi scrivere in due celle verticali consecutive di Excel il valore di riferimento con cui vuoi confrontare la media della variabile quantitativa.

Quindi, dal menù principale: Dati | Analisi dati | Test t: due campioni assumendo varianze diverse

procedura su Excel per t test one sample

Nell’intervallo variabile 1 seleziona i dati della variabile quantitativa che ti interessa analizzare, escludendo la riga con il nome della variabile.

Nell’intervallo variabile 2 scrivi il valore di riferimento con cui vuoi confrontare la media della variabile quantitativa.

In differenza ipotizzata per le media, scrivi il valore di riferimento (es. 10)

risultato one sample t test in Excel

One sample t test su Jamovi

Dal menù principale: Analyses | One Sample T-test

Trascina la variabile di interessa in Dependent Variable e, nella sezione “Hypothesis” in Test Value inserisci il valore di riferimento che si riferisce all’ipotesi nulla (es.10)

calcolo one sample t test su jamovi

One sample t test su R Commander

Dal menù principale: Statistiche | Medie | t- test per un singolo campione

Seleziona quindi la variabile quantitativa nel box “Variabile (selezionarne una)” ed in “Ipotesi nulla mu=” inserisci il valore di riferimento (es.10).

calcolo one sample t test su R Commander

One sample t test su SPSS

Analizza | Confronta medie | Test t campione unico

Trascina la variabile su cui vuoi effettuare il test in Variabili del test. In Valore del test inserisci invece il valore di riferimento.

One sample t test: come si interpreta

Interpretazione numerica

Se il p-value che ottieni è inferiore al livello di significatività prefissato (es. alpha=0,05) allora si rifiuta l’ipotesi nulla e si dice che la differenza tra i due valori è statisticamente significativa.

Se invece il p-value è superiore al livello di significatività, allora non si può rifiutare l’ipotesi nulla. In questo caso la differenza tra i due valori non è statisticamente significativa.

Interpretazione logica

Come abbiamo visto, il test t è dato da un rapporto tra un numeratore in cui vi è il confronto tra i valori medi ed un denominatore in cui vi è l’errore standard.

Per comprendere meglio questa formula, puoi pensare alla trasmissione dei segnali radio.

Quando ascolti il tuo programma radio preferito, quello che senti non è identico al segnale originale. E’ normale infatti che ci siano interferenze e degradazione del segnale nella trasmissione dall’emittente alla radio che hai tu. In termini tecnici, si parla di rumore.

In altre parole, il segnale che ascolti alla tua radio è in realtà composto dal segnale originale che è stato trasmesso dall’emittente più una certa quantità di rumore.

Più la trasmissione è disturbata, più potresti chiederti se quello che stai ascoltando è effettivamente il programma che ti interessa o qualcos’altro.

Il ragionamento alla base del test t a campione singolo è quello di valutare se il segnale che stiamo ricevendo (corrispondente alle osservazioni che abbiamo nel campione) può arrivare effettivamente dalla stazione radio che ci interessa (valore di riferimento) oppure da un’altra.

Puoi infatti pensare alla formula del t-test come al rapporto tra segnale (numeratore) e rumore (denominatore).

  • Più è grande la differenza tra le due medie, più la qualità del segnale aumenta.
  • Più è grande l’errore standard, più significa che c’è rumore.

Pertanto, più c’è differenza tra le due medie (più i due segnali sono diversi), a parità di errore standard, più il valore di t sarà grande e più sarà probabile che la stazione che stai ricevendo sia diversa da quella che volevi sentire.

D’altra parte, a parità di differenza tra le medie, un rumore più forte (errore standard più grande) permetterà più difficilmente di rigettare l’ipotesi nulla che la differenza di segnale sia solo dovuta al disturbo nella trasmissione.

E adesso?

Se vuoi scoprire cosa significano in pratica tanti altri termini statistici, ti consiglio questa guida gratuita di statistica!

Articoli correlati

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.