Il test di Wilcoxon-Mann-Whitney è l’alternativa non parametrica al più conosciuto test t per il confronto delle medie di due gruppi tra loro indipendenti. Pur essendo uno dei test più utilizzati in statistica, è anche uno di quelli che crea più confusione, a partire proprio dal nome. Si ottiene infatti lo stesso risultato utilizzando due diversi test: il test della somma dei ranghi di Wilcoxon ed il test U di Mann-Whitney. In questo articolo scoprirai in cosa si differenziano questi test ed in cosa sono uguali, come si interpretano e quando è necessario utilizzarli.
Indice
Confronto due gruppi: test parametrico o non parametrico?
Il test t per campioni indipendenti è un test parametrico che permette di determinare se ci sono differenze statisticamente significative tra le medie di due gruppi tra loro indipendenti. Essendo quest’ultimo un test che utilizza le medie, si può applicare solo nei casi in cui è preferibile utilizzare come indice di tendenza centrale la media rispetto alla mediana.
Il test di Wilcoxon-Mann-Whitney invece si basa sui ranghi e proprio per questo è un test non parametrico che può essere utilizzato in tutti quei casi in cui non è consigliabile effettuare un confronto tra medie.
Questa trasformazione dei valori osservati in ranghi permette infatti degli indici più robusti rispetto ai valori anomali ed asimmetrie. Nel caso di dati per i quali siano verificate tutte le ipotesi del test parametrico t, si dimostra che utilizzare questa alternativa non parametrica porta però ad una riduzione della potenza del test. Questo significa che il test t, se le assunzioni su cui si basa sono verificate, può individuare come statisticamente significative differenze più piccole a parità di numerosità campionaria. E più il campione è di piccole dimensioni, più la differenza tra i due test può diventare rilevante.
Inoltre, il test parametrico permette di calcolare anche gli intervalli di confidenza delle medie, mentre il test non parametrico restituisce come output solo il p-value.
Ipotesi del test
I test non parametrici non richiedono di fare assunzioni sui parametri della popolazione di riferimento e possono essere utilizzati quando la forma della distribuzione della popolazione campionata non è nota. Tuttavia, restano delle limitazioni anche nell’utilizzo di questi test:
- Variabile dipendente almeno ordinale: la variabile dipendente deve essere espressa con dei numeri ed essere di tipo quantitativo o qualitativo ordinale. Ad esempio, puoi utilizzare questo test se stai analizzando una grandezza fisica come il peso, oppure un conteggio come il numero di figli oppure un punteggio espresso su una scala Likert. Se invece entrambe le variabili sono qualitative nominali, potresti ad esempio valutare un test del chi quadrato per tabelle di contingenza.
- Solo due gruppi: la variabile indipendente deve essere composta da solo due gruppi. Ad esempio: sì/no oppure trattamento/controllo o ancora minorenne/maggiorenne. Se i gruppi sono più di due, dovrai invece ricorrere all’Anova non parametrica (test di Kruskal-Wallis)
- Indipendenza tra le osservazioni: i due gruppi devono essere stati estratti in maniera tra loro indipendente e casuale dalle loro rispettive popolazioni. I due gruppi devono essere quindi tra di loro reciprocamente indipendenti ed inoltre le osservazioni all’interno di ogni gruppo devono essere tra loro indipendenti. Ad esempio, se un gruppo indica coloro che hanno cittadinanza italiana e l’altro gruppo coloro che hanno cittadinanza estera, potrebbe capitare che alcuni individui avendo una doppia cittadinanza ricadano in entrambi i gruppi. In questo caso non puoi usare questo test.
Esempi pratici test di Wilcoxon-Mann-Whitney
Potresti utilizzare questo test per valutare se ci siano differenze statisticamente significative tra il reddito percepito da maschi e femmine nella tua azienda. Il reddito, infatti, è una variabile che di solito ha una distribuzione asimmetrica a destra e pertanto, pur essendo una variabile quantitativa, non presenta una distribuzione normale.
Oppure, per valutare se ci siano differenze statisticamente significative tra il livello di soddisfazione misurato su una scala da 1 a 10 tra due diversi tipi di consumatori.
Test di Wilcoxon-Mann-Whitney: le origini del test
Il test U di Mann Whitney deve il suo nome a coloro che, nel 1947, per primi hanno tabulato in modo esaustivo i valori della statistica test “U”. Ovvero, allo statistico statunitense Donald Ransom Whitney ed al suo prima relatore di tesi, poi diventato collega ed amico, Henry Berthold Mann.
Come vedremo, questo test è del tutto equivalente al test della somma dei ranghi di Wilcoxon per due gruppi indipendenti. Questo perché Wilcoxon due anni prima di Mann e Whitney aveva già proposto un test simile ma fornendo solo alcuni punti delle distribuzione della statistica U.
Questo è il motivo per cui è possibile mettere assieme tutti e tre gli studiosi e si parla di test di Wilcoxon-Mann-Whitney.
Come si calcola il test per la somma dei ranghi di Wilcoxon
O meglio, come si calcolerebbe. Perché, tranne che ti sia richiesto per uno specifico esercizio matematico, non c’è davvero nessun motivo per cui non dovresti affidare i calcoli, piuttosto lunghi, ad un software. Tuttavia, di seguito troverai spiegata per sommi capi la procedura sia di questo test che di quello di Mann Whitney, perché penso ti possa essere utile per capire come interpretare in modo corretto poi il risultato del test.
Esempio
Ipotizziamo che tu abbia raccolto le informazioni sul reddito su un campione di 20 colleghi, 8 maschi e 12 femmine. Il tuo obiettivo è stabilire se c’è sufficiente evidenza nei dati per affermare che maschi e femmine siano due gruppi provenienti da popolazioni in cui il livello di reddito è differente.
L’ipotesi nulla è quindi che non sia presente nessuna tendenza da parte di una delle due popolazioni a presentare valori di reddito maggiori di quelli dell’altra popolazione. L’ipotesi alternativa è che questa tendenza invece sia presente.
Per poter stabilire se accettare o meno l’ipotesi nulla, come prima cosa si ordinano i valori della variabile dipendente (in questo esempio, il reddito) dal più piccolo al più grande, senza tenere conto della suddivisione nei due gruppi. Quindi, chi tra i 20 colleghi ha il reddito più basso tra tutti avrà rango 1, a seguire il secondo collega con il reddito più basso avrà rango 2 e così a salire fino al collega con il reddito più alto di tutti che avrà rango 20. Nel caso di più colleghi con lo stesso identico reddito, si calcola il rango medio di queste unità con eguale valore.
Quindi si fa la somma dei ranghi dei due gruppi e si divide per il numero di osservazioni presenti in ogni gruppo. In altre parole, nell’esempio si fa la media dei ranghi dei maschi e la media dei ranghi delle femmine.
La statistica test confronta proprio le medie campionarie dei ranghi e potrebbero capitare due situazioni:
- Il rango medio è lo stesso, o sufficientemente simile nei due gruppi da far sì che si accetta l’ipotesi nulla che la distribuzione del reddito nelle due popolazioni (da cui sono state estratte i due gruppi) sia la stessa.
- Vi è una differenza tale tra i due ranghi medi che un gruppo tende ad avere valori di reddito significativamente più elevati dell’altro. In altri termini, vi è sufficiente evidenza a favore dell’ipotesi alternativa che la distribuzione del reddito sia diversa nelle due popolazioni. Ritornando all’esempio, questo si verificherà sia se la media dei ranghi dei maschi è significativamente maggiore di quella delle femmine sia se la media dei ranghi delle femmine è significativamente maggiore di quella dei maschi.
Per la maggior parte dei campioni, si utilizza come distribuzione di riferimento l’approssimazione Normale della statistica T. In caso di ridotta numerosità campionaria, si utilizza invece la distribuzione esatta.
Come si calcola il test U di Mann Whitney
La prima parte della procedura, fino al calcolo dei ranghi, è lo stesso del test della somma dei ranghi di Wilcoxon. Per ottenere poi la statistica U, si calcola per ogni reddito di un gruppo (ad esempio, le femmine), quanti redditi dell’altro gruppo (i maschi) lo precedono. Sommando i numeri trovati in questo modo, si ottiene il valore della statistica U.
In altre parole, si considerano tutte le coppie di osservazioni formate considerando un’osservazione da un gruppo e l’altra osservazione dall’altro gruppo ed il test è basato sul numero di coppie per cui l’osservazione del primo gruppo è maggiore.
La statistica U può assumere valori compresi tra:
- Valore minimo di U=0 (quando tutti i redditi delle femmine sono minori di ogni reddito dei maschi)
- Valore massimo di U=n1*n2 (in questo esempio, 8*12, che si verifica quando tutti i redditi delle femmine sono maggiori di ogni reddito dei maschi).
e pertanto si può dire che:
- Più U è vicino a 0, più significa che i redditi delle femmine sono minori dei redditi dei maschi.
- Se U è vicino al valore massimo, più significa che i redditi delle femmine sono maggiori dei redditi dei maschi.
- Valori di U intermedi tra 0 e valore massimo stanno ad indicare che i due gruppi sono tra loro ben mescolati e quindi hanno reddito simile.
Come nel caso del test della somma dei ranghi di Wilcoxon, anche in questo caso la distribuzione di riferimento sarà l’approssimazione Normale, a meno che il campione non sia di ridotte dimensioni ed allora si utilizzerà proprio la distribuzione U tabulata da Mann e Whitney.
Metodo esatto o asintotico?
Come abbiamo visto, è possibile ottenere il risultato del test utilizzando due diversi metodi. Il metodo asintotico attribuisce una maggiore potenza statistica rispetto al metodo esatto. Nel metodo asintotico, infatti, la significatività statistica si valuta infatti a partire dall’ipotesi di grandi campioni distribuiti normalmente. Tuttavia, in caso di dati asimmetrici, non è possibile affidarsi a tale metodo, ma è necessario fare affidamento sui risultati esatti. Nel metodo esatto, infatti, la significatività statistica non è basata su una distribuzione teorica (come quella Normale) ma sulla distribuzione del campione osservato, ossia sulla “esatta” distribuzione dei dati.
Il p-value del test: come si interpreta?
I test U di Mann Whitney e della somma dei ranghi di Wilcoxon restituiscono esattamente lo stesso p-value:
- P-value è superiore ad alpha (in genere si considera alpha=0.05): non c’è evidenza di una differenza statisticamente significativa tra le due distribuzioni.
- P-value è inferiore ad alpha: la sua interpretazione cambia a seconda della forma che la distribuzione della variabile dipendente ha nei due gruppi:
– Se ha forma diversa nei due gruppi: c’è evidenza a favore di una differenza statisticamente significativa tra le medie dei ranghi dei due gruppi
– Se la forma della distribuzione è la stessa: c’è anche evidenza a favore di una differenza statisticamente significativa tra le mediane dei due gruppi.
In altre parole, il test ti permette di capire se, quando nel campione che stai analizzando (ad esempio, i 20 colleghi), trovi una differenza tra la media dei ranghi, questa è abbastanza grande da essere considerata statisticamente significativa. E se quindi puoi affermare con un sufficiente grado di confidenza (es. 95%) che nella tua azienda c’è evidenza di una disparità tra i redditi in base al genere.
Nel caso la forma della distribuzione sia poi simile nei due gruppi, allora questo test ti permette di verificare anche se ci sia evidenza di una differenza statisticamente significativa tra le mediane dei due gruppi. In altre parole, solo quando la forma della distribuzione può essere considerata la stessa, se trovi un p-value piccolo (cioè inferiore ad alpha) puoi concludere che vi è evidenza di una differenza statisticamente significativa tra le mediane dei due gruppi.
Calcolo U su Excel
Non c’è una funzione preimpostata per effettuare questo test su Excel e pertanto non ti consiglio di utilizzare tale software per questa analisi.
Calcolo test U su SPSS
Puoi usare una delle due seguenti procedure.
Prima procedura
Come primo passaggio, per capire se la forma della distribuzione è simile nei due gruppi, clicca su:
Grafici | Builder di Grafico
e quindi clicca su Istogramma e seleziona l’opzione più a destra (quella denominata Piramide della popolazione).
Trascina quindi la variabile di raggruppamento in Variabile di suddivisione e la variabile dipendente in Variabile di distribuzione e quindi clicca su Ok.
Nel menù principale, vai quindi su:
Analizza |Test non parametrici | Finestra di dialogo legacy | 2 campioni indipendenti
Trascina la variabile dipendente in Lista variabili test e la variabile indipendente in Variabile di raggruppamento. Clicca quindi su Definisci gruppi per indicare quali sono le codifiche numeriche associate ai due gruppi. Infine, clicca su Ok.
Seconda procedura (consigliata)
Nel menù principale, vai su:
Analizza | Test non parametrici | Campioni indipendenti
Nella schermata “Campi”:
- Trascina la variabile dipendente in Campi test. Se la variabile dipendente è ordinale, e così è stata impostata nella “Vista variabile” di SPSS, devi prima andare a modificare la misura in continua.
- Trascina la variabile che indica il gruppo di appartenenza in Gruppi. Se quest’ultima variabile è di tipo stringa, potrebbe essere prima necessario ricodificarla come di tipo numerico. Ad esempio, se la variabile di raggruppamento è il Genere, puoi ricodificarla come Maschio=0 e Femmina=1 attraverso il menù Trasforma | Ricodifica nelle stesse variabili.
Nella schermata “Impostazioni” clicca su Scegli i test e quindi su Personalizza i test e seleziona la U di Mann Whitney (2 campioni). Infine, clicca su Ok
Ti consiglio questa seconda procedura perché crea in automatico anche gli istogrammi delle due distribuzioni, così da capire se la forma delle due distribuzioni è la stessa o meno. E quindi per capire se è possibile interpretare i risultati anche in termini di differenza tra le mediane o solo tra i ranghi medi.
Calcolo test U su Jamovi
Per capire se la forma della distribuzione è simile nei due gruppi, dal Menù Analysis, clicca su:
Exploration| Descriptives
Inserisci la variabile dipendente in Variables e la variabile di raggruppamento in Split by
In Plots, seleziona Histograms
Quindi per calcolare la statistica test ed il relativo p-value, sempre dal menù Analysis, vai su:
T-tests | Indipendent Samples T-Test
e quindi seleziona tra i test disponibili il U di Mann Whitney.
Calcolo u su R Commander
Per capire se la forma della distribuzione è simile nei due gruppi, nel menù principale clicca su:
Grafici | Istogramma
Inserisci la variabile dipendente in Variabile e la variabile di raggruppamento in Tracciare per gruppi. Clicca poi su Ok.
Per calcolare la statistica test ed il relativo p-value, sempre dal menù principale di R Commander clicca invece su:
Statistiche | Test non parametrici | Test di Wilcoxon per due campioni
Nella schermata “Dati” seleziona la variabile di raggruppamento (Gruppi) e quella dipendente (Variabile risposta).
Nella schermata “Opzioni” puoi personalizzare l’analisi scegliendo tra test a due code (quello trattato in questo articolo) e test ad una coda. Inoltre, puoi scegliere di utilizzare il metodo esatto oppure l’approssimazione Normale. Clicca quindi su Ok.
La funzione utilizzata è wilcox.test()
Test di Wilcoxon: che differenza c’è?
Come abbiamo visto, con la dicitura test di Wilcoxon-Mann-Whitney si fa riferimento a due test: il test U di Mann Whitney ed il test della somma dei ranghi di Wilcoxon. Ed in termini di risultati, il test di Wilcoxon per campioni indipendenti è del tutto equivalente al test U di Mann Whitney.
La scelta di quale utilizzare dipende sostanzialmente dal software che si sta utilizzando. Ad esempio, SPSS e Jamovi propongono il test U di Mann Whitney, mentre R Commander il test di Wilcoxon per campioni indipendenti.
Il test dei ranghi con segno di Wilcoxon per campioni appaiati è invece un test diverso, in quanto si utilizza per misure ripetute e non per campioni indipendenti.
In altre parole, il test di Wilcoxon per campioni appaiati è l’alternativa non parametrica al test t per campioni appaiati. Mentre, come abbiamo visto, il test di Wilcoxon-Mann-Whitney è l’alternativa non parametrica ai test t per campioni indipendenti (ovvero ai test t di Student ed test t di Welch).
Test sulle mediane: è la stessa cosa?
Il test U di Mann Whitney è un test sull’uguaglianza stocastica e, come abbiamo visto, la sua interpretazione cambia a seconda che la forma delle due distribuzioni sia la stessa o meno. E questo test è utile per rilevare differenze nei valori mediani solo quando la variabile dipendente ha la stessa distribuzione nei due gruppi. Questo perché le formule utilizzate non lavorano direttamente sulle mediane ma sul rango medio.
E questo è il motivo per cui, ad esempio, su SPSS, oltre al test U di Mann Whitney trovi anche la possibilità di selezionare il test sulle mediane.
Tuttavia, il test della mediana non utilizza tutte le informazioni contenute nei due gruppi, nel caso in cui la variabile dipendente sia ordinale. E pertanto, rispetto al test della mediana, ti consiglio di utilizzare il test di Mann Whitney che, essendo basato sui ranghi delle osservazioni, utilizza più informazioni.
Test di Wilcoxon-Mann-Whitney: e adesso?
Puoi trovare altri indici statistici spiegati in modo semplice in questa guida gratuita di statistica. Dagli un’occhiata!