Test del chi quadro per tabelle di contingenza

15 Agosto 2020 | Analisi dati

Che cos’è il test del chi quadro, a cosa serve e quando si può utilizzare? Come si legge la tabella dei risultati? Scoprilo in questo articolo!

test del chi quadro

Il test del chi quadro è probabilmente il test statistico più utilizzato per capire se due variabili qualitative nominali sono tra loro associate o indipendenti.

Ad esempio, potresti utilizzare il test del chi quadro per determinare se c’è un’associazione tra lo stato civile e la regione di residenza di un individuo. Oppure tra la professione ed il mezzo di trasporto più utilizzato per recarsi a lavoro.

Chi quadrato: quando si usa?

La formula del test del chi quadro può essere applicata sia a coppie di variabili nominali che ordinali. Infatti, per poter effettuare il calcolo, è sufficiente che i dati possano essere disposti in una tabella di contingenza.

Puoi quindi calcolare il test del chi quadro sia se hai a disposizione il dataset con i valori delle variabili per le singole unità. Ma anche se hai solo una tabella a doppia entrata. Questo secondo approccio è molto utile ad esempio se non hai accesso ai dati grezzi ma solo a delle tabelle riassuntive, come capita nel caso di pubblicazioni scientifiche o dati disponibili online.

Esempi di variabili nominali sono i reparti di un ospedale (ortopedia, urologia, pediatria..), la regione di residenza (Valle d’Aosta, Piemonte, Liguria, Lombardia,…), la professione (infermiere, medico, psicologo, odontoiatra,…) ed i mezzi di trasporto (auto, bici, treno,…).

Esempi di variabili ordinali sono il codice di accesso al pronto soccorso (bianco, verde, giallo, rosso), il titolo di studio (licenza media, diploma, laurea,..) oppure le risposte ad un questionario su scala Likert (in disaccordo, né d’accordo né in disaccordo, d’accordo)

Tuttavia, nel caso di variabili ordinali, il test non terrà conto dell’ordine delle modalità. In sostanza, le variabili ordinali verranno considerate come nominali.

Come trovi spiegato nell’articolo sulle scale di misura, questo passaggio da scala ordinale a nominale comporta una perdita di informazioni. Pertanto, nel caso di variabili ordinali il test del chi quadro non è la soluzione preferibile.

Per valutare l’associazione tra variabili ordinali è preferibile utilizzare altri indici statistici, come il tau b di Kendall oppure il coefficiente di correlazione per ranghi di Spearman. Se invece ti interessa valutare l’associazione tra tre e più variabili categoriche, ti consiglio di utilizzare le analisi log-lineari.

Formula chi quadrato

Il test del chi quadro determina se c’è una relazione tra due variabili qualitative nominali confrontando le frequenze osservate con quelle attese (dette anche frequenze teoriche).

La formula del chi quadro prevede infatti come primo passaggio proprio il calcolo di tutte le differenze tra frequenze attese ed osservate.

Sommando tutte queste differenze si ottiene infine una quantità che corrisponde proprio al chi quadro.

Frequenze attese

Le frequenze attese possono essere calcolate a mano oppure ottenute automaticamente con tutti i principali software statistici, come SPSS oppure R.

Le frequenze attese si riferiscono ai numeri che avresti all’interno della tabella di contingenza nel caso in cui non ci fosse nessuna relazione tra le due variabili.

Più i valori delle frequenze attese si discostano da quelli delle frequenze osservate, più si dice che l’associazione tra le due variabili è forte. Viceversa, più le frequenze attese hanno numeri vicini a quelli delle frequenze osservate, più si dice che l’associazione tra le due variabili è debole.

Nel caso (abbastanza raro nella realtà) in cui tutte le frequenze attese coincidano esattamente con le frequenze osservate, si dirà che tra le due variabili c’è perfetta indipendenza.

Il test del chi quadro si utilizza quando almeno l’80% frequenze attese della tabella di contingenza sono pari o maggiori a 5 e non c’è nessuna frequenza attesa pari a 0.

Nel caso in cui queste due condizioni non siano soddisfatte, puoi valutare se è possibile aggregare più modalità insieme così da aumentare i valori delle frequenze attese. In alternativa, o nei casi in cui questa aggregazione non abbia senso a livello logico, puoi utilizzare il test esatto F di Fisher

Test del chi quadro: ipotesi nulla ed ipotesi alternativa

Con la formula del chi quadro otterrai il valore della statistica chi quadro. Per poter capire se c’è indipendenza tra le due variabili però questo valore non basta. Devi infatti ancora costruire un test di ipotesi.

L’ipotesi nulla è che il chi quadro sia pari a 0, ovvero che ci sia indipendenza tra le due variabili. Il valore 0 si ottiene infatti quando le frequenze attese coincidono con le frequenze osservate.

L’ipotesi alternativa è invece che il chi quadro sia diverso da 0. Per come è fatta la distribuzione del chi quadro, il suo valore non potrà mai essere minore di 0 e pertanto possiamo anche dire che l’ipotesi alternativa è che il chi quadro sia maggiore di 0.

Il test del chi quadro è infatti un test ad una sola coda, in quanto l’ipotesi alternativa prevede solo il maggiore e non il minore.

Tabella chi quadro: come si legge

Se effettui il test del chi quadro con un qualsiasi software statistico otterrai come output una tabella con almeno 3 colonne. Nella prima di solito è indicato il valore della statistica chi quadro, nella seconda troverai il numero di gradi di libertà riferiti a tale statistica e nella terza il valore del p-value.

Per interpretare il risultato del test del chi quadrato devi concentrarti proprio sulla colonna dei p-value:

  • Se il p-value relativo al chi quadro risulta maggiore della soglia alpha prefissata (spesso alpha=0,05) allora si rifiuta l’ipotesi nulla e si può affermare che c’è dipendenza tra le due variabili.
  • Quando invece il p-value del chi quadro risulta minore di alpha, allora no si può rifiutare l’ipotesi nulla e si dice che le due variabili sono tra loro indipendenti.

Alternative al chi quadro: la V di Cramer

Il limite principale del test del chi quadro è che non fornisce informazioni sulla grandezza dell’associazione, ma solo sul fatto che si possa o meno rifiutare l’ipotesi nulla di indipendenza delle distribuzioni. Un valore elevato del chi quadro suggerisce infatti che le due variabili siano tra loro associate ma non implica che l’associazione sia forte. Per un dato grado di associazione, il valore del chi quadro infatti aumenta all’aumentare della numerosità campionaria.

Per stabilire quindi la forza dell’associazione tra due variabili qualitative (ovvero l’effect size) devi quindi utilizzare altre misure di associazione, come la V di Cramer.

L’indice V di Cramer varia tra 0 (nessuna associazione tra le due variabili) e +1 (perfetta associazione tra le due variabili).

Seguendo le linee guida pubblicate da Cohen nel 1988, valori vicini a 0,1 della V di Cramer indicano un effetto piccolo, valori vicini a 0,3 indicano un effetto medio e valori superiori a 0,5 indicano un effetto grande.

Test del chi quadro: e adesso?

Trovi tante altre definizione pratiche ed esempi applicativi in questa guida gratuita di statistica. Ti aiuterà a comprendere cosa significano 10 tra le espressioni statistiche più utilizzate ai fini pratici di un’analisi dati: da come si costruisce un dataset a come si valuta la relazione tra due variabili e si interpreta l’output di un modello di regressione. Scarica subito la guida gratuita di statistica!

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.