Variabili dummy e modelli di regressione

27 Marzo 2021 | Analisi dati

Anche le variabili qualitative possono essere inserite all’interno di un modello di regressione. Tuttavia, è necessario prima trasformarle, in modo più o meno automatica a seconda del software utilizzato, variabili dummy. In questo articolo scoprirai che cosa sono, come si costruiscono e quando si utilizzano questo tipo di variabili.

Che cosa si intende per variabile dummy

Il termine “dummy” in inglese ha diversi significati. Quando utilizzato come sostantivo, indica il “manichino”, mentre come aggettivo si può tradurre come “finto” oppure “simulato“.

E proprio come un manichino in una vetrina è un “sostituto” per una persona reale, così una variabile dummy ha il ruolo di “sostituto” per una variabile qualitativa.

Creare una variabile dummy significa infatti creare una nuova variabile fittizia, di comodo. Il suo scopo è permettere di lavorare con valori numerici anche quando la variabile di partenza è di tipo qualitativo.

Nello specifico, costruire una variabile dummy significa infatti codificare i dati presenti all’interno di una variabile in modo che possano assumere solo valore 0 oppure 1.

Da un punto di vista matematico ed informatico, la variabile dummy è quindi una variabile numerica binaria. Da un punto di vista statistico questo tipo di variabile non è considerato quantitativo ma rientra tra quelle qualitative nominali. In particolare, le variabili dummy sono un tipo particolare di variabili qualitative nominali dicotomiche. Possono infatti assumere solo due valori: 0 ed 1.

Quando usare una variabile dummy

Le variabili dummy vengono spesso utilizzate nei modelli di regressione. Questa tipologia di analisi infatti ha come obiettivo la ricerca di un’equazione numerica che definisca il rapporto tra le variabili. Proprio per questo motivo, richiede che tutte le variabili inserite al suo interno siano di tipo numerico.

Per le variabili quantitative non si pone quindi nessun problema ma potresti voler includere nel modello anche delle variabili qualitative.

In questo caso la soluzione è proprio ricorrere ad una trasformazione delle variabili di partenza in variabili binarie, che possono assumere solo valori 0 ed 1. I numeri 1 e 0 indicano quindi l’appartenenza esclusiva di ogni unità statistica ad una categoria piuttosto che all’altra.

Queste nuove variabili dummy possono assumere sia il ruolo di variabili esplicative (in tutte le tipologie di modelli di regressione) che di risposta (nei modelli di regressione logistica).

In questo articolo ci concentreremo sull’utilizzo come variabili esplicative. In altre parole, vedremo cosa fare quando si vuole inserire una variabile qualitativa come regressore (X) all’interno di un modello di regressione lineare.

Esempio di utilizzo di variabili dummy

Ipotizziamo che tu voglia capire quali sono i fattori che possono influenzare il punteggio conseguito ad un esame di statistica. Parlando con alcuni studenti che hanno già dato questo esame, hai notato che i maschi e coloro che hanno una predisposizione per le materie scientifiche sembrano conseguire un punteggio maggiore.

Decidi così di intervistare 30 studenti che hanno da poco superato tale esame. Tramite un breve questionario, chiedi loro una serie di informazioni tra cui l’età, il genere e quale materia preferiscono tra matematica, informatica ed inglese.

Registrando tutte queste informazioni in un dataset, otterrai quindi una colonna contenente il voto dell’esame (espresso in trentesimi), una l’informazione riguardo l’età (in anni compiuti), una rispetto il genere (maschio o femmina) ed una relativa alla materia preferita tra le tre selezionabili (matematica/informatica/inglese).

Dopo le opportune verifiche, potresti quindi decidere di costruire un modello di regressione lineare che avrà come variabile dipendente il voto dell’esame e come variabili indipendenti l’età, il genere e la materia preferita.

L’età è una variabile quantitativa, quindi puoi inserirla direttamente nel modello di regressione. Mentre il genere e la materia preferita sono qualitative. Queste ultime sono quindi esempi di variabili che prima di essere inserite nel modello di regressione dovranno essere trasformate in dummy.

Come trasformare una variabile qualitativa dicotomica in dummy

Nel caso del genere, la variabile è di tipo qualitativo nominale ed è già di per sé dicotomica in quanto assume solo due modalità (maschio/femmina).

In questo caso sarà sufficiente codificare una modalità (es. maschio) come 0 e l’altra modalità (es. femmina) come 1.

Qualsiasi altra codifica (es. 1=maschio, 2=femmina oppure -1=maschio e 1=femmina) falserebbe i valori dei coefficienti di regressione e quindi renderebbe il modello non interpretabile.

Ecco un esempio di tabella dei coefficienti (ottenuta con Jamovi) relativa ad un modello di regressione lineare multipla. In questo esempio la variabile dipendente è il voto conseguito all’esame di statistica e le due variabili indipendenti sono l’età ed il genere.

Esempio tabella coefficienti modello di regressione su Jamovi

I numeri contenuti nella colonna Estimate ci stanno dicendo che, a parità di età, le femmine (codificate come 1) ottengono in media più basso di un punto (-0,7952) rispetto a quello dei maschi.

Il punteggio medio ottenuto dai maschi (codificati come 0) lo puoi trovare guardando il valore dell’intercetta ed in questo caso è pari a circa 23.

E se invertiamo la codifica (0=femmina ed 1=maschio)?

Puoi osservare il risultato di tale inversione nella tabella qui sotto. Il coefficiente di regressione per la variabile “Genere” ha sempre lo stesso valore assoluto ma segno opposto di quello che avresti ottenuto con la codifica inversa (quella con 0=maschio ed 1=femmina).

Il p-value e quindi la significatività statistica di tale variabile qualitativa dicotomica invece non cambia.

Ti faccio anche notare che cambia il valore dell’intercetta in quanto anche quest’ultima dipende dalla categoria di riferimento.

esempio tabella risultati regressione con variabili qualitative

Come trasformare una variabile qualitativa multinomiale in dummy

Concentriamoci adesso sulla materia preferita. Questa variabile è di tipo qualitativo multinomiale in quanto sono state incluse tre possibili risposte tra di loro mutualmente esclusive. In altri termini, era possibile selezionare un’unica materia come preferita.

Come fare in questi casi? Assegnare alla terza modalità un numero diverso da 0 ed 1 non va bene ai fini dell’analisi di regressione in cui come abbiamo detto le variabili qualitative possono essere incluse solo come variabili dummy.

Se ad esempio codificassimo questa variabile come 0=matematica, 1=informatica e 2=inglese, confrontare poi direttamente le categorie non avrebbe senso: “2 meno 1” non significa nulla in quanto non è possibile sottrarre la materia 2 (inglese) alla materia 1 (informatica). I numeri in questo caso non hanno infatti di per sé un significato intrinseco.

In questi casi la soluzione è creare tante variabili dummy quante ne servano per non perdere l’informazione contenuta nella variabile qualitativa di partenza.

Come codificare in dummy le variabili qualitative con più di due modalità

Le variabili qualitative con più di due modalità non possono infatti essere inserite così come sono all’interno di un modello di regressione. Tuttavia, queste variabili possono essere analizzate trasformandole in una serie di variabili binarie.

esempio dataset con variabili dummy in Jamovi

Da avere tutte le informazioni riguardo l’esito dell’esame su un’unica colonna (“Materia preferita”) in questa tabella siamo passati ad avere la stessa informazione suddivisa in 3 colonne (“Matematica”, “Informatica” ed “Inglese”). Il numero di nuove colonne creato coincide esattamente con il numero di modalità della variabile qualitativa.

Osservando questa tabella, puoi infatti osservare che la modalità “matematica”, oltre ad essere rappresentata dalla modalità “matematica” nella colonna “materia preferita”, può essere anche rappresentata dalla codifica dummy [1, 0, 0]. Allo stesso modo “informatica” può essere rappresentato con [0, 1, 0] ed “inglese” con [0, 0, 1].
In altre parole, puoi intendere gli 1 come “Vero” e gli 0 come “Falso”.

Se Carlo ha indicato come materia preferita la matematica, allora avrà valore 1 (vero) nella colonna Matematica e valore 0 (falso) nelle colonne relative alle altre due materie.

Allo stesso modo, se Matilde ha indicato come materia preferita l’inglese, allora a lei sarà assegnato valore 0 (falso) nelle colonne relative a matematica ed informatica e valore 1 (vero) nella colonna relativa all’inglese.

Categoria di riferimento per le variabili dummy

Ti faccio inoltre notare che chi non è ha indicato né matematica né informatica, per esclusione rientrerà nella categoria “inglese”. L’ultima variabile dummy non ci fornisce quindi nessuna informazione aggiuntiva a quanto possiamo conoscere osservando le altre variabili.

Proprio per questo motivo, abbiamo bisogno di usare solo due di queste tre variabili binarie come predittori all’interno del modello di regressione. Se le inserissimo tutte e tre, invieremmo al modello di regressione delle informazioni ridondanti e si otterrebbe quella che viene chiamata “trappola delle variabili dummy”.

Questo significa che il numero di variabili dummy da inserire come indipendenti all’interno di un modello di regressione è sempre pari ad uno in meno rispetto al numero di modalità della variabile qualitativa che si sta considerando.

Inserire un numero di variabili dummy pari al numero di modalità della variabile qualitativa ci darebbe infatti problemi di multicollinearità. E, di conseguenza, le stime del modello di regressione risulterebbero meno accurate.

La scelta della variabile dummy da escludere (che viene chiamata categoria di riferimento) è arbitraria e dipende dalla logica che sta dietro allo studio che si sta conducendo.

La creazione delle variabili dummy infatti può essere effettuata in modo automatico con la maggior parte dei software statistici, ma la scelta di quale modalità considerare come variabili di riferimento deve essere sempre ragionata e mai lasciata al caso.

Variabile dummy in un modello di regressione: come si interpreta?

Tipicamente, in una variabile dummy 1 rappresenta la presenza di una determinata modalità mentre lo 0 ne rappresenta l’assenza.

In un modello di regressione, quando una variabile esplicativa assume valore 0, il suo coefficiente scompare dall’equazione. Al contrario, quando assume valore 1 il suo coefficiente di regressione influenzerà invece, in modo più o meno significativo a seconda del relativo p-value, i valori della variabile risposta.

Questo è il motivo per cui l’interpretazione dei risultati cambia a seconda della categoria di riferimento che si sceglie.

Esempio interpretazione variabile dummy

Ad esempio, vediamo cosa succede se includi le variabili “inglese” ed “informatica” all’interno del modello e lasci “matematica” come categoria di riferimento. I coefficienti di regressione che ottieni per queste due variabili dummy si interpretano sempre rispetto alla categoria di riferimento.

Ad esempio, se ti interessa in particolare capire che voti ottengono coloro che non scelgono la matematica come materia preferita, puoi utilizzare quest’ultima come categoria di riferimento. In questo caso dovrai includere le altre due variabili fittizie (inglese ed informatica) all’interno del modello di regressione.

esempio variabile qualitativa multinomiale in regressione lineare multipla

Osservando i coefficienti di regressione presenti nella colonna Estimate, possiamo notare come in questo caso chi ha scelto come materia preferita l’inglese, a parità di età e di genere, tende in media ad avere un voto più basso di circa 3,5 punti all’esame di statistica rispetto a chi aveva scelto la matematica (ovvero la categoria di riferimento).

Chi invece aveva scelto come materia preferita l’informatica, ottiene in media un voto solo leggermente più basso (-0,320) all’esame di statistica rispetto a chi ha scelto la matematica (che è sempre la categoria di riferimento).

Se invece consideriamo come categoria di riferimento l’inglese, come nella tabella qui sotto, possiamo notare come i coefficienti di regressione per informatica e matematica siano positivi. Questo è coerente con quello che abbiamo visto prima. Riassumendo, chi preferisce materie più scientifiche tende ad avere un voto più alto all’esame di statistica rispetto a chi preferisce l’inglese.

esempio tabella coefficienti di regressione con variabili dummy su Jamovi

Variabile dummy: e adesso?

In questo articolo abbiamo visto cosa si intende per variabile dummy e quando si utilizza all’interno dei modelli di regressione. In particolare, abbiamo visto come per le variabili qualitative sia necessario inserire nel modello un numero di variabili dicotomiche pari al numero di modalità di quella variabile meno uno.

Per approfondire l’argomento, ti consiglio di partire da questo articolo introduttivo sui modelli di regressione lineare multipla.

E se invece ti serve un supporto personalizzato sui tuoi dati, dai un’occhiata alle consulenze check-up!

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.