Regressione lineare multipla: quale è il modello migliore?

8 Agosto 2020 | Analisi dati

Scopri quale è la migliore combinazione di variabili esplicative da inserire in un modello di regressione lineare multipla. In questo articolo ti chiarirai le idee su come scegliere le variabili adatte per l’analisi e su come confrontare modelli diversi per individuare quale è quello finale da inserire nella tua tesi o articolo scientifico..

esempio combinazione per modello di regressione lineare multipla

Che cos’è la regressione lineare multipla?

La regressione lineare multipla è un’estensione dell’analisi della correlazione e della regressione lineare semplice.

Come l’analisi di correlazione, la regressione lineare permette infatti di analizzare la relazione tra variabili. Ti permette infatti di studiarne sia la direzione che la significatività. Inoltre, la regressione ti permette di quantificare di quanto in media aumenterà o diminuirà la y all’aumentare del punteggio di una variabile esplicativa.

Nel modello di regressione lineare semplice si studia la relazione tra la y ed una sola x, ovvero si può includere una sola variabile esplicativa. Nel modello di regressione lineare multipla invece si includono due o più variabili esplicative per studiare contemporaneamente l’effetto di più x sulla y. Se ti è chiara l’analisi di regressione lineare semplice, vedrai che l’estensione al caso multiplo ti risulterà facile da comprendere.

A cosa serve la regressione lineare multipla?

La costruzione di un modello di regressione lineare multipla permette di quantificare la relazione esistente tra la variabile dipendente (la y) ed un insieme di variabili esplicative (le x). Inoltre, ti aiuta a predire quale sarà il valore della y per determinati valori di x.

Numerosità campionaria per la regressione lineare

Indicativamente, dovresti avere almeno 10-15 osservazioni che ogni variabile indipendente che inserisci nel modello, comprese eventuali interazioni e termini polinomiali. Quindi, più prevedi che il tuo modello sarà complesso, più il tuo campione dovrà essere numeroso.

Ad esempio, se il modello di regressione che vuoi costruire avrà due variabili indipendenti, avrai bisogno di almeno 20-30 osservazioni nel tuo campione. Se invece prevedi di valutare anche l’interazione tra le due variabili, allora ti serviranno almeno 30-45 osservazioni.

Queste ovviamente sono solo indicazioni di massima, che possono esserti utili all’inizio di un progetto per capire se l’analisi è fattibile. Per individuare invece con precisione la numerosità campionaria ti consiglio di basarti su un software statistico, come quello che ti consiglio in questa guida a software e strumenti per l’analisi dati disponibili online.

Variabili del modello di regressione: quali scegliere?

In questo articolo scoprirai come decidere quali e quante variabili includere e come confrontare due o più modelli di regressione per individuare il migliore. Ovvero quello che ti permetterà di spiegare al meglio i tuoi dati.

Quando si decide quante variabili esplicative includere in un modello di regressione lineare multipla infatti si può incorrere in uno di questi due problemi di specificazione:

Le variabili esplicative sono troppo poche: il modello non riesce a spiegare bene la y
Le variabili esplicative sono troppe: il modello risulta meno preciso per un sovra-adattamento

Vedremo prima tre verifiche che ti consiglio sempre di fare prima di effettuare la scelta iniziale del numero di variabili da includere nelle analisi di regressione. Successivamente vedremo invece cinque metodi puoi utilizzare per il confronto tra due o più modelli.

Quali variabili includere nel modello?

CHECK 1: grafici a dispersione

Per capire quale è il numero corretto di variabili da inserire nel modello di regressione ti consiglio di partire dai grafici a dispersione. Questi grafici infatti ti permettono di capire se le relazioni tra le singole variabili esplicative e la y sono positive o negative e se sono lineare o curvilinee. Se tra due variabili non risulta esserci una correlazione, ha poco senso inserire quella variabile esplicativa nel modello di regressione. Se invece la relazione risulta essere curvilinea sarà necessario trasformare la variabile esplicativa (ad esempio calcolandone il quadrato o il logaritmo).

CHECK 2: indici di correlazione

Per le variabili che hanno una relazione lineare, ti consiglio di calcolare anche gli indici di correlazione ed i relativi test di significatività. Correlazioni statisticamente significative ti indicano quali variabili sono più correlate con la y e quindi ha senso includere nel modello. Tuttavia, ricordati che se il campione è molto numeroso anche indici di correlazione molto vicini a 0 possono risultare statisticamente significativi.

CHECK 3: multicollinearità

Una delle ipotesi alla base del modello di regressione lineare multipla è che le variabili esplicative siano tra loro incorrelate. Quando questo non si verifica e le variabili esplicative risultano tra loro fortemente correlate si parla di multicollinearità.

La multicollinearità è un problema in un modello di regressione. Infatti determina cambiamenti importanti nei valori dei coefficienti di regressione e dei p-value per variazioni minime dell’equazione dei minimi quadrati. Inoltre, può anche ridurre la significatività di variabili esplicative che invece sono importanti per stimare il valore di y. Per verificare se questo è il tuo caso, puoi osservare sia i grafici di dispersione che gli indici di correlazione, ma anche calcolare la statistica VIF.

Confronto tra modelli di regressione

Hai deciso quali variabili includere nei modelli di regressione? Bene, adesso devi capire se è preferibile un modello che le include tutte (detto modello completo) o un modello che ne include solo alcune (detto modello ridotto).

Un modello di regressione con molte variabili esplicative è più difficile tra interpretare ed alcune variabili possono risultare ridondanti.

Per confrontare i modelli puoi utilizzare vari metodi. Di seguito troverai elencati quelli che si utilizzano più spesso. In generale, non fare affidamento su un solo metodo ma utilizzane diversi per vedere se ti portano alla stessa conclusione.

METODO 1: AIC e BIC

Un primo metodo si basa sul confronto tra i valori di AIC (Akaike Information Criterion) e di BIC (Bayesian Information Criterion) dei vari modelli di regressione. Il modello che ha il valore più basso per questi due indici è il migliore, almeno secondo questo metodo.

METODO 2: stepwise

Il metodo stepwise si basa su un algoritmo che automaticamente rimuove (o aggiunge) una variabile alla volta al modello di regressione. Il modello migliore è quindi scelto in base alla significatività dei coefficienti di regressione.

METODO 3: analisi dei sottoinsiemi

Il metodo dei sottoinsiemi seleziona il modello migliore confrontando tra loro i valori di diversi indici per tutte le possibili combinazioni di variabili esplicative inserite nel modello. In particolare, la scelta può essere effettuata basandosi sul modello con un R quadro corretto o predetto più alto oppure con un Mallows’ Cp più basso.

Io ti consiglio di utilizzare quest’ultimo indice, in quanto tende a dare risultati più affidabili. Il Mallows Cp infatti confronta la precisione con l’errore rilevato in ogni singolo modello di regressione. L’obiettivo di un’analisi di regressione è infatti includere abbastanza variabili esplicative per eliminare l’errore ma non troppe da ridurne la precisione.

METODO 4: letteratura

Oltre che su tutte le tecniche che ti ho appena descritto, basati anche sulla letteratura che è già stata pubblicata relativamente all’argomento oggetto del tuo studio. In particolare, tieni traccia di quali variabili esplicative sono risultate rilevanti in letteratura. Ma anche se la relazione con la variabile dipendente era lineare o curvilinea, se era positiva o negativa e quanto era grande l’effetto della relazione.

Ad esempio, una variabile esplicativa potrebbe risultare rilevante in diversi studi mentre nel tuo risulta non statisticamente significativa. In queste situazioni a volte si decide di includere questa variabile comunque nel modello di regressione.

Oppure, potrebbe capitare che il coefficiente di regressione di una determinata variabile in letteratura risultava sempre positivo ed a te invece viene negativo. In questo caso ti consiglio sempre di indagare a cosa potrebbe essere dovuta questa differenza.

METODO 5: Semplicità

Infine, chiediti sempre quale è il modello con meno variabili esplicative che spiega a sufficienza i tuoi dati. Se le verifiche precedenti ti hanno portato a restringere la scelta tra alcuni modelli molto simili tra loro come potere predittivo, scegli il più semplice. Molto probabilmente sarà anche quello più preciso.

Un modello che si adatta troppo ai dati del campione infatti non è quasi mail il modello migliore. Le sue stime infatti saranno poi più difficilmente generalizzabili alla popolazione. Basandoti su questo metodo, puoi quindi scegliere il modello con meno variabili esplicative che passa tutte le verifiche sui residui.

Qualità dei dati: perché è importante

In generale, ricordati comunque che un modello di regressione sarà considerabile un buon modello solo se i dati raccolti sono di buona qualità. Se alcune variabili importanti per la sua costruzione sono state misurate in modo errato oppure se il campione non è stato estratto in modo corretto, le stime ottenute saranno quindi per forza di cose errate. Anche eventuali valori anomali, come dati errati o outliers, possono ridurre la bontà del modello.

E se ci sono variabili omesse?

A volte poi capita che alcune variabili che concorrono a spiegare la y non sono misurabili e pertanto sono state omesse dal modello. In statistica si parla di errore da variabili omesse. In queste situazioni si cerca di ricorrere a delle variabili proxy o almeno di stimare, basandosi sulla letteratura, la direzione dell’errore nelle stime.

Modello di regressione multipla: e adesso?

Se hai dubbi su come costruire un modello di regressione o come interpretarne i risultati c’è la consulenza check-up: una soluzione veloce, economica e pratica per chiarirti le idee e proseguire con le analisi in autonomia e senza stress.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.