La regressione lineare è una tecnica statistica che si utilizza per studiare la relazione tra due o più variabili. In questo articolo scoprirai quando si usa, quanti tipi di regressione lineare esistono, quali sono le loro componenti e come riportarne i risultati.
Indice
Che cosa si intende per regressione in statistica?
In statistica, il termine regressione è stato utilizzato per la prima volta dal biologo inglese Galton a fine Ottocento. Esaminando le altezze di genitori e figli, notò una relazione tra le due variabili: più alti erano i genitori, più alti erano i figli e viceversa.
Tuttavia, a genitori molto bassi o molto alti non corrispondevano figli con altezze altrettanto estreme. In altre parole, l’altezza dei figli si spostava (regrediva) verso la media. Da qui il concetto alla base della regressione statistica: lo studio della regressione verso la media.
Da un punto di vista delle formule, la regressione lineare è una funzione matematica basata dall’equazione della retta.
Nello specifico, un modello di regressione lineare è composto da:
- Una sola variabile risposta quantitativa (detta anche dipendente o Y)
- Una o più variabili esplicative (dette anche X o regressori)
- Un coefficiente di regressione per ogni variabile esplicativa più un coefficiente per l’intercetta (β)
- Un termine di errore (ε). Questo perché la relazione tra due variabili non è quasi mai perfettamente riassumibile tramite un’equazione matematica. Questo accadrebbe solo nel caso in cui tutte le unità statistiche si comportassero esattamente nello stesso modo (un po’ come degli scalatori in cordata).
Nello specifico, la variabile risposta (la Y) è determinata dai valori dell’intercetta (β0) a cui vengono sommati i valori delle variabili esplicative (le X) moltiplicate per i loro coefficienti (β), più un termine d’errore (ε). L’equazione quindi è:
- Se c’è un solo regressore:Y=β0+β1*X1+ε
- Con due regressori:Y=β0+β1*X1+β2*X2+ε
- Se ci sono n regressori:Y=β0+β1*X1+β2*X2+….+βn*Xn+ε
Come puoi notare, questa equazione sarà tanto più lunga quanti più sono i regressori del modello.
Quanti tipi di regressione lineare esistono?
Come abbiamo visto, la regressione è una tecnica statistica che si utilizza per modellare le relazione tra una variabile risposta ed una o più regressori. In base al numero di questi ultimi, si distingue in:
- Modello di regressione lineare semplice: quando c’è un solo regressore. Si studia quindi la relazione tra due variabili
- Modello di regressione lineare multiplo: quando c’è più di un regressore. In questo caso, si studia invece l’effetto contemporaneo di più x sulla y.
A cosa serve il modello di regressione lineare?
Il modello di regressione si utilizza per stimare con la maggior precisione possibile il valore delle variabile risposta, partendo dai valori delle variabili esplicative.
La regressione lineare è un’estensione dell’analisi della correlazione lineare. Come l’analisi di correlazione, la regressione lineare permette infatti di analizzare la relazione tra variabili. Ti permette infatti di studiarne sia la direzione che la significatività. Inoltre, la regressione ti permette di quantificare di quanto in media aumenterà o diminuirà la y all’aumentare del punteggio di una variabile esplicativa.
Se ti è chiara l’analisi di regressione lineare semplice, vedrai che l’estensione al caso multiplo ti risulterà facile da comprendere.
La costruzione di un modello di regressione lineare multipla ha due obiettivi: permette di quantificare la relazione esistente tra la variabile dipendente (la y) ed un insieme di variabili esplicative (le x). Inoltre, ti aiuta a predire quale sarà il valore della y per determinati valori di x.ed ha due obiettivi:
- Quantificare la relazione esistente tra la variabile risposta (la Y) ed un insieme di regressori (le X)
- Predire quale sarà il valore della Y per determinati valori delle X. In altre parole, analizzare quali, quanto e come i regressori contribuiscono alla spiegazione della varianza propria della variabile risposta.
Quando si utilizza la regressione?
La regressione si può applicare a tantissimi ambiti: dalla medicina alla sociologia, dalla psicologia all’economia, dalle scienze motorie a quelle dell’educazione.
Ci sono però dei vincoli di natura più tecnica che devono essere rispettati per poter utilizzare tale tecnica statistica:
- la relazione tra la Y e le X deve essere di tipo lineare
- la variabile dipendente deve essere quantitativa
- devono esserci almeno 10-15 osservazioni per ogni X inserita nel modello. Per individuare invece con precisione la numerosità campionaria ti consiglio di basarti su un software statistico, come quello che ti consiglio in questa guida gratuita a software e strumenti online per l’analisi dati.
Regressione lineare: cosa riportare nei risultati?
Numerosità
Come prima cosa, specifica il numero di unità statistiche incluse nell’analisi di regressione. Questo valore potrebbe essere inferiore alla numerosità campionaria se sono presenti dati mancanti su una o più delle variabili oggetto di studio.
Tabella con statistiche univariate
Presenta quindi le statistiche descrittive delle singole variabili incluse nel modello di regressione: sicuramente media e deviazione standard, eventualmente anche minimo e massimo.
Eventualmente, puoi anche riportare un istogramma della variabile dipendente, per mostrarne la distribuzione. Potrebbe essere utile anche aggiungere sul grafico la curva della distribuzione Normale.
Matrice di correlazione
Passa quindi alle analisi bivariate, e mostra una matrice di correlazione tra tutte le variabili inserite nel modello. Come indice, utilizza il coefficiente di correlazione di Pearson. Quello che devi commentare è:
- la relazione tra le variabili indipendenti e quella dipendente (che più forte è meglio è). La regressione si utilizza infatti proprio per spiegare la relazione tra i regressori e la variabile dipendente.
- la relazione tra le variabili indipendenti (ed in questo caso, più debole è, meglio è). Ricordati infatti che una delle ipotesi del modello di regressione è proprio che non ci sia multicollinearità tra i regressori.
Nel caso in cui siano presenti outliers, potrebbe essere utile evidenziarli mostrando anche un grafico a dispersione.
Risultati del modello
I coefficienti di regressione ed il loro p-values possono essere riportati in una tabella. Se disponibili, aggiungi anche gli intervalli di confidenza di tali coefficienti.
Nel testo, ti consiglio invece di specificare:
- il valore di F, con i relativi gradi di libertà e p-value
- il valore del coefficiente di determinazione: R quadro (nel caso di regressione lineare semplice) o dell’R quadro corretto (nel caso di regressione lineare multipla)
- Se hai costruito più modelli di regressione, riporta anche la variazione di questi e degli altri indici (ad esempio, AIC e BIC) che hai utilizzato per il confronto.
Correttezza dei risultati
Specifica, infine, quali analisi sono state condotte per la verifica delle ipotesi del modello e con quale esito. Ad esempio:
- verifica multicollinearità (tramite calcolo dell’indice VIF)
- autocollinearità dei residui (tramite test di Durbin-Watson)
- analisi outliers multivariati (tramite Indice di Cook, residui studentizzati e punteggi di leva)
- Normalità dei residui (tramite grafico dei quantili)
- Omogeneità della varianza dei residui (tramite grafico di dispersione)
Regressione lineare: e adesso?
Dai un’occhiata a questa guida gratuita di statistica per capire cosa significano e come si interpretano tanti altri termini statistici. Al suo interno troverai tanti esempi concreti e definizioni spiegate in modo chiaro e comprensibile.