Il coefficiente di determinazione R quadro

1 Agosto 2020 | Analisi dati

Il coefficiente di determinazione R quadro è un valore statistico che ti permette di capire se un modello di regressione lineare può essere utilizzato per fare previsioni. In questo articolo scoprirai come si calcola e come interpretarlo correttamente.

coefficiente di determinazione r quadro

Quando si utilizza?

Cosa significa R quadro?

Come si calcola il coefficiente di determinazione?

Come si interpreta l’R quadrato?

R quadro alto

R quadro basso

Quando R2 è significativo?

R quadro corretto e predetto

Pseudo R quadro

R quadro: quando si utilizza?

Quando si costruisce un modello di regressione lineare, spesso è importante capire quanto è forte la sua capacità predittiva. Cioè quanto le variabili indipendenti (le x) riescono a predire bene i valori della variabile dipendente (la y). Per stabilirlo si utilizzano una serie di misure, denominate “indici della bontà di adattamento”.

Queste misure valutano quanta differenza c’è tra i valori osservati di y nel campione ed i valori che il modello ha stimato per y. Piccole discrepanze tra i valori attesi ed osservati indicano che il modello si adatta bene ai dati. Al contrario, grandi discrepanze tra valori attesi ed osservati indicano che il modello non spiega bene la variabilità presente nei dati.

In particolare, in questo articolo ci concentreremo sull’R quadro, uno degli indici statistici più popolari tra chi si occupa di analisi dati.

L’R quadro è anche detto coefficiente di determinazione o di adattamento ai dati (in inglese, goodness of fit) e viene utilizzato solo nei modelli di regressione lineare. Tuttavia, il suo utilizzo è talmente diffuso che anche per i modelli non lineari negli anni sono stati proposti una serie di indici simili, detti pseudo R quadro.

Quando calcolare l’R2?

Prima di vedere come si interpreta questo indice ci sono però due premesse importanti da fare. Ha senso interpretare l’indice R quadro solo quando:

  • il modello di regressione lineare ha superato tutti i controlli sulle ipotesi. Nell’output di un modello di regressione come prima cosa concentrati sull’analisi dei residui. Solo se il modello supera i controlli, passa ad esaminare gli altri indici e coefficienti stimati dal modello.
  • tra gli obiettivi della tua ricerca, c’è quello di usare il modello di regressione per fare previsioni. Se hai effettuato un’analisi di regressione solo per capire che relazione c’è tra le variabili, l’R quadro non ti serve in fase interpretativa. L’interpretazione dei coefficienti di regressione infatti è la stessa sia se l’R quadro è pari al 7% o al 92%.

Cosa significa R quadro?

R quadro o r quadro?

La notazione in maiuscolo R quadro indica che si sta riferendo ad un modello di regressione lineare multipla, cioè con più di una variabile indipendente.

Nel caso invece sia stato costruito un modello di regressione lineare semplice, cioè con solo una variabile indipendente, di solito si preferisce utilizzare l’r quadro minuscolo.

L’R quadro è il quadrato del coefficiente di correlazione multipla R. Quindi se sai quale è il valore della correlazione multipla R, per calcolare l’R quadro puoi semplicemente elevare al quadrato l’indice di correlazione multipla.

L’r quadro invece è il quadrato di del coefficiente di correlazione bivariato r. Quindi se sai quale è il valore della correlazione bivariata r, per calcolare l’r quadro dovrai elevare al quadrato l’indice di correlazione bivariate.

Le formule utilizzate per calcolare questi due indici sono identiche in quanto l’r quadro è un caso particolare di R quadro applicato alla regressione con una solo variabile esplicativa.

Differenza tra indici di correlazione e determinazione

Proprio come gli indici di correlazione lineare, l’R quadro misura infatti la forza della relazione lineare tra le variabili indipendenti inserite nel modello di regressione e la variabile dipendente. Relazioni più forti indicano una minore dispersione dei dati attorno alla retta di regressione.

A differenza però degli indici di correlazione lineare, l’R quadro non indica la direzione di questa relazione. Per capire se la relazione è positiva o negativa, nel modello di regressione bisogna infatti guardare i segni dei coefficienti di regressione.

Come si calcola l’R quadro su Excel?

Per calcolare il valore di R quadro su Excel devi avere prima attivato la componente aggiuntiva “Analisi dati”.

Esempio calcolo R quadro per la regressione multipla

Cliccando quindi nel menù in alto su Dati | Analisi | Analisi dati si aprirà una finestra di dialogo da cui potrai selezionare la voce Regressione. Inserisci nel campo Intervallo di Input X i valori delle variabili esplicative. In Intervallo di input Y invece seleziona in valori della variabile dipendente.

Otterrai così diverse tabelle contenenti l’output del modello di regressione. La tabella intitolata “Statistica della Regressione” troverai sia il valore di R multiplo sia di R al quadrato.

Se hai solo una variabile esplicativa, puoi anche partire dal grafico di dispersione tra x ed y. Cliccando con il tasto testo del mouse su uno qualunque dei punti presenti sul grafico si aprirà un menù a tendina dal quale puoi selezionare la voce “Aggiungi linea di tendenza”. Si aprirà una finestra di dialogo dalla quale potrai spuntare la casella relativa alla voce “Visualizza il valore R quadrato sul grafico”.

Coefficiente di determinazione: come si interpreta?

Il coefficiente di determinazione indica la proporzione di varianza totale dei valori di y intorno alla media di y che risulta spiegata dal modello di regressione. Proprio perché è una proporzione, il suo valore sarà sempre compreso tra 0 ed 1, oppure tra 0% e 100% se lo vuoi esprimere in termini percentuali:

R quadro uguale a 0

R quadro=0 indica un modello le cui variabili predittive non spiegano per nulla la variabilità della y intorno alla sua media. Se invece delle variabili indipendenti inserite nel modello utilizzassi solo la media della y otterresti in pratica lo stesso valore esplicativo. Questa situazione si verifica quando gli y stimati dal modello coincidono esattamente con la media di y. In questo caso anche il corrispondente indice di correlazione sarà pari a 0.

Ad esempio, ipotizziamo che la y sia il numero di pazienti che si sono rivolti ad un determinato sportello nell’ultimo anni e la x il numero di film che sono usciti al cinema nello stesso periodo. Se dobbiamo basarci solo su queste due variabili per predire il numero di pazienti che si rivolgerà allo sportello nel prossimo anno probabilmente utilizzare il numero medio di pazienti che si è rivolto allo sportello quest’anno è una stima migliore che non basarsi sul numero di film usciti al cinema.

R quadro uguale ad 1

R quadro=1 indica un modello le cui variabili indipendenti riescono a spiegare completamente la variabilità della y intorno alla sua media. Ovvero, conoscendo i valori delle variabili indipendenti puoi predire esattamente quale sarà il valore della y. Questa situazione si verifica solo quando tutti nel grafico a dispersione tutti punti si collocano esattamente sulla retta di regressione. Quando R quadro è uguale ad 1 infatti anche l’indice di correlazione r sarà uguale ad 1 oppure a -1. In questo caso non c’è quindi nessun errore di previsione nell’utilizzare x per prevedere y. In altre parole, i valori osservati della y coincidono esattamente con i valori della y stimati dal modello.

Ad esempio, ipotizziamo che la variabile indipendente sia il peso espresso in grammi di determinati farmaci e che la variabile y sia il peso espresso in chilogrammi degli stessi farmaci. Ovviamente in questo caso se conosci il valore della x (il peso espresso in grammi) puoi predire esattamente quale sarà il valore espresso in y (il peso espresso in chilogrammi).

R quadro alto

Di solito, più è grande il valore dell’R quadro, più il modello ha un alto potere predittivo. Più grande è il valore di R quadro, migliore è la capacità delle variabili esplicative di prevedere i valori della variabile dipendente. In altre parole, il potere predittivo del modello con le variabili indipendenti è maggiore, rispetto ad utilizzare solo la media di y, per stimare i valori di y.

L’indice R quadro valuta quanto le singole osservazioni si discostano dalla retta di regressione. In generale, se costruisci due modelli di regressione sullo stesso set di dati, il modello con l’R quadro maggiore sarà quello che avrà minori discrepanze tra i valori osservati e quelli attesi della y.

Tuttavia, questa interpretazione in alcune situazioni può essere fuorviante. Un modello che presenta un valore alto dell’R quadro può infatti essere comunque errato.

R quadro basso

Soprattutto in alcuni campi di studio, come le scienze del comportamento, è normale osservare valori di R quadro inferiori al 50%. Questo non significa che il modello di regressione che hai costruito non va bene ma solo che, per sua natura, la variabile dipendente che stai analizzando dipende da tantissimi fattori diversi, molti dei quali non sono stati misurati.

Il limite di avere un R quadro basso riguarda più che altro le previsioni. Ad esempio, non puoi predire con molta precisione quale sarà il punteggio che una persona otterrà in un determinato test psicologico basandoti sui valori di alcune variabili indipendenti se nel modello di regressione hai ottenuto un R quadro molto basso.

D’altra parte un R quadro elevato è condizione necessaria ma non sufficiente per poter effettuare delle previsioni precise.

Ad esempio, potresti ottenere un R quadro molto alto in un modello in cui però le ipotesi sulla distribuzione dei residui non sono rispettate. In questo caso il modello non è adatto a descrivere i tuoi dati anche se ottieni r2=0.99!

Quando R quadro è significativo?

Per capire se il coefficiente di determinazione è statisticamente significativo devi guardare il p-value della statistica F. Il modello di regressione che hai costruito infatti ha senso solo c’è almeno una variabile indipendente che riesce a spiegare i valori della y. Se il p-value relativo al test F è molto basso (spesso si considera come soglia alpha=0,05), allora puoi affermare che l’R quadro è statisticamente significativo. Se invece il valore del p-value del test F è oltre la soglia prefissata allora si dice che l’R quadro non è statisticamente significativo.

Alternative all’R quadro: r quadro corretto e predetto

Un altro problema dell’R quadro è che aumenta ogni volta che si aggiunge una variabile indipendente al modello, anche se questa variabile non è per nulla esplicativa. Non è infatti possibile spiegare meno della variazione osservata per la variabile dipendente aggiungendo delle variabili esplicative al modello.

Per evitare questa situazione, nei modelli di regressione con molte variabili indipendenti si preferisce interpretare il valore dell’R quadro corretto e dell’R quadro predetto.

Inoltre, se costruisci una curva che si adatta “troppo” ai dati (ad esempio utilizzando dei termini polinomiali) otterrai probabilmente un modello con un coefficiente di determinazione molto alto. Tuttavia, un modello che si adatta troppo ad uno specifico set di dati, seguendone ogni minima variazione, risulta poi poco generalizzabile e con basso potere predittivo. In statistica in questi casi si parla di problemi di over-fitting.

Pseudo R quadro

Nei modelli di regressione non lineari (ad esempio in una regressione logistica), non è possibile calcolare il valore dell’R quadro. Esistono però degli indici che hanno un interpretazione simile tanto da meritare il titolo di “pseudo R quadro”. Esempi di pseudo R quadro sono l’R2 di Nagelkerge e l’R2 di Cox e Snell.

Coefficiente di determinazione: e adesso?

Scopri la definizione pratica e tanti esempi applicativi dei termini statistici più utilizzati in un’analisi dati in questa guida gratuita di statistica.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.