Grafico di dispersione

18 Luglio 2020 | Analisi dati

Il grafico di dispersione, in inglese scatterplot, ti permette di visualizzare la relazione tra due variabili quantitative. Utilizzalo tutte le volte che vuoi calcolare un indice di correlazione oppure realizzare un modello di regressione, un’analisi delle componenti principali o un’altra tecnica statistica che richiede la presenza di una relazione tra le variabili.

Esempio dispersione punti in uno scatterplot

I grafici di dispersione, in inglese scatterplots, rappresentano il metodo più utilizzato in statistica descrittiva per valutare la relazione tra due variabili quantitative.

In questo tipo di grafico le due variabili sono riportate su uno spazio cartesiano. I valori di una variabile sono indicati sull’asse orizzontale delle x, mentre i valori dell’altra variabile sono rappresentati sull’asse verticale delle y.

Ogni unità statistica è rappresenta da un punto posizionato sul grafico in base alle sue coordinate. Quindi questo grafico sarà costituito da tanti punti quante sono le unità statistiche oggetto di studio. Ed i valori che assume l’unità statistica per le due variabili rappresentano quindi la posizione dell’unità rispetto agli assi. Per questo motivo si dice che i punti hanno due coordinate x ed y.

Puoi quindi utilizzare questo grafico per valutare che relazione c’è tra l’altezza ed il peso di un gruppo di pazienti. Oppure tra i punteggi conseguiti in un test somministrato a distanza di tempo agli stessi individui. O magari tra le ore di sonno che dormono i genitori ed i loro figli nei primi anni di vita.

Grafico di dispersione: esempio pratico

Danielle Navarro, l’autrice della guida gratuita sul software statistico Jamovi, ha creato un interessante dataset che puoi utilizzare per esercitarti sui grafici a dispersione. Si chiama parenthood.csv e lo trovi gratuitamente proprio su questo programma di statistica.

In questa tabella Danielle ha registrato tra le altre cose le ore di sonno dormite consecutivamente da lei e da suo figlio per più di 3 mesi (100 giorni).

In questo caso quindi le unità statistiche sono i giorni di osservazione, mentre le ore di sonno dormite da Danielle e quelle dormite dal bambino sono due variabili quantitative.

Esempio tabella dati

Ad esempio, il giorno 3 Danielle ha dormito 5,99 ore, mentre suo figlio 7,92 ore. Il giorno 4 invece Danielle ha dormito 7,71 ore mentre suo figlio 9,61. Confrontando questi due giorni sembrerebbe quindi che quando i bimbo dorme di più dorme di più anche la mamma. Ma se guardiamo il giorno 5 possiamo notare che Danielle ha dormito solo 6,68 ore (meno del giorno 4) mentre il bimbo 9,75 ore (quindi più del giorno 4). Ed il giorno 6 addirittura Danielle è riuscita a dormire più di suo figlio (5,99 vs 5,08).

Per poter capire quindi meglio il tipo di relazione che c’è tra le due variabili il primo passo è proprio costruire un grafico a dispersione.

Lo scatterplot qui sotto mostra visivamente la relazione tra il numero di ore di sonno di Danielle (riportare sull’asse verticale delle y) e quelle di suo figlio (riportate sull’asse orizzontale delle x). Ogni punto del grafico rappresenta una giornata di osservazione.

Interpretazione grafico a dispersione

Osservando l’andamento dei punti puoi notare come sembra esserci una relazione lineare positiva tra le ore di sonno dormite dalla mamma e da suo figlio. All’aumentare del numero di ore di sonno dormite dal bambino, anche il numero di ore di sonno di Danielle tende ad aumentare. Ovviamente, non è una relazione perfetta. Come puoi osservare dal grafico, ad un determinato numero di ore di sonno del bambino, ad esempio circa 10 ore, corrispondono più puntini disposti a diverse altezze. Questo significa che quando il figlio ha dormito 10 ore alcune volte Danielle è riuscita a dormire per 7 ore, altre volte per circa 8 ore ed altre volte ancora anche per 9 ore. Ci sono state anche alcune (rare) giornate in cui la mamma è riuscita a dormire più ore del figlio.

Comunque, la tendenza generale risulta essere che il numero di ore di sonno della madre e del figlio aumentano insieme.

Grafico di dispersione: a cosa serve?

I grafici a dispersione servono a capire che relazione c’è tra due variabili quantitative.

Relazione positiva

Questa relazione può essere lineare positiva, come nell’esempio precedente del numero di ore di sonno. Questa situazione si verifica quando, all’aumentare dei valori di una variabile, aumentano in media anche i valori dell’altra variabile.

Relazione negativa

In altri casi invece la relazione può essere lineare negativa, come nel grafico qui sotto. Si parla di relazione negativa perché, all’aumentare dei valori di una variabile, i valori dell’altra variabile in media diminuiscono.

In questo caso la relazione che si vuole studiare è tra la velocità del vento e la temperatura (in gradi Fahreneit) registrata in un determinato periodo di tempo in una determinata metropoli americana. All’aumentare della temperatura risulta diminuire il vento. Viceversa, le giornate con temperature più basse risultano essere in media più ventose.

grafico a dispersione: esempio relazione negativa

Relazione nulla tra due variabili

E se non c’è relazione tra le due variabili? In questo caso all’aumentare dei valori di una variabile, i valori dell’altra variabile non risulteranno in media né aumentare né diminuire. Eccone un esempio:

In questo grafico di dispersione sono mostrati i punteggi conseguiti a due diversi test da un gruppo di 50 studenti. All’aumentare del punteggio conseguito nel primo test (asse delle x), il punteggio del secondo test non risulta in media né aumentare né diminuire.

Dispersione e correlazione

Per poter dare un valore numerico a tale relazione ti consiglio di utilizzare il coefficiente di correlazione di Pearson, di Spearman o di Kendall.

I grafici a dispersione infatti offrono un’ottima rappresentazione visiva dei dati ma le scale di misura scelte per gli assi possono evidenziare relazioni in realtà deboli o nascondere relazioni in realtà forti tra le due variabili.

Fortunatamente, gli indici di correlazione non risentono della scale di misura e pertanto ti aiutano a quantificare in modo oggettivo e preciso la forza della relazione che c’è tra le due variabili.

Gli indici di correlazione infatti prendono tutti i punti presenti su un grafico a dispersione e li riassumono con un solo numero, che indica la forza e la direzione della relazione tra le due variabili. Se vuoi approfondire, puoi partire da questo articolo sulla correlazione.

Grafico di dispersione: e adesso?

Scarica la guida gratuita di statistica per comprendere il significato di tanti altri termini statistici. Al suo interno troverai tanti esempi pratici e concetti spiegati in modo semplice che ti aiuteranno a chiarirti le idee e capire finalmente come effettuare una corretta analisi dei dati.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.