Il grafico di dispersione, in inglese scatterplot, ti permette di visualizzare la relazione tra due variabili quantitative. Utilizzalo tutte le volte che vuoi calcolare un indice di correlazione oppure realizzare un modello di regressione, un’analisi delle componenti principali o un’altra tecnica statistica che richiede la presenza di una relazione tra le variabili.
Indice
Cosa rappresenta il diagramma di dispersione?
Il diagramma di dispersione (in inglese scatterplot) rappresenta il metodo grafico più utilizzato in statistica descrittiva per valutare la possibile relazione tra due variabili quantitative.
In questo tipo di grafico le due variabili sono riportate su uno spazio cartesiano. I valori di una variabile sono indicati sull’asse orizzontale delle x, mentre i valori dell’altra variabile sono rappresentati sull’asse verticale delle y.
Ogni unità statistica è rappresenta da un punto posizionato sul grafico in base alle sue coordinate. Quindi questo grafico sarà costituito da tanti punti quante sono le unità statistiche oggetto di studio. Ed i valori che assume l’unità statistica per le due variabili rappresentano quindi la posizione dell’unità rispetto agli assi. Per questo motivo si dice che i punti hanno due coordinate x e y.
Quando si usa questo grafico?
Puoi utilizzare questo grafico per valutare che relazione c’è tra l’altezza ed il peso di un gruppo di pazienti. Oppure tra i punteggi conseguiti in un test somministrato a distanza di tempo agli stessi individui. O magari tra le ore di sonno che dormono i genitori ed i loro figli nei primi anni di vita.
Questo diagramma è infatti adatto sia per visualizzare relazioni spurie tra le variabili sia di causa-effetto. Pertanto lo puoi usare anche quando una delle due variabili è manipolabile. In questo caso, per convenzione la variabile sotto il controllo del ricercatore si mette sull’asse orizzontale. Ad esempio, potresti usare il grafico di dispersione per studiare ed identificare visivamente la possibile relazione tra determinate dosi di antibiotico (poste sull’asse delle x) ed il numero di batteri che sopravvivono al trattamento (asse y).
Grafico di dispersione: esempio pratico
Danielle Navarro, l’autrice della guida gratuita sul software statistico Jamovi, ha creato un interessante dataset che puoi utilizzare per esercitarti sui grafici a dispersione. Si chiama parenthood.csv e lo trovi gratuitamente proprio su questo programma di statistica.
In questa tabella Danielle ha registrato tra le altre cose le ore di sonno dormite consecutivamente da lei e da suo figlio per più di 3 mesi (100 giorni).
In questo caso quindi le unità statistiche sono i giorni di osservazione, mentre le ore di sonno dormite da Danielle e quelle dormite dal bambino sono due variabili quantitative.
Ad esempio, il giorno 3 Danielle ha dormito 5,99 ore, mentre suo figlio 7,92 ore. Il giorno 4 invece Danielle ha dormito 7,71 ore mentre suo figlio 9,61. Confrontando questi due giorni sembrerebbe quindi che quando i bimbo dorme di più dorme di più anche la mamma. Ma se guardiamo il giorno 5 possiamo notare che Danielle ha dormito solo 6,68 ore (meno del giorno 4) mentre il bimbo 9,75 ore (quindi più del giorno 4). Ed il giorno 6 addirittura Danielle è riuscita a dormire più di suo figlio (5,99 vs 5,08).
Per poter capire quindi meglio il tipo di relazione che c’è tra le due variabili il primo passo è proprio costruire un grafico a dispersione.
Come si fa il grafico a dispersione?
I grafici a dispersione sono tutti molto simili tra loro:
- i valori relativi ad una variabile sono distribuiti in ordine crescente lungo l’asse orizzontale (asse delle x)
- i valori relativi all’altra variabile sono distribuiti in ordine crescente lungo l’asse verticale (asse delle y).
Lo scatterplot qui sotto mostra visivamente la relazione tra il numero di ore di sonno di Danielle (riportate sull’asse verticale delle y) e quelle di suo figlio (riportate sull’asse orizzontale delle x). Ogni punto del grafico rappresenta un’unità statistica, che in questo esempio rappresenta una giornata di osservazione.
Interpretazione grafico a dispersione
Osservando l’andamento dei punti puoi notare come sembra esserci una relazione lineare positiva tra le ore di sonno dormite dalla mamma e da suo figlio. All’aumentare del numero di ore di sonno dormite dal bambino, anche il numero di ore di sonno di Danielle tende ad aumentare. Ovviamente, non è una relazione perfetta. Come puoi osservare dal grafico, ad un determinato numero di ore di sonno del bambino, ad esempio circa 10 ore, corrispondono più puntini disposti a diverse altezze. Questo significa che quando il figlio ha dormito 10 ore alcune volte Danielle è riuscita a dormire per 7 ore, altre volte per circa 8 ore ed altre volte ancora anche per 9 ore. Ci sono state anche alcune (rare) giornate in cui la mamma è riuscita a dormire più ore del figlio.
Comunque, la tendenza generale risulta essere che il numero di ore di sonno della madre e del figlio aumentano insieme.
Grafico di dispersione: a cosa serve?
I grafici a dispersione servono a capire che relazione c’è tra due variabili quantitative.
Relazione positiva
Questa relazione può essere lineare positiva, come nell’esempio precedente del numero di ore di sonno. Questa situazione si verifica quando, all’aumentare dei valori di una variabile, aumentano in media anche i valori dell’altra variabile.
Relazione negativa
In altri casi invece la relazione può essere lineare negativa, come nel grafico qui sotto. Si parla di relazione negativa perché, all’aumentare dei valori di una variabile, i valori dell’altra variabile in media diminuiscono.
In questo caso la relazione che si vuole studiare è tra la velocità del vento e la temperatura (in gradi Fahreneit) registrata in un determinato periodo di tempo in una determinata metropoli americana. All’aumentare della temperatura risulta diminuire il vento. Viceversa, le giornate con temperature più basse risultano essere in media più ventose.
Relazione nulla tra due variabili
E se non c’è relazione tra le due variabili? In questo caso all’aumentare dei valori di una variabile, i valori dell’altra variabile non risulteranno in media né aumentare né diminuire. Eccone un esempio:
In questo grafico di dispersione sono mostrati i punteggi conseguiti a due diversi test da un gruppo di 50 studenti. All’aumentare del punteggio conseguito nel primo test (asse delle x), il punteggio del secondo test non risulta in media né aumentare né diminuire.
Dispersione e correlazione
Per poter dare un valore numerico a tale relazione ti consiglio di utilizzare il coefficiente di correlazione di Pearson, di Spearman o di Kendall.
I grafici a dispersione infatti offrono un’ottima rappresentazione visiva dei dati ma le scale di misura scelte per gli assi possono evidenziare relazioni in realtà deboli o nascondere relazioni in realtà forti tra le due variabili.
Fortunatamente, gli indici di correlazione non risentono della scale di misura e pertanto ti aiutano a quantificare in modo oggettivo e preciso la forza della relazione che c’è tra le due variabili.
Gli indici di correlazione infatti prendono tutti i punti presenti su un grafico a dispersione e li riassumono con un solo numero, che indica la forza e la direzione della relazione tra le due variabili. Se vuoi approfondire, puoi partire da questo articolo sulla correlazione.
Grafico di dispersione: e adesso?
Scarica la guida gratuita di statistica per comprendere il significato di tanti altri termini statistici. Al suo interno troverai tanti esempi pratici e concetti spiegati in modo semplice che ti aiuteranno a chiarirti le idee e capire finalmente come effettuare una corretta analisi dei dati.