Variabile standardizzata: una guida pratica

26 Settembre 2020 | Analisi dati

In statistica, per “standardizzazione” si intende la trasformazione di una variabile quantitativa per renderla più facilmente confrontabile con le altre. Scopri in questo articolo cosa vuol dire in pratica standardizzare una variabile, come si calcola con Excel,SPSS ed R e come si interpretano i punteggi ottenuti.

variabile standardizzata: esempio cambio scala di misurazione

Che cosa si intende per variabile standardizzata?

In statistica, una variabile standardizzata è una variabile quantitativa a cui è stata cambiata la scala di misurazione ottenendo dei numeri puri (detti anche punteggi z o punteggi standard). Questi nuovi valori sono detti anche adimensionali, in quanto sono svincolati dall’unità di misura della variabile di partenza.

La caratteristica principale di una variabile standardizzata è poi che ha sempre media=0 e deviazione standard=1.

Perché si standardizza una variabile?

La standardizzazione permette di confrontare variabili che hanno medie e deviazioni standard misurate su diversa unità di misura o ordine di grandezza. Ad esempio, per capire se c’è più variabilità tra il peso (in kg) o l’altezza (in cm) di un gruppo di individui.

Quando è importante standardizzare una variabile?

La standardizzazione è una procedura altamente consigliata in tutti in quei casi in cui si effettua un confronto tra variabili che hanno diverse unità di misura/ordini di grandezza. Ad esempio:

a) Prima di un’ analisi dei cluster . Questo perché le tecniche di raggruppamento si basano sul calcolo delle distanze tra le osservazioni.

b) Prima di un’ analisi delle componenti principali . Questa metodologia attribuisce infatti un peso diverso alle variabili in base alle loro varianze.

c) Dopo aver creato un modello di regressione. La standardizzazione dei coefficienti di regressione permette di valutare quale è la loro importanza nel determinare i valori della variabile dipendente. In questo caso, si valuta il valore assoluto dei coefficienti standardizzati.

Come si ottiene una variabile standardizzata in 3 passi

  1. Come prima cosa di calcola la media e la deviazione standard della variabile.
  2. Successivamente, ai singoli valori della variabile viene sottratta la media
  3. Il risultato di tale differenza viene diviso per la deviazione standard della variabile stessa.

In questo modo, si ottiene una variabile standardizzata che ha sempre media=0 e deviazione standard=1.

Calcolo di un punteggio standardizzato: due esempi

Ipotizziamo che un campione di individui abbia un peso medio di 70 kg ed una deviazione standard di 10 kg. Standardizzare la variabile peso significa prendere i singoli pesi degli individui e per ognuno di essi sottrarre 70 e poi dividere il risultato per 10.

Ad esempio, il valore standardizzato per Giovanni, che pesa 85 kg, sarà pari a (85-70)/10=+1,5. Il valore standardizzato di Maria, che invece di chili ne pesa 50, sarà (50-70)/10=-2.

Come si calcola una variabile standardizzata con un software?

Excel

Il comando Normalizza() presente su Excel permette in pratica di effettuare una standardizzazione dei dati. Quindi in Excel il termine normalizzazione è sinonimo di standardizzazione.

R Commander

Una volta caricato il dataset, nel menù principale di R Commander clicca su:

Dati | Gestione variabili del set di dati attivo | Standardizza una variabile

R aggiungerà in fondo al tuo dataset una nuova variabile denominata Z.nomevariabiledipartenza. Ad esempio, se la tua variabile di partenza si chiama Peso, la nuova variabile si chiamerà Z.Peso.

SPSS

Una volta aperto il dataset su SPSS, nel menù principale di SPSS clicca su:

Analizza | Statistiche descrittive |Descrittive

Nella finestra che si aprirà, metti la spunta su “Salva valori standardizzati come variabili”.

SPSS aggiungerà in fondo al tuo dataset una nuova variabile denominata Znomevariabiledipartenza. Ad esempio, se la tua variabile di partenza si chiama Peso, la nuova variabile si chiamerà ZPeso.

Come si interpretano i valori di una variabile standardizzata?

Per poter interpretare in modo corretto una variabile standardizzata, come prima cosa sarebbe necessario capire se la variabile di partenza ha una distribuzione simmetrica o meno.

Questo perché i valori che si ottengono da una standardizzazione indicano il numero di deviazioni standard sopra o sotto la media in cui ricadono le singole osservazioni.

Ad esempio, un valore standardizzato di 1,5 indica che quell’osservazione si trova a 1,5 deviazioni standard sopra la media. Un valore standardizzato di -2 invece significa che quell’osservazione si trova 2 deviazioni standard sotto la media.

Quindi, valori positivi della variabile standardizzata indicano le osservazioni che hanno valori superiori a quelli della media. Valori negativi invece indicano le osservazioni che hanno valori inferiori alla media. Valori pari a 0 identificano infine le osservazioni che hanno valori pari a quello della media.

Pertanto, se il peso medio è pari a 70kg, allora tutte le persone che hanno un peso superiore a 70kg avranno per la variabile standardizzata un valore positivo. Questo valore sarà tanto più grande quanto maggiore sarà il peso di quell’individuo.

Al contrario, tutte le persone che hanno un peso minore a 70kg avranno per la variabile standardizzata un valore negativo. Questo valore sarà tanto più piccolo quanto minore sarà il peso di quell’individuo.

Persone con peso esattamente pari a 70 kg (il valore della media) avranno un valore per il peso standardizzato pari a 0.

Se la variabile è invece fortemente asimmetrica, questa interpretazione non risulta valida, in quanto la variabilità che c’è a sinistra della media non corrisponde a quella che c’è a destra della media. In queste situazioni, ti consiglio di costruire un grafico della variabile standardizzata (ad esempio, un istogramma o un boxplot) che ti possa aiutare a capire meglio come si dispongono i valori standard intorno alla media.

Normalizzazione e standardizzazione: sono la stessa cosa?

Anche la normalizzazione è un processo di trasformazione dei dati che ne cambia la scala di misurazione.
Per differenziare il significato di questi due termini, io mi baso sulla loro etimologia e sull’obiettivo della trasformazione:

  • standardizzare significa, come abbiamo già visto, trasformare una variabile calcolandone dei valori “standard” così da renderli più facilmente confrontabili con quelli di altre variabili.
  • normalizzare significa trasformare una variabile rendendo la sua distribuzione più simile a quella della distribuzione Normale. Ad esempio, tramite una trasformazione logaritmica o quadratica oppure utilizzando degli algoritmi come il metodo Box-Cox.

A livello pratico, questi diversi obiettivi si traducono nel fatto che:

  • la standardizzazione è sempre una trasformazione lineare (cioè che non cambia la forma distributiva della variabile)
  • la normalizzazione è una trasformazione non lineare. Questo perché le normalizzazioni hanno l’obiettivo di rendere più simmetriche le distribuzioni e per riuscirci devono necessariamente cambiarne la forma distributiva.

Tuttavia, sia nei libri di statistica che nei tutorial che puoi trovare online, capita che il termine normalizzazione venga utilizzato come sinonimo di standardizzazione. Ti consiglio quindi di fare sempre molta attenzione a capire quale è la formula che è stata utilizzata e quale è l’obietto della trasformazione.

Variabile standardizzata: e adesso?

Puoi trovare altri termini spiegati in modo semplice in questa guida gratuita di statistica.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.