Variabili statistiche: quale scala di misura scegliere?

25 Aprile 2020 | Disegno di ricerca

Questo articolo ti aiuterà a chiarirti le idee su che cosa si intende per scala di misura e quali tipologie di variabili si usano in statistica. Così potrai poi scegliere velocemente e senza errori il tipo di analisi più appropriato per i tuoi dati.

scale di misura delle variabili statistiche qualitative e quantitative

Introduzione

Ogni ricerca ha come obiettivo quello di misurare concetti più o meno astratti, come la frequenza cardiaca o la salute. Come ti ho già raccontato in questo articolo sull’analisi dei dati, per poter realizzare un’indagine statistica ed analizzare questi concetti devi prima renderli misurabili. Il risultato delle misurazioni in statistica è racchiuso nei valori delle variabili. Ad esempio, puoi rendere misurabile il concetto di salute chiedendo alle persone di esprimere una valutazione su quanto si sentano bene in questo momento, su una scala da 1 a 7. Così come per misurare la frequenza cardiaca puoi utilizzare un cardiofrequenzimetro. Quello che cambia, è la scala di misura utilizzata.

Variabile statistica: che cos’è?

Il termine “variabile” indica una qualsiasi caratteristica che viene osservata “variare” tra le unità statistiche che stai analizzando. Se ad esempio, nella tua popolazione includi solo persone maggiorenni che risiedono nel comune di Torino, allora nella tua analisi il comune di residenza non sarà una variabile ma una costante perché avrà lo stesso valore per tutte le persone oggetto di studio. L’età invece sarà una variabile perché se includi nelle tue analisi tutte persone maggiorenni, potresti avere sia persone che hanno 20 anni sia persone che ne hanno 30, 40 e così via. L’età quindi varia tra le unità statistiche e pertanto è una variabile.

Per capire poi il perché una variabile varia è necessario analizzare altre variabili. Ad esempio, si potrebbe analizzare la quantità di calorie assunte in una giornata per capire come questa variabile sia legata alla pressione arteriosa.

Scala di misura: dati qualitativi e quantitativi

Nella fase di progettazione di un’indagine statistica, è importante definire la scala di misura di tutte le variabili che utilizzerai nelle tue analisi.

La scala di misura è determinata dai valori della variabile. Per il genere, ad esempio, la scala di misura è costituita da due modalità: maschio e femmina. Per il numero di visite mediche effettuate in un anno, i valori saranno i numeri 0,1,2,3,…

A seconda della scala di misura scelta, cambierà la classificazione della variabile e di conseguenza il metodo di analisi. Infatti, i metodi per analizzare una variabile numerica come l’età in anni compiuti sono diversi da quelli per trattare una variabile che ha come modalità solo si/no come il fatto di praticare o non praticare un determinato sport. Ad esempio, la media si può calcolare solo per variabili numeriche come l’età e non per una variabile che ha come modalità solo si/no.

Variabili qualitative: come devono essere le modalità?

Una variabile è qualitativa quando i suoi valori non sono numeri ma modalità. Ad esempio, lo stato civile (single, coniugato, divorziato, vedovo) è una variabile costituita da quattro modalità. Anche il genere è una variabile qualitativa perché è costituita da due modalità: maschio e femmina.

Queste modalità, dette anche categorie, devono essere esaustive e mutualmente esclusive.

Categorie mutualmente esclusive

Ad esempio, per la variabile “colore di capelli”, non va bene inserire come modalità sia “capelli castani” che “capelli scuri”. I capelli scuri infatti possono essere anche castani. In questo caso quindi le due categorie non sono mutualmente esclusive perché sono tra loro sovrapponibili.

Ti consiglio di fare molta attenzione a questo aspetto soprattutto nei questionari con domande in cui è prevista un’unica possibilità di risposta. Ad esempio, se chiedi la professione e tra le risposte c’è “studente”, “dipendente” e “libero professionista”, potrebbe capitare che un individuo lavori sia come dipendente che come libero professionista. Oppure che una persona studi e lavori allo stesso tempo. Anche in questo caso quindi le categorie non sono tra loro mutualmente esaustive.

Categorie esaustive

Le modalità di una variabile devono tenere conto di tutte le possibilità. Per questo in alcuni casi si utilizza la categoria “Altro”. Ad esempio, se la variabile è una domanda del tipo “dove andrai in vacanza quest’anno?” le possibili risposte non possono essere solo “mare” e “montagna”. C’è chi infatti potrebbe decidere di trascorre le vacanze in una città d’arte, oppure in campagna, o persino nel deserto.

I livelli di misura di Stevens

La distinzione più largamente in uso risale al 1946 ed è stata proposta dallo psicologo Stanley Smith Stevens. Stanley è infatti l’ideatore del sistema a 4 scale di misura: nominale, ordinale, intervallo, rapporto.

Tipi di variabili qualitative

Le variabili qualitative (dette anche categoriche o mutabili) si possono poi ancora suddividere in dicotomiche, nominali e ordinali.

Variabili dicotomiche

Le variabili dicotomiche sono il tipo di misurazione più semplice. Comprendono infatti quelle variabili che hanno solo due modalità. Ad esempio, è dicotomica la variabile genere che ha come modalità solo maschio e femmina. Oppure l’utilizzo di un determinato social media (utilizzo/non utilizzo di Facebook). O ancora la presenza o assenza di una determinata malattia che ha come possibili risposte solo si/no.

Variabili su scala nominale

Le variabili nominali possono invece essere costituite anche da più di due modalità che non hanno un criterio di ordinamento logico. Ad esempio, il tipo di sport praticato (pallavolo, calcio, tennis,…). Oppure lo stato civile (single, coniugato, divorziato, vedovo). O ancora il mezzo di trasporto utilizzato per raggiungere il luogo di lavoro (auto o moto, mezzo pubblico, bicicletta, a piedi, altro.). Per queste variabili non è infatti possibile dire che una modalità è più grande o più piccola di un’altra. In altre parole, una modalità non è né maggiore né migliore di un’altra. L’ordine è arbitrario e cambiandolo non si perde o guadagna nulla in termini informativi. Queste variabili sono dette anche sconnesse.

Variabili su scala ordinale

Le variabili ordinali sono costituite da tre o più modalità che hanno un ordine predefinito. Ad esempio, il più alto titolo di studio conseguito da una persona è una variabile qualitativa ordinale perché esiste un ordinamento logico tra le modalità: licenza elementare o media, diploma di scuola superiore, laurea, titolo superiore alla laurea. Non può essere invece considerata una variabile quantitativa in quanto la differenza ad esempio tra diploma e laurea non la stessa che c’è tra laurea e titolo superiore alla laurea. In altre parole, la differenza tra queste modalità non può essere considerata costante.

Variabile ordinale rettilinea

Le variabili ordinali rettilinee possiedono una modalità iniziale ed una finale. Ad esempio, il grado di soddisfazione espresso con le modalità da “poco” a “molto” oppure con un numero di stelle compreso tra 1 e 5. O ancora, le taglie di un vestito, da XS a XL.

Variabile ordinale ciclica

Le variabili ordinali cicliche invece sono quelle relative a modalità che si ripetono ed in cui non c’è una vera e propria modalità iniziale ed una finale ma si ordinano in base a delle convenzioni. Ad esempio, i giorni della settimana, le stagioni, i segni zodiacali, la direzione del vento. Se infatti ordini i giorni della settimana da Lunedì a Domenica, ti ritroverai con questi due giorni alle estremità della scala, ma nella realtà le due modalità sono prossime tra loro, perché, come canta anche Branduardi, “dopo Domenica è Lunedì”.

Variabili quantitative

Se la distanza tra i valori invece è costante, allora sei in presenza di una variabile quantitativa. Una variabile è quantitativa quando è di tipo numerico e questi numeri non sono solo codifiche ma valori reali che si differenziano tra loro in termini di grandezza numerica. Per le variabili misurate su questa scala si possono effettuare confronti tra osservazioni considerando quanto un’unità statistica è più grande o più piccola di un’altra.

Ad esempio, l’età in anni compiuti è una variabile quantitativa perché una persona che ha 60 anni ha il doppio di anni di una persona che ha 30 anni. Il genere, anche se codificato come 0=maschio ed 1=femmina, non è invece una variabile quantitativa perché questi numeri sono solo codifiche e non rappresentano una grandezza numerica.

Anche le variabili quantitative possono essere suddivise ma questa distinzione è meno importante ai fini delle analisi statistiche di base. Giusto per conoscenza, sappi che per le variabili quantitative esistono due diversi tipi di suddivisione.

Scala ad intervalli ed a rapporti

Secondo la tassonomia proposta da Stevens, le variabili qualitative si suddividono in due scale:

  • scala ad intervalli (ad esempio, il punteggio di un test del QI o la temperatura misurata in gradi Celsius o il tempo misurato secondo calendari diversi)
  • scala a rapporti (ad esempio, l’altezza, il peso, l’età).

La differenza è che nella variabili ad intervallo il valore zero è arbitrario mentre in quelle a rapporto lo zero è dotato di un significato. 

Scala discreta o continua

La suddivisione proposta da Stevens non è l’unica possibile.

Ad esempio, un’altra distinzione è tra valori discreti (ad esempio, il numero di visite mediche effettuate in un anno, il numero di figli o il numero di denti otturati) e continui (ad esempio, la concentrazione di colesterolo nel sangue in mmol/l, la statura o il peso):

  • I dati discreti possono assumere solo numeri interi (1,2,3,…) 
  • I dati continui possono assumere un qualsiasi valore all’interno di un intervallo predefinito.

Ad esempio, immagina che il tuo obiettivo sia conoscere quanto è alta una tua amica. Dopo un’attenta osservazione, ad occhio potresti concludere che è alta circa 160cm. Questa misura è un numero intero, ma in realtà si riferisce ad una variabile su scala continua. Il fatto che non ci siano decimali dipende infatti solo dall’approssimazione nella misura. Utilizzando un metro, potresti infatti scoprire che l’altezza della tua amica è di 158,5 cm. Usando una scansione laser, potresti aumentare ulteriormente la precisione e trovare che la sua altezza è pari a 158,482 cm.

Come puoi osservare, l’altezza di una persona (così come l’età, il peso e tutta un’altra serie di misure) può assumere qualsiasi valore numerico ed il fatto che ci siano o meno decimali dipende semplicemente dallo strumento di misura utilizzato e non dal tipo di variabile.

Altre tipologie

Ci sono poi delle variabili che sulla carta sono quantitative ma in realtà per specifici studi devono essere trattate come qualitative. Ad esempio, il tempo quando le informazioni sono state ottenute sempre a 3 mesi oppure a 6 mesi. Oppure la dose di somministrazione di un farmaco quando può essere pari solo ad alcuni valori (es. 50 ml oppure 80 ml). O ancora la distanza percorsa da un atleta se i valori possibili sono solo 100m, 400m oppure 800m. In questi casi spesso è consigliabile trattare questi valori come categorici.

Scala Likert: qualitativa o quantitativa?

Ci sono anche alcune variabili particolari, come quelle espresse su scale Likert, che sono una via di mezzo tra la scala ordinale e quella quantitativa.

Ad esempio, se chiedi ad una persona quanto è soddisfatta di un corso e la risposta deve essere espressa su una scala composta da sette valori che vanno da “per nulla soddisfatto” a “del tutto soddisfatto”. Questa variabile è qualitativa ordinale perché è composta da sette modalità che possono essere ordinate dalla più negativa (“per nulla soddisfatto”) alla più positiva (“del tutto soddisfatto”).

Tuttavia, spesso si assegna un valore numerico alle diverse modalità (1,2,3,4,5,6,7) e questa variabile è considerata come quantitativa.

Questo è il motivo per cui leggendo un articolo scientifico potrebbe capirti di leggere che per questa tipologia di variabili sono state adottate tecniche di analisi proprie delle variabili quantitative, come il calcolo della media e della deviazione standard.

Tieni comunque sempre presente che trattare una variabile qualitativa ordinale come quantitativa richiede una certa attenzione nell’assegnazione dei numeri alle diverse modalità. Per questo motivo, sarebbe sempre opportuno verificare se, con una scelta differente dei punteggi assegnati alle modalità, si hanno cambiamenti sostanziali nell’interpretazione dei risultati delle analisi.

Ad esempio, il titolo di studio non può essere considerato una variabile quantitativa ma solo qualitativa ordinale perché le modalità non sono equamente distanziate tra loro. Per capirci, non si può affermare che la distanza tra licenza media e diploma di scuola superiore sia la stessa che c’è tra diploma di scuola superiore e laurea.

La scala di misura di Monsteller e Tukey

I livelli di misura proposti da Stevens sono stati ampiamente criticati nel tempo, in quanto considerati troppo restrittivi. Una delle alternative più concrete è quella proposta da Monsteller e Tukey nel 1977, che considera più livelli di misura:

  • nomi
  • gradi, ovvero etichette ordinate. Ad esempio: operaio, impiegato, quadro, dirigente
  • ranghi: partendo da 1, che può rappresentare il rango più piccolo o il più grande
  • frazioni: comprese tra 0 ed 1 o, nel caso di percentuali, da 0 a 100%
  • conteggi: numeri interi non negativi (0,1,2,3,…)
  • quantità: numeri reali (quindi inclusi i numeri decimali) non negativi
  • bilanci: numeri reali (positivi o negativi)

Scala di misura: quale scegliere?

La scelta della scala di misura ha un impatto notevole sulle analisi statistiche che si possono effettuare.

Puoi immaginare la classificazione delle scale di misura come un imbuto. Nella parte più larga dell’imbuto ci sono le variabili quantitative che sono quelle che contengono il livello di informazione maggiore. A metà dell’imbuto ci sono le variabili qualitative ordinali, che contengono un po’ meno informazione rispetto a quelle quantitative ma un po’ più di informazione rispetto alle variabili qualitative nominali. Queste ultime sono nella parte più stretta dell’imbuto perché sono quelle che contengono il dettaglio di informazione minore.

Ad esempio, l’età in anni compiuti è una variabile quantitativa che ci permette di sapere esattamente quanti anni hanno le persone che fanno parte dell’indagine. Ma se invece degli anni compiuti i dati sono raccolti solo per fasce di età (0-6 anni, 7-17 anni, 18-30 anni,…) allora l’età diventa una variabile qualitativa ordinale. Ma potrebbe interessarti anche solo sapere se una persona è maggiorenne o minorenne e allora l’età potrebbe diventare una variabile qualitativa dicotomica con solo due modalità: minorenne e maggiorenne.

Come passare da una scala di misura ad un’altra

In generale ricordati quindi che una variabile è una caratteristica della popolazione misurabile che può anche essere codificata e trasformata. Ad esempio, una variabile quantitativa può essere sempre ricodificata in una variabile qualitativa mentre il viceversa non è possibile. Poi infatti trasformare una variabile qualitativa ordinale in una variabile qualitativa nominale o dicotomica, ma non in una variabile quantitativa.

Ad esempio, la pressione sanguigna può essere trasformata in una variabile qualitativa utilizzando dei cut-off, ovvero dei valori soglia. Ad esempio, per la pressione sistolica se utilizzi come cut-off 90 mmHg e 140 mmHg otterrai una variabile qualitativa ordinale con 3 modalità: minore di 90 mmHg, tra 90 e 139 mmHg e da 140 mmHg in su. Se invece ti interessa solo stabilire se un paziente è normoteso, allora ti basterà ricodificarla in una variabile dicotomica con modalità normoteso e non normoteso.

Io ti consiglio di partire sempre dal maggior livello di dettaglio possibile. Nel caso dell’età ad esempio chiedendo gli anni compiuti così da avere una variabile quantitativa. Potrai poi sempre in fase di analisi ricodificare la variabile per trasformarla in qualitativa ordinale o nominale. Se invece chiedi solo la fascia di età, non sarà poi possibile risalire agli anni compiuti e pertanto per le successive analisi dovrai considerare questa variabile solo come qualitativa e non come quantitativa.

Test parametrici o non parametrici?

Il tipo di variabile determina la scelta del test più appropriato per analizzare i dati che hai a disposizione. In particolare, certi grafici (come l’istogramma ed il grafico a scatole e baffi) ed i test parametrici possono infatti essere realizzati solo per variabili quantitative.

Per le variabili qualitative invece si ricorre ad altre tipologie di rappresentazioni grafiche (come il grafico a torta o a barre) ed ai test non parametrici.

E adesso?

Metti alla prova le tue conoscenze con questo quiz sui tipi di variabili statistiche! Se lo completi, c’è anche una sorpresa per te!

Articoli correlati

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.