Distribuzione di frequenza

21 Maggio 2022 | Analisi dati

Creare una distribuzione di frequenza significa creare una tabella che mostri sia i valori/modalità che possono essere assunti da una variabile sia la frequenza con la quale ogni valore/modalità ricorre all’interno della variabile stessa. Scopri in questo articolo come si costruisce e come si legge.

Distribuzione di frequenza

Distribuzione di frequenza: che cos’è?

Costruire una distribuzione di frequenza, nella pratica, significa costruire una tabella costituita da un minimo di 2 ad un massimo di 5 colonne.

In queste colonne sono presentare le frequenze assolute, relative, percentuali e cumulate con cui si presentano le modalità o i valori di una variabile. In altre, parole, dei numeri assoluti, relativi o percentuali che riassumono le informazioni contenute in una singola variabile.

Esempio distribuzione di frequenza per variabili nominali

Ecco un esempio di tabella di frequenza con 4 colonne che riassume le informazioni contenute nella variabile “Genere”.

tabella frequenze assolute relative e percentuali

La prima colonna (quella più a sinistra), per convenzione, presenta sempre le modalità o le classi di valori della variabile che si sta analizzando.

In questo esempio, nella prima colonna trovi in alto il nome della variabile oggetto di studio (il Genere), poi trovi le sue modalità (Maschio o Femmina) ed infine l’ultima riga è dedicata ai totali di colonna e pertanto nella prima colonna trovi scritto “Totale”.

Le colonne successive presentano invece le frequenze con cui le modalità o classi di valori ricorrono nel campione analizzato.

Quando si usano le frequenze?

Le frequenze assolute, relative e percentuali sono applicabili a qualsiasi tipo di variabile.

Generalmente, si usano per descrivere le singole modalità delle variabili qualitative (es. genere o titolo di studio) o i singoli valori delle variabili quantitative discrete che hanno pochi valori diversi tra loro (es. numero di figli).

Per le variabili quantitative continue e per quelle discrete che presentano tanti valori diversi (es. numero di posti letto in diversi alberghi) è preferibile prima raggruppare i valori in classi e solo dopo calcolare le frequenze.

Le frequenze cumulate invece si utilizzano solo per variabili qualitative ordinali o quantitative perché è necessario che le modalità o le classi della variabile abbiano un ordine oggettivo (es. posso ordinare in modo oggettivo il livello di istruzione o l’età di un individuo ma non la regione di residenza).

Struttura della tabella di frequenze

Nell’esempio sul Genere, che ti ho riportato qui sopra:

  • la seconda colonna presenta le frequenze assolute e ti dice che il campione analizzato è costituito in tutto da 200 individui, di cui 50 sono maschi e 150 femmine.
  • la terza colonna presenta le frequenze relative, che si ottengono dividendo le frequenze assolute per il totale. Ad esempio, 0.25 è il risultato di 50/200 mentre 0.75 è il risultato di 150/200.
  • moltiplicando per 100 le frequenze relative si ottengono le frequenze percentuali, che trovi nella quarta colonna.

Genere è una variabile le cui modalità non possono essere ordinate in modo oggettivo. Questa caratteristica è comune a tutte le variabili qualitative nominali (es. il colore preferito, la regione di residenza, lo stato civile,…). Per questa tipologia di variabili non ha quindi senso calcolare la frequenza cumulata e pertanto al massimo la tabella avrà 4 colonne (come nell’esempio qui sopra).

A cosa fare attenzione?

Le frequenze relative o percentuali possono portare a conclusioni errate se non si tiene conto della numerosità del campione.

Ad esempio, dire che il 25% delle donne ha contratto una certa malattia non ti fornisce lo stesso livello di dettaglio se il campione è composto da 4 o da 400 persone. Nel primo caso, il 25% corrisponde ad 1 sola donna mentre nel secondo caso il 25% corrisponde a 100 donne. Una bella differenza in fase interpretativa, non trovi?

D’altra parte, utilizzare le frequenze assolute può complicare il confronto tra campioni con diversa numerosità.

Ad esempio, potrei avere un campione composto da 6 individui in cui 2 sono affetti da una malattia ed un altro campione in cui ho 8 individui affetti da una malattia su un totale di 32 individui. Il confronto diretto tra le frequenze assolute 2 e 8 non si può fare, perché le numerosità campionarie sono diverse.

Mentre si può fare il confronto diretto tra le frequenze percentuali:
2/6=33,3% e 8/32=25%.

Attenzione infine a quando utilizzare le frequenze cumulate. Come già spiegato sopra, si possono usare solo se le modalità sono ordinate (non per variabili qualitative nominali)

Esempio distribuzione di frequenza per variabile ordinale

Qui sotto trovi una tabella di frequenza con 5 colonne che riassume le informazioni contenute nella variabile “Generazione di appartenenza”.

tabella di frequenza per etàIn questo caso, il campione è composto da 200 individui nati tra il 1926 ed il 2015. Gli anni di nascita sono stati raggruppati in classi, seguendo le linee guida dettate dall’Istat per l’assegnazione degli anni di nascita a diverse generazioni di appartenenza.

Per renderti conto se hai davvero capito come si usano le frequenze, prova a completare il seguente report con le informazioni che trovi nella tabella qui sopra:

Il campione è costituito da _____ unità statistiche: 23 appartengono alla generazione della ricostruzione, ___ sono baby boomers, ____ sono nati tra il 1966 ed il 1980 e quindi fanno parte della Generazione X, i Millennial sono ___ ed infine i nati dal 1996 in poi (I-Generation) sono ____.
La classe più numerosa è rappresentata da ____________________, che comprende il ____% del totale degli individui oggetto di indagine. La classe meno rappresentata invece è quella ___________________________________, che include solo il ____% del totale dei soggetti analizzati.
Gli individui che sono nati prima del 1966 rappresentano il 25% del campione, mentre tutti gli individui nati prima del 1981 ne rappresentano il _____%.

Tutto chiaro? Ecco un ultimo esercizio per diventare cintura nera di tabelle di frequenze:)

Completa la tabella con i numeri mancanti e poi utilizza il riquadro sottostante per scrivere un report con le informazioni che emergono dall’analisi delle frequenze:

E adesso?

Se vuoi approfondire questo ed altre tipologie di analisi dati, non esitare a scaricare questa guida gratuita di statistica.

Articoli correlati

Tabella di contingenza

Tabella di contingenza

Per tabella di contingenza si intende una tabella a doppia entrata che mette in relazione, calcolandone le frequenze congiunte, le modalità di due variabili.

leggi tutto
One sample t test

One sample t test

Scopri come utilizzare il one sample t test per confrontare la media di una variabile con un valore di riferimento.

leggi tutto
Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.