Pairwise o listwise: che differenza c’è?

3 Ottobre 2020 | Analisi dati

Quando si svolgono delle analisi con software statistici come SPSS o R, può capitare di imbattersi nei termini “listwise” e “pairwise”. In questo articolo scoprirai cosa significano queste due parole e quale è più opportuno scegliere per le tue analisi.

listwise vs pairwise

Dati mancanti: quando si verificano?

Nell’analisi di dataset, soprattutto se di grandi dimensioni, accade molto spesso di trovare dei dati mancanti per alcune variabili. Queste celle vuote potrebbero essere dovute a diverse cause. Ad esempio, omissioni oppure errori d’ imputazione.

Quando in un dataset ci sono dei dati mancanti, come prima cosa è importante stabilire se il meccanismo che li ha generati sia o meno di tipo casuale ed analizzare le possibili relazioni con le variabili oggetto di studio.

Successivamente, si può procedere alla loro eliminazione o con la sostituzione con dati validi. Queste attività fanno parte del processo di pulizia dei dati, che ti consiglio di fare sempre prima di iniziare con l’analisi dei dati.

Metodi per l’eliminazione dei dati mancanti

Listwise e Pairwise sono due metodi alternativi per l’eliminazione dei dati mancanti.

Pertanto, se le variabili che stai analizzando non hanno dati mancanti, con entrambi i metodi otterrai esattamente gli stessi risultati.

Se invece una o più delle variabili che devi analizzare presentano dei dati mancanti, allora i risultati che otterrai potrebbero essere diversi (in alcuni casi addirittura opposti) a seconda del metodo prescelto.

Proprio per questa differenza, è importante stabilire fin da subito quale metodo vuoi utilizzare per la tua analisi.

Listwise: cosa significa?

Il più classico approccio ai dati mancanti è la listwise deletion (LD). Questo metodo prevede l’eliminazione di ogni unità statistica che contenga almeno un dato mancante. Ovvero, esclude i casi a livello di elenco.

Se decidi di escludere i dati mancanti utilizzando il metodo “listwise” significa che tutte le righe del dataset che hanno almeno un dato mancante per una delle variabili selezionate saranno esclusi dalle analisi.

Ad esempio, ipotizziamo che Giovanni abbia risposto a tutte le domande di un questionario ad eccezione di quella sull’età. Se decidi di costruire una matrice di correlazione tra più variabili del dataset, utilizzando il metodo “listwise” Giovanni sarà escluso da tutti i calcoli degli indici di correlazione.

Pairwise: cosa significa?

La “pairwise deletion”(PD) esclude i dati mancanti analisi per analisi, in base al fatto che quella variabile abbia o meno dati mancanti. Ovvero, esclude i casi a coppie.

Con questo metodo restano pertanto incluse nelle analisi tutte le unità statistiche per le quali la variabile di interesse è stata osservata.

Riprendendo l’esempio precedente della matrice di correlazione, Giovanni sarà incluso in quest’analisi per le coppie di variabili su cui non ha valori mancanti. Sarà invece escluso dal calcolo delle correlazioni riguardanti l’età, per cui ha un dato mancante.

Pairwise e listwise: un esempio pratico su R

Per farti capire meglio la differenza tra i due metodi, vediamo in pratica cosa succede quando si prova a creare una matrice di correlazione tra variabili che presentano dati mancanti. Prediamo come esempio questo dataset:

esempio tabella dato mancante

Prima di procedere con le analisi, ci tengo però a precisare che nella realtà su un campione così piccolo (n=5) non avrebbe senso calcolare una matrice di correlazione. Tuttavia, come potrai notare, i software di statistica non ti avvisano della scarsa numerosità campionaria. Pertanto devi essere tu a sapere quando ha senso effettuare questa analisi e quando no. Se hai dubbi a proposito, ti consiglio prima di procedere oltre di leggere questo articolo sul coefficiente di correlazione di Pearson.

Se provi ad effettuare il calcolo della matrice di correlazione su R (utilizzando la funzione cor) per le variabili V1, V2 e V3, otterrai questo output:

> cor(Dataset[,c(“v1″,”v2″,”v3”)])
v1    v2     v3
v1 1.00  NA  -0.48
v2  NA   1.00  NA
v3 -0.48  NA  1.00

Come puoi facilmente notare, le correlazioni con V2 danno come risultato NA perchè c’è un dato mancante. Per poter ovviare a questo problema, è necessario dire ad R quale metodo di eliminazione dei dati mancanti si vuole utilizzare. Puoi farlo tramite codice (utilizzano il parametro use) oppure direttamente dall’interfaccia grafica di R Commander.

Se decidi di eliminare i dati mancanti utilizzando il metodo listwise, otterrai il seguente risultato:

cor(Dataset[,c(“v1″,”v2″,”v3”)],use= “complete.obs”)
v1     v2      v3
v1  1.00  0.51  -0.51
v2  0.51  1.00  -0.80
v3 -0.51 -0.80   1.00

Tutti gli indici di correlazione sono cambiati (ad eccezione ovviamente degli 1). Questo perché utilizzando il metodo listwise, l’ID=2 è stato rimosso dalle analisi e pertanto la correlazione è stata calcolata solo su 4 soggetti invece che su 5.

Ti faccio anche notare che la variabile V4, che fa parte del dataset ma non dell’analisi, non viene inclusa nel metodo listwise per decidere quali righe escludere.

Proviamo adesso ad eliminare i casi mancanti utilizzando il metodo pairwise. Ecco l’output:

cor(Dataset[,c(“v1″,”v2″,”v3”)],use= “pairwise.complete.obs”)
v1       v2        v3
v1  1.00   0.51   -0.48
v2  0.51   1.00   -0.80
v3 -0.48  -0.80    1.00

Cosa noti di diverso? Prova prima a rispondere tu e poi continua a leggere.

Soluzione: 

Gli indici di correlazione tra V1 e V2 (0.51) e tra V2 e V3 (-0.80) sono uguali a quelli ottenuti con il metodo listwise. Questo accade perché per V2 c’era un valore mancante e pertanto i software ha eliminato tale riga dal calcolo del coefficiente di correlazione. Se infatti considerava anche questa riga, avresti ottenuto come risultato NA, come nella primo caso visto.

L’indice di correlazione tra V1 e V3 invece risulta diverso:

  • r=-0.48 utilizzando il metodo pairwise
  • r=-0.51 utilizzando il metodo listwise

Nota anche come il -0.48 corrisponde esattamente a quanto ottenuto nella prima analisi in cui non era stata fatta nessuna eliminazione dei dati mancanti. Questo perchè per la coppia V1-V3 sono stati considerati tutti e 5 i soggetti, mentre per le coppie V1-V2 e V2-V3 sono stati considerati solo 4 soggetti a causa del dato mancante su V2.

Listwise e pairwise: pro e contro

Soprattutto quando il numero di dati mancanti è elevato, i due metodi possono portare all’eliminazione di un numero molto diverso di righe dal dataset.

Listwise: pro e contro

  • Contro: Il metodo listwise in molti casi non è adatto in quanto comporta un’elevata perdita di informazioni, soprattutto se il numero di osservazioni complete è molto ridotto. In questo caso il dataset si riduce notevolmente come numero di righe e ciò potrebbe portare a dei risultati distorti ed a conclusioni errate.
  • Pro: Nonostante questo limite, spesso questo metodo viene preferito per la sua semplicità. Infatti permette di effettuare le analisi su un dataset di dimensione completo, seppur di ridotte dimensioni.
    In generale, questa tecnica è consigliabile solo nel solo in cui i valori mancanti siano del tutto casuali, condizione che in realtà capita raramente.

Pairwise: pro e contro

  • Contro: Il principale svantaggio di questo metodo è che la numerosità del campione cambia al variare delle variabili considerate.
  • Pro: Il metodo pairwise ha però il vantaggio di ridurre la distorsione sulle stime rispetto alla listwise deletion.

Gestione dati mancanti: e adesso?

Trovi maggiori informazioni su come distinguere e trattare i dati mancanti in questa guida gratuita di statistica.

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.