Il kappa di Cohen spiegato semplice

10 Aprile 2021 | Analisi dati

Il Kappa di Cohen è un indice statistico che permette di valutare il grado di accordo tra due valutazioni qualitative effettuate sulle stesse unità statistiche. Ad esempio, due medici valutando indipendentemente lo stesso gruppo di pazienti potrebbero non essere d’accordo su quali necessitano di ulteriori accertamenti e quali no. Per capire il grado di accordo tra i due medici, si usa proprio il k di Cohen. In questo articolo ti mostrerò passo passo come calcolarlo ed interpretarlo. Ed anche quali sono le possibili alternative.

k Cohen: concordanza tra valutatori

Concordanza statistica: che cosa si intende?

In diverse situazioni è necessario allocare le unità statistiche in categorie sulla base di determinati criteri. In alcuni casi la scelta della categoria di attribuzione è scontata o si basa su un gold standard. Ma ci sono dei casi in cui l’attribuzione di un’unità statistica ad una o ad un’altra categoria potrebbe essere più controversa, più “soggettiva”. In questi casi la qualità della classificazione si valuta utilizzando degli indici di concordanza.

Questa seconda situazione può verificarsi ad esempio quando due medici fanno due diagnosi diversi sugli stessi pazienti. Oppure in ambito economico quando due bancari non concordano pienamente sull’attribuzione della classe di rating per un gruppo di clienti. O quando una commissione approva dei progetti mentre un’altra li respinge. E ancora quando una giuria assolve degli imputati che invece un’altra giuria ha condannato.

Se i valutatori (sociologi, medici, psicologi, economisti,…) non sono concordi nell’attribuzione delle unità statistiche alle diverse categorie, l’affidabilità delle analisi effettuate poi su tali categorie potrebbe infatti rivelarsi insufficiente. Un problema identico si pone anche quando lo stesso valutatore effettua valutazioni in momenti diversi tra loro. Ad esempio, un medico potrebbe formulare diagnosi diverse prima e dopo aver preso visione dei risultati di una determinata analisi clinica.

Per valutare il grado di concordanza tra le classificazioni effettuate da diversi valutatori (persone ma anche algoritmi, test, metodi diversi) negli anni sono stati proposti una serie di indici statistici. Lo scopo di questi indici non è stabilire quale valutatore abbia fatto una classificazione più corretta, ma se i criteri utilizzati per la classificazione siano affidabili e riproducibili.

k di Cohen: quando si può usare?

Quando i valutatori sono due e le valutazioni sono qualitative, l’indice più utilizzato per valutare la concordanza è il coefficiente standardizzato Kappa di Cohen. Questo indice infatti permette di misurare il grado di accordo reale tra i due valutatori riguardo le categorie di assegnazione delle unità statistiche.

La valutazione deve essere qualitativa

Questo indice, basandosi su tabelle di contingenza, si può usare solo quando la valutazione avviene tramite una classificazione qualitativa. In altre parole, quando le variabili (le colonne del dataset) che contengono la valutazione sono di tipo qualitativo nominale oppure ordinale. Se la valutazione è stata effettuata attribuendo ad esempio un punteggio numerico da 0 a 100, allora questo indice non è appropriato. Per misurare la concordanza tra variabili quantitative, puoi ricorrere ad esempio al grafico di Bland-Altman.

La valutazione deve essere fatta in modo indipendente da due valutatori sulle stesse unità statistiche

In gergo statistico, si dice che le misure devono essere ripetute e non indipendenti. Ovvero, se un medico fa una diagnosi su 50 pazienti ed un altro medico fa una diagnosi su altri 50 pazienti, non puoi usare il kappa di Cohen per valutare la concordanza delle diagnosi tra i due medici. Se i valutatori sono più di due o se ti trovi in quest’ultimo caso, un’alternativa potrebbe essere il kappa di Fleiss, che permette che le unità statistiche siano allocate in modo random tra i valutatori.

Le categorie devono essere tra loro indipendenti, mutualmente esclusive ed esaustive

Ogni unità statistica deve essere allocato sempre in una ed una sola categoria. Ad esempio, un paziente non può essere classificato contemporaneamente come sedentario e sportivo. E non ci possono essere pazienti a cui non è stata assegnata alcuna classificazione. Quindi nessun dato mancante, per intenderci.

Tutti i valutatori devono aver inserito le unità statistiche nello stesso numero di categorie

Ad esempio, quando le categorie di classificazione sono 4, ma almeno uno dei valutatori assegna tutte le unità statistiche a solo 3 di queste. In questo caso, invece del kappa “classico” puoi utilizzare il kappa pesato.

k di Cohen: come si calcola?

Ipotizziamo che 100 studenti siano stati valutati sulla stessa materia da due diversi insegnanti. Al termine della valutazione, entrambi gli insegnanti dovevano decidere individualmente se promuovere lo studente oppure no.

In questo caso i due insegnanti assumono il ruolo di valutatori e la variabile di classificazione è qualitativa dicotomica in quanto può assumere solo due modalità (“Sì, lo studente è stato promosso”oppure “No, lo studente è stato bocciato”).

1- Costruisci un dataset con tutti le valutazioni

Se dovessimo costruire un dataset partendo dai dati dell’esempio qui sopra, il risultato sarebbe qualcosa di simile a questo:

k cohen: dataset di partenza

La prima colonna permette di identificare le singole un’unità statistiche (i singoli studenti) mentre le successive di sapere, una colonna per ogni insegnante, quali studenti sono stati promossi e quali bocciati.

Ad esempio, lo studente 1 è stato promosso sia dal primo che dal secondo insegnante. I due insegnanti sono quindi concordi nell’attribuire questo studente alla categoria “Sì, lo studente è stato promosso”. La stessa cosa avviene per lo studente 5.

Anche per gli studenti 3, 4 e 100 i due insegnanti sono concordi nella valutazione. Ma in questi casi entrambi hanno deciso che la categoria più corretta era “No, lo studente è stato bocciato”.

Ci sono poi invece degli studenti che sono stati valutati in modo diverso dai due insegnanti. Ad esempio, lo studente 1 è stato promosso dal primo insegnante ma è stato bocciato dal secondo insegnante. Situazione opposta per lo studente 6, bocciato dal primo insegnante ma promosso dal secondo. In entrambi i casi, i due insegnanti sono in disaccordo nella valutazione in quanto hanno attribuito categorie diverse allo stesso studente.

2 – Costruisci la tabella di contingenza

Per capire poi quanti studenti sono stati promossi e quanti bocciati da ogni insegnante e su quanti studenti i due insegnanti sono in disaccordo nella valutazione, possiamo costruire una tabella di contingenza, come quella che trovi qui sotto.

k cohen tabella di contingenza

Dalla lettura di questa tabella puoi osservare che:

  • Il valutatore 1 ha promosso 55 studenti ed ha bocciato i restanti 45
  • Il valutatore 2 ha invece promosso 50 studenti e ne ha bocciati altri 50
  • Gli studenti su cui c’è concordanza tra i valutatori sono in tutto 65, di cui:
    – 35 promossi da entrambi i valutatori
    – 30  bocciati da entrambi
  • Gli studenti su cui c’è disaccordo tra i valutatori sono in tutto 35, di cui:
    – 15 bocciati dal Valutatore1 ma promossi dal Valutatore 2
    – 20 promossi dal Valutatore1 ma bocciati dal Valutatore 2

3 – Calcola la proporzione osservata di accordo

Partendo dai dati contenuti in questa tabella, la proporzione osservata di accordo è quindi facilmente calcolabile come 65/100=0.65

Tuttavia, per valutare il reale livello di concordanza tra due valutatori non è sufficiente calcolare la proporzione di unità statistiche alle quali i due valutatori hanno attribuito la stessa categoria. Anche solo per effetto del caso, una parte delle unità statistiche potrebbero essere categorizzate allo stesso modo. Si dimostra infatti che anche due valutatori che danno risposte a caso riescono a raggiungere una certa concordanza.

Ed il kappa di Cohen permette proprio di valutare di quanto la concordanza fra i valutatori eccede la concordanza che ci si aspetterebbe solo per effetto del caso.

4 – Calcola la proporzione di concordanza casuale

A livello numerico, la concordanza dovuta al caso è calcolabile sommando le proporzioni teoriche della diagonale principale della tabella, ovvero delle stesse celle su cui hai calcolato la proporzione osservata di concordanza.

Come per il test del chi quadro per tabelle di contingenza, la frequenza attesa di una cella si ottiene moltiplicando tra loro le frequenze marginali della riga e della colonna corrispondente e dividendo il tutto per il numero totale di osservazioni.

In questo esempio, per la cella che riporta il numero di studenti che sono stati promossi da entrambi gli insegnanti la frequenza attesa sarà quindi pari a (50*55)/100=27.5

Per l’altra cella sulla diagonale principale, quella che riporta il numero di studenti che sono stati bocciati da entrambi i valutatori, la frequenza attesa è invece pari a (50*45)100=22.5

Sommando queste due frequenze attese e dividendo per il numero totale di osservazioni, si ottiene proprio la proporzione di concordanza casuale

In pratica, in questo esempio la proporzione di concordanza dovuta al caso risulta pari a: (27.5 +22.5)/100 =0.5

kappa Cohen

5 – Calcola il kappa di Cohen

La concordanza osservata e la concordanza dovuta al caso sono proprio i due numeri che ci serve inserire all’interno della formula del kappa di Cohen. Questo indice si calcola infatti come rapporto tra l’accordo in eccesso rispetto alla probabilità di concordanza casuale e l’eccesso massimo ottenibile. In questo modo è possibile stabilire quanta parte della concordanza totale osservata è è dovuta al reale accordo tra i due valutatori.

Come puoi osservare qui sotto, la formula standardizza infatti la differenza tra la proporzione di concordanza osservata e la proporzione di concordanza che si avrebbe per il solo effetto del caso, dividendola per la massima differenza possibile non casuale.

Con i dati dell’esempio, avremo quindi: kappa=(0.650.5)/(1-0.5)=0.3

k di Cohen su Excel

Per calcolare il Kappa di Cohen su Excel non c’è una funzione preimpostata, per cui dovrai come prima cosa creare la tabella di contingenza (per fare prima, puoi usare le tabelle Pivot), quindi calcolare la proporzione di accordo osservata e quella dovuta al caso, ed infine calcolare il kappa di Cohen con la formula che trovi qui sopra.

k di Cohen su SPSS: come si calcola

Dal menù principale, clicca su Analizza | Statistiche descrittive | Tabelle di contingenza.
Nella finestra che si aprirà, inserisci le due variabili con le valutazioni una sulle righe ed una sulle colonne e poi clicca sul pulsante Statistiche e metti la spunta su Kappa. Clicca quindi su Continua e poi su OK

k di Cohen su R: come si calcola

Come prima cosa devi creare la tabella di contingenza con i dati disposti come nella tabella precedente. Per farlo, puoi utilizzare la funzione table(). A questo punto per il calcolo dell’indice puoi utilizzare la funzione Kappa() presente all’interno del pacchetto vcd.

kappa di Cohen: come si interpreta?

L’idea alla base del Kappa di Cohen è che più il grado di accordo è maggiore, maggiore sarà il valore dell’indice e quindi l’affidabilità fornita da quella classificazione. Detto questo, come spesso accade in statistica, non vi sono delle soglie univoche ma diversi autori ne hanno proposte di simili. Di seguito trovi la classificazione dei valori di k proposta da Landis JR e Koch GG (1977):

  •  minore di 0: valori negativi di Kappa indicano che la concordanza tra i due valutatori è minore di quella che ci si aspetterebbe per effetto del caso.
  •  uguale a 0: il grado di accordo osservato è uguale a quello che si otterrebbe per effetto del caso.
  • tra 0.01 e 0.20: c’è una scarsa concordanza tra i due valutatori
  • compreso tra 0.21 e 0.40: c’è una modesta concordanza tra i due valutatori
  • tra 0.41 e 0.60: c’è una moderata concordanza tra i due valutatori
  • compreso tra 0.61 e 0.80: c’è una sostanziale concordanza tra i due valutatori
  • maggiore di 0.8: vi è un grado di accordo quasi perfetto tra i due valutatori
  • uguale ad 1: vi è un accordo perfetto tra i due valutatori. In altre parole, tutte le celle non collocate sulla diagonale principale, cioè quelle che indicano il disaccordo, sono pari a 0.

Nell’esempio precedente, k=0.3 ad indicare che vi è una scarsa concordanza tra i due insegnanti nella classificazione degli studenti e quindi una scarsa affidabilità di quel metodo di classificazione.

A cosa fare attenzione nell’interpretazione

Il kappa di Cohen è una misura di accordo e non di disaccordo. Questo significa che se ottieni un valore negativo, la sua grandezza non è direttamente proporzionale a quanto disaccordo c’è tra i due valutatori. Il valore minimo ottenibile infatti non è fisso ma varia a seconda della numerosità del campione.

Questo indice è poi fortemente influenzato dalla prevalenza della condizione oggetto della valutazione. Quando le prevalenze sono molto sbilanciate tra di loro in modo simmetrico, potrebbe infatti capitare che ad un alto accordo osservato corrisponda ad un basso valore di kappa. In altre parole, se c’è molta differenza tra i numeri presenti sia nei totali di riga che tra quelli di colonna sappi che il kappa che otterrai potrebbe essere piuttosto basso anche in presenza di un forte accordo osservato tra i due valutatori.

Ti consiglio quindi di fare sempre affidamento alle frequenze contenute all’interno della tabella di contingenza per interpretare in modo corretto il valore dell’indice.

Kappa pesato: un’alternativa

Se le categorie sono qualitative ordinali, puoi anche calcolare l’indice Kappa pesato (o kappa ponderato). A differenza di kappa, che considera tutte discordi allo stesso modo le combinazioni al di fuori della diagonale principale, il Kappa pesato attribuisce invece pesi (gravità) diverse agli errori di classificazione. Secondo questa logica, il disaccordo nell’attribuzione di un’unità a due categorie differenti è da ritenere, infatti, tanto più grave quanto più le categorie di attribuzione sono distanti tra loro nella scala ordinale.

Di per sé il Kappa di Cohen non è quindi nient’altro che un caso particolare del Kappa pesato in cui i pesi sono tutti uguali a 0 fuori dalla diagonale. In altre parole, se si considerano tutti i livelli di disaccordo ugualmente gravi, l’indice Kappa pesato restituisce esattamente lo stesso valore del Kappa “classico”.

Kappa di Cohen e Chi quadro per tabelle di contingenza: che differenza c’è?

Quando è applicato a una tabella di contingenza, il test del Chi quadrato serve per verificare il grado di associazione tra le due variabili, ma non la loro concordanza. Tanto più il valore del Chi quadro è elevato, tanto meno i risultati delle valutazioni sono attribuibili al caso.

Dal momento però che nella formula del Chi quadrato si utilizzano i quadrati delle distanze tra frequenze osservate ed attese, questo indice non ci permette di capire il segno dell’accordo, ovvero se le valutazioni osservate risultano essere più in disaccordo o più in accordo rispetto a quelle che si avrebbero per il solo effetto del caso.

Il Kappa di Cohen, invece, potendo assumere anche valori negativi, permette proprio di identificare la direzione della concordanza.

Kappa di Cohen: e adesso?

Se ti serve supporto per l’analisi dei tuoi dati o vorresti imparare ad utilizzare Excel o un software statistico, ti consiglio di dare un’occhiata ai miei servizi di consulenza e formazione.

Articoli correlati

Paola Pozzolo

Paola Pozzolo

Sono Paola Pozzolo e mi occupo di consulenze e formazione statistica. Ti aiuto a trasformare i dati in informazioni utili ed affidabili per raggiungere i tuoi obiettivi di ricerca e prendere le decisioni che più valorizzeranno il tuo lavoro.