Kappa de Fleiss: acuerdo entre 3 o más revisores

Puntos clave

El kappa de Fleiss generaliza el kappa de Cohen a más de dos revisores y permite categorías múltiples, lo que lo convierte en el estadístico de elección cuando un equipo de tres o más revisores evalúa los mismos artículos.
La fórmula del kappa de Fleiss compara la proporción de acuerdo observado entre todos los pares de revisores con la proporción esperada por azar, ajustando por la distribución marginal de cada categoría.
La escala de interpretación de Landis y Koch se aplica a Fleiss igual que a Cohen, con umbrales prácticos similares (igual o mayor a 0,60 como aceptable para publicación en la mayoría de revistas).
Cuando los datos son continuos (puntuaciones, escalas numéricas) en lugar de categóricos, la métrica apropiada no es Fleiss sino el coeficiente de correlación intraclase (ICC) o alfa de Krippendorff.
Calcular Fleiss en R con el paquete irr o en Python con statsmodels toma una línea de código una vez los datos están en el formato correcto.

Por qué necesitamos un kappa para más de dos revisores

El kappa de Cohen fue diseñado para dos evaluadores. Cuando una revisión sistemática se hace con tres o más revisores aplicando los mismos criterios a los mismos artículos, Cohen ya no es directamente aplicable. Existen tres opciones prácticas: calcular Cohen pareado para cada combinación de dos revisores y reportar el promedio, calcular un único estadístico que generalice a múltiples evaluadores, o cambiar a una métrica diferente.

El kappa de Fleiss, propuesto por Joseph Fleiss en 1971, resuelve este problema con un solo estadístico que considera simultáneamente las decisiones de todos los revisores. Es el estadístico de elección cuando el número de revisores que califica cada artículo es fijo y mayor que dos, y cuando las categorías son nominales (no ordinales).

Cuándo Fleiss es la elección correcta

Tres condiciones definen el escenario natural de Fleiss:

Condición	Aplicable a Fleiss
Tres o más revisores	Sí
Categorías nominales (no ordinales)	Sí
Mismo número de revisores por artículo	Sí
Decisiones independientes entre revisores	Sí
Categorías ordinales con distancia entre ellas	Mejor kappa ponderado
Datos continuos	Mejor ICC
Número variable de revisores por artículo	Mejor alfa de Krippendorff

En cribado de título y resumen de revisión sistemática, la decisión típica es nominal binaria (incluir o excluir) o ternaria (incluir, excluir, en duda), y todos los revisores califican todos los artículos del lote asignado. Es el escenario ideal para Fleiss.

Diferencias prácticas con Cohen

El kappa de Cohen es el caso particular de Fleiss cuando hay exactamente dos revisores y dos categorías. Cuando se aplican ambos al mismo conjunto de datos de dos revisores y dos categorías, dan resultados muy próximos pero no idénticos por diferencias en cómo se estiman las proporciones marginales. Fleiss usa la distribución conjunta de todos los revisores como referencia para el azar; Cohen usa la distribución marginal de cada revisor por separado.

Para profundizar en los fundamentos del kappa de Cohen y la lógica del acuerdo más allá del azar, recomendamos leer kappa de Cohen en revisión sistemática, que es el cimiento conceptual sobre el que se construye Fleiss.

La fórmula del kappa de Fleiss

La fórmula es análoga a la de Cohen pero con un cálculo más elaborado del acuerdo observado y del esperado por azar. Para un conjunto de N artículos calificados por n revisores en k categorías:

κ = (P barra menos Pe) dividido por (1 menos Pe)

Donde P barra es la proporción media de acuerdo observado entre pares de revisores para cada artículo, promediado sobre los N artículos; y Pe es la proporción de acuerdo esperado por azar, calculada como la suma de los cuadrados de las proporciones marginales de cada categoría.

Acuerdo observado por artículo

Para cada artículo i, se calcula la proporción de pares de revisores que concuerdan. Si el artículo i recibe n calificaciones y nij es el número de revisores que asignaron la categoría j, entonces el acuerdo observado para ese artículo es:

Pi = la suma sobre las categorías de nij por (nij menos 1), dividido por n por (n menos 1)

El acuerdo medio P barra es el promedio de los Pi sobre todos los artículos.

Acuerdo esperado por azar

La proporción marginal de la categoría j, llamada pj, es el número total de veces que la categoría j fue asignada (sumando todos los artículos y revisores) dividido por el producto N por n. El acuerdo esperado por azar es la suma de los pj al cuadrado para todas las categorías:

Pe = la suma de pj al cuadrado para j desde 1 hasta k

Ejemplo trabajado paso a paso

Tomemos un ejemplo concreto con tres revisores y diez artículos. La pregunta es si cada artículo debe incluirse, excluirse o marcarse como en duda. Es decir, tres revisores y tres categorías.

Datos crudos

Artículo	Revisor A	Revisor B	Revisor C
1	Incluir	Incluir	Incluir
2	Excluir	Excluir	Excluir
3	Incluir	Incluir	En duda
4	Excluir	Excluir	Excluir
5	Incluir	Excluir	Incluir
6	Excluir	Excluir	En duda
7	Incluir	Incluir	Incluir
8	Excluir	Excluir	Excluir
9	En duda	Excluir	Excluir
10	Incluir	Incluir	Incluir

Paso 1 — Convertir a tabla de conteos por categoría

Para cada artículo, contar cuántos revisores asignaron cada categoría:

Artículo	Incluir	Excluir	En duda	Total
1	3	0	0	3
2	0	3	0	3
3	2	0	1	3
4	0	3	0	3
5	2	1	0	3
6	0	2	1	3
7	3	0	0	3
8	0	3	0	3
9	0	2	1	3
10	3	0	0	3

Paso 2 — Calcular Pi para cada artículo

Aplicamos Pi igual a la suma sobre categorías de nij por (nij menos 1), dividido por n por (n menos 1), con n igual a 3 y por tanto n por (n menos 1) igual a 6.

Artículo	Suma nij por (nij menos 1)	Pi
1	3 por 2 igual a 6	1,00
2	3 por 2 igual a 6	1,00
3	2 por 1 más 0 más 1 por 0 igual a 2	0,33
4	3 por 2 igual a 6	1,00
5	2 por 1 más 1 por 0 más 0 igual a 2	0,33
6	0 más 2 por 1 más 1 por 0 igual a 2	0,33
7	3 por 2 igual a 6	1,00
8	3 por 2 igual a 6	1,00
9	0 más 2 por 1 más 1 por 0 igual a 2	0,33
10	3 por 2 igual a 6	1,00

Paso 3 — Calcular P barra

P barra es el promedio de los Pi. Sumamos los diez Pi: cuatro veces 1,00 más cuatro veces 0,33. En realidad son seis veces 1,00 y cuatro veces 0,33. La suma es 6,00 más 1,33, que da 7,33. Dividido por 10 artículos: P barra es aproximadamente 0,733.

Paso 4 — Calcular las proporciones marginales

Sumamos las columnas de la tabla del paso 1:

Incluir total: 3 más 0 más 2 más 0 más 2 más 0 más 3 más 0 más 0 más 3 igual a 13
Excluir total: 0 más 3 más 0 más 3 más 1 más 2 más 0 más 3 más 2 más 0 igual a 14
En duda total: 0 más 0 más 1 más 0 más 0 más 1 más 0 más 0 más 1 más 0 igual a 3

Total de calificaciones: N por n igual a 10 por 3 igual a 30.

Proporciones marginales:

p(Incluir) igual a 13 dividido por 30 igual a 0,433
p(Excluir) igual a 14 dividido por 30 igual a 0,467
p(En duda) igual a 3 dividido por 30 igual a 0,100

Paso 5 — Calcular Pe

Pe es la suma de los cuadrados de las proporciones marginales:

Pe igual a 0,433 al cuadrado más 0,467 al cuadrado más 0,100 al cuadrado igual a 0,188 más 0,218 más 0,010 igual a 0,416.

Paso 6 — Calcular kappa

κ igual a (0,733 menos 0,416) dividido por (1 menos 0,416) igual a 0,317 dividido por 0,584 igual a aproximadamente 0,543.

El kappa de Fleiss para este conjunto es aproximadamente 0,54, lo que según Landis y Koch corresponde a acuerdo moderado.

Interpretación del valor obtenido

La escala de interpretación más usada es la propuesta por Landis y Koch, la misma que se aplica al kappa de Cohen.

Valor de κ	Interpretación	Aceptable en revisión sistemática
Menor a 0,00	Sin acuerdo (peor que azar)	No
0,00 a 0,20	Leve	No
0,21 a 0,40	Aceptable	No
0,41 a 0,60	Moderado	Con justificación
0,61 a 0,80	Sustancial	Sí
0,81 a 1,00	Casi perfecto	Sí

En el ejemplo anterior, κ igual a 0,54 está en el rango moderado. Sería aceptable con justificación pero no ideal. Un análisis de las discrepancias revelaría que las categorías "Incluir" y "En duda" probablemente se están aplicando con criterios poco claros, y que una sesión de calibración del equipo podría aumentar el valor antes de continuar.

Qué hacer cuando el Fleiss es bajo

Las acciones recomendadas son las mismas que con el kappa de Cohen pero con un matiz importante: con tres o más revisores, las discrepancias pueden concentrarse en pares específicos. Vale la pena calcular también Cohen pareado entre cada par para ver si la baja concordancia global se debe a un revisor que sistemáticamente difiere del resto, o si el problema se distribuye uniformemente.

Si un revisor difiere sistemáticamente, la solución es una sesión de calibración específica con ese revisor sobre los criterios mal interpretados. Si el problema se distribuye uniformemente, la solución es revisar los criterios de elegibilidad en conjunto, que probablemente están ambiguamente formulados. La guía sobre cribado doble ciego detalla el proceso de calibración aplicable a cualquier número de revisores.

Diferencias con el kappa de Cohen

Aunque comparten la lógica del acuerdo más allá del azar, Fleiss y Cohen tienen diferencias prácticas importantes.

Aspecto	Cohen	Fleiss
Número de revisores	Exactamente 2	2 o más
Categorías	2 o más	2 o más
Cálculo del Pe	Marginales de cada revisor	Marginal conjunta
Sensibilidad a prevalencia	Sí	Sí
Software disponible	Universal	Universal
Tradición en revisión sistemática	Más extendida	Menos extendida pero correcta

La sensibilidad a la prevalencia (efecto paradoja del kappa) es un fenómeno conocido en ambas métricas: cuando una categoría es muy frecuente (por ejemplo, casi todo se excluye), el kappa puede ser bajo aunque el porcentaje de acuerdo sea altísimo. Esto no es defecto del estadístico sino consecuencia matemática del ajuste por azar. En cribado de revisión sistemática, donde la mayoría de los artículos se excluyen, este efecto es real y debe reportarse junto al kappa.

Alternativas a Fleiss

Tres alternativas merecen consideración cuando Fleiss no encaja exactamente con los datos.

Coeficiente de correlación intraclase (ICC)

El ICC es la métrica apropiada cuando las calificaciones son continuas. Por ejemplo, si los revisores asignan una puntuación de calidad metodológica de 0 a 100, Fleiss no aplica porque las categorías no son nominales. El ICC mide la proporción de varianza total que se debe a diferencias reales entre artículos versus diferencias entre revisores.

Existen varias formas del ICC dependiendo de si los revisores son fijos o aleatorios, si la unidad de análisis es una puntuación promedio o individual, y si interesa concordancia absoluta o solo correlación. Las más usadas en revisión sistemática son ICC (2,1) para concordancia absoluta de calificaciones individuales y ICC (2,k) para concordancia de promedios.

Alfa de Krippendorff

El alfa de Krippendorff es la métrica más flexible. Funciona con cualquier número de revisores, cualquier tipo de variable (nominal, ordinal, intervalo, ratio) y maneja datos faltantes (cuando no todos los revisores califican todos los artículos). En contextos donde el diseño no es perfectamente balanceado (algunos artículos calificados por dos revisores, otros por tres), Krippendorff es preferible a Fleiss.

La escala de interpretación de Krippendorff es algo más conservadora que Landis y Koch: valores iguales o mayores a 0,667 se consideran aceptables, y mayores a 0,80 se consideran sólidos para inferencia.

Kappa de Light

El kappa de Light es simplemente el promedio de todos los kappas de Cohen pareados entre los revisores. Es fácil de calcular y de explicar, pero estadísticamente menos preciso que Fleiss cuando el número de revisores es mayor que dos. Se reporta a veces como complemento del Fleiss, no como sustituto.

Cómo calcular Fleiss en software

En R con el paquete irr

El paquete irr de R proporciona la función kappam.fleiss(). La sintaxis es directa.

install.packages("irr")
library(irr)

datos <- data.frame(
  revisor_A = c("Incluir", "Excluir", "Incluir", "Excluir", "Incluir",
                "Excluir", "Incluir", "Excluir", "EnDuda", "Incluir"),
  revisor_B = c("Incluir", "Excluir", "Incluir", "Excluir", "Excluir",
                "Excluir", "Incluir", "Excluir", "Excluir", "Incluir"),
  revisor_C = c("Incluir", "Excluir", "EnDuda", "Excluir", "Incluir",
                "EnDuda", "Incluir", "Excluir", "Excluir", "Incluir")
)

kappam.fleiss(datos)

El output incluye el valor de kappa, el error estándar, el estadístico z y el valor p de la prueba de hipótesis de kappa igual a cero.

En Python con statsmodels

En Python, el módulo statsmodels.stats.inter_rater ofrece la función fleiss_kappa(). Antes hay que convertir los datos al formato esperado, que es una matriz de N artículos por k categorías con conteos.

import numpy as np
from statsmodels.stats.inter_rater import fleiss_kappa

# Matriz de conteos: filas son artículos, columnas son categorías
# Columnas en este caso son: Incluir, Excluir, En duda
matriz = np.array([
    [3, 0, 0],
    [0, 3, 0],
    [2, 0, 1],
    [0, 3, 0],
    [2, 1, 0],
    [0, 2, 1],
    [3, 0, 0],
    [0, 3, 0],
    [0, 2, 1],
    [3, 0, 0],
])

kappa = fleiss_kappa(matriz)
print(kappa)

En Excel

Excel no tiene una función nativa para Fleiss, pero la fórmula puede implementarse manualmente con celdas para cada Pi, las marginales y la fórmula final. Es viable para conjuntos pequeños y útil como herramienta de aprendizaje, pero para producción se recomienda R o Python.

Cómo reportar Fleiss en el manuscrito

PRISMA 2020 requiere reportar la concordancia entre revisores en la sección de métodos y resultados. Para Fleiss, conviene incluir cuatro elementos.

Primero, mencionar Fleiss explícitamente y citar la referencia original. Segundo, reportar el valor obtenido con dos decimales, junto con el intervalo de confianza o el error estándar cuando esté disponible. Tercero, interpretar según Landis y Koch (mencionando la cita). Cuarto, si el valor es moderado o menor, describir el proceso de calibración aplicado y la resolución de discordancias.

Un párrafo modelo:

"La concordancia entre los tres revisores se evaluó mediante el kappa de Fleiss (Fleiss, 1971). El valor obtenido fue κ igual a 0,72 (IC 95 por ciento 0,65 a 0,79), considerado acuerdo sustancial según la escala de Landis y Koch (1977). Las discrepancias se resolvieron mediante discusión consensuada y, cuando no se alcanzó consenso, mediante consulta a un cuarto revisor metodológico."

Consideraciones finales

El kappa de Fleiss es la métrica correcta para tres o más revisores y categorías nominales. Es sencillo de calcular con software moderno, se interpreta con la misma escala que Cohen y se reporta con criterios estandarizados.

La elección entre Cohen, Fleiss, ICC y Krippendorff no es ideológica sino estructural: depende del número de revisores, del tipo de variable y de si el diseño es balanceado. Conocer las cuatro métricas permite elegir la apropiada para cada proyecto y no forzar una métrica que no encaja con los datos.

Cuando los datos son binarios y hay dos revisores, Cohen es la elección. Cuando hay tres o más revisores con categorías nominales, Fleiss. Cuando los datos son continuos, ICC. Cuando el diseño es desbalanceado o mezcla tipos de variable, Krippendorff. Esta jerarquía cubre la inmensa mayoría de los escenarios prácticos en revisión sistemática.