Kappa de Cohen en revisión sistemática: qué es, cómo calcularlo e interpretarlo

Puntos clave

El kappa de Cohen (κ) mide el acuerdo entre dos revisores más allá del azar: corrige la concordancia observada por la que se esperaría por pura coincidencia.
Un kappa ≥ 0,60 es el umbral mínimo aceptado en la mayoría de revistas para considerar que el proceso de cribado fue metodológicamente sólido.
Un kappa bajo no indica revisores incompetentes: casi siempre señala criterios de elegibilidad ambiguos que necesitan clarificación.
El kappa se calcula por separado para la fase de título/resumen y para la fase de texto completo; los valores esperados son diferentes en cada fase.
SynthIA calcula el kappa de Cohen automáticamente al comparar las decisiones de los dos revisores, sin necesidad de exportar datos a SPSS, R ni Excel.

¿Qué es el kappa de Cohen y por qué importa en revisión sistemática?

El kappa de Cohen (κ) es un coeficiente estadístico que mide el grado de acuerdo entre dos evaluadores para una variable categórica, descontando el acuerdo que podría ocurrir por azar. Fue propuesto por Jacob Cohen en 1960 (doi.org/10.1177/001316446002000104) y desde entonces se ha convertido en el estándar para cuantificar la concordancia inter-evaluador en disciplinas que van desde la psicología clínica hasta la epidemiología y la revisión sistemática.

En el contexto de una revisión sistemática, el kappa responde a una pregunta metodológica crítica: ¿cuánto están de acuerdo los dos revisores en sus decisiones de incluir o excluir artículos, más allá de lo que acordarían por azar? Esta distinción es importante porque en un proceso de cribado donde la mayoría de los artículos se excluyen (lo habitual cuando se buscan miles de registros para incluir decenas), dos revisores podrían tener un alto porcentaje de acuerdo simplemente por excluir todo, sin que eso refleje un proceso riguroso.

Por qué el porcentaje de acuerdo simple no es suficiente

Supón que en una base de 1.000 artículos, el revisor A incluye 80 y el revisor B incluye 90. Si 75 artículos coinciden en ambas listas de inclusiones y 905 artículos son excluidos por ambos, el porcentaje de acuerdo observado es del 98% — aparentemente excelente. Pero una parte de ese 98% es simplemente el resultado de que la mayoría de los artículos son irrelevantes para cualquier revisión sobre ese tema.

El kappa corrige esto calculando el acuerdo esperado por azar dada la distribución de decisiones, y mide cuánto supera el acuerdo observado a ese acuerdo esperado. Un kappa de 0 significa que el acuerdo entre revisores no supera el azar; un kappa de 1 indica acuerdo perfecto.

Cómo se calcula el kappa de Cohen

La fórmula básica del kappa es:

κ = (Po − Pe) / (1 − Pe)

Donde:

Po = proporción de acuerdo observado entre los dos revisores
Pe = proporción de acuerdo esperado por azar

Para calcular Pe se usa la distribución marginal de las decisiones de cada revisor. Ejemplo simplificado con 100 artículos:

	Revisor B: Incluir	Revisor B: Excluir	Total
Revisor A: Incluir	18	7	25
Revisor A: Excluir	5	70	75
Total	23	77	100

Po = (18 + 70) / 100 = 0,88
Pe = (25/100 × 23/100) + (75/100 × 77/100) = 0,0575 + 0,5775 = 0,635
κ = (0,88 − 0,635) / (1 − 0,635) = 0,245 / 0,365 = 0,67

En este ejemplo, κ = 0,67 indica concordancia sustancial. La mayoría de las herramientas estadísticas (R, SPSS, Stata) y SynthIA calculan esto automáticamente, pero entender la fórmula ayuda a interpretar el resultado.

Cómo interpretar el kappa: tabla de referencia

La escala de interpretación más citada es la de Landis y Koch (1977), publicada en Biometrics (doi.org/10.2307/2529310):

Valor de κ	Interpretación	¿Aceptable en revisión sistemática?
< 0,00	Sin acuerdo (peor que el azar)	No
0,00 – 0,20	Acuerdo leve	No
0,21 – 0,40	Acuerdo aceptable (fair)	No
0,41 – 0,60	Acuerdo moderado	Con justificación
0,61 – 0,80	Acuerdo sustancial	Sí
0,81 – 1,00	Acuerdo casi perfecto	Sí

El umbral más usado en revisiones sistemáticas publicadas en revistas de alto impacto es κ ≥ 0,60. Algunos journals aceptan valores entre 0,40 y 0,60 si el equipo documenta el proceso de resolución de discordancias y justifica el valor obtenido.

Valores esperados por fase de cribado

Los valores de kappa típicamente difieren entre fases:

Fase de título y resumen: kappa esperado entre 0,60 y 0,80. La decisión es más rápida y binaria (¿podría ser relevante?), lo que facilita el acuerdo.
Fase de texto completo: kappa esperado entre 0,55 y 0,75. La evaluación detallada introduce más matices y oportunidades de interpretación divergente de los criterios.

Un kappa más alto en texto completo que en título/resumen es inusual y puede indicar que el cribado de título/resumen se está aplicando con criterios demasiado laxos.

Qué hacer cuando el kappa es bajo

Un kappa por debajo de 0,60 es casi siempre una señal de criterios de elegibilidad ambiguos, no de revisores incompetentes. Las causas más frecuentes y sus soluciones:

Criterios de población demasiado amplios Si el criterio dice "adultos con enfermedad cardiovascular" sin especificar el umbral de edad ni qué condiciones cardiovasculares se incluyen, dos revisores razonables llegarán a conclusiones diferentes sobre el mismo artículo. Solución: redefinir el criterio con parámetros específicos y hacer una sesión de calibración.

Criterios de intervención con terminología variable Si la intervención es "terapia cognitivo-conductual" sin especificar formato, duración mínima o modalidad de administración, artículos sobre variantes muy diferentes del mismo enfoque pueden o no cumplir los criterios dependiendo del revisor. Solución: operacionalizar con detalle cada componente del criterio.

Falta de sesión de calibración previa Antes de iniciar el cribado formal, los equipos metodológicamente sólidos realizan una sesión de calibración sobre un subconjunto de 20-50 artículos y discuten las discrepancias. Esta práctica puede aumentar el kappa entre 0,10 y 0,20 puntos antes de comenzar el proceso real.

Qué reportar cuando el kappa es bajo PRISMA 2020 no exige un valor mínimo de kappa, pero sí requiere reportar el valor obtenido (ítem 8 del checklist). Si el valor es bajo, el manuscrito debe incluir una explicación del proceso de resolución de discordancias y reconocerlo como limitación metodológica.

Kappa ponderado vs kappa simple

Para variables con más de dos categorías de respuesta (incluir / excluir / en duda / necesita más información), existe el kappa ponderado, que asigna diferente penalización a cada tipo de discordancia. En cribado de título/resumen binario (incluir/excluir), el kappa simple es suficiente. Si tu proceso incluye categorías intermedias, considera usar el kappa ponderado con pesos lineales o cuadráticos.

Cómo SynthIA calcula y reporta el kappa

En SynthIA, cuando ambos revisores completan el cribado de un lote de artículos, la plataforma calcula automáticamente el kappa de Cohen comparando sus decisiones. El resultado aparece en el panel de métricas del proyecto junto con la distribución de decisiones por categoría (acuerdo en incluir, acuerdo en excluir, discordancias).

Este cálculo automático elimina el paso de exportar las decisiones a Excel o a R, que es fuente frecuente de errores de transcripción en equipos que gestionan el proceso manualmente. El valor de kappa calculado por SynthIA puede citarse directamente en el manuscrito, junto con la sección de métodos que describe el proceso de cribado.

Kappa de Cohen en revisión sistemática: qué es, cómo calcularlo e interpretarlo

Puntos clave

¿Qué es el kappa de Cohen y por qué importa en revisión sistemática?

Por qué el porcentaje de acuerdo simple no es suficiente

Cómo se calcula el kappa de Cohen

Cómo interpretar el kappa: tabla de referencia

Valores esperados por fase de cribado

Qué hacer cuando el kappa es bajo

Kappa ponderado vs kappa simple

Cómo SynthIA calcula y reporta el kappa

Recursos relacionados

Más artículos del blog

Kappa de Fleiss: acuerdo entre 3 o más revisores

Cribado en revisión sistemática: guía del método doble revisor

Criterios de inclusión y exclusión en revisión sistemática: guía práctica con ejemplos