¿Qué valor de kappa es aceptable para el cribado de una revisión sistemática?

El umbral más aceptado en la literatura metodológica es kappa ≥ 0,60, que corresponde a una concordancia sustancial según la escala de Landis y Koch. Valores entre 0,40 y 0,60 indican concordancia moderada y suelen ser aceptados con justificación. Valores por debajo de 0,40 requieren revisar y clarificar los criterios de elegibilidad antes de continuar.

¿Se puede hacer el cribado con un solo revisor?

Técnicamente es posible, pero está documentado que aumenta el riesgo de error. Un estudio clásico de Edwards et al. encontró que el cribado por un solo revisor pierde aproximadamente el 8-10 % de los artículos relevantes respecto al doble cribado. Si no es posible hacer doble cribado en todas las fases por restricciones de recursos, la práctica aceptada es aplicarlo al menos en la fase de texto completo y declararlo como limitación en el manuscrito.

¿Qué pasa si los dos revisores no llegan a acuerdo en la resolución de discordancias?

El proceso estándar es: primero, los dos revisores discuten la discordancia intentando llegar a consenso; si no lo logran, interviene un tercer revisor árbitro cuya decisión es definitiva. Este proceso debe estar pre-definido en el protocolo antes de comenzar el cribado. PRISMA 2020 requiere que se reporte cómo se resolvieron las discordancias en el manuscrito final.

Cribado en revisión sistemática: guía del método doble revisor

Puntos clave

El cribado independiente por dos revisores es un estándar metodológico explícito en PRISMA 2020 (ítem 8) y en el manual Cochrane, no una práctica opcional.
El cribado tiene dos fases secuenciales: título y resumen primero, texto completo después, con criterios de elegibilidad aplicados de forma progresivamente más estricta.
El coeficiente kappa de Cohen mide el acuerdo entre revisores más allá del azar; un kappa menor a 0,60 señala que los criterios de elegibilidad necesitan refinamiento.
La resolución de discordancias debe tener un proceso pre-definido: primero discusión entre los dos revisores, y solo si no hay acuerdo, intervención de un tercer revisor árbitro.
Las herramientas digitales especializadas son indispensables para gestionar el cribado doble ciego sin mezclar las decisiones de los revisores antes del momento de comparación.

Por qué el cribado independiente es un estándar metodológico irremplazable

El cribado es la fase de la revisión sistemática en la que los investigadores deciden, artículo por artículo, si cada registro recuperado por la búsqueda cumple los criterios de elegibilidad o debe excluirse. Esta decisión parece simple sobre el papel, pero en la práctica está influenciada por múltiples factores: la fatiga del revisor, la interpretación subjetiva de criterios redactados con cierta ambigüedad, el conocimiento previo sobre estudios específicos o simplemente la variabilidad natural en el juicio humano.

El método doble revisor —también llamado cribado independiente o dual screening— requiere que al menos dos revisores evalúen cada artículo de forma completamente independiente, sin conocer la decisión del otro, antes de comparar sus resultados. Es el estándar metodológico porque ningún revisor individual es inmune al sesgo de selección, y la revisión por un segundo par de ojos es la forma más eficiente de detectar errores sin revisar todo el proceso desde el principio.

El sesgo de selección y cómo el doble revisor lo mitiga

El sesgo de selección en el cribado ocurre cuando los artículos que entran en la revisión no son una muestra representativa de los artículos disponibles sobre el tema, sino que están sistemáticamente sesgados hacia un tipo de resultado, diseño o perspectiva. Un revisor que tiene creencias previas sobre un tema tiende a incluir artículos que confirman esas creencias y a excluir artículos que las desafían, incluso sin ser consciente de ello.

El doble revisor mitiga este sesgo porque dos personas con perspectivas ligeramente diferentes compensan mutuamente sus tendencias individuales. Cuando ambos revisores coinciden en excluir un artículo, la exclusión es más sólida metodológicamente que si la decisión la tomara uno solo. Cuando discrepan, la discordancia activa un proceso de revisión deliberada que obliga a fundamentar la decisión en los criterios de elegibilidad en lugar de en el juicio intuitivo.

Qué dicen PRISMA 2020 y Cochrane

PRISMA 2020 aborda el proceso de cribado en el ítem 8 del checklist, que requiere que los autores especifiquen cuántos revisores examinaron cada registro o cita y si el proceso fue independiente. El manual Cochrane es aún más explícito: establece que el estándar mínimo es que al menos dos revisores examinen de forma independiente todos los registros recuperados por la búsqueda. Las desviaciones de este estándar —como el cribado por un solo revisor con verificación por el segundo solo para una muestra— deben declararse como limitación metodológica.

El ítem 16 de PRISMA 2020 requiere que se reporten las desviaciones del protocolo, lo que incluye cualquier modificación al proceso de cribado planificado. Si el protocolo especificaba doble cribado independiente y el equipo tuvo que hacer cribado por un único revisor por restricciones de recursos, esto debe declararse y justificarse en el manuscrito.

¿Puede un solo revisor hacer el cribado?

Esta es una de las preguntas más frecuentes de investigadores con recursos limitados. La respuesta honesta es: técnicamente es posible, pero metodológicamente está documentado que aumenta el riesgo de error. Un estudio clásico de Edwards et al. encontró que el cribado por un solo revisor pierde aproximadamente el 8-10 % de los artículos relevantes respecto al doble cribado. Para una revisión que incluye 20 estudios, eso puede significar dos estudios perdidos, lo que es potencialmente suficiente para cambiar las conclusiones.

Si por restricciones de tiempo o presupuesto no es posible hacer doble cribado en todas las fases, una práctica aceptable es hacer doble cribado en la fase de texto completo (donde el riesgo de error es mayor por ser la fase más compleja) y cribado único con verificación muestral en la fase de título y resumen. Esta decisión debe declararse explícitamente en el protocolo y en el artículo.

Las dos fases del cribado: título/resumen y texto completo

El cribado se divide en dos fases secuenciales, cada una con criterios progresivamente más estrictos. Esta secuencia es deliberada: cribar por título y resumen primero descarta los artículos obviamente irrelevantes con un esfuerzo mínimo, reservando el trabajo más intensivo del cribado a texto completo para el subconjunto de artículos que superaron el primer filtro.

Fase 1 — Cribado por título y resumen

En la primera fase, los revisores evalúan cada artículo únicamente a partir de su título y resumen (y, cuando están disponibles, las palabras clave del autor). La pregunta que guía la decisión es simple: ¿es posible, a partir de esta información, que este artículo cumpla los criterios de elegibilidad? La respuesta es binaria: sí, pasa a texto completo; no, se excluye.

La clave en esta fase es la duda razonable. Cuando hay incertidumbre —el título sugiere relevancia pero el resumen es ambiguo— la decisión correcta es incluir el artículo para evaluación en la fase de texto completo, no excluirlo prematuramente. Es mejor revisar cien artículos en texto completo que excluir por error en la primera fase un artículo que resultaría ser clave para la revisión. El error de falso negativo en esta fase —excluir un artículo que debería incluirse— es irreversible si no se detecta durante el proceso de discordancias.

Fase 2 — Cribado de texto completo

En la segunda fase, los revisores acceden al artículo completo y aplican todos los criterios de elegibilidad de forma detallada. Cada artículo evaluado en texto completo que no cumple los criterios debe tener registrada la razón de exclusión, que debe corresponder exactamente a uno de los criterios de elegibilidad declarados en el protocolo.

Las razones de exclusión en texto completo no son opcionales: son un requisito del ítem 17 de PRISMA 2020 ("exclusiones de estudios") y aparecen en el diagrama de flujo como un desglose de cuántos artículos fueron excluidos por cada categoría de razón. Muchas revistas también solicitan la lista completa de artículos excluidos en texto completo con sus razones como material suplementario obligatorio.

Cuántos artículos suelen pasar de fase 1 a fase 2

La tasa de supervivencia entre fases 1 y 2 varía enormemente según el tema y la calidad de la estrategia de búsqueda. En revisiones biomédicas bien construidas, es habitual que entre el 10 % y el 30 % de los artículos cribados en título y resumen pasen a texto completo. Si la tasa de supervivencia es muy alta (más del 50 %), la cadena de búsqueda puede estar siendo demasiado poco específica. Si es muy baja (menos del 5 %), puede indicar que la búsqueda no está capturando bien los términos relevantes o que la pregunta es muy estrecha para el volumen de literatura disponible.

De los artículos evaluados en texto completo, la tasa de inclusión final suele estar entre el 20 % y el 50 % dependiendo del tema. Para una revisión que inicia con 5.000 registros, es realista esperar entre 500 y 1.500 artículos para cribado de texto completo y entre 100 y 500 artículos en la revisión final, aunque estos rangos varían mucho según la especificidad de la pregunta.

Cómo organizar el trabajo entre dos revisores

La organización del cribado doble entre dos revisores requiere decisiones sobre la distribución de artículos, los formularios de decisión y el sistema de registro que se usará. Estas decisiones deben tomarse antes de iniciar el cribado y documentarse en el protocolo.

Distribución: ¿dividir o solapar todos los artículos?

Existen dos modelos de distribución del trabajo. En el modelo de solapamiento total, ambos revisores evalúan el 100 % de los artículos de forma independiente y luego se comparan las decisiones. Este modelo es el más riguroso metodológicamente y el que recomiendan Cochrane y PRISMA 2020.

En el modelo de solapamiento parcial, se divide el total de artículos en dos lotes: cada revisor evalúa su lote en solitario, y solo se hace doble revisión en una muestra aleatoria (generalmente el 20-30 % del total) para estimar el acuerdo. Este modelo es menos riguroso pero puede ser necesario cuando el volumen de artículos es muy alto y los recursos son limitados. Si se usa este modelo, debe declararse explícitamente y el porcentaje de solapamiento debe reportarse.

Formularios de decisión: include / exclude / incierto

El formulario de decisión para cada artículo debe tener al menos tres opciones: incluir, excluir y "incierto" o "requiere discusión". La opción de incierto es importante porque permite a los revisores registrar los casos en que aplican los criterios con dificultad, incluso cuando finalmente toman una decisión. Estos casos de incertidumbre son informativos: si muchos artículos generan decisiones de "incierto", indica que algún criterio de elegibilidad necesita clarificación.

Para la fase de texto completo, el formulario debe incluir también el campo de razón de exclusión. El revisor que excluye un artículo debe especificar cuál criterio de elegibilidad no se cumple, usando categorías pre-definidas que corresponden directamente a los criterios declarados en el protocolo.

Registro de razones de exclusión

Cada razón de exclusión debe registrarse de forma consistente usando exactamente las mismas categorías de criterios de elegibilidad. Si un artículo fue excluido porque la población no cumplía el criterio de edad, la razón debe registrarse como "población: rango de edad fuera de criterios" —no como "pacientes equivocados" o "no es nuestra población"—. La consistencia en el registro facilita enormemente la generación del resumen de razones de exclusión para el diagrama PRISMA 2020.

La concordancia entre revisores: el coeficiente kappa de Cohen

El coeficiente kappa de Cohen (κ) es la medida estadística más usada para cuantificar el acuerdo entre dos revisores en el cribado. Fue desarrollado por Cohen en 1960 (doi.org/10.2307/2529310) y mide el acuerdo observado descontando el acuerdo que podría esperarse por azar. Un kappa de 1,0 indica acuerdo perfecto; un kappa de 0,0 indica que el acuerdo no es mejor que el azar; los valores negativos indican acuerdo peor que el azar.

Cómo se calcula el kappa

El kappa se calcula a partir de una tabla de contingencia 2×2 donde las filas representan las decisiones del revisor 1 y las columnas las decisiones del revisor 2. Las celdas de la diagonal contienen los acuerdos (ambos incluyen, ambos excluyen) y las celdas fuera de la diagonal contienen las discordancias (revisor 1 incluye mientras revisor 2 excluye, y viceversa).

La fórmula es κ = (Po - Pe) / (1 - Pe), donde Po es la proporción de acuerdo observado (celdas de la diagonal / total) y Pe es la proporción de acuerdo esperado por azar. No es necesario calcular el kappa manualmente: la mayoría de los programas estadísticos (SPSS, R, Stata) incluyen funciones para calcularlo, y muchas herramientas de gestión de revisiones sistemáticas lo calculan automáticamente.

Tabla de interpretación

La interpretación del kappa sigue convenciones establecidas en la literatura metodológica (doi.org/10.11613/BM.2012.031):

Valor de kappa (κ)	Interpretación del acuerdo
< 0,20	Leve (poor)
0,21 – 0,40	Aceptable (fair)
0,41 – 0,60	Moderado (moderate)
0,61 – 0,80	Sustancial (substantial)
0,81 – 1,00	Casi perfecto (almost perfect)

Para revisiones sistemáticas publicadas en revistas de alto impacto, se espera habitualmente un kappa mayor a 0,60 en la fase de texto completo. Valores entre 0,40 y 0,60 son aceptables con justificación y un proceso de resolución de discordancias documentado. Valores por debajo de 0,40 señalan un problema metodológico que generalmente tiene raíz en criterios de elegibilidad demasiado ambiguos.

Qué hacer si el kappa es bajo

Un kappa bajo en el piloto de cribado (antes del cribado formal) es una oportunidad de mejora, no necesariamente un fracaso. El proceso recomendado es revisar artículo por artículo los casos de discordancia para identificar el criterio que está generando interpretaciones diferentes. Una vez identificado, el equipo discute la redacción del criterio y lo reformula con mayor precisión antes de proceder al cribado formal.

Un kappa bajo en el cribado formal ya iniciado es más problemático porque los registros ya evaluados tendrán decisiones basadas en interpretaciones inconsistentes. En este caso, la solución es detener el cribado, resolver el problema de interpretación, y volver a revisar los artículos ya evaluados que tenían discordancias.

Resolución de discordancias: proceso paso a paso

Las discordancias son inevitables en cualquier proceso de doble cribado: incluso con criterios bien redactados y revisores bien calibrados, habrá artículos en los que dos personas razonables llegan a conclusiones diferentes. El proceso de resolución de discordancias debe estar pre-definido en el protocolo.

Tipos de discordancia

Las discordancias más comunes son: revisor 1 incluye y revisor 2 excluye (o viceversa), revisor 1 incluye con incertidumbre y revisor 2 excluye con certeza, o ambos marcan el artículo como "incierto". Cada tipo de discordancia tiene implicaciones diferentes: la primera requiere discusión para determinar cuál criterio aplica; la segunda puede resolverse con el revisor más seguro explicando su razonamiento; la tercera requiere necesariamente discusión o arbitraje.

Proceso de consenso

El primer mecanismo de resolución es la discusión directa entre los dos revisores. Idealmente, esta discusión debe realizarse artículo por artículo, comparando la interpretación de cada revisor frente al texto del criterio de elegibilidad correspondiente. No se trata de convencer al otro: se trata de determinar cuál interpretación es más consistente con el criterio tal como está redactado.

Durante esta discusión, si ambos revisores acuerdan que el criterio es ambiguo para ese artículo específico, la solución puede ser incluir el artículo (con la nota de que la decisión fue por consenso ante ambigüedad) o, si el tema es recurrente, reformular el criterio y reevaluar los artículos afectados.

El tercer revisor árbitro

Cuando la discusión entre los dos revisores principales no resuelve la discordancia, interviene el tercer revisor árbitro. Esta persona —generalmente el investigador principal del proyecto o un experto externo en la metodología o el tema— evalúa el artículo de forma independiente y su decisión es vinculante.

El rol del árbitro debe definirse antes del inicio del cribado: quién lo desempeña, bajo qué condiciones se activa (solo cuando los dos revisores no llegan a acuerdo después de la discusión, no en todos los casos de discordancia) y cómo se documenta su decisión. Las decisiones arbitradas deben registrarse de forma separada para poder reportar el número de casos que requirieron arbitraje en el manuscrito final.

Herramientas para gestionar el cribado doble sin caos

La gestión del cribado doble ciego con hojas de cálculo es una práctica que genera errores sistemáticos. El problema principal no es la hoja de cálculo en sí, sino la necesidad de mantener las decisiones de cada revisor en archivos separados hasta el momento de la comparación, y luego consolidar miles de filas sin mezclar los datos. Un error en este proceso puede contaminar los datos de ambos revisores o producir comparaciones incorrectas.

Las plataformas especializadas en revisiones sistemáticas resuelven este problema de forma estructural: cada revisor ve los artículos en su propia vista, sin acceso a la decisión del otro, hasta que ambos han completado su evaluación. La comparación de decisiones se realiza automáticamente por la plataforma, que marca los acuerdos, las discordancias y los casos que requieren arbitraje sin intervención manual del equipo. Para saber más sobre los criterios de elegibilidad que guían cada decisión de cribado, consulta la guía completa de criterios con ejemplos por área de investigación.

SynthIA implementa el cribado doble ciego con esta lógica: cada revisor trabaja en su propia vista aislada, las discordancias se marcan automáticamente al completar ambas revisiones, y el sistema calcula el kappa de Cohen en tiempo real a medida que avanza el cribado. No es necesario exportar datos ni usar hojas de cálculo auxiliares.

Cómo documentar el proceso en tu artículo y en el diagrama PRISMA

La documentación del proceso de cribado en el artículo debe abordar cuatro elementos: el número de revisores que participaron en cada fase, si el proceso fue independiente (ciego) o no, cómo se midió y reportó la concordancia (kappa u otra medida de acuerdo) y cómo se resolvieron las discordancias.

El diagrama de flujo PRISMA 2020 refleja los resultados cuantitativos del cribado: cuántos registros entraron a la fase de título y resumen, cuántos fueron excluidos, cuántos pasaron a texto completo, cuántos fueron excluidos en texto completo (con el resumen de razones) y cuántos se incluyeron finalmente. Para entender cómo los números del cribado se trasladan al diagrama de flujo PRISMA 2020, consulta la guía específica del diagrama.

Un detalle importante: el diagrama muestra los números del proceso de cribado ya resuelto —después de que las discordancias fueron resueltas—, no los números intermedios de acuerdos y desacuerdos. El kappa y el número de discordancias resueltas se reportan en el texto de la sección de métodos, no en el diagrama.

Piloto de cribado: cómo calibrar a los revisores antes de empezar

El piloto de cribado es una práctica que muchos protocolos mencionan pero pocos implementan con la rigurosidad necesaria. Consiste en que ambos revisores evalúan de forma independiente una muestra de artículos antes del cribado formal —generalmente entre 25 y 50 artículos seleccionados de forma representativa—, comparan sus decisiones, calculan el kappa preliminar y discuten las discordancias para alinear su interpretación de los criterios.

Los beneficios del piloto son múltiples: identifica criterios ambiguos antes de que afecten al cribado completo, calibra el umbral de incertidumbre de cada revisor, entrena a revisores con menos experiencia en la aplicación de los criterios específicos de esa revisión y genera una estimación preliminar del kappa que permite predecir cuántas discordancias se esperan en el cribado formal.

El piloto no se contabiliza en el cribado formal: los artículos evaluados en el piloto se re-evalúan en el cribado formal con los criterios refinados. Sin embargo, si el piloto no produce discordancias significativas y el kappa es alto, algunos equipos optan por incluir los resultados del piloto en el cribado formal para no repetir el trabajo. Esta decisión debe documentarse en el protocolo y declararse en el artículo.

Cochrane recomienda un piloto formal con al menos 50 artículos para revisiones con volúmenes altos. Para revisiones más pequeñas, un piloto con 25 artículos es generalmente suficiente para detectar los problemas de interpretación más frecuentes antes de que afecten al proceso completo.