ROBINS-I vs ROB 2: cuál usar según el tipo de estudio

Puntos clave

ROB 2 es la herramienta de Cochrane para evaluar el riesgo de sesgo en ensayos controlados aleatorizados. ROBINS-I es la herramienta análoga para estudios no aleatorizados de intervenciones.
La pregunta clave de elegibilidad es: ¿la asignación a los grupos fue por aleatorización? Si la respuesta es sí, ROB 2. Si fue por decisión clínica, autoselección o cualquier otro mecanismo no aleatorio, ROBINS-I.
ROBINS-I tiene 7 dominios (uno más que ROB 2) porque incorpora explícitamente la confusión basal y la selección de participantes en el estudio, dos fuentes de sesgo que la aleatorización resuelve.
ROB 2 tiene 3 categorías de juicio (bajo, algunas preocupaciones, alto). ROBINS-I tiene 5 (bajo, moderado, serio, crítico, sin información).
Para diseños fuera del alcance de ambas (pronóstico, diagnóstico, cualitativos) hay herramientas específicas: QUIPS, QUADAS-2, CASP.

Por qué importa elegir bien la herramienta

Aplicar ROB 2 a un estudio observacional es un error metodológico que evalúan los reviewers de cualquier revista seria. ROB 2 asume que la aleatorización balanceó los confusores basales; aplicada a una cohorte donde los pacientes recibieron una u otra intervención por decisión clínica, no detecta el sesgo principal del estudio.

Inversamente, aplicar ROBINS-I a un ECA infla la complejidad del análisis y produce evaluaciones desproporcionadamente pesimistas, porque ROBINS-I parte asumiendo que la confusión basal es un problema serio hasta que se demuestre lo contrario. La herramienta correcta depende del diseño, no del tema clínico ni de las preferencias del equipo.

Árbol de decisión para elegir herramienta

Respondé estas preguntas en orden. La primera respuesta afirmativa define la herramienta.

¿Los participantes fueron asignados a los grupos por un proceso aleatorio (sorteo, software de aleatorización, tabla de números aleatorios)?
- Sí: usar ROB 2.
- No: continuar.
¿El estudio compara una intervención de salud con otra (o con control), aunque la asignación no haya sido aleatoria?
- Sí: usar ROBINS-I. Esto cubre cohortes prospectivas, cohortes retrospectivas, casos-controles que comparan intervenciones, diseños antes-después, series temporales interrumpidas y estudios cuasi-experimentales.
- No: continuar.
¿El estudio es sobre exposiciones (no intervenciones de salud), pronóstico, diagnóstico, prevalencia o calidad?
- Diagnóstico: QUADAS-2.
- Pronóstico: QUIPS.
- Cohortes y casos-controles de exposición etiológica: Newcastle-Ottawa Scale o ROBINS-E (para exposiciones).
- Estudios cualitativos: CASP Qualitative Checklist.
- Estudios transversales de prevalencia: JBI Critical Appraisal Checklist.

ROB 2 y ROBINS-I cubren juntos la mayoría de los estudios en una revisión sistemática de intervenciones. Si tu revisión incluye ambos tipos, vas a aplicar ambas herramientas en el mismo proyecto, una por estudio según corresponda.

Comparativa dominio por dominio

ROB 2 evalúa 5 dominios. ROBINS-I evalúa 7. Cuatro de los dominios son análogos (con matices) y tres son únicos de ROBINS-I.

#	ROB 2	ROBINS-I	Comentario
1	Proceso de aleatorización	Confusión basal	ROB 2 evalúa cómo se aleatorizó. ROBINS-I evalúa si los confusores basales están balanceados o ajustados.
2	—	Selección de participantes en el estudio	Sesgo cuando el momento de inclusión y la asignación de intervención están correlacionados (selección dependiente de exposición y outcome).
3	Desviaciones de la intervención asignada	Clasificación de la intervención	ROB 2 ve si los participantes se desviaron de lo asignado. ROBINS-I ve si la intervención fue correctamente categorizada (sin clasificación errónea diferencial entre grupos).
4	—	Desviaciones de la intervención prevista	Análogo al ítem 2 de ROB 2 pero adaptado al contexto observacional (co-intervenciones, cambios en la práctica clínica).
5	Datos de outcome perdidos	Datos perdidos	Mismo dominio, distinto nombre. Ambos evalúan pérdidas y manejo.
6	Medición del outcome	Medición del outcome	Igual concepto en ambas. Especialmente sensible cuando el outcome es subjetivo y los evaluadores conocen la intervención.
7	Selección del resultado reportado	Selección del resultado reportado	Outcome switching: reportar selectivamente los outcomes con resultados favorables.

Los tres dominios únicos de ROBINS-I

Estos tres dominios son la razón por la que ROBINS-I existe como herramienta separada. Resuelven los problemas que la aleatorización elimina automáticamente en un ECA.

Confusión basal. Es el dominio más importante de ROBINS-I. Antes de evaluar, el equipo de la revisión debe definir una lista de confusores importantes para la pregunta clínica. Para cada estudio, se evalúa si esos confusores fueron medidos y ajustados (en el análisis, por matching, o por estratificación). Sin ajuste apropiado, el dominio se marca con riesgo serio o crítico.

Selección de participantes en el estudio. Aplica cuando el momento de inclusión y la exposición están correlacionados de forma que afecta el outcome. Ejemplo típico: incluir en un estudio de cirugía bariátrica solo a pacientes que sobrevivieron al primer año post-cirugía introduce sesgo de supervivencia.

Clasificación de la intervención. En un ECA, los grupos están definidos al inicio. En un estudio observacional, la asignación al grupo "expuesto" o "no expuesto" se reconstruye con datos clínicos. Si esa clasificación tiene error sistemático correlacionado con el outcome, hay sesgo.

Diferencias clave en el juicio global

La granularidad del juicio es distinta entre las dos herramientas.

Juicio ROB 2	Juicio ROBINS-I	Significado aproximado
Bajo riesgo	Bajo riesgo	El estudio es comparable a un ECA bien hecho.
—	Moderado	El estudio es sólido para un estudio no aleatorizado, pero no comparable a un ECA.
Algunas preocupaciones	Serio	Hay problemas importantes que reducen la confianza.
Alto riesgo	Crítico	El estudio es demasiado problemático para aportar evidencia útil.
—	Sin información	No hay datos suficientes para juzgar uno o más dominios clave.

ROBINS-I incorpora una categoría intermedia (moderado) porque pocos estudios no aleatorizados pueden alcanzar el estándar de "bajo riesgo equivalente a un ECA bien hecho". La categoría crítico actúa como un "veto": un estudio con riesgo crítico en cualquier dominio no debería usarse para el meta-análisis sin análisis de sensibilidad serio.

Ejemplos por tipo de estudio

Cohorte prospectiva: estatinas en prevención secundaria

Estudio que sigue a 5.000 pacientes con infarto previo, donde los que reciben estatinas vs no estatinas fueron asignados por decisión del cardiólogo según protocolo del hospital. La aleatorización no existe.

Herramienta correcta: ROBINS-I.
Dominios clave a evaluar: confusión basal (¿se ajustaron edad, severidad del infarto, comorbilidades, función ventricular?), selección de participantes (¿se incluyeron solo los que sobrevivieron al primer mes?), clasificación de la intervención (¿se diferenció correctamente entre alta y baja intensidad de estatinas?).

Cohorte retrospectiva: cesárea y desarrollo posterior

Estudio que analiza una base administrativa para comparar el desarrollo neurocognitivo de niños nacidos por cesárea vs vaginal.

Herramienta correcta: ROBINS-I.
Dominios clave: confusión basal masiva (las cesáreas no son aleatorias; las indicaciones obstétricas se correlacionan con factores que también afectan el desarrollo). Sin ajuste por motivo de cesárea, semanas de gestación, peso, condiciones maternas, el estudio probablemente sea de riesgo serio o crítico en el dominio de confusión.

Caso-control: medicamento y cáncer

Caso-control que compara uso previo de un medicamento entre 500 pacientes con cáncer y 1.000 controles.

Herramienta correcta: ROBINS-I.
Dominios clave: selección de controles (¿son comparables en factores de riesgo distintos del medicamento?), clasificación de la exposición (¿la medición del uso del medicamento es por receta dispensada o por autoreporte?), confusión basal.

Antes-después de implementación

Estudio que mide la mortalidad hospitalaria antes y después de implementar un protocolo de sepsis.

Herramienta correcta: ROBINS-I.
Dominios clave: confusión basal en el tiempo (cualquier cambio simultáneo en la práctica clínica es un confusor), selección de participantes (criterios de inclusión iguales antes y después), medición del outcome (¿el criterio de muerte hospitalaria cambió entre los dos períodos?).

Ensayo cluster-aleatorizado

Estudio donde se aleatorizan hospitales (no pacientes individuales) a recibir una intervención educativa.

Herramienta correcta: ROB 2, con extensión para cluster (RoB 2 CRT). La aleatorización existe, aunque al nivel del cluster.
Dominios clave: reclutamiento post-aleatorización (¿los participantes individuales fueron reclutados después de saber a qué brazo iba el cluster?).

Ensayo cross-over

Estudio donde cada participante recibe ambas intervenciones en orden aleatorizado.

Herramienta correcta: ROB 2, con extensión cross-over.
Dominios clave: efecto carry-over, períodos de wash-out, secuencia aleatoria.

Errores frecuentes al aplicar cada herramienta

Errores con ROB 2

Confundir "no reportado" con "alto riesgo". Si el manuscrito no reporta cómo se generó la secuencia de aleatorización, el juicio es "algunas preocupaciones", no "alto riesgo". Alto riesgo requiere evidencia positiva de un problema, no ausencia de información.

Aplicar ROB 2 a estudios no aleatorizados solo porque son comparativos. Una cohorte prospectiva con dos brazos no es un ECA. La distinción es estructural, no de tamaño ni de calidad aparente.

Evaluar el estudio globalmente sin distinguir outcomes. El riesgo de sesgo se evalúa por outcome. Un estudio puede tener bajo riesgo para mortalidad y alto riesgo para calidad de vida autoreportada, porque el cegamiento afecta diferente a outcomes objetivos y subjetivos. Aquí tienes el detalle del proceso completo con ROB 2.

No usar las preguntas señal. ROB 2 está diseñado para responder con las preguntas señal de cada dominio, no para emitir un juicio impresionista. Saltearse las señales lleva a evaluaciones inconsistentes entre revisores.

Errores con ROBINS-I

Definir la lista de confusores después de ver los estudios. La lista de confusores importantes debe definirse en el protocolo, antes de leer los estudios. Definirla después permite ajustar la evaluación al estudio, introduciendo sesgo.

Marcar bajo riesgo sin justificación detallada. En un estudio no aleatorizado, "bajo riesgo" implica que el estudio es comparable a un ECA bien hecho, lo cual es raro. La mayoría de los estudios observacionales serios son moderados, no bajos.

Saltearse el dominio de selección de participantes en cohortes retrospectivas. Es el dominio más mal evaluado en la práctica. Si los participantes se identificaron en una base administrativa donde la condición y la exposición se registran después del outcome, hay sesgo de inclusión casi seguro.

Evaluar "sin información" como si fuera moderado. "Sin información" es una categoría propia. Cuando un dominio crítico no se puede juzgar, el juicio global no debería ser inferior a moderado, pero hay que ser explícito sobre la falta de información, no rellenarla con suposiciones.

Herramientas complementarias para otros diseños

ROB 2 y ROBINS-I cubren ensayos y estudios no aleatorizados de intervenciones. Para otros diseños, las herramientas estándar son:

Diseño	Herramienta	Cuándo usar
Estudios de diagnóstico	QUADAS-2	Evaluación de pruebas diagnósticas vs gold standard.
Estudios de pronóstico	QUIPS	Factores pronósticos en una población clínica.
Estudios de exposición etiológica	ROBINS-E	Igual estructura que ROBINS-I, adaptada a exposiciones (no intervenciones).
Cohortes y casos-controles observacionales	Newcastle-Ottawa Scale	Alternativa clásica, más rápida pero menos rigurosa que ROBINS-I.
Estudios cualitativos	CASP Qualitative	Investigación cualitativa primaria.
Estudios de prevalencia	JBI Prevalence Checklist	Encuestas de prevalencia.
Revisiones sistemáticas	AMSTAR-2 o ROBIS	Para revisiones de revisiones.

QUIPS y QUADAS-2 son las que más se confunden con ROB 2 o ROBINS-I. QUIPS evalúa factores pronósticos (¿la presencia de X predice el outcome Y?), una pregunta distinta de la causal (¿la intervención X causa Y?). QUADAS-2 evalúa pruebas diagnósticas comparadas con un patrón de oro, otra pregunta distinta.