AMSTAR-2: cómo evaluar la calidad de revisiones sistemáticas

Puntos clave

AMSTAR-2 (A MeaSurement Tool to Assess systematic Reviews) es la herramienta estándar para evaluar la calidad metodológica de revisiones sistemáticas con o sin meta-análisis, tanto de intervenciones aleatorizadas como no aleatorizadas.
Consta de 16 ítems, de los cuales 7 son críticos: una sola debilidad crítica baja la confianza global a baja, dos o más la bajan a críticamente baja.
La confianza global se clasifica en 4 niveles: alta, moderada, baja y críticamente baja. No es un puntaje sumatorio.
AMSTAR-2 evalúa la conducción de la revisión (qué hicieron los autores), no el reporte (qué pusieron en el manuscrito). Esa diferencia la separa de PRISMA 2020.
ROBIS es una alternativa más enfocada en riesgo de sesgo de la revisión; AMSTAR-2 es más usado en práctica clínica y guías por su escala discreta y manejable.

Qué es AMSTAR-2 y por qué se usa

AMSTAR-2 es la actualización de 2017 del instrumento AMSTAR original de 2007. Fue publicada por Shea y colaboradores en The BMJ (doi.org/10.1136/bmj.j4008) y se diseñó para resolver dos limitaciones de la versión inicial: la incapacidad de evaluar revisiones que incluían estudios no aleatorizados y la falta de un sistema de juicio global más allá del puntaje numérico.

La herramienta se aplica cuando alguien quiere responder una pregunta concreta: ¿puedo confiar en las conclusiones de esta revisión sistemática? Es el filtro estándar que usan los autores de overviews of reviews (revisiones de revisiones), los paneles de guías clínicas que seleccionan evidencia sintetizada, los autores que quieren basar nuevas revisiones en el cuerpo de evidencia existente, y los evaluadores de health technology assessment.

A diferencia de PRISMA 2020, que es un checklist de reporte (qué debe estar escrito en el manuscrito), AMSTAR-2 evalúa la conducción metodológica de la revisión. Es habitual que una revisión cumpla PRISMA bien (reporta todo lo que hizo) pero tenga calidad metodológica baja en AMSTAR-2 (lo que hizo no fue suficiente).

Los 16 ítems de AMSTAR-2

Cada ítem se responde con sí, no, o sí parcial (cuando el criterio se cumple parcialmente). Los 7 ítems críticos están marcados en negrita.

Ítem	Pregunta resumida	Qué buscar
1	¿La pregunta y los criterios de inclusión incluyeron componentes PICO?	Población, intervención, comparador y outcome explícitos.
2	¿Hubo un protocolo registrado antes del inicio de la revisión?	Registro en PROSPERO u otro registro, o protocolo publicado, con fecha previa a la búsqueda.
3	¿Justificaron la selección del diseño de los estudios incluidos?	Razonamiento explícito sobre por qué se incluyeron ECA, observacionales, o ambos.
4	¿La búsqueda bibliográfica fue exhaustiva?	Al menos 2 bases de datos relevantes, palabras clave y MeSH, búsqueda manual de referencias, búsqueda de literatura gris, sin restricción injustificada de idioma.
5	¿La selección de estudios fue por duplicado?	Dos revisores independientes con resolución de discrepancias.
6	¿La extracción de datos fue por duplicado?	Igual que el ítem 5, aplicado a extracción de datos.
7	¿Se proporcionó una lista de estudios excluidos con justificación?	Lista de estudios revisados en texto completo y excluidos, con razón por estudio.
8	¿Describieron los estudios incluidos con detalle adecuado?	Características PICO, diseño, tamaño, seguimiento, financiamiento.
9	¿Usaron una herramienta satisfactoria de riesgo de sesgo?	RoB 2 para ECA, ROBINS-I para no aleatorizados, Newcastle-Ottawa para observacionales, etc.
10	¿Reportaron las fuentes de financiación de los estudios incluidos?	Explícito por estudio.
11	¿Usaron métodos estadísticos apropiados para la combinación de resultados?	Modelo apropiado (efectos fijos vs aleatorios), heterogeneidad evaluada (I², Q), justificación del método. Aplica solo si hubo meta-análisis.
12	¿Evaluaron el impacto del riesgo de sesgo en el meta-análisis?	Análisis de sensibilidad excluyendo estudios de alto riesgo o por subgrupos. Aplica solo si hubo meta-análisis.
13	¿Tuvieron en cuenta el riesgo de sesgo individual al interpretar resultados?	Discusión explícita en la sección de resultados o discusión.
14	¿Discutieron la heterogeneidad observada?	Identificación, explicación y, si aplica, análisis de subgrupos.
15	¿Investigaron y discutieron el sesgo de publicación?	Funnel plot, test de Egger, búsqueda de literatura gris, registros de ensayos. Aplica solo si hubo meta-análisis con al menos 10 estudios.
16	¿Reportaron conflictos de interés y fuentes de financiación de la revisión?	Declaración explícita de autores y financiación.

Qué buscar en cada ítem crítico

Ítem 2 (Protocolo registrado). Verificar fecha de registro en PROSPERO o protocolo publicado, anterior a la primera búsqueda. Sin registro previo, el ítem es no. Si el protocolo está pero faltan elementos claves (por ejemplo, no especifica el método de meta-análisis), es sí parcial.

Ítem 4 (Búsqueda exhaustiva). Sí completo requiere las 4 condiciones: 2 o más bases de datos, palabras clave y vocabulario controlado, búsqueda manual de referencias de incluidos, y búsqueda de literatura gris o registros de ensayos. Si falta uno solo, es sí parcial. Si faltan dos o más, es no.

Ítem 7 (Lista de excluidos). Una revisión metodológicamente sólida publica la tabla de estudios excluidos en texto completo con la razón concreta de exclusión (no la razón genérica "no cumple criterios"). Sin esa tabla, no es posible auditar las decisiones.

Ítem 9 (Riesgo de sesgo). La herramienta debe ser apropiada al diseño. Usar la escala de Jadad (obsoleta) o un instrumento ad-hoc no validado es no. Usar RoB 2 de Cochrane para ECA o ROBINS-I para no aleatorizados es sí completo.

Ítem 11 (Métodos estadísticos). Si el meta-análisis usa modelo de efectos fijos sin justificación pese a alta heterogeneidad, es problemático. La elección entre fijos y aleatorios debe estar justificada.

Ítem 13 (Riesgo de sesgo en la interpretación). Mencionar el riesgo de sesgo en una sola frase de la discusión no es suficiente. Debe integrarse al análisis de cada outcome principal.

Ítem 15 (Sesgo de publicación). Aplica solo si el meta-análisis incluye 10 estudios o más. Con menos, el funnel plot no es confiable y el ítem se marca como no aplica.

Cómo calcular la confianza global

AMSTAR-2 no usa un puntaje sumatorio. La confianza global se determina contando debilidades, con peso especial en los ítems críticos.

Confianza global	Criterio
Alta	Ninguna debilidad crítica y máximo una debilidad no crítica.
Moderada	Ninguna debilidad crítica y más de una debilidad no crítica.
Baja	Una debilidad crítica, con o sin debilidades no críticas.
Críticamente baja	Más de una debilidad crítica, con o sin debilidades no críticas.

Una debilidad es una respuesta de no o sí parcial en alguno de los ítems. Si todos los ítems están en sí completo, la confianza es alta. Una sola debilidad crítica (por ejemplo, no haber registrado un protocolo previo) baja la confianza a baja, independiente de los demás ítems. Dos o más debilidades críticas la llevan a críticamente baja.

Por qué la mayoría de las revisiones publicadas son baja o críticamente baja

Auditorías sistemáticas de revisiones publicadas con AMSTAR-2 muestran resultados consistentes: alrededor del 50% de las revisiones publicadas en revistas indexadas son críticamente bajas, otro 25-30% son bajas, y solo el 5-10% son moderadas o altas. Las causas más frecuentes:

Falta de protocolo registrado a priori (ítem 2).
Búsqueda incompleta (ítem 4): solo PubMed, sin búsqueda manual de referencias, sin literatura gris.
Falta de lista de estudios excluidos con justificación (ítem 7).
Discusión del riesgo de sesgo desconectada de la interpretación de cada outcome (ítem 13).

Estos cuatro ítems son la diferencia entre una revisión de calidad alta y una de calidad baja en la mayoría de los casos.

Plantilla de evaluación lista para usar

Para cada revisión que evalúes, completá esta tabla. Es la forma más rápida de aplicar AMSTAR-2 de forma consistente.

#	Ítem (crítico marcado con asterisco)	Respuesta	Justificación breve
1	PICO en pregunta y criterios	sí / parcial / no
2	Protocolo registrado previo*	sí / parcial / no	Fecha de registro / publicación
3	Justificación del diseño incluido	sí / parcial / no
4	Búsqueda exhaustiva*	sí / parcial / no	Bases consultadas, gris, manual
5	Selección por duplicado	sí / parcial / no
6	Extracción por duplicado	sí / parcial / no
7	Lista de excluidos con razones*	sí / parcial / no
8	Descripción de incluidos	sí / parcial / no
9	Herramienta de riesgo de sesgo*	sí / parcial / no	Nombre de la herramienta
10	Financiación de los incluidos	sí / parcial / no
11	Métodos estadísticos apropiados*	sí / parcial / no / NA
12	Impacto del riesgo de sesgo en MA	sí / parcial / no / NA
13	Riesgo de sesgo en interpretación*	sí / parcial / no
14	Discusión de heterogeneidad	sí / parcial / no / NA
15	Sesgo de publicación*	sí / parcial / no / NA
16	Conflictos de interés y financiación	sí / parcial / no

Conteo de debilidades críticas: ___ . Conteo de debilidades no críticas: ___ . Confianza global: alta / moderada / baja / críticamente baja.

AMSTAR-2 vs ROBIS: cuándo usar cada uno

ROBIS (Risk Of Bias In Systematic reviews) es la otra herramienta validada para evaluar revisiones sistemáticas, publicada por Whiting y colaboradores en 2016. Ambas son aceptadas, pero tienen enfoques diferentes.

Dimensión	AMSTAR-2	ROBIS
Enfoque	Calidad metodológica integral	Riesgo de sesgo de la revisión
Estructura	16 ítems con 7 críticos	4 dominios con preguntas señal + juicio global
Output	4 niveles de confianza global	Bajo / alto / poco claro riesgo de sesgo
Tiempo promedio	20 a 30 minutos por revisión	30 a 45 minutos por revisión
Curva de aprendizaje	Media	Alta
Uso típico	Overviews, guías clínicas, HTA	Investigación metodológica, Cochrane
Aplicable a	Revisiones de ECA y no aleatorizados	Revisiones de ECA y no aleatorizados

Cuándo conviene cada una:

Usa AMSTAR-2 cuando necesitas clasificar muchas revisiones de forma operativa, cuando vas a comunicar resultados a clínicos o tomadores de decisiones, o cuando trabajas en un panel de guías que necesita un filtro discreto y manejable.
Usa ROBIS cuando trabajas en investigación metodológica donde el detalle del riesgo de sesgo importa, o cuando sigues protocolos Cochrane que lo recomiendan.

Muchos equipos usan ambas: AMSTAR-2 para el filtrado inicial y ROBIS para profundizar en las que pasan el filtro.

Cómo conducir una evaluación AMSTAR-2 rigurosa

Dos evaluadores independientes. Igual que en el cribado de una revisión primaria, dos evaluadores aplican AMSTAR-2 por separado, comparan resultados y resuelven discrepancias por discusión.
Acceso al protocolo registrado. Antes de evaluar, consultar PROSPERO o el repositorio del protocolo. Sin esa información, varios ítems no se pueden responder con precisión.
Lectura crítica de la sección de métodos. AMSTAR-2 se completa con la sección de métodos del manuscrito, no con la discusión ni con las conclusiones.
Material suplementario. La lista de estudios excluidos, el detalle de las búsquedas y los resultados de riesgo de sesgo por estudio suelen estar en suplementos. No evaluar sin revisarlos.
Justificar cada respuesta. Especialmente las de sí parcial: registrar qué condiciones se cumplen y cuáles no.

AMSTAR-2: cómo evaluar la calidad de revisiones sistemáticas

Puntos clave

Qué es AMSTAR-2 y por qué se usa

Los 16 ítems de AMSTAR-2

Qué buscar en cada ítem crítico

Cómo calcular la confianza global

Por qué la mayoría de las revisiones publicadas son baja o críticamente baja

Plantilla de evaluación lista para usar

AMSTAR-2 vs ROBIS: cuándo usar cada uno

Cómo conducir una evaluación AMSTAR-2 rigurosa

Recursos relacionados

Más artículos del blog

Living systematic review: la revisión que se actualiza sola

Revisiones rápidas: cuándo y cómo hacerlas bien

Scoping review paso a paso: marco JBI y PRISMA-ScR