Checklist AMSTAR-2 con los 16 ítems y los 7 dominios críticos resaltados
Blog

AMSTAR-2: cómo evaluar la calidad de revisiones sistemáticas

Guía completa de AMSTAR-2: los 16 ítems, los 7 dominios críticos, cómo calcular la confianza global y plantilla lista para evaluar revisiones publicadas.

By Equipo SynthIA12 min de lectura
AMSTAR-2calidad metodológicarevisión sistemáticaevaluación críticaPRISMA 2020

Puntos clave

  • AMSTAR-2 (A MeaSurement Tool to Assess systematic Reviews) es la herramienta estándar para evaluar la calidad metodológica de revisiones sistemáticas con o sin meta-análisis, tanto de intervenciones aleatorizadas como no aleatorizadas.
  • Consta de 16 ítems, de los cuales 7 son críticos: una sola debilidad crítica baja la confianza global a baja, dos o más la bajan a críticamente baja.
  • La confianza global se clasifica en 4 niveles: alta, moderada, baja y críticamente baja. No es un puntaje sumatorio.
  • AMSTAR-2 evalúa la conducción de la revisión (qué hicieron los autores), no el reporte (qué pusieron en el manuscrito). Esa diferencia la separa de PRISMA 2020.
  • ROBIS es una alternativa más enfocada en riesgo de sesgo de la revisión; AMSTAR-2 es más usado en práctica clínica y guías por su escala discreta y manejable.

Qué es AMSTAR-2 y por qué se usa

AMSTAR-2 es la actualización de 2017 del instrumento AMSTAR original de 2007. Fue publicada por Shea y colaboradores en The BMJ (doi.org/10.1136/bmj.j4008) y se diseñó para resolver dos limitaciones de la versión inicial: la incapacidad de evaluar revisiones que incluían estudios no aleatorizados y la falta de un sistema de juicio global más allá del puntaje numérico.

La herramienta se aplica cuando alguien quiere responder una pregunta concreta: ¿puedo confiar en las conclusiones de esta revisión sistemática? Es el filtro estándar que usan los autores de overviews of reviews (revisiones de revisiones), los paneles de guías clínicas que seleccionan evidencia sintetizada, los autores que quieren basar nuevas revisiones en el cuerpo de evidencia existente, y los evaluadores de health technology assessment.

A diferencia de PRISMA 2020, que es un checklist de reporte (qué debe estar escrito en el manuscrito), AMSTAR-2 evalúa la conducción metodológica de la revisión. Es habitual que una revisión cumpla PRISMA bien (reporta todo lo que hizo) pero tenga calidad metodológica baja en AMSTAR-2 (lo que hizo no fue suficiente).


Los 16 ítems de AMSTAR-2

Cada ítem se responde con sí, no, o sí parcial (cuando el criterio se cumple parcialmente). Los 7 ítems críticos están marcados en negrita.

ÍtemPregunta resumidaQué buscar
1¿La pregunta y los criterios de inclusión incluyeron componentes PICO?Población, intervención, comparador y outcome explícitos.
2¿Hubo un protocolo registrado antes del inicio de la revisión?Registro en PROSPERO u otro registro, o protocolo publicado, con fecha previa a la búsqueda.
3¿Justificaron la selección del diseño de los estudios incluidos?Razonamiento explícito sobre por qué se incluyeron ECA, observacionales, o ambos.
4¿La búsqueda bibliográfica fue exhaustiva?Al menos 2 bases de datos relevantes, palabras clave y MeSH, búsqueda manual de referencias, búsqueda de literatura gris, sin restricción injustificada de idioma.
5¿La selección de estudios fue por duplicado?Dos revisores independientes con resolución de discrepancias.
6¿La extracción de datos fue por duplicado?Igual que el ítem 5, aplicado a extracción de datos.
7¿Se proporcionó una lista de estudios excluidos con justificación?Lista de estudios revisados en texto completo y excluidos, con razón por estudio.
8¿Describieron los estudios incluidos con detalle adecuado?Características PICO, diseño, tamaño, seguimiento, financiamiento.
9¿Usaron una herramienta satisfactoria de riesgo de sesgo?RoB 2 para ECA, ROBINS-I para no aleatorizados, Newcastle-Ottawa para observacionales, etc.
10¿Reportaron las fuentes de financiación de los estudios incluidos?Explícito por estudio.
11¿Usaron métodos estadísticos apropiados para la combinación de resultados?Modelo apropiado (efectos fijos vs aleatorios), heterogeneidad evaluada (I², Q), justificación del método. Aplica solo si hubo meta-análisis.
12¿Evaluaron el impacto del riesgo de sesgo en el meta-análisis?Análisis de sensibilidad excluyendo estudios de alto riesgo o por subgrupos. Aplica solo si hubo meta-análisis.
13¿Tuvieron en cuenta el riesgo de sesgo individual al interpretar resultados?Discusión explícita en la sección de resultados o discusión.
14¿Discutieron la heterogeneidad observada?Identificación, explicación y, si aplica, análisis de subgrupos.
15¿Investigaron y discutieron el sesgo de publicación?Funnel plot, test de Egger, búsqueda de literatura gris, registros de ensayos. Aplica solo si hubo meta-análisis con al menos 10 estudios.
16¿Reportaron conflictos de interés y fuentes de financiación de la revisión?Declaración explícita de autores y financiación.

Qué buscar en cada ítem crítico

Ítem 2 (Protocolo registrado). Verificar fecha de registro en PROSPERO o protocolo publicado, anterior a la primera búsqueda. Sin registro previo, el ítem es no. Si el protocolo está pero faltan elementos claves (por ejemplo, no especifica el método de meta-análisis), es sí parcial.

Ítem 4 (Búsqueda exhaustiva). Sí completo requiere las 4 condiciones: 2 o más bases de datos, palabras clave y vocabulario controlado, búsqueda manual de referencias de incluidos, y búsqueda de literatura gris o registros de ensayos. Si falta uno solo, es sí parcial. Si faltan dos o más, es no.

Ítem 7 (Lista de excluidos). Una revisión metodológicamente sólida publica la tabla de estudios excluidos en texto completo con la razón concreta de exclusión (no la razón genérica "no cumple criterios"). Sin esa tabla, no es posible auditar las decisiones.

Ítem 9 (Riesgo de sesgo). La herramienta debe ser apropiada al diseño. Usar la escala de Jadad (obsoleta) o un instrumento ad-hoc no validado es no. Usar RoB 2 de Cochrane para ECA o ROBINS-I para no aleatorizados es sí completo.

Ítem 11 (Métodos estadísticos). Si el meta-análisis usa modelo de efectos fijos sin justificación pese a alta heterogeneidad, es problemático. La elección entre fijos y aleatorios debe estar justificada.

Ítem 13 (Riesgo de sesgo en la interpretación). Mencionar el riesgo de sesgo en una sola frase de la discusión no es suficiente. Debe integrarse al análisis de cada outcome principal.

Ítem 15 (Sesgo de publicación). Aplica solo si el meta-análisis incluye 10 estudios o más. Con menos, el funnel plot no es confiable y el ítem se marca como no aplica.


Cómo calcular la confianza global

AMSTAR-2 no usa un puntaje sumatorio. La confianza global se determina contando debilidades, con peso especial en los ítems críticos.

Confianza globalCriterio
AltaNinguna debilidad crítica y máximo una debilidad no crítica.
ModeradaNinguna debilidad crítica y más de una debilidad no crítica.
BajaUna debilidad crítica, con o sin debilidades no críticas.
Críticamente bajaMás de una debilidad crítica, con o sin debilidades no críticas.

Una debilidad es una respuesta de no o sí parcial en alguno de los ítems. Si todos los ítems están en sí completo, la confianza es alta. Una sola debilidad crítica (por ejemplo, no haber registrado un protocolo previo) baja la confianza a baja, independiente de los demás ítems. Dos o más debilidades críticas la llevan a críticamente baja.

Por qué la mayoría de las revisiones publicadas son baja o críticamente baja

Auditorías sistemáticas de revisiones publicadas con AMSTAR-2 muestran resultados consistentes: alrededor del 50% de las revisiones publicadas en revistas indexadas son críticamente bajas, otro 25-30% son bajas, y solo el 5-10% son moderadas o altas. Las causas más frecuentes:

  • Falta de protocolo registrado a priori (ítem 2).
  • Búsqueda incompleta (ítem 4): solo PubMed, sin búsqueda manual de referencias, sin literatura gris.
  • Falta de lista de estudios excluidos con justificación (ítem 7).
  • Discusión del riesgo de sesgo desconectada de la interpretación de cada outcome (ítem 13).

Estos cuatro ítems son la diferencia entre una revisión de calidad alta y una de calidad baja en la mayoría de los casos.


Plantilla de evaluación lista para usar

Para cada revisión que evalúes, completá esta tabla. Es la forma más rápida de aplicar AMSTAR-2 de forma consistente.

#Ítem (crítico marcado con asterisco)RespuestaJustificación breve
1PICO en pregunta y criteriossí / parcial / no
2Protocolo registrado previo*sí / parcial / noFecha de registro / publicación
3Justificación del diseño incluidosí / parcial / no
4Búsqueda exhaustiva*sí / parcial / noBases consultadas, gris, manual
5Selección por duplicadosí / parcial / no
6Extracción por duplicadosí / parcial / no
7Lista de excluidos con razones*sí / parcial / no
8Descripción de incluidossí / parcial / no
9Herramienta de riesgo de sesgo*sí / parcial / noNombre de la herramienta
10Financiación de los incluidossí / parcial / no
11Métodos estadísticos apropiados*sí / parcial / no / NA
12Impacto del riesgo de sesgo en MAsí / parcial / no / NA
13Riesgo de sesgo en interpretación*sí / parcial / no
14Discusión de heterogeneidadsí / parcial / no / NA
15Sesgo de publicación*sí / parcial / no / NA
16Conflictos de interés y financiaciónsí / parcial / no

Conteo de debilidades críticas: ___ . Conteo de debilidades no críticas: ___ . Confianza global: alta / moderada / baja / críticamente baja.


AMSTAR-2 vs ROBIS: cuándo usar cada uno

ROBIS (Risk Of Bias In Systematic reviews) es la otra herramienta validada para evaluar revisiones sistemáticas, publicada por Whiting y colaboradores en 2016. Ambas son aceptadas, pero tienen enfoques diferentes.

DimensiónAMSTAR-2ROBIS
EnfoqueCalidad metodológica integralRiesgo de sesgo de la revisión
Estructura16 ítems con 7 críticos4 dominios con preguntas señal + juicio global
Output4 niveles de confianza globalBajo / alto / poco claro riesgo de sesgo
Tiempo promedio20 a 30 minutos por revisión30 a 45 minutos por revisión
Curva de aprendizajeMediaAlta
Uso típicoOverviews, guías clínicas, HTAInvestigación metodológica, Cochrane
Aplicable aRevisiones de ECA y no aleatorizadosRevisiones de ECA y no aleatorizados

Cuándo conviene cada una:

  • Usá AMSTAR-2 cuando necesitás clasificar muchas revisiones de forma operativa, cuando vas a comunicar resultados a clínicos o tomadores de decisiones, o cuando trabajás en un panel de guías que necesita un filtro discreto y manejable.
  • Usá ROBIS cuando trabajás en investigación metodológica donde el detalle del riesgo de sesgo importa, o cuando seguís protocolos Cochrane que lo recomiendan.

Muchos equipos usan ambas: AMSTAR-2 para el filtrado inicial y ROBIS para profundizar en las que pasan el filtro.


Cómo conducir una evaluación AMSTAR-2 rigurosa

  1. Dos evaluadores independientes. Igual que en el cribado de una revisión primaria, dos evaluadores aplican AMSTAR-2 por separado, comparan resultados y resuelven discrepancias por discusión.
  2. Acceso al protocolo registrado. Antes de evaluar, consultar PROSPERO o el repositorio del protocolo. Sin esa información, varios ítems no se pueden responder con precisión.
  3. Lectura crítica de la sección de métodos. AMSTAR-2 se completa con la sección de métodos del manuscrito, no con la discusión ni con las conclusiones.
  4. Material suplementario. La lista de estudios excluidos, el detalle de las búsquedas y los resultados de riesgo de sesgo por estudio suelen estar en suplementos. No evaluar sin revisarlos.
  5. Justificar cada respuesta. Especialmente las de sí parcial: registrar qué condiciones se cumplen y cuáles no.

Recursos relacionados

Keep reading

More blog articles

AMSTAR-2: cómo evaluar la calidad de revisiones sistemáticas | Blog SynthIA