Sistema GRADE: evaluación de la calidad de la evidencia paso a paso

Puntos clave

El sistema GRADE clasifica la calidad de la evidencia en 4 niveles: alta, moderada, baja y muy baja. La evidencia parte alta para ensayos aleatorizados y baja para estudios observacionales.
Cinco factores pueden bajar la calidad: riesgo de sesgo, inconsistencia, evidencia indirecta, imprecisión y sesgo de publicación.
Tres factores pueden subirla en estudios observacionales: efecto grande, gradiente dosis-respuesta y factores confusores plausibles que reducirían el efecto observado.
Calidad de la evidencia y fuerza de la recomendación son dos cosas distintas: una recomendación fuerte puede basarse en evidencia de baja calidad cuando hay consideraciones de balance, valores y costos contundentes.
La Summary of Findings table es el producto final visible del proceso GRADE: resume el efecto absoluto, el número de participantes y la calidad de la evidencia por outcome.

GRADE (Grading of Recommendations Assessment, Development and Evaluation) es un sistema estructurado para evaluar la certeza de la evidencia y graduar la fuerza de las recomendaciones clínicas. Fue desarrollado por un grupo de trabajo internacional iniciado en el año 2000 y publicado en su versión actual en una serie de artículos en el Journal of Clinical Epidemiology a partir de 2011. Hoy es adoptado por más de 110 organizaciones, entre ellas la Organización Mundial de la Salud, Cochrane, UpToDate, NICE y la mayoría de las guías clínicas serias publicadas en español.

El sistema responde a dos preguntas distintas que muchos autores confunden:

¿Cuánta certeza tenemos en el estimado del efecto para cada outcome relevante?
Dada esa certeza, más el balance riesgo-beneficio, valores y preferencias del paciente, costos y equidad, ¿qué tan fuerte debe ser la recomendación?

GRADE separa explícitamente estos dos juicios. Esa separación es la razón por la que una revisión puede concluir "evidencia de baja certeza, recomendación fuerte" sin contradecirse.

Los 4 niveles de calidad de la evidencia

GRADE clasifica la certeza en 4 categorías, con un significado operativo concreto:

Nivel	Símbolo	Significado
Alta	⊕⊕⊕⊕	Confianza alta en que el efecto verdadero es cercano al estimado.
Moderada	⊕⊕⊕⊖	El efecto verdadero probablemente es cercano al estimado, pero podría ser sustancialmente distinto.
Baja	⊕⊕⊖⊖	El efecto verdadero puede ser sustancialmente distinto del estimado.
Muy baja	⊕⊖⊖⊖	El efecto verdadero probablemente es sustancialmente distinto del estimado.

Punto de partida según el diseño

GRADE no trata todos los diseños igual desde el inicio:

Ensayos controlados aleatorizados (ECA): parten en calidad alta.
Estudios observacionales (cohortes, casos-controles, antes-después): parten en calidad baja.
Series de casos y reportes de casos: parten en calidad muy baja.

A partir de ese punto de partida, los factores que bajan o suben la calidad mueven el nivel uno o dos escalones.

Los 5 factores que bajan la calidad

1. Riesgo de sesgo

Si los estudios incluidos tienen problemas metodológicos relevantes (mala aleatorización, falta de cegamiento en outcomes subjetivos, pérdidas mayores al 20%, outcome switching), la confianza en el estimado combinado baja. La evaluación se hace con herramientas estandarizadas. Para ECA, RoB 2 de Cochrane es el estándar. Para estudios no aleatorizados, ROBINS-I.

Bajar uno o dos niveles depende del peso de los estudios con mayor riesgo de sesgo. Si los estudios de alto riesgo representan poco peso en el meta-análisis y un análisis de sensibilidad que los excluya da un estimado similar, generalmente no se baja la calidad.

2. Inconsistencia

Mide la variabilidad entre los resultados de los estudios individuales. Las señales operativas son:

Heterogeneidad estadística alta (I² mayor a 50%, o test de Q con p menor a 0,10).
Estimados puntuales que apuntan en direcciones opuestas en estudios diferentes.
Intervalos de confianza con poca superposición entre estudios.

Cuando hay inconsistencia y existe una explicación plausible (subgrupos, diferencias en la población o intervención), conviene analizarla por separado en lugar de bajar la calidad global. Si la inconsistencia no tiene explicación, se baja un nivel.

3. Evidencia indirecta

La evidencia es indirecta cuando los estudios incluidos no responden exactamente la pregunta clínica de la revisión. Cuatro fuentes habituales:

Población indirecta: la pregunta es sobre adultos mayores con multimorbilidad y los ensayos incluyeron adultos jóvenes sanos.
Intervención indirecta: la pregunta es sobre la dosis estándar y los estudios usaron una dosis distinta.
Comparador indirecto: la pregunta compara A vs B pero solo hay estudios de A vs placebo y B vs placebo (comparación indirecta de tratamientos).
Outcome indirecto (surrogado): la pregunta es sobre mortalidad cardiovascular y los estudios reportaron LDL colesterol.

4. Imprecisión

Mide si el intervalo de confianza del estimado combinado es lo suficientemente angosto como para informar decisiones. Dos criterios principales:

Tamaño de muestra y número de eventos. Reglas operativas frecuentes: menos de 300 eventos en outcomes binarios, o menos de 400 participantes en outcomes continuos, suelen llevar a bajar por imprecisión.
El intervalo de confianza cruza el umbral de decisión clínica. Si el IC95% va de un riesgo relativo de 0,70 a 1,20, abarca tanto beneficio clínicamente relevante como daño, y la decisión clínica cambia según el extremo del intervalo.

5. Sesgo de publicación

Se sospecha cuando hay pocos estudios pequeños, evidencia de que ensayos completados no se publicaron, o asimetría en el funnel plot. Para que la sospecha sea válida, conviene tener al menos 10 estudios y haber buscado registros de ensayos (ClinicalTrials.gov, ICTRP) además de bases bibliográficas. Con 5 estudios o menos, el funnel plot no es confiable y no debería usarse como criterio único.

Los 3 factores que suben la calidad

Estos factores aplican casi exclusivamente a estudios observacionales que parten en calidad baja. En ECA es muy raro subir la calidad.

1. Efecto grande

Cuando el estimado del efecto es muy grande (riesgo relativo mayor a 2 o menor a 0,5), es improbable que el sesgo residual de confusión explique todo el efecto. Si el efecto es enorme (RR mayor a 5 o menor a 0,2) y consistente entre estudios, puede subir dos niveles. Ejemplo histórico: la asociación entre tabaquismo y cáncer de pulmón se estableció con estudios observacionales con RR mayor a 10.

2. Gradiente dosis-respuesta

Si a mayor dosis o exposición se observa mayor efecto, de forma consistente, la causalidad es más plausible que la confusión residual. Ejemplo: la relación entre número de cigarrillos por día y riesgo de enfermedad pulmonar obstructiva crónica.

3. Factores confusores plausibles que reducirían el efecto observado

Cuando los confusores no controlados plausiblemente actuarían en dirección contraria al efecto observado, el efecto verdadero probablemente sea aún mayor que el observado. Ejemplo: si en un estudio observacional se ve menor mortalidad en pacientes que recibieron una intervención más cara, y los pacientes que reciben esa intervención suelen tener peor estado basal, el efecto verdadero probablemente sea mayor que el observado.

Cómo aplicar GRADE en la práctica

Paso a paso

Definir los outcomes críticos e importantes. Antes de evaluar la evidencia, el equipo prioriza los outcomes en una escala de 1 a 9 (1-3: poco importantes, 4-6: importantes pero no críticos, 7-9: críticos). Solo los outcomes críticos e importantes entran a la Summary of Findings table.
Evaluar la calidad por outcome, no por estudio. Esto es central. El mismo estudio puede aportar evidencia de alta calidad para un outcome y baja para otro. Por ejemplo, mortalidad puede tener riesgo de sesgo bajo (outcome objetivo, sin posibilidad de cegamiento problemático) y calidad de vida puede tener riesgo alto en el mismo ensayo.
Aplicar los 5 factores que bajan y los 3 que suben.
Asignar el nivel final.
Documentar las decisiones. Cada juicio (subir o bajar) debe quedar justificado en un footnote de la Summary of Findings.

Herramienta oficial: GRADEpro GDT

GRADEpro Guideline Development Tool (gradepro.org) es la herramienta web oficial gratuita del grupo GRADE. Permite armar Summary of Findings tables con la lógica de evaluación incorporada y exportar en formato listo para manuscrito o guía clínica. Cochrane lo usa por defecto en sus revisiones.

Ejemplo trabajado: Summary of Findings table

Pregunta clínica: en adultos con depresión mayor moderada, ¿la terapia cognitivo-conductual reducida a 8 sesiones, comparada con tratamiento usual, mejora la remisión sintomática a 6 meses?

Se incluyeron 6 ECA con 1.247 participantes en total. Aplicamos GRADE outcome por outcome.

Outcome	Participantes (estudios)	Efecto absoluto	Calidad	Razones
Remisión sintomática a 6 meses	1.247 (6 ECA)	180 más por 1.000 (IC95% 95 a 265 más)	⊕⊕⊕⊖ Moderada	Bajada por imprecisión (IC amplio)
Calidad de vida (PHQ-9 a 6 meses)	980 (5 ECA)	3,2 puntos menos (IC95% 4,5 a 1,9 menos)	⊕⊕⊖⊖ Baja	Bajada por riesgo de sesgo (cegamiento de outcome) e inconsistencia (I² igual a 68%)
Adherencia al tratamiento	1.100 (5 ECA)	95 más por 1.000 (IC95% 30 a 160 más)	⊕⊕⊕⊕ Alta	Sin bajadas
Eventos adversos serios	1.247 (6 ECA)	2 menos por 1.000 (IC95% 8 menos a 4 más)	⊕⊕⊖⊖ Baja	Bajada por imprecisión (pocos eventos, IC cruza el nulo)

Esta tabla es el resumen ejecutivo que cualquier clínico o panel de guías puede leer en 60 segundos para tomar decisiones. Es lo que GRADE produce al final del proceso.

Calidad de la evidencia vs fuerza de la recomendación

Esta es la confusión más frecuente al implementar GRADE. Son dos juicios distintos.

La calidad de la evidencia se refiere a cuánta confianza tenemos en el estimado del efecto. Se determina con los 8 factores descritos arriba.

La fuerza de la recomendación se refiere a qué tan seguros estamos de que los beneficios superan los riesgos. Se determina considerando 4 dimensiones:

Balance entre efectos deseables e indeseables.
Calidad de la evidencia.
Valores y preferencias de los pacientes.
Costos y uso de recursos.

GRADE define dos fuerzas: fuerte (la recomendación aplica a la mayoría de los pacientes) y débil o condicional (la recomendación depende de circunstancias individuales).

Cuatro combinaciones posibles

Calidad de evidencia	Fuerza de la recomendación	Ejemplo
Alta	Fuerte	Antibióticos para meningitis bacteriana confirmada.
Alta	Débil	Estatinas en prevención primaria para riesgo cardiovascular intermedio (depende de preferencias).
Baja	Fuerte	Antibióticos en sepsis severa con sospecha clínica alta (urgencia clínica obliga aunque evidencia sea limitada).
Baja	Débil	Suplementación de vitamina D para prevención de caídas en adultos mayores comunitarios.

Una recomendación fuerte con evidencia de baja calidad existe cuando el balance riesgo-beneficio es muy claro o cuando la situación clínica es de urgencia. Una recomendación débil con evidencia de alta calidad existe cuando los pacientes razonables podrían elegir cosas distintas según sus preferencias.

Errores frecuentes al aplicar GRADE

Bajar la calidad por cada factor sin pensar. Si tienes riesgo de sesgo moderado, inconsistencia moderada e imprecisión moderada, bajar uno por cada uno y caer a calidad muy baja es mecánico. El juicio debe ser holístico: a veces tres bajadas serias suman dos niveles, no tres.

Evaluar la calidad por estudio en lugar de por outcome. GRADE se aplica al cuerpo de evidencia para un outcome específico. Aplicarlo "al estudio X" o "a la revisión globalmente" no es GRADE.

Confundir significancia estadística con precisión. Un resultado con p igual a 0,03 pero con IC95% amplio que va de "casi nulo" a "muy grande" es estadísticamente significativo pero impreciso clínicamente. GRADE evalúa lo segundo.

Ignorar los factores que suben en estudios observacionales. Muchos autores aplican solo los 5 factores que bajan y dejan los estudios observacionales por defecto en calidad baja. Cuando hay efecto grande o gradiente dosis-respuesta, hay que subir.

Cómo se integra GRADE con el resto de la revisión sistemática

GRADE es la última capa de juicio metodológico en una revisión sistemática. Encaja con los demás componentes de esta forma:

La estrategia de búsqueda alimenta la base de estudios sobre la que se evaluará calidad.
La evaluación de riesgo de sesgo por estudio (ROB 2 o ROBINS-I) es input directo del primer factor de GRADE.
El meta-análisis, cuando es apropiado, produce el estimado combinado y la heterogeneidad que alimentan inconsistencia e imprecisión. Si necesitas repasar la diferencia entre revisión sistemática con y sin meta-análisis, aquí explicamos cuándo aplica cada uno.
La Summary of Findings es el output de GRADE: la presenta la revisión y la usan los paneles de guías para formular recomendaciones.