Revisión sistemática en psicología clínica y educativa

Puntos clave

La revisión sistemática en psicología comparte el método PRISMA con biomedicina, pero enfrenta heterogeneidad mucho mayor por la diversidad de protocolos terapéuticos, contextos culturales y escalas de medida.
PsycINFO y PsycARTICLES son las bases internacionales de referencia; Redalyc, SciELO Psicología y Dialnet son imprescindibles para cubrir la producción iberoamericana.
Las escalas psicométricas son el outcome más frecuente y el más problemático: distintas versiones, traducciones no equivalentes y adaptaciones culturales producen heterogeneidad ingobernable si no se controla en los criterios.
El meta-análisis en psicología se hace casi siempre con efectos aleatorios porque la heterogeneidad entre estudios es la norma; el modelo de efectos fijos solo es defendible cuando los protocolos son idénticos.
El riesgo de sesgo en estudios psicológicos exige atención especial al cegamiento (frecuentemente imposible) y a la integridad del tratamiento (fidelidad al manual del protocolo).

Por qué psicología necesita métodos propios dentro de PRISMA

La psicología produce ensayos clínicos, estudios observacionales y trabajos cualitativos, todos con un denominador común que la diferencia de la biomedicina farmacológica: el objeto de estudio es un constructo psicológico (ansiedad, depresión, autoeficacia, rendimiento académico) que se mide mediante escalas y cuya manifestación depende fuertemente del contexto cultural, lingüístico y educativo del participante. Esta dependencia contextual hace que la síntesis sistemática en psicología sea más exigente que en biomedicina: hay que controlar variables que en farmacología están naturalmente niveladas.

La American Psychological Association publica las directrices JARS (Journal Article Reporting Standards) que complementan PRISMA con criterios específicos para psicología, incluyendo el reporte de adaptaciones de instrumentos, la descripción de la fidelidad terapéutica y la documentación de las características demográficas y culturales de la muestra. Una revisión sistemática en psicología publicada en revista APA debe cumplir JARS además de PRISMA 2020.

Bases de datos para psicología en español e inglés

PsycINFO

PsycINFO, gestionada por la APA, es la base de referencia en psicología internacional. Indexa más de 5 millones de registros de más de 2.500 revistas y libros desde 1887. Su thesaurus, el APA Thesaurus of Psychological Index Terms, contiene aproximadamente 8.400 términos descriptores y es la herramienta más potente para búsquedas en psicología. Requiere suscripción a través de EBSCO, OvidSP o ProQuest.

Las búsquedas en PsycINFO deben combinar descriptores controlados (DE) con términos libres en título y resumen (TI, AB) para alcanzar sensibilidad alta sin perder precisión. Ejemplo de la estructura de una ecuación combinada:

Componente	Descriptores y términos libres
Población	DE "Adolescents" OR TI(teen* OR adolescent* OR youth)
Intervención	DE "Cognitive Behavior Therapy" OR TI(CBT OR "cognitive behav*")
Outcome	DE "Anxiety" OR TI(anxiety OR anxious OR worry)

PsycARTICLES

PsycARTICLES indexa el texto completo de las revistas publicadas por la APA y editoriales asociadas (aproximadamente 120 títulos). Es complementaria a PsycINFO: se usa cuando se necesita el texto completo en el momento de la búsqueda, no solo el registro bibliográfico.

Redalyc, SciELO Psicología y Dialnet

Las tres son bases de acceso abierto que cubren la producción iberoamericana en psicología. Redalyc.org indexa más de 1.700 revistas científicas iberoamericanas, muchas de ellas de psicología. SciELO (scielo.org) cubre la producción científica de calidad de América Latina, Caribe, España y Portugal, con una colección específica de revistas de psicología. Dialnet (dialnet.unirioja.es) es el portal bibliográfico hispano más completo, con cobertura especialmente buena de revistas españolas y latinoamericanas de psicología clínica, educativa y social.

Para revisiones sistemáticas en psicología en español, omitir estas tres bases es un error metodológico grave. La proporción de literatura relevante publicada exclusivamente en revistas iberoamericanas puede superar el 30 % en temas con componente cultural fuerte (psicoterapias culturalmente adaptadas, intervenciones en contextos educativos hispanos).

OpenAlex como complemento

OpenAlex indexa contenido de PsycINFO parcialmente y la mayor parte de Redalyc, SciELO y Dialnet. Para revisores sin acceso institucional a PsycINFO, OpenAlex es la mejor alternativa gratuita disponible, con cobertura razonable de psicología en inglés y excelente cobertura de la producción iberoamericana. SynthIA permite lanzar búsquedas OpenAlex con sintaxis avanzada equivalente a la de PsycINFO desde la plataforma.

Heterogeneidad alta: el desafío central de la psicología

La heterogeneidad en psicología es mucho mayor que en farmacología por razones inherentes al objeto de estudio. Tres intervenciones llamadas "terapia cognitivo-conductual para depresión" pueden compartir el nombre y compartir muy poco del protocolo real.

Diversidad de protocolos dentro de un mismo enfoque

La terapia cognitivo-conductual (TCC) tiene docenas de variantes: Beck clásica, terapia cognitiva basada en mindfulness (MBCT), activación conductual, terapia de aceptación y compromiso (ACT), terapia centrada en esquemas, exposición y prevención de respuesta para TOC, y muchas más. Todas se etiquetan a veces como "TCC". Una revisión que las trate como equivalentes producirá una síntesis sin valor.

Los criterios de inclusión deben definir con precisión cuáles variantes son elegibles. Si la pregunta es sobre TCC genérica, hay que aceptar la heterogeneidad y reportar resultados estratificados. Si la pregunta es sobre un protocolo específico, hay que limitar la inclusión a estudios que usen ese protocolo o una variante muy próxima documentada.

Diversidad de duraciones e intensidades

Una intervención de mindfulness de ocho semanas (formato MBSR estándar) y una intervención de mindfulness de cuatro sesiones (versión breve) no son equivalentes. La duración y la intensidad son variables moderadoras importantes en psicología. Los criterios deben especificar rangos aceptables y, si se aceptan rangos amplios, planear análisis de subgrupos por duración.

Diversidad de contextos culturales

Los estudios de intervenciones psicológicas se realizan en contextos culturales muy distintos. Una terapia familiar aplicada en un contexto individualista no produce los mismos resultados que en un contexto colectivista. Para preguntas en las que el contexto cultural es relevante, los criterios deben incluir el contexto como variable a documentar y considerar su análisis como moderador.

Tabla de fuentes de heterogeneidad y estrategias

Fuente de heterogeneidad	Estrategia recomendada
Protocolo terapéutico	Inclusión limitada o análisis estratificado por variante
Duración e intensidad	Análisis de subgrupos por dosis
Edad y desarrollo	Estratificación por grupo etario
Comorbilidad psiquiátrica	Inclusión o exclusión explícita en criterios
Cultura y país	Documentación y meta-regresión si hay suficientes estudios
Instrumento de medida	Estandarización con tamaño del efecto (d de Cohen, Hedges g)
Idioma del instrumento	Documentar y restringir si la validación es débil

Detalles adicionales sobre la definición precisa de criterios para controlar heterogeneidad en criterios de inclusión y exclusión.

Escalas psicométricas: el problema del outcome

Casi todos los outcomes en psicología son puntuaciones en escalas psicométricas. Esto plantea problemas que en biomedicina son menos frecuentes.

Validación y propiedades psicométricas

Una escala válida es aquella que mide lo que dice medir (validez de constructo, validez convergente, validez discriminante) y lo hace de forma consistente (fiabilidad, alfa de Cronbach, fiabilidad test-retest). Una revisión sistemática puede aceptar solo estudios que usen escalas validadas o puede aceptar cualquier instrumento documentando su validación. La primera opción es más rigurosa pero excluye estudios; la segunda es más inclusiva pero exige análisis de calidad por estudio.

Versiones e idiomas

El BDI (Inventario de Depresión de Beck) tiene tres versiones principales (BDI original, BDI-IA, BDI-II) que no producen puntuaciones equivalentes. El BDI-II en español tiene varias adaptaciones (España, México, Chile, Argentina) con propiedades psicométricas distintas. Una revisión que trate todas las versiones como equivalentes produce una síntesis sesgada.

Los criterios deben especificar qué versiones se aceptan o, si se aceptan varias, cómo se manejarán en la síntesis (estandarización con tamaño del efecto, transformación de puntuaciones, análisis estratificado).

Equivalencia transcultural

La equivalencia transcultural de un instrumento no se demuestra simplemente traduciéndolo. Requiere análisis de equivalencia conceptual, equivalencia de ítem por ítem, equivalencia semántica y equivalencia psicométrica. Si tu revisión incluye estudios en varias culturas, considerá restringir a versiones con equivalencia transcultural demostrada o reportar resultados estratificados por país o región cultural.

Tabla comparativa de instrumentos frecuentes

Constructo	Instrumentos frecuentes	Comparabilidad
Depresión adultos	BDI-II, PHQ-9, HAM-D, MADRS	Moderada con estandarización
Depresión adolescentes	CDI, PHQ-A, BDI-II adolescente	Baja sin estandarización
Ansiedad	STAI, GAD-7, HAM-A, BAI	Moderada con estandarización
Calidad de vida	SF-36, WHOQOL-BREF, EQ-5D	Baja entre instrumentos distintos
Autoestima	Rosenberg, Coopersmith, MSLSS	Moderada
Rendimiento académico	Pruebas estandarizadas nacionales, calificaciones	Muy baja entre países

Meta-análisis en psicología: efectos aleatorios como norma

El meta-análisis en psicología combina los tamaños del efecto (effect sizes) de los estudios incluidos para producir un estimador agregado del efecto de la intervención. Detalles del método en meta-análisis vs revisión sistemática.

Elección del modelo: fijos o aleatorios

El modelo de efectos fijos asume que todos los estudios estiman el mismo efecto verdadero y que las diferencias entre estudios se deben solo al error muestral. Este supuesto es defendible solo cuando los estudios son casi idénticos en población, intervención y outcome. En psicología eso es excepcional.

El modelo de efectos aleatorios asume que cada estudio estima un efecto verdadero ligeramente distinto y que esos efectos se distribuyen alrededor de una media poblacional. Es el modelo apropiado cuando hay heterogeneidad esperable, que en psicología es siempre. La práctica estándar es usar efectos aleatorios por defecto y reservar efectos fijos para casos justificados.

Tamaño del efecto: d de Cohen y Hedges g

La medida estándar para comparar resultados continuos entre estudios es el tamaño del efecto estandarizado. La d de Cohen es la diferencia de medias dividida por la desviación típica conjunta. Hedges g es una corrección de la d para muestras pequeñas y es preferible cuando algunos estudios incluidos tienen tamaños muestrales bajos.

Los puntos de corte habituales para interpretar la magnitud del efecto en psicología son: d = 0,2 efecto pequeño, d = 0,5 efecto mediano, d = 0,8 efecto grande. Estos puntos son orientativos y deben interpretarse en contexto del campo y de la intervención.

Análisis de heterogeneidad: I² y τ²

El estadístico I² indica el porcentaje de variabilidad entre estudios que excede la atribuible al error muestral. Valores habituales: I² menor del 25 % heterogeneidad baja, entre 25 y 50 % moderada, entre 50 y 75 % alta, mayor del 75 % muy alta. En psicología los valores frecuentemente superan el 50 %.

El τ² estima la varianza entre estudios y es útil para construir intervalos de predicción, que indican el rango de efecto esperable en un estudio futuro. Los intervalos de predicción suelen ser mucho más amplios que los intervalos de confianza del efecto medio y son una pieza honesta del reporte que la APA recomienda.

Análisis de subgrupos y meta-regresión

Cuando la heterogeneidad es alta, el siguiente paso es explorar moderadores. El análisis de subgrupos compara el efecto entre categorías (por ejemplo, TCC presencial vs TCC online). La meta-regresión usa variables continuas (duración de la intervención, edad media de los participantes) para modelar la variación del efecto.

Ambos análisis exigen suficientes estudios. La regla general es no hacer meta-regresión con menos de 10 estudios por covariable.

Riesgo de sesgo en estudios psicológicos

Cegamiento: el problema crónico

El cegamiento del participante y del terapeuta en intervenciones psicológicas es habitualmente imposible. Quien recibe TCC sabe que la recibe; quien la administra también. El cegamiento del evaluador del outcome sí es factible si se usa una persona independiente que aplica las escalas sin conocer la asignación. RoB 2 y otras herramientas permiten esta distinción: el dominio de medición del resultado se puede juzgar de bajo riesgo si el evaluador estaba cegado, aunque participantes y terapeutas no lo estuvieran.

Integridad del tratamiento

La fidelidad al manual del protocolo terapéutico es un requisito de calidad específico de los estudios psicológicos. Un ECA de TCC en el que los terapeutas no fueron supervisados y no se evaluó la adherencia al manual no puede considerarse de bajo riesgo de sesgo. La revisión debe registrar si los estudios reportaron evaluación de la fidelidad y, en lo posible, incluirla como criterio de calidad.

Atrición y datos faltantes

La atrición (pérdida de participantes durante el seguimiento) es habitualmente alta en psicoterapia. Una atrición mayor del 20 % a la evaluación post-tratamiento es preocupante; mayor del 40 % invalida prácticamente el análisis. El uso de análisis por intención de tratar con imputación de datos faltantes es la práctica recomendada y debe documentarse.

Herramientas recomendadas

Diseño	Herramienta	Notas específicas para psicología
ECA	RoB 2	Atención al cegamiento del evaluador y a la fidelidad
Cuasi-experimental	ROBINS-I	Documentar factores de confusión
Cohorte / casos-controles	Newcastle-Ottawa	Adaptable a estudios longitudinales
Cualitativo	CASP Qualitative	Reflexividad del investigador
Estudios de instrumentos	COSMIN	Específica para psicometría

Detalles operativos de RoB 2 en la evaluación de riesgo de sesgo con RoB 2.

Reporte y publicación

El estándar de reporte es PRISMA 2020 más las directrices JARS-Quant de la APA cuando la revisión incluye meta-análisis. Para revisiones cualitativas, JARS-Qual y ENTREQ. Las revistas APA exigen los tres conjuntos según el tipo de revisión.

El registro previo en PROSPERO es admitido para revisiones de psicología clínica con outcomes de salud mental. Para revisiones de psicología educativa o social que no entren en el alcance de PROSPERO, OSF Registries es la alternativa más usada y aceptada por revistas APA.

La publicación de revisiones sistemáticas en psicología tiene una particularidad: la APA Style 7 exige reportar tamaños del efecto con intervalos de confianza, y muchas revistas piden adicionalmente los intervalos de predicción cuando hay meta-análisis. Preparar la tabla de resultados con esa información desde el inicio ahorra reescritura tras la revisión por pares.