Revisión sistemática en ingeniería: método Kitchenham y PRISMA

Puntos clave

En ingeniería de software e informática la revisión sistemática se llama Systematic Literature Review (SLR) y su estándar de referencia es el método Kitchenham, derivado de PRISMA pero adaptado al ciclo de vida del software.
El mapeo sistemático (systematic mapping study) es una variante más amplia y menos profunda que la SLR, útil para áreas emergentes donde aún no hay suficiente evidencia para una SLR convencional.
Las bases obligatorias para ingeniería son IEEE Xplore, ACM Digital Library, Scopus, Springer Link y ScienceDirect; cada una con sintaxis booleana propia y peculiaridades en la búsqueda por wildcard.
La extracción de datos para estudios de software exige formularios específicos: artefactos producidos, contexto industrial o académico, tecnologías evaluadas, métricas de calidad reportadas y tipo de validación empírica.
La evaluación de calidad se hace con QUORUM-SE o las preguntas de calidad propuestas por Kitchenham; el riesgo de sesgo en estudios de software tiene dimensiones específicas (sesgo de selección de proyectos, sesgo de tecnología propietaria, ausencia de replicabilidad).

Por qué la ingeniería de software necesita su propio método

PRISMA fue diseñado para revisiones de eficacia clínica con ensayos controlados aleatorizados. La investigación en ingeniería de software produce un conjunto muy distinto de estudios primarios: estudios de caso industriales, experimentos controlados con estudiantes, encuestas a desarrolladores, análisis de repositorios de código, evaluaciones empíricas de herramientas y técnicas. Aplicar PRISMA puro a una revisión de SLR en ingeniería deja preguntas metodológicas sin resolver.

Barbara Kitchenham publicó en 2004 las primeras guidelines para realizar SLR en ingeniería de software. La versión actualizada en 2007, en colaboración con Stuart Charters, se ha convertido en el estándar internacional para SLRs en computer science. Estas guidelines son compatibles con PRISMA pero añaden criterios y procedimientos específicos para el dominio.

La justificación es práctica: una SLR en ingeniería que se limite a PRISMA puede pasar el filtro editorial pero fallar en aspectos metodológicos críticos para el dominio. La extracción de datos, la clasificación de estudios y la evaluación de calidad necesitan dimensiones que PRISMA puro no contempla.

El método Kitchenham paso a paso

El método Kitchenham descompone la SLR en tres fases principales: planificación, ejecución y reporte. Cada fase tiene actividades específicas con outputs documentados.

Fase 1: Planificación

La planificación produce un protocolo escrito que debe ser revisado externamente antes de iniciar la ejecución. Sus componentes son:

Identificación de la necesidad de la revisión: justificar por qué la SLR es necesaria. Si ya existe una SLR reciente sobre el tema, la nueva debe aportar valor (actualización, ángulo distinto, contexto específico).
Especificación de las preguntas de investigación: a diferencia de PRISMA clínico (donde hay una pregunta única operacionalizada con PICO), una SLR en ingeniería tiene típicamente entre 2 y 5 preguntas de investigación que se responden con datos extraídos diferentes.
Desarrollo del protocolo de revisión: criterios de inclusión y exclusión, estrategia de búsqueda, procedimiento de selección, formulario de extracción, método de síntesis.
Evaluación del protocolo: revisión externa por pares antes de ejecutar.

Fase 2: Ejecución

La ejecución implementa el protocolo:

Identificación de la investigación: ejecutar la estrategia de búsqueda en las bases definidas.
Selección de estudios primarios: cribado en dos etapas (título y resumen, luego texto completo) con doble revisor.
Evaluación de calidad de los estudios: aplicar las preguntas de calidad definidas en el protocolo.
Extracción de datos: aplicar el formulario de extracción a cada estudio incluido.
Síntesis de datos: cuantitativa cuando los datos lo permiten, narrativa estructurada en la mayoría de casos.

Fase 3: Reporte

La fase de reporte produce el informe técnico (con todos los detalles) y el artículo o capítulo derivado:

Especificación de los mecanismos de difusión.
Formato del informe principal.
Evaluación del informe.

Diferencias con PRISMA clínico

Dimensión	PRISMA clínico	Kitchenham SLR
Pregunta de investigación	Única, operacionalizada con PICO	Múltiples preguntas RQ1, RQ2, RQ3
Diseños de estudio dominantes	ECA y observacionales	Estudios de caso, experimentos, surveys, análisis de repos
Outcome principal	Métrica clínica	Múltiples: técnico, económico, humano
Síntesis	Meta-análisis frecuente	Síntesis narrativa frecuente
Calidad	RoB 2, ROBINS-I, GRADE	Preguntas Kitchenham, QUORUM-SE
Registro previo	PROSPERO	Sin registro estandarizado obligatorio

Para conocer el flujo completo PRISMA al detalle ver la guía de revisión sistemática con PRISMA 2020.

Mapeo sistemático como variante

El mapeo sistemático (Systematic Mapping Study, SMS) es una forma más amplia y menos profunda de SLR. Petersen y colegas publicaron en 2008 las guidelines de referencia, actualizadas en 2015.

Cuándo usar mapeo sistemático

El SMS es apropiado cuando el objetivo es:

Identificar la cobertura existente de un tema en la literatura.
Detectar lagunas (gaps) donde se necesita más investigación.
Clasificar los estudios existentes en categorías temáticas o metodológicas.
Preparar terreno para una SLR más profunda posterior.

A diferencia de la SLR, el SMS no extrae datos detallados de cada estudio ni intenta sintetizar evidencia para responder una pregunta específica. Se queda en el nivel de qué se ha estudiado, dónde se ha publicado, con qué métodos y por quién.

Diferencias prácticas SLR vs SMS

Dimensión	SLR	SMS
Pregunta	Específica con respuesta esperable	Amplia, exploratoria
Búsqueda	Exhaustiva	Amplia, puede sacrificar exhaustividad
Cribado	Estricto	Más permisivo
Evaluación de calidad	Obligatoria	Opcional o ligera
Extracción de datos	Detallada por estudio	Atributos clasificatorios
Resultado	Síntesis de evidencia	Mapa de la literatura
Tiempo típico	6-12 meses	2-4 meses

La diferencia conceptual entre revisión sistemática y scoping review (SMS comparte ADN con scoping review) se detalla en revisión sistemática vs scoping review.

Bases de datos obligatorias en ingeniería e informática

A diferencia de biomedicina, donde PubMed cubre la mayor parte, en ingeniería e informática no hay una sola base que domine. La búsqueda debe ejecutarse en al menos cinco fuentes para alcanzar cobertura aceptable.

IEEE Xplore

IEEE Xplore (ieeexplore.ieee.org) indexa publicaciones del Institute of Electrical and Electronics Engineers. Cubre revistas IEEE, conferencias IEEE/IEEE-CS y estándares. Es la base más importante para electrónica, telecomunicaciones, ingeniería eléctrica e ingeniería de software con orientación IEEE. Requiere suscripción institucional para texto completo, pero la búsqueda y los abstracts son gratuitos.

Su sintaxis avanzada permite combinar operadores booleanos, búsqueda por campo (Title, Abstract, Index Terms) y wildcard. El operador wildcard es el asterisco al final del término. Las frases exactas se entrecomillan.

ACM Digital Library

ACM Digital Library (dl.acm.org) indexa publicaciones de la Association for Computing Machinery. Cubre revistas ACM, conferencias ACM (incluidas las más importantes en CS como ICSE, FSE, OOPSLA, CHI) y proceedings de SIG. Es complementaria a IEEE y obligatoria para revisiones en computer science.

La sintaxis ACM es similar a IEEE pero con diferencias importantes en wildcards y en el manejo de paréntesis. Probar la ecuación con un set conocido de estudios es práctica recomendada.

Scopus

Scopus, gestionada por Elsevier, es la base multidisciplinar más completa para ingeniería. Indexa más de 25.000 revistas y proceedings de conferencias. Su sintaxis avanzada es la más potente del conjunto y permite búsquedas con muchos operadores específicos (AUTHKEY, AFFIL, FUND). Requiere suscripción institucional.

Springer Link

Springer Link (link.springer.com) indexa la producción de Springer Nature, incluyendo Lecture Notes in Computer Science (LNCS) y revistas de Springer en ingeniería. LNCS es especialmente importante porque publica proceedings de conferencias relevantes en CS.

ScienceDirect

ScienceDirect (sciencedirect.com) indexa la producción de Elsevier en ingeniería, incluyendo revistas como Information and Software Technology, Journal of Systems and Software, Computers and Education y muchas más. Para revisiones en ingeniería de software es complementaria a IEEE y ACM.

Web of Science Core Collection

Web of Science es opcional pero útil cuando se busca cobertura citacional o cuando la institución tiene acceso. Su sintaxis es potente pero la cobertura en computer science es menor que Scopus.

Tabla comparativa

Base	Foco	Suscripción	Sintaxis	Cobertura conferencias
IEEE Xplore	Electrónica, IS	Sí	Avanzada	Excelente (IEEE)
ACM DL	Computer science	Sí	Avanzada	Excelente (ACM)
Scopus	Multidisciplinar	Sí	Muy avanzada	Buena
Springer Link	Diverso, LNCS	Mixta	Media	Buena (LNCS)
ScienceDirect	Elsevier journals	Sí	Avanzada	Limitada
Web of Science	Multidisciplinar	Sí	Avanzada	Media
Google Scholar	Todo	Gratuita	Limitada	Amplia pero ruidosa
OpenAlex	Multidisciplinar	Gratuita	Avanzada (API)	Buena
DBLP	Computer science	Gratuita	Limitada	Excelente bibliográfica

DBLP (dblp.org) es una base bibliográfica (sin abstracts ni texto completo) específica de computer science, útil como referencia cruzada para identificar autores y conferencias relevantes. OpenAlex tiene buena cobertura de ingeniería e informática y SynthIA lo integra de forma nativa, lo que permite usarlo como base unificada para complementar las búsquedas en IEEE y ACM.

Estrategia de búsqueda en ingeniería

La sintaxis booleana varía entre bases y debe traducirse. Lo que funciona en IEEE no funciona idéntico en ACM. Construir una ecuación equivalente para cada base es parte del protocolo. Una guía operativa de construcción de ecuaciones está en estrategia de búsqueda para revisión sistemática.

Validación de la ecuación con set de referencia

Buena práctica en SLR de ingeniería: identificar 5-10 estudios que el equipo sabe que son relevantes (set de referencia conocido) y verificar que la ecuación de búsqueda los recupera. Si la ecuación pierde alguno, ajustar términos hasta que todos sean recuperados. Esta validación pre-ejecución es exigida por revisores en revistas de calidad.

Snowballing como complemento

El snowballing (revisión hacia atrás de las referencias y hacia adelante de las citas) es práctica recomendada en SLR de ingeniería. Wohlin propuso en 2014 las guidelines específicas. Es especialmente útil para áreas emergentes donde el vocabulario no está consolidado y la búsqueda por términos pierde estudios relevantes.

Formulario de extracción para estudios de software

La extracción de datos en SLR de ingeniería difiere de la biomédica. Los datos relevantes incluyen:

Identificación del estudio

Autor o autores, año, revista o conferencia, país de afiliación, tipo de publicación.

Contexto del estudio

Industrial vs académico, dominio de aplicación (web, embedded, mobile, etc.), tamaño de la organización si aplica.
Lenguaje de programación, framework, plataforma evaluada.

Diseño metodológico

Tipo de estudio: experimento controlado, caso de estudio, encuesta, análisis de repositorio, action research, design science.
Sujetos: profesionales, estudiantes, sistemas o artefactos analizados.
Unidad de análisis: línea de código, módulo, sistema completo, equipo de desarrollo.

Intervención o variable independiente

Técnica, herramienta o método evaluado.
Comparador si lo hay (técnica baseline, ausencia de técnica, técnica alternativa).

Outcomes y métricas

Métricas de software reportadas: complejidad ciclomática, cobertura de pruebas, defectos por KLOC, tiempo de desarrollo, esfuerzo en horas-persona.
Métricas de calidad percibida: usabilidad, mantenibilidad, satisfacción.
Métricas económicas: costo, retorno de inversión.

Validación empírica

Tipo: ningún estudio empírico, ejemplo ilustrativo, caso de estudio, experimento controlado, evaluación industrial.
Replicabilidad: artefactos disponibles públicamente, dataset compartido, código abierto.

Calidad y limitaciones

Limitaciones declaradas por los autores.
Amenazas a la validez reportadas (validez interna, externa, de constructo, de conclusión).

Evaluación de calidad: QUORUM-SE y preguntas Kitchenham

Preguntas Kitchenham de calidad

Kitchenham propone un conjunto base de preguntas de calidad adaptable según el tipo de SLR. Las preguntas típicas son:

Pregunta	Sí (1) / Parcial (0,5) / No (0)
¿Los objetivos del estudio están claramente declarados?	Sí / Parcial / No
¿El contexto del estudio está adecuadamente descrito?	Sí / Parcial / No
¿El diseño del estudio es apropiado para los objetivos?	Sí / Parcial / No
¿La recolección de datos está adecuadamente descrita?	Sí / Parcial / No
¿El análisis está adecuadamente descrito?	Sí / Parcial / No
¿Los resultados están claramente reportados?	Sí / Parcial / No
¿Las amenazas a la validez son discutidas?	Sí / Parcial / No
¿Las conclusiones están respaldadas por los resultados?	Sí / Parcial / No

La puntuación total por estudio se usa para análisis de sensibilidad: comparar resultados con todos los estudios versus solo con los de mayor calidad.

QUORUM-SE y otros instrumentos

QUORUM-SE adapta el estándar QUORUM (precursor de PRISMA) específicamente para SLR en ingeniería de software. Incluye ítems sobre identificación de estudios primarios, extracción de datos y síntesis con criterios específicos del dominio.

Para tipos específicos de estudios incluidos en una SLR de ingeniería, existen también instrumentos dedicados: Runeson y Höst publicaron guidelines para estudios de caso en SE, Sjøberg y colegas para experimentos controlados, Kasunic para encuestas.

Riesgo de sesgo específico de ingeniería

Sesgo	Origen	Mitigación
Selección de proyectos	Empresas que cooperan tienen sesgo positivo	Diversificación de fuentes
Tecnología propietaria	Estudios financiados por proveedor	Análisis estratificado por financiación
Replicabilidad ausente	Sin acceso a código o datos	Reportar como limitación de calidad
Sujetos estudiantiles	Generalización a profesionales	Análisis estratificado
Publicación de resultados positivos	Resultados negativos no se publican	Búsqueda de literatura gris

Síntesis de datos

La síntesis cuantitativa con meta-análisis es poco frecuente en SLR de ingeniería porque los outcomes son heterogéneos y los diseños rara vez producen tamaños del efecto comparables. La síntesis narrativa estructurada es el método dominante, siguiendo las recomendaciones SWIM o los esquemas específicos de Cruzes y Dybå para síntesis temática en SE.

Síntesis temática

Cruzes y Dybå propusieron en 2011 un método de síntesis temática adaptado a SE. El proceso es:

Extraer datos de cada estudio.
Codificar los datos extraídos.
Traducir códigos en temas.
Crear un modelo de orden superior.
Evaluar la confianza en la síntesis.

Síntesis cuantitativa cuando es posible

Si los estudios reportan métricas comparables (por ejemplo, todas las evaluaciones de una técnica de testing reportan cobertura de código), el meta-análisis es viable. En ese caso, efectos aleatorios y reporte de heterogeneidad I² son la práctica estándar.

Reporte y publicación

Los estándares de reporte para SLR en ingeniería son PRISMA 2020 más las recomendaciones específicas de Kitchenham. Para SMS, las guidelines de Petersen son la referencia.

Las revistas más exigentes (Information and Software Technology, Journal of Systems and Software, Empirical Software Engineering, IEEE Transactions on Software Engineering) esperan SLRs con:

Protocolo prerregistrado o al menos descrito en detalle con timestamps.
Búsqueda en al menos cinco bases.
Cribado doble revisor con kappa reportado.
Evaluación de calidad con instrumento explícito.
Discusión de amenazas a la validez de la propia revisión.
Artefactos de la revisión disponibles (protocolo, ecuaciones, listado de estudios incluidos y excluidos con razones).

El registro previo no está estandarizado en SE como PROSPERO en biomedicina. Algunas iniciativas (PROSPERO-SE, OSF Registries) están emergiendo. Mientras tanto, registrar el protocolo en OSF Registries con un DOI permanente es la mejor opción disponible.

Más artículos del blog

Revisión sistemática en enfermería: guía aplicada con PRISMA

Revisión sistemática en psicología clínica y educativa

Revisión sistemática en ciencias sociales: guía para educación, psicología y trabajo social