Qué es el efecto mirage y por qué pone en riesgo los diagnósticos por imagen

La promesa de que la inteligencia artificial revolucione la radiología y otras especialidades médicas ha sido repetida en titulares desde la llegada de los grandes modelos conversacionales. Sin embargo, investigadores han documentado un comportamiento inquietante: sistemas capaces de producir relatos visuales completos sobre imágenes que nunca se les mostraron. Este artículo explica el fenómeno detectado por un equipo de Stanford, las implicaciones para diagnósticos por imagen y las propuestas para evitar fallos clínicos.

Los hallazgos no son una simple curiosidad técnica: cuando una IA confía tanto en patrones del lenguaje y de los datos que inventa una escena, la conversación clínica puede desviarse. Los autores del estudio introdujeron el término mirage para describir este modo de conducta, que difiere de las típicas alucinaciones de los modelos de lenguaje. A partir de experimentos con modelos de frontera, los investigadores muestran que la mezcla de texto masivo y ejemplos visuales en el entrenamiento puede llevar a respuestas convincentes pero fabricadas.

Qué es el efecto mirage

El efecto que bautizaron como mirage consiste en que un modelo multimodal construye una «imagen mental» inexistente y fundamenta en ella toda la respuesta. En pruebas donde solo se entregaba una pregunta tipo «identifique el tejido en esta diapositiva histológica», algunos sistemas contestaron describiendo detalles visuales precisos aunque no habían recibido la imagen. Esa capacidad para «hablar como si viera» surge porque los modelos aprenden estadísticas de datasets y patrones lingüísticos que pueden rellenar huecos cuando falta información visual.

Distinción frente a las alucinaciones

Aunque guarda relación con las alucinaciones, el mirage implica crear un marco epistémico falso: el modelo no solo inventa un dato, sino que asume que se le proporcionó un input multimodal y actúa en consecuencia. Esa suposición cambia el contexto de la tarea y puede llevar a diagnósticos sesgados o a recomendaciones clínicas más agresivas. En el estudio, los autores documentaron el fenómeno en áreas que van desde radiografía de tórax hasta resonancia magnética y histología.

Cómo el mirage engaña a los benchmarks

Una de las conclusiones más alarmantes es que los modelos pueden obtener puntuaciones altas en pruebas estándar aun cuando no procesan imágenes reales. En experimentos realizados por el equipo, modelos como GPT-5, Gemini 3 Pro y Claude Opus 4.5 ofrecieron descripciones visuales y rendimiento competitivo en tareas de preguntas y respuestas sobre radiografías sin acceso a las imágenes. Esto ocurre porque los test contienen pistas textuales y porque parte del material de evaluación puede haber «filtrado» en los datos de preentrenamiento.

Experimento super-guesser y sesgos

Para investigar, los autores idearon una variante llamada super-guesser, que medía la capacidad de adivinar respuestas sin imágenes. Cuando los modelos no sabían que faltaba la imagen, entraban en modo mirage y rendían mejor; cuando se les pedía explícitamente que adivinaran, su comportamiento se volvía más conservador y caía el rendimiento. Además, las respuestas tendedieron a favorecer diagnósticos que requieren acción rápida, introduciendo un sesgo hacia intervenciones innecesarias.

Propuestas y riesgos clínicos

Ante estos hallazgos, los investigadores recomiendaron revisar y endurecer marcos de evaluación. Una propuesta concreta es el marco B-Clean, diseñado para identificar y eliminar preguntas comprometidas: aquellas que pueden responderse sin datos visuales, que dependen de conocimiento previo o que aparecen contaminadas en los datos de entrenamiento. La idea es construir conjuntos de prueba en los que ninguna respuesta posible pueda obtenerse sin analizar la imagen real, permitiendo comparaciones justas entre modelos.

Consecuencias para la práctica médica

El riesgo es claro: si un sistema en entorno clínico reporta hallazgos inexistentes o sugiere urgencia sin pruebas visuales, pacientes podrían recibir tratamientos innecesarios o procedimientos dañinos. Los autores subrayan la necesidad de guardarraíles, validaciones independientes y esfuerzos de alineación y seguridad antes de desplegar estos sistemas en atención directa al paciente. También advierten que la confianza en la fluidez lingüística de una IA no debe confundirse con comprensión multimodal real.

En resumen, el efecto mirage revela una grieta importante en la actual evaluación de modelos multimodales: la habilidad para generar narrativas convincentes sin acceder a la evidencia visual. Mejorar los benchmarks, aplicar marcos como B-Clean y mantener supervisión humana intensa son medidas necesarias para minimizar daños cuando la IA entre en contacto con decisiones clínicas.