Investigadores de la Universidad de Liverpool han desarrollado un modelo informático innovador que fusiona visión y sonido de manera similar a cómo perciben los seres humanos. Este avance, inspirado en los procesos biológicos de los insectos, promete optimizar la inteligencia artificial y la percepción de las máquinas en situaciones del mundo real.
El modelo se fundamenta en un mecanismo cerebral observado en insectos, crucial para la detección de movimiento. El Dr. Cesare Parise, reconocido profesor de psicología, ha adaptado esta idea para diseñar un sistema que procesa señales audiovisuales del entorno, como videos y sonidos. Este enfoque supera las limitaciones de modelos anteriores que empleaban parámetros abstractos. La investigación fue publicada en la revista eLife.
Cómo funciona el modelo de percepción audiovisual
Al observar a alguien hablar, nuestro cerebro se sincroniza de manera natural entre lo que vemos y lo que escuchamos. Este fenómeno puede llevar a ilusiones fascinantes, como el efecto McGurk, donde la combinación de sonidos y movimientos labiales incongruentes genera una percepción nueva. Otro ejemplo es la ilusión del ventrílocuo, en la que una voz parece provenir de un muñeco en lugar de del artista. Un reciente estudio se adentra en cómo el cerebro identifica la coincidencia entre el sonido y la visión.
Limitaciones de modelos anteriores
Modelos previos habían intentado explicar este proceso, pero sus enfoques eran limitados, ya que no trabajaban directamente con señales audiovisuales reales. Según el Dr. Parise, “A pesar de décadas de estudio en la percepción audiovisual, aún carecíamos de un modelo capaz de realizar una tarea tan simple como tomar un video como entrada y determinar si el audio se percibiría como sincronizado”. Este desafío revela un problema más profundo: aunque los modelos perceptivos son teóricamente sólidos, no lograban realizar pruebas sencillas en situaciones del mundo real.
Desarrollo del modelo Multisensory Correlation Detector (MCD)
El modelo de Parise enfrenta un reto importante en la integración sensorial. Se fundamenta en investigaciones previas realizadas junto a Marc Ernst de la Universidad de Bielefeld, donde se presentó el principio de detección de correlaciones. Este principio podría explicar cómo el cerebro combina señales de distintos sentidos. De esta investigación surgió el Multisensory Correlation Detector (MCD), un dispositivo capaz de replicar las respuestas humanas a patrones audiovisuales simples, como destellos y clics.
Simulación a gran escala
En el estudio reciente, Parise simuló una red de estos detectores dispuestos en una cuadrícula que abarca tanto el espacio visual como el auditivo. Esta disposición permitió al modelo gestionar estímulos complejos del mundo real. Los resultados obtenidos lograron replicar hallazgos de 69 experimentos bien documentados realizados con humanos, monos y ratas.
El Dr. Parise destacó que “esto representa la simulación a mayor escala jamás realizada en este campo. Aunque se han evaluado otros modelos en el pasado, ninguno se ha probado contra tantos conjuntos de datos en un solo estudio”. Este modelo no solo logró coincidir con el comportamiento a través de diferentes especies, sino que también superó al modelo de inferencia causal bayesiana más reconocido, todo ello manteniendo la misma cantidad de parámetros ajustables.
Aplicaciones más allá de la neurociencia
Parise plantea que este modelo podría extender su utilidad más allá del ámbito de la investigación neurocientífica. «La evolución ha logrado resolver el desafío de alinear sonido y visión a través de cálculos simples y versátiles, aplicables en diferentes especies y contextos. El aspecto clave en este caso es la computabilidad del estímulo: dado que el modelo trabaja directamente con señales audiovisuales en bruto, su aplicación podría abarcar cualquier tipo de material del mundo real».
El investigador destacó que “los sistemas de inteligencia artificial de hoy todavía tienen dificultades para integrar información de diferentes modalidades de forma confiable. Además, los modelos que analizan la saliencia audiovisual suelen ser grandes y requieren entrenamientos con extensos conjuntos de datos etiquetados. En cambio, el MCD es ligero, eficiente y no necesita entrenamiento, lo que lo posiciona como un candidato prometedor para aplicaciones de próxima generación”.
Un modelo que comenzó enfocándose en el movimiento de los insectos ha evolucionado para ofrecer una nueva perspectiva sobre cómo los cerebros, tanto humanos como de otras especies, integran sonido y visión en diversos contextos. Este avance es crucial para entender fenómenos como el efecto McGurk y la ilusión del ventrílocuo, así como para inferir causalidades y generar mapas de saliencia audiovisual dinámicos. Así, este modelo se convierte en una herramienta valiosa tanto para la investigación en neurociencia como para el desarrollo de inteligencia artificial.
Si desea profundizar en este tema, le recomendamos el estudio de Cesare V. Parise titulado Correlation detection as a stimulus computable account for audiovisual perception, causal inference, and saliency maps in mammals, publicado en eLife.


