Cómo un modelo inspirado en perros mejora la búsqueda de objetos por robots

La capacidad de un robot asistente para encontrar un objeto en una cocina o en un taller representa un salto cualitativo en la interacción humano-máquina. Un equipo de investigación de Brown University presentó una propuesta que combina lenguaje y gestos humanos para reducir la ambigüedad durante la búsqueda; el estudio fue publicado el 13/03/2026 y los resultados se presentaron en la conferencia programada para el 17/03/2026.

En pruebas de laboratorio, este método alcanzó un notable 89% de éxito al identificar el objeto correcto en escenarios desordenados, superando sistemas que usan solo palabras o visión.

El problema al que se enfrentan los robots no es solo ver objetos, sino decidir qué acción tomar cuando la información es incompleta. Los investigadores tomaron inspiración directa de la comunicación entre humanos y perros: los canes son expertos en interpretar mirada y señalización.

Para formalizar esa intuición desarrollaron un modelo llamado LEGS-POMDP, que integra un modelo visión-lenguaje (VLM) con una representación probabilística del gesto humano. Aquí el gesto se traduce en un cono de probabilidad, una aproximación que acota dónde es más probable que esté el objetivo según la alineación de ojos, codo y muñeca.

Principios del método

En el núcleo técnico aparece la POMDP, abreviatura de proceso de decisión de Markov parcialmente observable, que permite al robot razonar bajo incertidumbre y planificar acciones para obtener más información en lugar de tomar decisiones prematuras.

La novedad consiste en incorporar señales humanas —no solo órdenes verbales, sino también la dirección de la mirada y la orientación del brazo— dentro de ese marco probabilístico. Al fusionar esas señales con las salidas del VLM, el sistema actualiza creencias sobre la ubicación de objetos y decide movimientos que maximizan la utilidad de la búsqueda.

Modelado del gesto

Para convertir un gesto humano en una entrada utilizable, el equipo estudió la manera en que los perros responden a la mirada y al señalar, usando observaciones del Brown Dog Lab.

A partir de esa investigación se parametrizó un cono de probabilidad basado en la línea que conecta el ojo, el codo y la muñeca del interlocutor; ese cono asigna mayor probabilidad a las zonas alineadas con la dirección señalada. Esta representación es flexible: si el robot detecta poca confianza visual, puede moverse para reducir la incertidumbre y revaluar las probabilidades antes de recuperar un objeto.

Integración visión-lenguaje

El sistema emplea un modelo visión-lenguaje capaz de interpretar descripciones verbales complejas y correlacionarlas con lo que ve en la escena. La fusión de señales verbales y gestuales permite que el LEGS-POMDP compare hipótesis (¿es esa la taza, el destornillador o el objeto indiferenciado?) y seleccione acciones informadas: acercarse, mirar desde otro ángulo o confirmar con el usuario. Esta estrategia reduce los errores debidos a objetos parcialmente ocultos o a descripciones imprecisas.

Resultados y pruebas

En el laboratorio se utilizó un robot cuadrúpedo para ensayar búsquedas entre objetos esparcidos y parcialmente ocultos. Los experimentos mostraron que la combinación de lenguaje y gesto alcanzó cerca de un 89% de acierto, una mejora significativa frente a enfoques que dependen exclusivamente de órdenes verbales o únicamente de visión. Además, el marco demostró robustez en situaciones típicas del hogar o del taller, donde la ambigüedad comunicativa es una constante y los objetos pueden aparecer en varias instancias.

Implicaciones y futuro

Los autores subrayan que este avance acerca a los asistentes robóticos a escenarios reales: ayuda en el hogar a personas con movilidad reducida, soporte en entornos sanitarios o tareas logísticas en talleres. El trabajo contó con apoyo de la iniciativa ARIA de Brown y financiación de la National Science Foundation (subvención 2433429) y del Office of Naval Research (N0001424-1-2784, N0001424-1-2603), así como del programa Long-Term Autonomy for Ground and Aquatic Robotics (GR5250131). Investigadores como Ivy He, Madeline Pelgrim, Jason Liu y Daphna Buchsbaum participaron en el desarrollo y validación.

Conclusión

La traducción de la intuición canina a un marco probabilístico muestra que mostrar puede ser tan relevante como decir al interactuar con máquinas. El enfoque LEGS-POMDP aporta una vía práctica para que los robots naveguen la incertidumbre comunicativa mediante el entendimiento de gestos y lenguaje combinado con percepción visual avanzada. A medida que estos sistemas se perfeccionen, la expectativa es que la interacción humano-robot sea más natural, eficiente y segura en escenarios cotidianos.