En los últimos meses Google ha reconfigurado al equipo que trabajaba en Project Mariner, el prototipo de agente de IA diseñado para navegar en Chrome y ejecutar tareas como si fuera un asistente humano. La compañía confirmó que parte del personal se ha movido a proyectos de mayor prioridad y que muchas de las capacidades de uso de ordenador desarrolladas bajo ese proyecto se integrarán en su estrategia global de agentes.
Ese movimiento refleja un ajuste táctico más amplio: funciones probadas en investigación ahora se incorporan a productos comerciales como Gemini Agent, en lugar de mantenerse como un experimento independiente.
El cambio ocurre en un contexto en el que han surgido agentes muy capaces, como OpenClaw, y en el que la industria debate cuál será la interfaz dominante para asistentes potentes. Aunque las iniciativas de agentes de navegador prometían automatizar clics, desplazamientos y formularios, su adopción no alcanzó las expectativas.
Por ejemplo, el agente de navegador Comet de Perplexity alcanzó 2.8 millones de usuarios activos semanales en diciembre de 2026, mientras que el agente de ChatGPT descendió a menos de un millón en semanas recientes. Esos números contrastan con las decenas o cientos de millones que interactúan con modelos de lenguaje generales.
Cambio de foco: de navegador a terminal y agentes de código
Gran parte del interés se ha desplazado hacia agentes que controlan el sistema desde la línea de comandos y a soluciones que combinan programación con automatización.
Empresas y laboratorios han mostrado que operar por medio del terminal resulta más directo para los modelos de lenguaje, porque todo es texto y evita el ruido visual de capturas de pantalla. Herramientas como Claude Code y OpenClaw demuestran que un enfoque textual puede ser más fiable y eficiente para muchas tareas, llevando a equipos a priorizar agentes de código sobre agentes de navegador puros.
Eficiencia y limitaciones técnicas
Una de las razones clave del desplazamiento es la carga computacional: los agentes que interpretan numerosas capturas de pantalla requieren procesamiento pesado y a veces generan respuestas inestables. Por contraste, trabajar con texto reduce los pasos necesarios para alcanzar un resultado. Expertos en IA han señalado que, en muchos flujos de trabajo, operar mediante comandos o scripts puede suponer entre diez y cien veces menos pasos para conseguir una solución equivalente. Esta ventaja operacional explica por qué varios laboratorios están redirigiendo recursos hacia agentes que integran capacidades de programación y manejo de archivos.
Innovaciones que reviven el interés por el control gráfico
Aunque la tendencia favorece los agentes de código, la investigación sobre uso de ordenador basado en interfaces gráficas no ha desaparecido. Recientemente, startups han presentado enfoques nuevos, como modelos entrenados con vídeo en lugar de solo capturas estáticas. Estas arquitecturas incluyen codificadores de vídeo que comprimen secuencias dentro de la ventana de contexto del modelo, lo que, según sus desarrolladores, puede ser decenas de veces más eficiente que los métodos previos. En una demostración, una de estas soluciones incluso acopló visión en tiempo real con control de teclado y logró maniobrar un vehículo de forma breve por calles de San Francisco.
El papel de la GUI en problemas reales
Especialistas que provienen de centros como DeepMind recuerdan que siempre existirá una franja de casos que solo se resuelve en interfaz gráfica: portales de seguros, software heredado o sitios sin API requieren interacción directa con formularios y menús. En consecuencia, muchos esperan una coexistencia: los agentes de terminal cubrirán gran parte de las necesidades técnicas, pero los agentes que entienden y manejan GUIs seguirán siendo esenciales para determinados servicios y clientes empresariales.
Perspectivas de adopción y confianza del usuario
La discusión técnica se acompaña de una pregunta práctica: ¿cómo lograrán que usuarios no técnicos confíen en agentes automatizados para tareas cotidianas? Propuestas comerciales hablan de pedir la compra de comestibles o reservar mesa en restaurantes mediante un agente, o de subir extractos bancarios para que un agente de código genere paneles personalizados de gasto. Sin embargo, la fricción persiste: muchas personas prefieren no delegar acciones hasta tener garantías de precisión y control. Por eso las empresas priorizan la integración gradual de capacidades y la transparencia sobre decisiones automatizadas.
En síntesis, la reorganización en Google y la migración de talento desde Project Mariner reflejan un momento de ajuste estratégico en la industria de agentes de IA. La balanza se inclina hacia soluciones basadas en código y terminal cuando conviene, pero la investigación en interacción gráfica y vídeo promete mantener viva la posibilidad de agentes híbridos que combinen lo mejor de ambos mundos. El resultado determinará cómo y cuándo los usuarios acepten delegar tareas rutinarias a asistentes automáticos.

