Google ajusta su estrategia de agentes: de navegadores a capacidades integradas

En los últimos meses Google ha reconfigurado al equipo que trabajaba en Project Mariner, el prototipo de agente de IA diseñado para navegar en Chrome y ejecutar tareas como si fuera un asistente humano. La compañía confirmó que parte del personal se ha movido a proyectos de mayor prioridad y que muchas de las capacidades de uso de ordenador desarrolladas bajo ese proyecto se integrarán en su estrategia global de agentes.

Ese movimiento refleja un ajuste táctico más amplio: funciones probadas en investigación ahora se incorporan a productos comerciales como Gemini Agent, en lugar de mantenerse como un experimento independiente.

El cambio ocurre en un contexto en el que han surgido agentes muy capaces, como OpenClaw, y en el que la industria debate cuál será la interfaz dominante para asistentes potentes. Aunque las iniciativas de agentes de navegador prometían automatizar clics, desplazamientos y formularios, su adopción no alcanzó las expectativas.

Por ejemplo, el agente de navegador Comet de Perplexity alcanzó 2.8 millones de usuarios activos semanales en diciembre de 2026, mientras que el agente de ChatGPT descendió a menos de un millón en semanas recientes. Esos números contrastan con las decenas o cientos de millones que interactúan con modelos de lenguaje generales.

Cambio de foco: de navegador a terminal y agentes de código

Gran parte del interés se ha desplazado hacia agentes que controlan el sistema desde la línea de comandos y a soluciones que combinan programación con automatización.

Empresas y laboratorios han mostrado que operar por medio del terminal resulta más directo para los modelos de lenguaje, porque todo es texto y evita el ruido visual de capturas de pantalla. Herramientas como Claude Code y OpenClaw demuestran que un enfoque textual puede ser más fiable y eficiente para muchas tareas, llevando a equipos a priorizar agentes de código sobre agentes de navegador puros.

Eficiencia y limitaciones técnicas

Una de las razones clave del desplazamiento es la carga computacional: los agentes que interpretan numerosas capturas de pantalla requieren procesamiento pesado y a veces generan respuestas inestables. Por contraste, trabajar con texto reduce los pasos necesarios para alcanzar un resultado. Expertos en IA han señalado que, en muchos flujos de trabajo, operar mediante comandos o scripts puede suponer entre diez y cien veces menos pasos para conseguir una solución equivalente. Esta ventaja operacional explica por qué varios laboratorios están redirigiendo recursos hacia agentes que integran capacidades de programación y manejo de archivos.

Innovaciones que reviven el interés por el control gráfico

Aunque la tendencia favorece los agentes de código, la investigación sobre uso de ordenador basado en interfaces gráficas no ha desaparecido. Recientemente, startups han presentado enfoques nuevos, como modelos entrenados con vídeo en lugar de solo capturas estáticas. Estas arquitecturas incluyen codificadores de vídeo que comprimen secuencias dentro de la ventana de contexto del modelo, lo que, según sus desarrolladores, puede ser decenas de veces más eficiente que los métodos previos. En una demostración, una de estas soluciones incluso acopló visión en tiempo real con control de teclado y logró maniobrar un vehículo de forma breve por calles de San Francisco.

El papel de la GUI en problemas reales

Especialistas que provienen de centros como DeepMind recuerdan que siempre existirá una franja de casos que solo se resuelve en interfaz gráfica: portales de seguros, software heredado o sitios sin API requieren interacción directa con formularios y menús. En consecuencia, muchos esperan una coexistencia: los agentes de terminal cubrirán gran parte de las necesidades técnicas, pero los agentes que entienden y manejan GUIs seguirán siendo esenciales para determinados servicios y clientes empresariales.

Perspectivas de adopción y confianza del usuario

La discusión técnica se acompaña de una pregunta práctica: ¿cómo lograrán que usuarios no técnicos confíen en agentes automatizados para tareas cotidianas? Propuestas comerciales hablan de pedir la compra de comestibles o reservar mesa en restaurantes mediante un agente, o de subir extractos bancarios para que un agente de código genere paneles personalizados de gasto. Sin embargo, la fricción persiste: muchas personas prefieren no delegar acciones hasta tener garantías de precisión y control. Por eso las empresas priorizan la integración gradual de capacidades y la transparencia sobre decisiones automatizadas.

En síntesis, la reorganización en Google y la migración de talento desde Project Mariner reflejan un momento de ajuste estratégico en la industria de agentes de IA. La balanza se inclina hacia soluciones basadas en código y terminal cuando conviene, pero la investigación en interacción gráfica y vídeo promete mantener viva la posibilidad de agentes híbridos que combinen lo mejor de ambos mundos. El resultado determinará cómo y cuándo los usuarios acepten delegar tareas rutinarias a asistentes automáticos.

¿Cuál es el coste de una comunicación ineficaz? ¿Cómo se puede mejorar?

Robo de NFT en OpenSea: los hackers roban millones de activos digitales

5 tendencias de marketing digital que hay que conocer para la década

¿Falta de trabajadores? Es hora de considerar las contrataciones rápidas

Cómo Shopify está llevando a los minoristas en línea hacia el futuro

Europa, el aumento de los precios del etanol podría tener un impacto dramático en las empresas

Softbank, el director de operaciones se despide tras su enfrentamiento con el fundador Masayoshi Son

La aplicación de citas Grindr es retirada de la App Store de Apple en China

Las mayores pérdidas en el peor mes del mercado desde marzo de 2020

Lyft amplía el servicio de «asistencia» para las recogidas médicas

Esusu, una startup de crédito alcanza el estatus de unicornio

Justin Kim lanza una startup para preservar la salud mental en tiempos de pandemia

Google ajusta su estrategia de agentes: de navegadores a capacidades integradas

Google redistribuye personal de Project Mariner y fusiona capacidades en su estrategia de agentes; mientras tanto, emergen alternativas basadas en terminal y vídeo que plantean un nuevo rumbo para la automatización

Cambio de foco: de navegador a terminal y agentes de código

Eficiencia y limitaciones técnicas

Innovaciones que reviven el interés por el control gráfico

El papel de la GUI en problemas reales

Perspectivas de adopción y confianza del usuario

¿Qué piensas?

Escrito por Staff

Horarios y calendario de Marshals: a Yellowstone Story en Paramount+

Pistas y respuestas para Connections del NYT: guía rápida del 20 de marzo de 2026

Por qué EndeavorOS Titan destaca entre las distros basadas en Arch

Amazon adquiere Rivr: robots cuadrúpedos para la entrega de última milla

Juicio histórico por adicción a Instagram y su impacto en el diseño de plataformas

Lo esencial de GTC, la crisis entre fans de Tesla y el destino de Horizon Worlds

Por qué EndeavorOS Titan destaca entre las distros basadas en Arch

Amazon adquiere Rivr: robots cuadrúpedos para la entrega de última milla

Juicio histórico por adicción a Instagram y su impacto en el diseño de plataformas

Lo esencial de GTC, la crisis entre fans de Tesla y el destino de Horizon Worlds

Meta desarrolla una familia MTIA orientada a la inferencia y un superchip de 1700W con 30 PFLOPs

Cómo DarkSword infecta iPhone y qué pueden hacer los usuarios para protegerse

Horarios y calendario de Marshals: a Yellowstone Story en Paramount+