Google lanza la app Gemini para macOS y trae nuevas capacidades de voz y contexto

En un movimiento que integra más la inteligencia artificial en el flujo de trabajo diario, Google ha publicado una aplicación nativa de Gemini para macOS. La novedad, anunciada el 15 de abril, permite invocar el asistente con un atajo global (Option + Space) desde cualquier aplicación y comparte contexto desde la ventana activa. Para que la app pueda leer la pantalla o procesar audio local es necesario conceder permisos en los ajustes del sistema; por motivos de privacidad conviene revocar esos permisos cuando no se utilizan.

La llegada de esta app sustituye en muchos casos la visita a la web de Gemini y facilita tareas como pedir ayuda sobre documentos o fragmentos de código que se muestran en pantalla. Google describe esta versión como una «primera etapa» para construir un asistente de escritorio personal y proactivo, y anticipa más actualizaciones en los próximos meses. La app es gratuita y compatible con macOS 15 en adelante.

Qué trae la app de Gemini para macOS

La aplicación integra funciones pensadas para el trabajo cotidiano: un atajo global para abrir el asistente, la posibilidad de compartir la ventana activa y acceso contextual a archivos locales. En la práctica, eso significa que puedes pedir a Gemini que resuma un documento, revise una hoja de cálculo o explique un fragmento de código sin abandonar tu app. Estas capacidades requieren permisos específicos para pantalla y audio; Google recomienda controlar esos accesos por seguridad.

Además, la compañía ha habilitado la funcionalidad Personal Intelligence a escala internacional para suscriptores de ciertos planes y planea extenderla a más usuarios. Esta característica conecta el asistente con aplicaciones de Google para ofrecer respuestas personalizadas y contextualizadas, algo relevante para quien usa Gmail, Photos o Search como parte de su flujo diario.

Movimientos simultáneos en agentes y síntesis de voz

El ecosistema de IA corporativa ha visto varios anuncios simultáneos: el rediseño de la app de escritorio Claude Code por Anthropic (anunciado el 14 de abril) y la publicación del Agents SDK v0.14.0 de OpenAI (anunciado el 15 de abril), que incorpora una sandbox nativa y primitivas agénticas estandarizadas.

El rediseño de Claude Code facilita ejecutar sesiones en paralelo mediante una barra lateral de sesiones, un chat secundario y soporte SSH ampliado a macOS, permitiendo trabajar con máquinas remotas desde el Mac.

Por su parte, la actualización del SDK de OpenAI introduce primitivas como MCP (para llamadas a herramientas), herramientas de ejecución de comandos (shell tool), edición mediante parches (apply patch tool) y un sistema de memory configurable. La sandbox ofrece aislamiento del sistema de archivos y dependencias para proteger credenciales, permitir puntos de control y escalar ejecuciones en paralelo.

Gemini 3.1 Flash TTS: control por etiquetas

En paralelo, Google anunció Gemini 3.1 Flash TTS (también el 15 de abril), un modelo de síntesis de voz que introduce audio tags: comandos en lenguaje natural insertados en el texto para controlar estilo, ritmo y entonación. Esta aproximación permite al desarrollador actuar como «director» del audio, por ejemplo marcar secciones como [excitement] o [explanatory] para ajustar la entrega vocal. El modelo obtuvo una puntuación de referencia de Elo 1 211 en el ranking Artificial Analysis TTS y añade marcas imperceptibles mediante SynthID para trazar el audio generado.

Seguridad, permisos y programas especializados

La expansión de capacidades trae también iniciativas centradas en seguridad: OpenAI amplió su programa Trusted Access for Cyber y puso a disposición el modelo GPT-5.4-Cyber para usuarios y equipos verificados, con funciones enfocadas a ciberdefensa y análisis binario. Al mismo tiempo, la gestión de permisos en aplicaciones como la nueva app de Gemini y las sandboxes del Agents SDK subraya la necesidad de políticas claras para proteger credenciales y datos sensibles.

Investigación y mejoras iterativas

Anthropic, además del rediseño de Claude Code, publicó versiones v2.1.108 y v2.1.109 con mejoras como resúmenes de sesión automáticos, caché de prompts y una mejor visualización del modo de extended thinking. En investigación, el experimento para automatizar tareas de alineamiento con múltiples instancias de Claude Opus 4.6 alcanzó una métrica PGR (performance gap recovered) de 0.97 tras cinco días, frente a un baseline humano de 0.23; en matemáticas la generalización llegó a 0.94 y en código a 0.47. Estos resultados, comunicados el 14 de abril, muestran cómo los modelos ayudan a acelerar experimentos complejos.

Finalmente, un artículo sobre learning subliminal en LLMs, cofirmado por Anthropic, se publicó en Nature (anuncio del 15 de abril), alertando sobre cómo modelos pueden transmitir rasgos o preferencias a través de señales ocultas en los datos. En conjunto, las novedades de Google, Anthropic y OpenAI delinean un panorama en el que herramientas más integradas y controladas conviven con retos de seguridad y gobernanza.

En resumen, la semana vio lanzamientos que acercan la IA al escritorio, mejoras en TTS, APIs más robustas para agentes y avances en investigación sobre alineamiento y seguridad. Para usuarios y desarrolladores, las claves son administrar permisos, entender los límites de cada herramienta y aprovechar las nuevas primitivas para construir flujos de trabajo más seguros y eficientes.

¿Cuál es el coste de una comunicación ineficaz? ¿Cómo se puede mejorar?

Robo de NFT en OpenSea: los hackers roban millones de activos digitales

5 tendencias de marketing digital que hay que conocer para la década

¿Falta de trabajadores? Es hora de considerar las contrataciones rápidas

Cómo Shopify está llevando a los minoristas en línea hacia el futuro

Europa, el aumento de los precios del etanol podría tener un impacto dramático en las empresas

Softbank, el director de operaciones se despide tras su enfrentamiento con el fundador Masayoshi Son

La aplicación de citas Grindr es retirada de la App Store de Apple en China

Las mayores pérdidas en el peor mes del mercado desde marzo de 2020

Lyft amplía el servicio de «asistencia» para las recogidas médicas

Esusu, una startup de crédito alcanza el estatus de unicornio

Justin Kim lanza una startup para preservar la salud mental en tiempos de pandemia

Google lanza la app Gemini para macOS y trae nuevas capacidades de voz y contexto

Gemini estrena cliente para macOS con atajo Option + Space, capacidades de compartir pantalla y acceso a archivos locales; a la vez, llegan avances en TTS, redes de agentes y herramientas para desarrolladores

Qué trae la app de Gemini para macOS

Movimientos simultáneos en agentes y síntesis de voz

Gemini 3.1 Flash TTS: control por etiquetas

Seguridad, permisos y programas especializados

Investigación y mejoras iterativas

¿Qué piensas?

Escrito por Andrea Ferrara

Carrito TernX: reseña del maletín convertible para viajar con niños

DeepL presenta traducción por voz en tiempo real y herramientas para integraciones empresariales

OpenAI apuesta por usuarios corporativos de ChatGPT por la presión de Anthropic

Cómo los deepfakes sexuales afectan a escuelas y comunidades

Operadores del Reino Unido avanzan hacia la conectividad satelital directo a dispositivo

Guía rápida con pistas y soluciones del Hurdle de hoy

Carrito TernX: reseña del maletín convertible para viajar con niños

DeepL presenta traducción por voz en tiempo real y herramientas para integraciones empresariales

Operadores del Reino Unido avanzan hacia la conectividad satelital directo a dispositivo

Revertir actualizaciones de servicios de Google en Android paso a paso

La presencia creciente de IA en sitios web y sus efectos en el tono y las ideas

Guía rápida de Quordle: pistas y soluciones para el juego #1543

Carrito TernX: reseña del maletín convertible para viajar con niños