Nuevas olas en modelos de lenguaje: Claude Sonnet 4.6 frente a MiniMax M2.5

En el mundo de los modelos de lenguaje avanzados hay dos movimientos recientes que merecen atención: por un lado, Anthropic lanzó Claude Sonnet 4.6, que promete menor alucinación y mayor habilidad para tareas de oficina y análisis financiero; por otro, la startup china MiniMax publicó el open source MiniMax M2.5, un modelo orientado a agentes con costes operativos reducidos. Ambos buscan facilitar agentes autónomos, pero lo hacen con arquitecturas, licencias y estrategias comerciales diferentes.

Las dos iniciativas muestran cómo la carrera por agentes prácticos combina capacidad, velocidad y economía. Mientras Anthropic prioriza una experiencia integrada y controles de seguridad, MiniMax se apoya en una arquitectura Mixture of Experts para disminuir el coste por token y ofrecer una opción abierta para desarrolladores y empresas.

Qué ofrece Claude Sonnet 4.6

Claude Sonnet 4.6 se lanzó como la versión Sonnet más capaz de Anthropic, con una ventana de contexto en beta de 1 millón de tokens.

Anthropic destaca una reducción en la propensión a alucinaciones y a la sícología (sycophancy), además de mejoras en las habilidades de programación. El modelo está disponible como predeterminado en claude.ai y Claude Cowork, y se ha desplegado en la API y en las principales nubes.

En cuanto a planes, los usuarios gratuitos enfrentan límites de uso que se reinician cada cinco horas; el plan Claude Pro se ofrece a $20 al mes o $17 al mes con pago anual.

Para la API, Sonnet 4.6 tiene tarifas de $3 por millón de tokens de entrada y $15 por millón de tokens de salida. Anthropic afirma que muchos desarrolladores prefieren Sonnet 4.6 frente a versiones previas y a algunos modelos Opus, sobre todo para tareas de análisis agente y ofimática.

Rendimiento en benchmarks

Anthropic publicó resultados donde Sonnet 4.6 sobresale en tareas de análisis financiero agentic y oficina, superando a competidores como Gemini 3 Pro y GPT-5.2.

Algunas métricas reportadas incluyen GPQA Diamond 89.9%, MMMLU 89.3% y SWE-bench Verified 79.6%. En Humanity’s Last Exam (HLE) alcanzó 49.0% con herramientas y 33.2% sin herramientas. Anthropic también señala buen desempeño en pruebas internas de seguridad.

Qué propone MiniMax M2.5

MiniMax M2.5 es un modelo abierto presentado por la empresa de Shanghái MiniMax, diseñado explícitamente para tareas agentic: codificación, navegación web, llamada de herramientas y flujos autónomos. MiniMax lanzó dos variantes: Standard (50 tokens/seg) y Lightning (100 tokens/seg), con precios que sitúan el coste aproximado de ejecución continua de Lightning en ~$1 por hora.

La arquitectura emplea Mixture of Experts (MoE) con ~230.000 millones de parámetros totales y cerca de 10.000 millones activos por token, permitiendo mantener capacidad mientras se controla el coste de inferencia. Otras especificaciones destacadas son una ventana de contexto de 200.000 tokens y soporte para múltiples lenguajes de programación.

Benchmarks, precio y disponibilidad

MiniMax comparte puntuaciones competitivas en pruebas orientadas a agentes: SWE-Bench Verified 80.2%, BrowseComp 76.3% (con gestión de contexto) y BFCL multi-turn 76.8%. Su tabla de precios muestra tarifas de $0.30 por millón de tokens de entrada y $1.20/$2.40 por millón de tokens de salida según variante, cifras muy por debajo de tarifas de modelos propietarios.

El lanzamiento es open source bajo una Modified MIT License que exige mostrar «MiniMax M2.5» en la interfaz de productos comerciales. Las pesos están disponibles en repositorios públicos y se ofrecen versiones cuantizadas para hardware de consumo. MiniMax también aporta una plataforma de agentes y planes orientados a programación.

Perspectiva y recomendaciones

Ambos proyectos tienen méritos claros: Anthropic apuesta por una experiencia segura y controlada con despliegue en la nube y políticas comerciales establecidas; MiniMax impulsa la posibilidad de ejecutar agentes continuos a bajo coste gracias a su diseño MoE y a la apertura del código. Sin embargo, conviene leer los matices: muchas métricas de MiniMax son auto-reportadas y algunas evaluaciones independientes muestran variaciones en rendimiento y estabilidad.

Para equipos que valoran integración y controles, Claude Sonnet 4.6 es una opción sólida. Para quienes priorizan coste, personalización y despliegue local, MiniMax M2.5 merece pruebas en entornos reales. En ambos casos, la recomendación es validar en cargas propias: los benchmarks públicos sirven de guía, pero el rendimiento real depende del flujo de trabajo, la integración de herramientas y las condiciones de evaluación.