La transición de la inteligencia artificial agentica del laboratorio a entornos de producción obliga a repensar la arquitectura tradicional. En respuesta, Intel y SambaNova han diseñado un blueprint que combina tres capas de cómputo: GPUs para la fase inicial, RDUs de SambaNova para la decodificación y Intel Xeon 6 como la capa de control y ejecución. Este enfoque pretende equilibrar latencia, rendimiento y compatibilidad con el ecosistema existente, ofreciendo una alternativa al modelo único centrado en GPU.
El diseño está orientado a empresas, operadores cloud y despliegues soberanos, y se prevé su disponibilidad en la segunda mitad de 2026. La idea central es asignar tareas según la eficiencia de cada componente: las GPUs transforman prompts en caches de clave-valor durante el prefill, las RDUs generan tokens con alta tasa y baja latencia en la etapa de decodificación, y los Xeon 6 asumen la orquestación, ejecución de código compilado y coordinación entre agentes.
La CPU como capa ejecutiva y de control
En esta propuesta, el procesador deja de ser un elemento secundario: los Xeon 6 actúan como la capa ejecutiva que gestiona la distribución de cargas, valida salidas y mantiene la comunicación entre procesos simultáneos. Cuando cientos o miles de agentes realizan llamadas a herramientas, recuperaciones de datos, compilaciones y mensajes cifrados, la supervisión y ejecución requieren una CPU que orqueste, compile y ejecute tareas en tiempo real.
En este contexto, el término capa ejecutiva describe ese rol central que tradicionalmente se atribuía a la GPU solo en fases concretas del pipeline.
Funciones críticas del host CPU
Los Xeon 6 no solo funcionan como servidores host, sino que también ejecutan cargas compiladas y sirven como motor de ejecución para workflows complejos. Según datos de SambaNova, estos procesadores ofrecen más del 50% de mejora en tiempos de compilación LLVM frente a CPUs servidor basadas en Arm, y hasta un 70% más de rendimiento en bases de datos vectoriales respecto a otras soluciones x86 competidoras.
Esas mejoras aceleran ciclos de desarrollo de agentes que dependen de compilación rápida y operaciones intensivas en recuperación de información.
Qué hace cada capa: GPUs, RDUs y Xeon 6
La división de responsabilidades busca asignar a cada tecnología la parte del flujo donde es más eficiente. En la fase de prefill, las GPUs convierten prompts en caches clave-valor, preparando el contexto que alimentará el proceso de decodificación. A continuación, las RDUs de SambaNova, diseñadas para flujo de datos reconfigurable, se encargan de la generación de tokens a alta tasa y con baja latencia. Finalmente, los Xeon 6 toman las riendas para la ejecución, incluyendo la orquestación de agentes y la interacción con herramientas externas.
Decodificación y latencia
Las RDUs están optimizadas para la etapa de decodificación donde la rapidez por token y la predictibilidad de latencia son críticas. Este rol permite descargar a las GPUs de la tarea continua de generación, concentrando su potencia en operaciones de preprocesamiento masivo. El resultado, según las firmas, es un flujo que mantiene compatibilidad con entornos de software existentes y mejora la eficiencia final de inferencia.
Compatibilidad operativa y competitividad
Un punto destacado del blueprint es su intención de integrarse con centros de datos ya desplegados: la combinación de SN50 RDU y servidores basados en Xeon es compatible con instalaciones que admiten ~30 kW por rack y sistemas de refrigeración por aire comunes en la mayoría de centros empresariales. Esto evita la necesidad de construir infraestructuras especiales que consuman más agua o energía, facilitando el escalado de cargas de inferencia sin cambios drásticos en el datacenter.
En el plano competitivo, la propuesta es una respuesta al dominio de soluciones centradas en un solo tipo de chip. Mientras empresas como Nvidia y Groq siguen empujando mejoras en rendimiento y latencia de inferencia, el enfoque heterogéneo de Intel y SambaNova busca ofrecer una alternativa que distribuya la carga entre componentes especializados, manteniendo la compatibilidad con el ecosistema x86 y las herramientas que ya utilizan desarrolladores y proveedores cloud.
Conclusión
En conjunto, el blueprint de Intel y SambaNova promete una solución para despliegues de inferencia a gran escala centrados en agentes y workflows complejos: GPUs para prefill, RDUs para decodificación y Xeon 6 para orquestación y ejecución. La disponibilidad prevista en la segunda mitad de 2026 ofrece tiempo a operadores y empresas para planificar migraciones y evaluar si un enfoque heterogéneo mejora costes, rendimiento y compatibilidad frente a arquitecturas monolíticas.

