MatX cierra 500 millones para acelerar entrenamiento e inferencia de LLM

MatX ha cerrado una ronda de financiación de 500 millones de dólares con el objetivo de llevar al mercado un acelerador diseñado específicamente para grandes modelos de lenguaje. Fundada por dos exingenieros de hardware de Google, la compañía combina ideas de arquitectura de memoria y de procesamiento para reducir latencias y aumentar el throughput en tareas de entrenamiento y generación de texto. Entre los nuevos inversores aparecen firmas como Jane Street, el fondo Situational Awareness (vinculado a Leopold Aschenbrenner) y otras entidades tecnológicas y de capital riesgo.

La empresa prevé producir sus chips con TSMC y comenzar envíos en 2027, según sus comunicados. MatX llega tras una ronda Serie A de aproximadamente 100 millones liderada por Spark Capital, y ahora amplía su respaldo con nombres como Marvell, NFDG y los cofundadores de Stripe, Patrick y John Collison. Paralelamente, el mercado hueco entre GPUs convencionales y aceleradores especializados sigue atrayendo capital: competidores han levantado sumas comparables y alcanzado valoraciones multimillonarias.

Arquitectura y memoria: la propuesta técnica

El elemento central del proyecto es el procesador llamado MatX One, que se fundamenta en una variante que la empresa denomina splittable systolic array. Esta topología permite dividir las matrices systólicas en subunidades configurables para adaptar la ejecución a distintos tamaños de modelo y cargas de trabajo, lo que, según MatX, mejora la eficiencia comparada con diseños rígidos. Además, la compañía apuesta por un enfoque de SRAM-first para almacenar la mayor parte de los pesos del modelo, aprovechando la baja latencia del SRAM embebido junto a la lógica de cómputo.

Para datos temporales como las KV caches —la memoria corta que usan los modelos durante la generación de texto— MatX emplea HBM, una memoria de alta capacidad pero más lenta que el SRAM. La combinación pretende ofrecer lo mejor de dos mundos: velocidades de acceso muy bajas donde se requiere latencia mínima y suficiente capacidad para manejar contextos largos y estados intermedios. Según la empresa, la mezcla de SRAM y HBM facilita tanto el entrenamiento a gran escala como la inferencia con contextos extensos.

Optimizaciones de software y escalabilidad

En su documentación técnica y publicaciones en el blog corporativo, MatX describe esfuerzos para integrar técnicas de optimización como la speculative decoding y la blockwise sparse attention. La primera acelera la generación de respuestas al anticipar tokens probables; la segunda reduce el coste computacional del mecanismo de atención al explotarlo de forma fragmentada y eficiente. La combinación de estas estrategias con la arquitectura splittable pretende impulsar tanto el rendimiento en tokens por segundo como la eficiencia energética cuando se encadenan miles de aceleradores en clústeres.

La compañía afirma que su diseño escala a «cientos de miles» de aceleradores interconectados, permitiendo abordar entrenamientos masivos y despliegues de modelos mixtos, desde preentrenamiento y aprendizaje por refuerzo hasta inferencia de baja latencia. No obstante, la propuesta no está exenta de retos: el uso intensivo de SRAM exige múltiples chips o diseños de gran tamaño para alojar pesos extensos, y la industria ha probado distintas estrategias—desde chips gigantes hasta escalado horizontal con muchas unidades—para resolver esa limitación.

Competencia e implicaciones del mercado

El movimiento de MatX se enmarca en una ola de inversiones en startups de hardware para IA que buscan desafiar la hegemonía de Nvidia en aceleradores. Competidores como Etched han conseguido rondas de financiación importantes y valoraciones elevadas, lo que subraya el interés de inversores por alternativas de silicio optimizadas para modelos de lenguaje. La suma de capital reciente demuestra que, pese a debates sobre una posible burbuja, hay apetito por soluciones que mejoren coste por token y latencia.

Pasos siguientes y plazos

MatX utilizará los fondos para finalizar el diseño y completar el proceso de tape-out con sus socios de fabricación. La empresa ha comunicado su intención de comenzar la producción con TSMC y distribuir el MatX One en fases a partir de sus etapas de validación. Si los resultados prometidos en laboratorio se mantienen al escalar, el producto podría suponer una alternativa relevante para datacenters y proveedores de servicios de IA que busquen reducir tiempos de entrenamiento y mejorar la experiencia de inferencia en LLM.

La nueva ronda de 500 millones proporciona el capital necesario para intentar convertir esa propuesta en una oferta comercial competitiva frente a las actuales tarjetas gráficas y otros aceleradores especializados.