La creciente demanda de inteligencia artificial (IA) ha provocado un aumento significativo en los costos de la memoria DRAM, lo que plantea un desafío para investigadores y desarrolladores. En este contexto, DeepSeek, en colaboración con la Universidad de Peking, ha presentado un método innovador denominado Engram. Este avance busca desvincular el almacenamiento de memoria de los procesos computacionales, mejorando la eficiencia en modelos de IA de gran escala.
Tradicionalmente, los modelos de lenguaje de gran tamaño necesitan una memoria de alto ancho de banda (HBM) para recuperar información y realizar cálculos básicos.
Este requerimiento ha sido identificado como un factor clave en el aumento de precios de la memoria DRAM, que se multiplicaron por cinco en un corto periodo de diez semanas debido a la alta demanda de hardware para soportar modelos de IA avanzados.
La innovación detrás de Engram
El equipo de investigación de DeepSeek ha señalado que los modelos actuales desperdician profundidad secuencial en operaciones triviales, que podrían aprovecharse mejor para razonamientos más complejos.
Con Engram, los modelos pueden realizar búsquedas eficientes de información esencial sin sobrecargar la memoria de las GPU, liberando capacidad para tareas de razonamiento más sofisticadas.
Mecanismo de recuperación de conocimiento
Utilizando una técnica de recuperación de conocimiento basada en N-gramas hasheados, Engram permite el acceso a una memoria estática que no depende del contexto actual. Esta información recuperada se ajusta mediante un mecanismo de control consciente del contexto, permitiendo que la memoria se adapte al estado oculto del modelo, optimizando así el manejo de entradas largas.
Además, este sistema soporta la prefetching asíncrono a través de múltiples GPUs con un mínimo impacto en el rendimiento, lo que representa un avance significativo en la eficiencia de los modelos de IA. Al usar búsquedas para información estática, Engram minimiza los requerimientos de memoria de alta velocidad, facilitando su uso en sistemas de IA de gran escala.
Complementando otras soluciones de hardware
Engram no solo mejora la gestión de memoria, sino que también complementa otros enfoques eficientes en términos de hardware, como los aceleradores de inferencia de IA de Phison.
Estos dispositivos ofrecen una forma económica de aumentar la memoria total utilizando SSD, respaldando modelos de IA como Engram y sistemas de Mixture-of-Experts.
Un enfoque escalable para la memoria
DeepSeek ha formalizado una regla de expansión en forma de U para optimizar la asignación de parámetros entre el módulo de computación condicional y el módulo de memoria Engram. Las pruebas han demostrado que reubicar aproximadamente entre el 20% y el 25% del presupuesto de parámetros dispersos hacia Engram resulta en un mejor rendimiento en comparación con los modelos puros de Mixture-of-Experts, manteniendo mejoras estables a través de diferentes escalas.
Este mecanismo de recuperación determinista permite que la capacidad de memoria se escale linealmente en múltiples GPUs, mientras que la caché jerárquica de incrustaciones frecuentemente utilizadas mejora aún más la eficiencia. La implementación de Engram se puede realizar sin necesidad de actualizaciones costosas de HBM, lo que representa un alivio considerable para el hardware de memoria, especialmente en regiones como China, donde el acceso a HBM es limitado.
Perspectivas futuras
La validación inicial de Engram sugiere que los modelos pueden expandir su capacidad de parámetros y razonamiento, gestionando de manera más eficiente las demandas de memoria. Este enfoque tiene el potencial de aliviar las restricciones de memoria en la infraestructura de IA, lo que podría ayudar a estabilizar las fluctuaciones de precios de la memoria DDR5.
La introducción de Engram por parte de DeepSeek representa un avance crucial en la manera en que los modelos de inteligencia artificial manejan la memoria, permitiendo que la industria avance hacia un futuro más eficiente y rentable.

