Entrenar modelos grandes de inteligencia artificial consume una gran cantidad de dinero, energía y tiempo, y muchas soluciones clásicas aumentan esos costes antes de reducirlos. Investigadores de MIT CSAIL, el Max Planck Institute for Intelligent Systems, ETH y Liquid AI proponen una alternativa: CompreSSM, una técnica que aplica compresión durante el entrenamiento en lugar de hacerlo una vez finalizado el aprendizaje. Publicado el 09/04/2026, este trabajo replantea cuándo y cómo un modelo puede volverse más eficiente, evitando el ciclo habitual de entrenar en grande y luego recortar.
La innovación se dirige a la familia de modelos de espacio de estados, arquitecturas empleadas en tareas que van desde el procesamiento de lenguaje hasta generación de audio y control robótico. Los autores aprovecharon herramientas de la teoría de control para detectar qué componentes internos aportan valor real al comportamiento del modelo y cuáles funcionan como peso muerto. Según los investigadores, la importancia relativa de esas dimensiones internas se estabiliza pronto en el entrenamiento, lo que permite decidir con confianza qué conservar y qué eliminar.
Cómo funciona CompreSSM
En esencia, CompreSSM mide la contribución de cada estado interno durante una fase inicial de entrenamiento —aproximadamente el 10% del proceso, según sus pruebas— y utiliza esa información para reducir la dimensión del sistema antes de proseguir. La técnica se apoya en cantidades matemáticas del ámbito del control, especialmente las Hankel singular values, que permiten ordenar los estados por su impacto en el comportamiento global.
Una vez determinada la jerarquía, el equipo recorta las dimensiones menos relevantes y completa el entrenamiento con el modelo ya reducido, logrando así la velocidad de un modelo pequeño sin pagar el coste de entrenar uno grande hasta el final.
Identificación y estabilidad de estados
Un resultado clave del estudio es que las clasificaciones de importancia de los estados permanecen estables a lo largo del entrenamiento: las dimensiones que parecen menos útiles al principio rara vez se convierten en críticas después.
Esta observación se apoya en una demostración teórica que recurre a Weyl y en experimentos empíricos que validan la continuidad de la importancia de las componentes. Gracias a esa estabilidad, CompreSSM puede tomar decisiones de poda temprano sin temor a eliminar capacidades futuras del modelo, y ofrece además la opción práctica de restaurar puntos de control anteriores si alguna compresión provoca un descenso inesperado en el rendimiento.
Compresión segura durante el aprendizaje
La metodología incluye salvaguardas: si un paso de compresión reduce la precisión más de lo tolerable, el proceso puede revertirse a un checkpoint previo. Esto da a los practicantes control sobre el equilibrio entre eficiencia y rendimiento. Otro aspecto importante es que CompreSSM evita las duplicidades de costo típicas de enfoques como la distilación de conocimiento, que obliga a entrenar primero un maestro grande y luego un alumno, o los recortes postentrenamiento que siguen costando el esfuerzo de haber entrenado el modelo completo.
Resultados, comparativas y límites
En benchmarks de clasificación de imágenes, los modelos comprimidos con CompreSSM conservaron niveles de precisión muy cercanos a sus contrapartes completas mientras entrenaban hasta 1.5 veces más rápido en algunos escenarios. En CIFAR-10, un modelo reducido a aproximadamente una cuarta parte de su dimensión original alcanzó 85.7% de exactitud frente a 81.8% de un modelo pequeño entrenado desde cero. En la arquitectura Mamba, la técnica logró aceleraciones de entrenamiento del orden de 4x al comprimir un sistema de 128 dimensiones a cerca de 12, manteniendo un rendimiento competitivo.
Comparación con métodos existentes
Frente a alternativas recientes como la regularización basada en la norma nuclear de Hankel, CompreSSM mostró ventajas sustanciales: fue más de 40 veces más rápida y además consiguió mayor precisión, ya que la regularización exigía costosas operaciones de eigenvalores en cada paso del gradiente. Contra la distilación, la nueva técnica preservó mejor el rendimiento en modelos fuertemente comprimidos y evitó el sobrecoste computacional de pasar por dos redes a cada paso de entrenamiento.
Aplicaciones prácticas y pasos siguientes
Los autores indican que la técnica funciona mejor cuando la dimensión del estado está estrechamente ligada al rendimiento del modelo, una relación que es más fuerte en arquitecturas MIMO (multi-input, multi-output). También han desarrollado extensiones para sistemas lineales tiempo-variantes, acercando la idea a arquitecturas emergentes como la atención lineal, y planean explorar aplicaciones en mecanismos de atención matricial que podrían conectar la técnica con transformadores a gran escala. El trabajo fue aceptado como comunicación en la conferencia ICLR 2026 y anticipa que CompreSSM sea un primer peldaño hacia compresiones más ambiciosas en modelos usados en la industria.
Consideraciones finales
En resumen, CompreSSM propone integrar la compresión como parte del propio aprendizaje, reduciendo costos y acelerando el entrenamiento sin renunciar a la calidad. Aunque no es una solución universal para todos los tipos de arquitectura, abre una vía teórica y práctica prometedora para hacer que el desarrollo de IA sea más eficiente y sostenible.

