Este año, el lanzamiento del chatbot R1 de DeepSeek ha generado un gran revuelo en la comunidad tecnológica. Aunque esta empresa china no es muy conocida, afirma haber desarrollado un chatbot que compite con las ofertas de gigantes establecidos en el ámbito de la inteligencia artificial, todo mientras consume recursos computacionales mínimos. Las implicaciones de este desarrollo han llevado a que las acciones de importantes empresas tecnológicas occidentales, incluida Nvidia, caigan drásticamente, registrando una pérdida sin precedentes en su valor de mercado en solo un día.
El interés en torno al R1 de DeepSeek va más allá de las métricas de rendimiento. Han surgido acusaciones que sugieren que la compañía podría haber utilizado de forma ilícita conocimientos del modelo propietario o1 de OpenAI mediante un método conocido como destilación de conocimiento. Esto ha levantado cejas en la industria, presentando a DeepSeek como un pionero en una metodología de construcción de IA más eficiente.
La mecánica de la destilación de conocimiento
La destilación de conocimiento, comúnmente llamada destilación, es una técnica bien establecida en el campo de la inteligencia artificial, con raíces que se remontan a más de una década. Según Enric Boix-Adsera, investigador de la Wharton School, se considera un método crítico para mejorar la eficiencia de los modelos. Este concepto nació de un artículo de investigación de 2015 escrito por tres investigadores de Google, entre ellos Geoffrey Hinton, una figura destacada en IA que recientemente recibió el Premio Nobel.
Anteriormente, los investigadores solían emplear conjuntos de modelos—esencialmente, una colección de diversos modelos trabajando en conjunto—para alcanzar un rendimiento superior. Sin embargo, este enfoque era engorroso y costoso, lo que llevó a una reevaluación de las estrategias. El equipo especuló que si un modelo más pequeño, denominado estudiante, pudiera aprovechar las ideas de un modelo más grande, o maestro, podría aprender de manera más efectiva.
Entendiendo el conocimiento oscuro
Esta idea llevó a explorar cómo los algoritmos de aprendizaje automático evalúan las respuestas incorrectas. Tradicionalmente, todos los errores se trataban por igual, sin importar su gravedad. Por ejemplo, confundir un perro con un zorro tenía la misma penalización que confundirlo con una pizza. El equipo de investigación teorizó que los modelos de conjunto contenían información matizada, indicando que ciertos errores eran menos perjudiciales que otros. Hinton denominó a este hallazgo conocimiento oscuro, estableciendo un paralelismo con un fenómeno cósmico.
El avance se produjo cuando los investigadores idearon un método que permitía al modelo maestro transmitir información más rica al modelo estudiante, enfocándose en objetivos suaves—probabilidades asignadas a posibles resultados en lugar de respuestas binarias. Esto permitió al estudiante comprender mejor las relaciones entre categorías y mejorar sus capacidades de clasificación. Como resultado, un modelo complejo podría ser destilado en una versión más simplificada sin una pérdida significativa de precisión.
La evolución de la destilación en IA
A pesar de los desafíos iniciales para ganar aceptación—evidenciado por el rechazo de su artículo en una conferencia—el concepto de destilación encontró su momento. A medida que las redes neuronales evolucionaron, los investigadores descubrieron que aumentar el volumen de datos de entrenamiento mejoraba significativamente el rendimiento del modelo. En consecuencia, los modelos crecieron en tamaño y complejidad, junto con los costos operativos asociados.
En respuesta, la comunidad de IA adoptó la destilación con la esperanza de crear modelos más pequeños y eficientes. Un ejemplo destacado se presentó en 2018, cuando Google introdujo el modelo de lenguaje BERT, que, aunque potente, resultó costoso de operar. Al año siguiente, los desarrolladores destilaron una versión más compacta llamada DistilBERT, que ganó amplia aceptación en diversos sectores. Hoy en día, la destilación se ha vuelto común, con actores importantes como Google, OpenAI y Amazon ofreciendo este servicio.
Consideraciones legales y éticas
Es fundamental señalar que la destilación requiere acceso directo al funcionamiento interno del modelo maestro, lo que hace imposible que un tercero extraiga datos de modelos propietarios como el o1 de OpenAI de manera clandestina. Sin embargo, un modelo estudiante aún podría obtener valiosos conocimientos a través de consultas específicas dirigidas al modelo maestro, evocando un método socrático de aprendizaje.
A medida que la conversación evoluciona, los investigadores continúan descubriendo aplicaciones innovadoras para la destilación. Por ejemplo, el laboratorio NovaSky de UC Berkeley demostró que la destilación podría entrenar efectivamente modelos para el razonamiento encadenado, logrando resultados comparables a los de modelos mucho más grandes a una fracción del costo. Dacheng Li, un estudiante de doctorado en Berkeley, expresó su sorpresa ante la eficacia de la técnica, enfatizando su papel fundamental en el panorama de la IA.