El chatbot R1 de DeepSeek desafía a los gigantes de la IA con su eficiencia excepcional

Un nuevo competidor en el sector de la inteligencia artificial

Este año, la empresa china DeepSeek lanzó su nuevo chatbot, conocido como R1. Este lanzamiento ha captado rápidamente la atención del sector tecnológico. ¿Por qué tanto alboroto? La respuesta radica en las afirmaciones de que esta firma, relativamente desconocida, ha creado un chatbot que compite directamente con los productos de algunas de las empresas de inteligencia artificial más reconocidas del mundo. Además, lo hace utilizando una fracción de los recursos computacionales y a un costo financiero inferior.

Esta declaración audaz provocó una caída dramática en los precios de las acciones de varias firmas tecnológicas occidentales. En particular, Nvidia, un proveedor destacado de los chips que impulsan los principales modelos de IA, registró la mayor caída en un solo día en su historia.

Acusaciones de Uso Indebido de Propiedad Intelectual

En medio de la emoción, surgieron acusaciones de que DeepSeek podría haber adquirido de manera poco ética información del modelo propietario de OpenAI, conocido como o1, mediante una técnica llamada destilación. Este método, a menudo malinterpretado, es en realidad una práctica bien establecida en el ámbito de la inteligencia artificial, con orígenes que se remontan a hace más de una década. Numerosas grandes empresas tecnológicas han utilizado métodos de destilación para mejorar sus modelos.

Los Orígenes de la Destilación de Conocimiento

El concepto de destilación de conocimiento surgió en un artículo clave publicado en 2015 por un grupo de investigadores de Google, entre ellos el reconocido Geoffrey Hinton, considerado el padre de la inteligencia artificial. En ese momento, los investigadores utilizaban con frecuencia conjuntos de modelos, es decir, varios modelos funcionando simultáneamente para mejorar el rendimiento. Sin embargo, este enfoque resultaba engorroso y costoso, lo que llevó a los investigadores a buscar métodos para consolidar este conocimiento en un único modelo.

Una limitación notable en los algoritmos de aprendizaje automático es que las respuestas incorrectas se tratan de manera uniforme, sin importar su grado de inexactitud. Por ejemplo, en un escenario de clasificación de imágenes, confundir un perro con un zorro conllevaría la misma penalización que confundir un perro con una pizza. Los investigadores plantearon que los modelos en conjunto contenían información valiosa sobre la gravedad relativa de estos errores y que un modelo “estudiante” más compacto podría aprender de un modelo “maestro” más grande, mejorando así su capacidad para clasificar imágenes.

La Evolución y Aplicación de la Destilación

Tras intensas discusiones, los investigadores lograron desarrollar un método en el que un modelo maestro más grande transmite conocimientos sobre categorías de imágenes a un modelo estudiante más pequeño. Este proceso se centra en los soft targets, que son probabilidades asignadas a diversas opciones en lugar de respuestas rígidas de sí o no. Por ejemplo, un modelo podría estimar un 30% de probabilidad de que una imagen represente un perro, un 20% para un gato, entre otras posibilidades.

Esta información probabilística permite al modelo estudiante entender mejor las sutilezas entre diferentes categorías. De este modo, es posible destilar un modelo complejo en uno más simple, minimizando la pérdida de precisión.

Aumento Generalizado de la Destilación

El concepto de destilación no tuvo una aceptación inmediata; el documento original fue rechazado en una conferencia. Sin embargo, la metodología resultó ser oportuna cuando los ingenieros comenzaron a darse cuenta de que alimentar conjuntos de datos más grandes a las redes neuronales mejoraba el rendimiento. Así, aumentaron tanto el tamaño como las capacidades de los modelos, junto con los costos operativos.

Ante este panorama, los investigadores se volvieron cada vez más hacia la destilación como una solución para crear modelos más compactos. Un ejemplo notable ocurrió en 2018, cuando Google lanzó BERT, un potente modelo de lenguaje que pronto se volvió esencial para procesar miles de millones de búsquedas web. No obstante, debido a su tamaño y costos de ejecución, los desarrolladores crearon una versión destilada llamada DistilBERT, que se adoptó ampliamente en diversos sectores. Hoy en día, la destilación es algo común, con grandes empresas como Google, OpenAI y Amazon ofreciendo servicios de destilación, mientras que el documento de investigación original ha sido citado más de 25,000 veces.

Implicaciones y Direcciones Futuras

La destilación generalmente requiere acceso a los mecanismos internos del modelo docente. Sin embargo, es imposible que entidades externas obtengan información de modelos propietarios como el de OpenAI. Aun así, un modelo estudiante podría obtener conocimientos a través de consultas específicas y utilizar las respuestas para mejorar su propio aprendizaje, similar al enfoque socrático en la educación.

Por otro lado, las aplicaciones innovadoras de la destilación siguen surgiendo. Por ejemplo, el laboratorio NovaSky de la Universidad de California en Berkeley demostró su eficacia al entrenar modelos que emplean razonamiento en cadena, que consiste en múltiples pasos de razonamiento para abordar preguntas complejas. El laboratorio informó que su modelo completamente de código abierto, Sky-T1, que costó menos de $450 para entrenar, alcanzó resultados comparables a modelos mucho más grandes. Como señaló Dacheng Li, un estudiante de doctorado en Berkeley, “la destilación es una técnica fundamental en la inteligencia artificial”.