A principios de este año, la empresa china DeepSeek lanzó su chatbot, conocido como R1, que rápidamente captó la atención del mundo tecnológico. Lo que hizo que este lanzamiento fuera particularmente notable es que una firma relativamente desconocida afirmaba haber desarrollado un chatbot de IA capaz de competir con los creados por gigantes de la industria, utilizando solo una fracción del poder computacional y los costos.
Este anuncio provocó una reacción significativa en el mercado de valores, llevando a notables caídas en los precios de las acciones de varias empresas tecnológicas occidentales. Por ejemplo, Nvidia, un importante proveedor de chips para modelos de IA, experimentó la mayor pérdida de valor en un solo día en la historia de sus acciones.
Controversia en torno a DeepSeek
Junto con la emoción, surgieron alegaciones que sugieren que DeepSeek pudo haber adquirido de manera inapropiada información del modelo propietario o1 de OpenAI mediante un proceso denominado destilación de conocimiento. Esta afirmación fue ampliamente difundida en los medios, enmarcando la situación como un desarrollo revolucionario en la construcción de sistemas de IA.
Sin embargo, es esencial reconocer que la destilación de conocimiento, una técnica destinada a mejorar la eficiencia de los modelos de IA, no es un concepto novedoso. De hecho, es un método bien establecido en el ámbito de la informática, habiendo sido objeto de investigación durante más de una década, y es utilizado por muchas empresas tecnológicas líderes en sus modelos de IA.
Los orígenes de la destilación de conocimiento
La base de la destilación fue establecida por tres investigadores de Google, entre ellos Geoffrey Hinton, conocido como el padrino de la IA. En un artículo seminal publicado en 2015, estos investigadores exploraron las limitaciones de los algoritmos de aprendizaje automático tradicionales, que trataban todos los errores como iguales, sin importar su relevancia. Por ejemplo, en un escenario de clasificación de imágenes, confundir un perro con un zorro se penalizaba de la misma manera que confundirlo con una pizza.
Los investigadores especularon que modelos de conjunto más grandes contenían información valiosa sobre la gravedad relativa de los errores. Propusieron que un modelo estudiante más pequeño podría aprender de manera más efectiva aprovechando los conocimientos de un modelo maestro más grande. Hinton se refería a este conocimiento oculto como conocimiento oscuro, trazando un paralelismo con el concepto de materia oscura en cosmología.
Implementación e impacto de la destilación
Al refinar el proceso de comunicación entre los modelos maestro y estudiante, los investigadores identificaron la importancia de los objetivos suaves, que son probabilidades asignadas a clasificaciones potenciales en lugar de respuestas definitivas. Por ejemplo, un modelo podría predecir un 30% de probabilidad de que una imagen sea un perro, 20% para un gato, y así sucesivamente. Este enfoque matizado informaba al modelo estudiante sobre las relaciones entre varias categorías, permitiéndole aprender de manera más eficiente.
Inicialmente, el concepto enfrentó escepticismo, y el artículo fue incluso rechazado en una conferencia. No obstante, a medida que creció la demanda de redes neuronales más grandes y capaces, la practicidad de la destilación se hizo cada vez más evidente. Para 2018, Google presentó BERT, un potente modelo de lenguaje, y el desarrollo posterior de una versión destilada denominada DistilBERT mostró la efectividad del método.
Ubicuidad de la destilación de conocimiento
Hoy en día, la destilación se ha convertido en una práctica estándar dentro de la industria de la IA, con empresas como Google, OpenAI y Amazon ofreciéndola como servicio. El artículo original sobre la destilación ha sido citado más de 25,000 veces, lo que destaca su amplia adopción.
A pesar de las controversias en torno a DeepSeek, es crucial entender que la verdadera destilación requiere acceso a los mecanismos internos del modelo maestro, lo que hace improbable que terceros extraigan datos de modelos de código cerrado de manera ilícita. Sin embargo, un modelo estudiante aún puede obtener información de un modelo maestro a través de preguntas estratégicas, evocando un método socrático de aprendizaje.
Aplicaciones futuras de la destilación
Este anuncio provocó una reacción significativa en el mercado de valores, llevando a notables caídas en los precios de las acciones de varias empresas tecnológicas occidentales. Por ejemplo, Nvidia, un importante proveedor de chips para modelos de IA, experimentó la mayor pérdida de valor en un solo día en la historia de sus acciones.0
Este anuncio provocó una reacción significativa en el mercado de valores, llevando a notables caídas en los precios de las acciones de varias empresas tecnológicas occidentales. Por ejemplo, Nvidia, un importante proveedor de chips para modelos de IA, experimentó la mayor pérdida de valor en un solo día en la historia de sus acciones.1