Este año, una empresa china relativamente desconocida, DeepSeek, ha causado un gran impacto en el sector de la inteligencia artificial con el lanzamiento de su chatbot, conocido como R1. Lo que realmente destaca de R1 no es solo su funcionalidad, sino que ha sido desarrollado con una potencia computacional significativamente menor y a un costo inferior al de competidores como los de gigantes tecnológicos consolidados. Este anuncio sorprendió y provocó una drástica caída en los precios de las acciones de varias empresas tecnológicas occidentales, incluida Nvidia, que experimentó la mayor pérdida de valor de mercado en un solo día de la historia.
La atención en torno a R1 no se ha limitado a su impresionante rendimiento. Han surgido acusaciones que sugieren que DeepSeek pudo haber utilizado de manera ilícita conocimientos del modelo o1 de OpenAI a través de un proceso conocido como destilación de conocimiento. Esta alegación ha generado un gran revuelo en la comunidad de inteligencia artificial, insinuando que DeepSeek podría haber descubierto una metodología más eficiente para construir modelos.
Mecánica de la destilación de conocimiento
No obstante, el concepto de destilación no es nuevo en el ámbito de la inteligencia artificial. Se trata de una técnica ampliamente reconocida que ha sido un punto focal en la informática durante la última década. Grandes empresas tecnológicas emplean este método para mejorar la eficiencia de sus modelos. Según Enric Boix-Adsera, investigador de la Wharton School, “La destilación es una de las herramientas más esenciales disponibles para optimizar el rendimiento de los modelos en la actualidad.”
Origen y evolución de la destilación
Los cimientos de esta técnica se establecieron en un artículo académico de 2015, escrito por un trío de investigadores de Google, entre ellos el reconocido Geoffrey Hinton, conocido como el padre de la IA y futuro laureado del Premio Nobel. En ese momento, los investigadores dependían frecuentemente de conjuntos de modelos, a los que se referían como “una multitud de modelos trabajando en conjunto”. Sin embargo, este enfoque resultaba ineficiente y costoso. Por ello, comenzaron a explorar la posibilidad de simplificar estos modelos en una unidad singular y cohesiva.
Un aspecto crítico que abordaron estos investigadores fue el tratamiento de las respuestas erróneas. Tradicionalmente, todas las respuestas incorrectas eran penalizadas de manera uniforme, sin considerar el grado de error. Por ejemplo, en un modelo de clasificación de imágenes, confundir un perro con un zorro se consideraba tan perjudicial como confundir un perro con una pizza. Los investigadores plantearon que los modelos de conjunto podrían contener información valiosa que podría informar a un modelo más pequeño, conocido como modelo estudiante, sobre la severidad relativa de diferentes errores.
Impacto en los modelos de IA y su implementación
Al aprovechar lo que Hinton denominó conocimiento oscuro, los investigadores desarrollaron un método para que el modelo docente más grande transmitiera conocimientos clave al modelo estudiante más pequeño. Este proceso se centró en los “objetivos suaves”, que son las probabilidades asignadas a posibles resultados en lugar de respuestas binarias. Por ejemplo, un modelo podría asignar un 30% de probabilidad a que una imagen sea de un perro, un 20% a que sea un gato, y así sucesivamente. Esta información probabilística permite al modelo estudiante comprender las relaciones matizadas entre diferentes categorías, mejorando así su proceso de aprendizaje.
Desafíos y triunfos en la destilación
A pesar de su potencial, la recepción inicial del concepto de destilación fue tibia. El documento original fue rechazado en una conferencia. Sin embargo, su introducción coincidió con un creciente entendimiento entre los ingenieros: el hecho de que alimentar mayores cantidades de datos de entrenamiento a las redes neuronales mejoraba significativamente su rendimiento. Como resultado, el tamaño y la complejidad de los modelos aumentaron, al igual que los costos operativos asociados.
Varios investigadores han comenzado a adoptar la destilación como estrategia para crear modelos más pequeños y eficientes. En 2018, los investigadores de Google lanzaron BERT, un potente modelo de lenguaje que se volvió esencial para procesar miles de millones de búsquedas en línea. Debido a su tamaño y costo, un año después, surgió una versión destilada llamada DistilBERT, que se adoptó ampliamente en diversas aplicaciones comerciales y de investigación. Hoy en día, la destilación es una práctica común, ofrecida como servicio por líderes tecnológicos como Google, OpenAI y Amazon, siendo el artículo original citado más de 25,000 veces.
Implicaciones potenciales y direcciones futuras
Es importante destacar que la destilación requiere acceso a los mecanismos internos del modelo maestro, lo que hace poco probable que una entidad externa pueda extraer información de manera encubierta de un modelo de código cerrado como el de OpenAI. Sin embargo, un modelo estudiantil puede obtener valiosos conocimientos al formular preguntas específicas al maestro, lo que recuerda al método socrático de aprendizaje.
A medida que los investigadores continúan explorando aplicaciones innovadoras de la destilación, el laboratorio NovaSky de la Universidad de California en Berkeley ha demostrado recientemente su eficacia en la formación de modelos de razonamiento capaces de resolver problemas en múltiples pasos. Su modelo totalmente de código abierto, Sky-T1, fue entrenado con un costo inferior a $450 y logró un rendimiento comparable al de modelos mucho más grandes. Como afirmó Dacheng Li, un estudiante de doctorado en Berkeley, “La destilación es una técnica fundamental en la inteligencia artificial.”
En resumen, la llegada del chatbot R1 de DeepSeek no solo representa un avance en la tecnología de inteligencia artificial, sino que también abre un debate más amplio sobre la ética y las metodologías en el desarrollo de la IA. A medida que la industria sigue evolucionando, las implicaciones de la destilación del conocimiento y sus aplicaciones continuarán siendo un punto central en la investigación y la innovación futuras.