Este año ha sido testigo de avances notables en el sector de la inteligencia artificial, especialmente con la introducción de un chatbot por parte de la menos conocida empresa china, DeepSeek. Conocido como R1, este chatbot ha despertado un interés significativo, principalmente por su rendimiento impresionante, que aparentemente rivaliza con las ofertas de gigantes tecnológicos establecidos, pero que opera con una fracción del poder computacional y los costos necesarios.
Como resultado directo del anuncio de DeepSeek, los valores de las acciones de varias empresas tecnológicas occidentales experimentaron fuertes caídas. Nvidia, un importante proveedor de chips para modelos de IA, enfrentó pérdidas históricas en su capitalización de mercado en el transcurso de un solo día.
Controversias y Acusaciones
El chatbot de DeepSeek también ha estado en el centro de diversas acusaciones. Informes sugieren que la compañía podría haber adquirido información sensible del modelo propietario de OpenAI, conocido como o1, a través de un método controvertido llamado distilación de conocimiento. Esta técnica ha sido presentada en los medios como un posible cambio de juego dentro del paisaje de la IA, insinuando que DeepSeek ha descubierto un nuevo y más efectivo método para construir sistemas de IA.
Comprendiendo la Distilación de Conocimiento
Sin embargo, es crucial señalar que la distilación de conocimiento, a menudo referida simplemente como distilación, es una práctica bien establecida en el campo de la IA. Este concepto ha sido objeto de investigación académica durante más de una década y es utilizado por grandes empresas tecnológicas para mejorar sus propios algoritmos. Según Enric Boix-Adsera, investigador de la Wharton School de la Universidad de Pennsylvania, «La distilación es actualmente una de las técnicas más cruciales disponibles para mejorar la eficiencia de los modelos de IA.»
Los orígenes de la distilación se remontan a un artículo de investigación de 2015, escrito por un trío de investigadores de Google, incluido el renombrado Geoffrey Hinton, a menudo denominado el padre de la IA y laureado con el Nobel en 2024. En ese momento, los investigadores utilizaban típicamente conjuntos de modelos, un método descrito por Oriol Vinyals, científico principal en Google DeepMind, como «muchos modelos pegados entre sí», que mejoraban significativamente el rendimiento, pero que eran increíblemente difíciles y costosos de implementar.
Evolución de la Distilación
Los investigadores postularon que un error crítico en los modelos de aprendizaje automático era el tratamiento igualitario de respuestas incorrectas, sin importar su grado de inexactitud. Por ejemplo, en un escenario de clasificación de imágenes, confundir un perro con un zorro era penalizado con la misma severidad que identificar erróneamente un perro como una pizza. Esto les llevó a considerar que los modelos en conjunto probablemente poseían conocimientos sobre qué errores eran menos perjudiciales. Por lo tanto, un modelo estudiante más pequeño podría aprender del modelo maestro más grande a categorizar imágenes de manera más efectiva.
Implementación de Objetivos Suaves
Vinyals, tras conversaciones con Hinton, ideó un método para que el modelo maestro transmitiera información más matizada sobre las clasificaciones de imágenes al modelo estudiante. El avance consistió en centrarse en objetivos suaves: salidas probabilísticas en lugar de clasificaciones binarias. Por ejemplo, un modelo podría estimar un 30% de probabilidad de que una imagen represente a un perro, un 20% para un gato, un 5% para una vaca y solo un 0.5% para un coche. Al aprovechar estas probabilidades, el modelo maestro podría impartir conocimientos cruciales al estudiante, permitiéndole aprender de manera más eficiente.
A pesar de enfrentar escepticismo inicial e incluso rechazo en conferencias académicas, el concepto de distilación ganó tracción a medida que los ingenieros comenzaron a reconocer que conjuntos de datos de entrenamiento más grandes mejoraban significativamente las capacidades de las redes neuronales. Como resultado, el tamaño y la complejidad de los modelos aumentaron, junto con los costos operativos correspondientes.
Adopción Generalizada y Perspectivas Futuras
En 2018, por ejemplo, Google presentó un avanzado modelo de lenguaje conocido como BERT, que rápidamente se convirtió en integral para procesar miles de millones de búsquedas web. Sin embargo, debido a su tamaño y demandas operativas, los desarrolladores crearon posteriormente una versión destilada y más eficiente llamada DistilBERT, que se popularizó tanto en entornos comerciales como de investigación. Hoy en día, la distilación se ha vuelto omnipresente, con gigantes tecnológicos como Google, OpenAI y Amazon ofreciéndola como un servicio, demostrando su versatilidad y utilidad en el campo.
Dado que la distilación requiere acceso a los mecanismos internos del modelo maestro, es poco probable que un tercero extraiga datos de manera ilícita de un modelo de código cerrado como el o1 de OpenAI. Sin embargo, los modelos estudiantes aún pueden obtener valiosos conocimientos al interrogar al modelo maestro con consultas específicas y utilizar las respuestas para entrenar sus propios sistemas, un enfoque similar al método socrático.
Como resultado directo del anuncio de DeepSeek, los valores de las acciones de varias empresas tecnológicas occidentales experimentaron fuertes caídas. Nvidia, un importante proveedor de chips para modelos de IA, enfrentó pérdidas históricas en su capitalización de mercado en el transcurso de un solo día.0