in

La startup china de IA DeepSeek presenta un chatbot revolucionario

El chatbot R1 de DeepSeek está revolucionando el panorama de la inteligencia artificial: descubre por qué.

la startup china de ia deepseek presenta un chatbot revolucionario python 1758491321

En un movimiento impresionante a principios de este año, la firma de inteligencia artificial DeepSeek, de China, lanzó su chatbot conocido como R1. La presentación de R1 atrajo una considerable atención, no solo por sus capacidades, sino también por las implicaciones que tiene para el sector más amplio de la inteligencia artificial. Esta empresa relativamente desconocida afirmó que su chatbot podría competir con las ofertas de gigantes establecidos, utilizando solo una fracción de los recursos computacionales y del gasto financiero.

La respuesta del mercado fue inmediata y dramática, con las acciones de varias empresas tecnológicas occidentales desplomándose. Notablemente, Nvidia, fabricante de los chips que alimentan los principales modelos de IA, experimentó la pérdida más significativa en un solo día en su historia de mercado.

Acusaciones y la realidad de la destilación de conocimiento

Sin embargo, no todo el revuelo en torno a R1 fue positivo. Algunas fuentes alegaron que DeepSeek había incurrido en prácticas poco éticas al adquirir información del modelo propietario de OpenAI, denominado o1, utilizando un método conocido como destilación de conocimiento. Esta técnica implica simplificar modelos complejos, pero la noción de que DeepSeek había descubierto un enfoque novedoso y más eficaz para el desarrollo de IA provocó conmoción en la comunidad tecnológica.

Contrario a las narrativas sensacionalistas, la destilación de conocimiento es un método bien conocido en el campo de la IA, documentado en investigaciones durante más de una década. Muchas grandes empresas tecnológicas implementan esta estrategia para mejorar la eficiencia de sus modelos. Enric Boix-Adsera, experto en destilación en la Wharton School de la Universidad de Pensilvania, enfatizó su importancia, afirmando: «La destilación es una de las herramientas más esenciales que las empresas tienen actualmente para optimizar modelos.»

Los orígenes de la destilación de conocimiento

Los cimientos de la destilación de conocimiento pueden trazarse hasta un artículo seminal publicado en 2015 por un trío de investigadores de Google, incluido el estimado Geoffrey Hinton, a menudo referido como el padre de la IA y un futuro laureado con el Nobel. En ese momento, los investigadores utilizaban comúnmente conjuntos de modelos, esencialmente, agrupaciones de modelos que trabajaban juntos para mejorar el rendimiento. Sin embargo, este enfoque resultó costoso y engorroso, lo que llevó a la búsqueda de soluciones más eficientes.

Vinyals, un científico principal en Google DeepMind y uno de los autores del artículo, señaló que su objetivo era destilar el conocimiento de múltiples modelos en un solo modelo más eficiente. Identificaron una limitación crítica en los algoritmos de aprendizaje automático: una penalización igual para todas las respuestas incorrectas, sin importar la gravedad del error. Por ejemplo, confundir un perro con un zorro recibía la misma penalización que confundirlo con una pizza.

Evolución y adopción de técnicas de destilación

Tras extensas discusiones con Hinton, Vinyals y sus colegas idearon un método para que el modelo más grande, conocido como el modelo maestro, transmitiera sus conocimientos sobre categorías de imágenes a un modelo estudiante más pequeño. Esto se logró enfocándose en objetivos suaves, que son, esencialmente, distribuciones de probabilidad asignadas por el modelo maestro en lugar de clasificaciones rígidas. Por ejemplo, al evaluar una imagen, el maestro podría indicar una probabilidad del 30% de que sea un perro, 20% para un gato, y así sucesivamente.

Este proceso permitió al modelo maestro transmitir relaciones matizadas entre categorías, como indicar que los perros y los gatos son relativamente cercanos en clasificación, mientras que los coches son claramente diferentes. Los investigadores encontraron que este enfoque mejoraba significativamente la eficiencia del proceso de aprendizaje del estudiante, permitiendo que un modelo complicado se destilara en una versión más simple con una pérdida mínima de precisión.

Implementación generalizada e impacto

A pesar de su potencial, la recepción inicial de este artículo fue tibia, y enfrentó el rechazo de una conferencia. Sin embargo, a medida que la tecnología de IA avanzaba, la necesidad de modelos más compactos creció junto con la expansión de datos de entrada en redes neuronales. Esto llevó al desarrollo de modelos como BERT de Google, que posteriormente se destiló en una versión más manejable llamada DistilBERT, ganando aceptación en diversas industrias.

Hoy en día, las técnicas de destilación están ampliamente disponibles, con grandes empresas como Google, OpenAI y Amazon ofreciendo estos servicios. El artículo original sobre destilación ha acumulado más de 25,000 citas, reflejando su importancia en el campo. Cabe señalar que para que ocurra la destilación, es necesario acceder a las estructuras internas del modelo maestro. Por lo tanto, una entidad externa no puede extraer conocimiento de manera encubierta de un modelo de código cerrado como el o1 de OpenAI.

Direcciones futuras y aplicaciones de la destilación

La respuesta del mercado fue inmediata y dramática, con las acciones de varias empresas tecnológicas occidentales desplomándose. Notablemente, Nvidia, fabricante de los chips que alimentan los principales modelos de IA, experimentó la pérdida más significativa en un solo día en su historia de mercado.0

La respuesta del mercado fue inmediata y dramática, con las acciones de varias empresas tecnológicas occidentales desplomándose. Notablemente, Nvidia, fabricante de los chips que alimentan los principales modelos de IA, experimentó la pérdida más significativa en un solo día en su historia de mercado.1

¿Qué piensas?

Escrito por Staff

el uso de chatgpt se dispara con el regreso de los estudiantes a las aulas python 1758487596

El uso de ChatGPT se dispara con el regreso de los estudiantes a las aulas