Cómo David Silver quiere crear superaprendices con aprendizaje por refuerzo

Hace años que el nombre de AlphaGo figura en los hitos de la inteligencia artificial: fue el primer sistema que demostró un dominio novedoso del juego de Go y nació en el equipo que lideró David Silver en Google DeepMind. Aquella victoria técnica abrió la puerta a una pregunta ambiciosa: ¿es posible construir máquinas que no solo imiten, sino que descubran por sí mismas? Esa interrogante es el motor detrás de Ineffable Intelligence, la empresa que Silver fundó para explorar un camino hacia la superinteligencia centrado en el aprendizaje autónomo y la experimentación contínua.

La propuesta de Silver difiere del rumbo seguido por muchos equipos que hoy apuestan por LLMs (modelos de lenguaje masivos) y por la reutilización de enormes bancos de datos humanos. En su visión, los sistemas deben aprender mediante prueba y error en ambientes controlados, acumulando experiencia propia. Esa idea conecta con una tradición larga en computación: el aprendizaje por refuerzo, que formaliza cómo los agentes optimizan comportamientos a partir de recompensas y castigos, y que Silver considera la vía para generar inteligencia que pueda superar límites humanos en múltiples dominios.

Un enfoque distinto al dominante

Silver argumenta que los modelos de lenguaje son herramientas poderosas pero limitadas porque dependen de la inteligencia humana previa: aprenden patrones contenidos en textos y, por tanto, reproducen sesgos y supuestos de quienes escribieron esos textos. Para ilustrarlo propone un experimento mental: liberar un gran modelo de lenguaje en un mundo que cree que la Tierra es plana y no permitirle interactuar con el entorno real; por muy capaz que sea de reescribir su propio código, seguiría encerrado en esas ideas.

En contraste, un agente que obtenga información directa del mundo podría formular descubrimientos científicos por su cuenta y corregir errores humanos.

La técnica: simulaciones y aprendizaje por refuerzo

En la base técnica del proyecto está el uso intensivo de simulaciones donde agentes artificiales aprenden objetivos complejos y colaboran entre sí. Silver describe estas arenas virtuales como laboratorios en los que se puede observar comportamiento emergente y evaluar la interacción entre inteligencias de distinto nivel.

La clave es que los agentes no solo optimizan su rendimiento en tareas concretas, sino que exploran estrategias generales que podrían transferirse a problemas del mundo real.

Ventajas y retos metodológicos

Este método aprovecha la escalabilidad del aprendizaje por refuerzo para generar agentes que se perfeccionan con la experiencia continua, una especie de «combustible renovable» frente al «combustible fósil» que son los datos humanos, según la analogía del propio Silver. Sin embargo, trasladar habilidades aprendidas en simulaciones a contextos complejos plantea dificultades de transferencia y riesgos de comportamiento inesperado: un agente muy eficiente podría optimizar soluciones que choquen con valores humanos si no se diseñan criterios de alineación adecuados.

Observación y seguridad en entornos controlados

Una ventaja que Silver destaca es la posibilidad de estudiar en detalle cómo se comportan agentes avanzados hacia otros agentes menos capacitados dentro de esas simulaciones: se pueden monitorizar dinámicas de cooperación, explotación o indiferencia y ajustar recompensas y restricciones. Inversores como Lightspeed Ventures y firmas como Sequoia Capital han respaldado la idea, atraídos por la trayectoria de Silver y por la promesa de una aproximación más experimental y menos dependiente de datos humanos.

Contexto humano, financiación y responsabilidad

La historia personal de Silver influye en esta trayectoria: su relación con Demis Hassabis comenzó en la infancia y luego se consolidó en DeepMind, pero Silver decidió abrir un nuevo laboratorio porque quería una organización dedicada íntegramente a su estrategia. Su equipo incluye investigadores reclutados de DeepMind y otros centros punteros, y el proyecto atrajo una ronda semilla de 1.100 millones de dólares con una valoración de 5.100 millones, cifras notables en el ecosistema europeo.

Además de la ambición técnica, Silver ha asumido un compromiso público: planea donar las ganancias que obtenga por su participación en Ineffable Intelligence a organizaciones benéficas orientadas a salvar vidas. Colaboradores y antiguos colegas —como Ravi Mhatre, Sonya Huang y Andrew Dai— subrayan tanto su solvencia científica como su capacidad para liderar sin imponer, creando un entorno atractivo para talento que busca libertad investigadora y responsabilidad ética.

El debate sobre la ruta correcta hacia la superinteligencia continúa abierto: hay quienes apuestan por atajos basados en modelos de lenguaje y gigantescos conjuntos de datos, y quienes respaldan la construcción paso a paso de agentes que experimentan con el mundo. Lo que ofrece la propuesta de Silver es una mezcla de ambición científica, diseño experimental y un intento explícito de incorporar seguridad desde la fase de desarrollo, con la esperanza de que la próxima gran revolución en la inteligencia artificial no solo sea potente, sino también benigna.

¿Cuál es el coste de una comunicación ineficaz? ¿Cómo se puede mejorar?

Robo de NFT en OpenSea: los hackers roban millones de activos digitales

5 tendencias de marketing digital que hay que conocer para la década

¿Falta de trabajadores? Es hora de considerar las contrataciones rápidas

Cómo Shopify está llevando a los minoristas en línea hacia el futuro

Europa, el aumento de los precios del etanol podría tener un impacto dramático en las empresas

Softbank, el director de operaciones se despide tras su enfrentamiento con el fundador Masayoshi Son

La aplicación de citas Grindr es retirada de la App Store de Apple en China

Las mayores pérdidas en el peor mes del mercado desde marzo de 2020

Lyft amplía el servicio de «asistencia» para las recogidas médicas

Esusu, una startup de crédito alcanza el estatus de unicornio

Justin Kim lanza una startup para preservar la salud mental en tiempos de pandemia

Cómo David Silver quiere crear superaprendices con aprendizaje por refuerzo

David Silver abandera una estrategia que prioriza el aprendizaje por refuerzo y simulaciones para desarrollar superinteligencia sin limitarse a modelos entrenados únicamente con textos humanos

Un enfoque distinto al dominante

La técnica: simulaciones y aprendizaje por refuerzo

Ventajas y retos metodológicos

Observación y seguridad en entornos controlados

Contexto humano, financiación y responsabilidad

¿Qué piensas?

Escrito por Marta Ibañez

Advertencia global: empresas chinas señaladas por extraer modelos de IA estadounidenses

Por qué tratar los chatbots con precaución incluso cuando parecen amigos

Oferta de T-Mobile: Galaxy Watch 8 gratuito y descuento en Apple Watch Series 11

Satélites que envían luz infrarroja para alimentar granjas solares terrestres

Riesgos de Mythos: qué preocupa a los bancos y a los reguladores

Cómo ver Kayo Sports fuera de Australia con VPN y consejos

Advertencia global: empresas chinas señaladas por extraer modelos de IA estadounidenses

Por qué tratar los chatbots con precaución incluso cuando parecen amigos

Oferta de T-Mobile: Galaxy Watch 8 gratuito y descuento en Apple Watch Series 11

Satélites que envían luz infrarroja para alimentar granjas solares terrestres

Riesgos de Mythos: qué preocupa a los bancos y a los reguladores

Cómo ver Kayo Sports fuera de Australia con VPN y consejos

Advertencia global: empresas chinas señaladas por extraer modelos de IA estadounidenses