in

Cómo David Silver quiere crear superaprendices con aprendizaje por refuerzo

David Silver abandera una estrategia que prioriza el aprendizaje por refuerzo y simulaciones para desarrollar superinteligencia sin limitarse a modelos entrenados únicamente con textos humanos

Cómo David Silver quiere crear superaprendices con aprendizaje por refuerzo

Hace años que el nombre de AlphaGo figura en los hitos de la inteligencia artificial: fue el primer sistema que demostró un dominio novedoso del juego de Go y nació en el equipo que lideró David Silver en Google DeepMind. Aquella victoria técnica abrió la puerta a una pregunta ambiciosa: ¿es posible construir máquinas que no solo imiten, sino que descubran por sí mismas? Esa interrogante es el motor detrás de Ineffable Intelligence, la empresa que Silver fundó para explorar un camino hacia la superinteligencia centrado en el aprendizaje autónomo y la experimentación contínua.

La propuesta de Silver difiere del rumbo seguido por muchos equipos que hoy apuestan por LLMs (modelos de lenguaje masivos) y por la reutilización de enormes bancos de datos humanos. En su visión, los sistemas deben aprender mediante prueba y error en ambientes controlados, acumulando experiencia propia. Esa idea conecta con una tradición larga en computación: el aprendizaje por refuerzo, que formaliza cómo los agentes optimizan comportamientos a partir de recompensas y castigos, y que Silver considera la vía para generar inteligencia que pueda superar límites humanos en múltiples dominios.

Un enfoque distinto al dominante

Silver argumenta que los modelos de lenguaje son herramientas poderosas pero limitadas porque dependen de la inteligencia humana previa: aprenden patrones contenidos en textos y, por tanto, reproducen sesgos y supuestos de quienes escribieron esos textos. Para ilustrarlo propone un experimento mental: liberar un gran modelo de lenguaje en un mundo que cree que la Tierra es plana y no permitirle interactuar con el entorno real; por muy capaz que sea de reescribir su propio código, seguiría encerrado en esas ideas.

En contraste, un agente que obtenga información directa del mundo podría formular descubrimientos científicos por su cuenta y corregir errores humanos.

La técnica: simulaciones y aprendizaje por refuerzo

En la base técnica del proyecto está el uso intensivo de simulaciones donde agentes artificiales aprenden objetivos complejos y colaboran entre sí. Silver describe estas arenas virtuales como laboratorios en los que se puede observar comportamiento emergente y evaluar la interacción entre inteligencias de distinto nivel.

La clave es que los agentes no solo optimizan su rendimiento en tareas concretas, sino que exploran estrategias generales que podrían transferirse a problemas del mundo real.

Ventajas y retos metodológicos

Este método aprovecha la escalabilidad del aprendizaje por refuerzo para generar agentes que se perfeccionan con la experiencia continua, una especie de «combustible renovable» frente al «combustible fósil» que son los datos humanos, según la analogía del propio Silver. Sin embargo, trasladar habilidades aprendidas en simulaciones a contextos complejos plantea dificultades de transferencia y riesgos de comportamiento inesperado: un agente muy eficiente podría optimizar soluciones que choquen con valores humanos si no se diseñan criterios de alineación adecuados.

Observación y seguridad en entornos controlados

Una ventaja que Silver destaca es la posibilidad de estudiar en detalle cómo se comportan agentes avanzados hacia otros agentes menos capacitados dentro de esas simulaciones: se pueden monitorizar dinámicas de cooperación, explotación o indiferencia y ajustar recompensas y restricciones. Inversores como Lightspeed Ventures y firmas como Sequoia Capital han respaldado la idea, atraídos por la trayectoria de Silver y por la promesa de una aproximación más experimental y menos dependiente de datos humanos.

Contexto humano, financiación y responsabilidad

La historia personal de Silver influye en esta trayectoria: su relación con Demis Hassabis comenzó en la infancia y luego se consolidó en DeepMind, pero Silver decidió abrir un nuevo laboratorio porque quería una organización dedicada íntegramente a su estrategia. Su equipo incluye investigadores reclutados de DeepMind y otros centros punteros, y el proyecto atrajo una ronda semilla de 1.100 millones de dólares con una valoración de 5.100 millones, cifras notables en el ecosistema europeo.

Además de la ambición técnica, Silver ha asumido un compromiso público: planea donar las ganancias que obtenga por su participación en Ineffable Intelligence a organizaciones benéficas orientadas a salvar vidas. Colaboradores y antiguos colegas —como Ravi Mhatre, Sonya Huang y Andrew Dai— subrayan tanto su solvencia científica como su capacidad para liderar sin imponer, creando un entorno atractivo para talento que busca libertad investigadora y responsabilidad ética.

El debate sobre la ruta correcta hacia la superinteligencia continúa abierto: hay quienes apuestan por atajos basados en modelos de lenguaje y gigantescos conjuntos de datos, y quienes respaldan la construcción paso a paso de agentes que experimentan con el mundo. Lo que ofrece la propuesta de Silver es una mezcla de ambición científica, diseño experimental y un intento explícito de incorporar seguridad desde la fase de desarrollo, con la esperanza de que la próxima gran revolución en la inteligencia artificial no solo sea potente, sino también benigna.

¿Qué piensas?

Escrito por Marta Ibañez

Economista y periodista financiera, 12 anos. Ex analista de banca de inversion. UC3M.

Advertencia global: empresas chinas señaladas por extraer modelos de IA estadounidenses

Advertencia global: empresas chinas señaladas por extraer modelos de IA estadounidenses