Un equipo de investigadores de la Universidad de Oxford, junto con EleutherAI y el Instituto de Seguridad en IA del Reino Unido, ha dado un paso adelante en la protección de los modelos de lenguaje de peso abierto. Este avance, que se centra en la filtración de conocimientos potencialmente dañinos durante el entrenamiento, busca crear modelos más seguros frente a posibles actualizaciones maliciosas. ¿Por qué es tan importante esto? Porque resulta crucial en áreas sensibles como la investigación sobre amenazas biológicas.
Innovaciones en la seguridad de modelos de IA
Yarin Gal, profesor asociado de aprendizaje automático en el Departamento de Ciencias de la Computación de Oxford, subrayó la importancia de este avance: “La comunidad de investigación ha progresado considerablemente en la implementación de salvaguardias de IA en los últimos años, pero un desafío enorme sigue siendo la protección de los modelos de peso abierto. ¿Cómo podemos distribuir modelos sin aumentar los riesgos de mal uso? Nuestro estudio avanza significativamente en esta dirección”.
Este nuevo enfoque cambia completamente la narrativa sobre la seguridad en IA. En lugar de añadir salvaguardias después del hecho, las integran desde el comienzo del proceso de formación. Esto permite reducir los riesgos sin comprometer la transparencia, facilitando así la investigación y el desarrollo sin sacrificar la seguridad.
El papel de los modelos de peso abierto
Los modelos de peso abierto son clave para fomentar la investigación colaborativa y transparente en inteligencia artificial. Su disponibilidad estimula el trabajo en equipo y evita la concentración del mercado, acelerando el progreso científico. Modelos como Kimi-K2, GLM-4.5 y gpt-oss han demostrado que los modelos de peso abierto están aumentando tanto en capacidad como en influencia, alcanzando niveles que, según algunos informes, están a solo 6-12 meses de los mejores modelos cerrados.
Pero no todo es color de rosa. La apertura también conlleva riesgos. Así como estos modelos pueden ser ajustados para aplicaciones benéficas, también pueden ser manipulados para fines dañinos. Por ejemplo, los modelos de texto alterados sin salvaguardias son bastante comunes, y los generadores de imágenes abiertos se han convertido en herramientas para la producción de contenido ilegal. Dado que cualquiera puede descargar, modificar y redistribuir estos modelos, es esencial desarrollar protecciones robustas contra alteraciones.
Métodos de filtrado y resultados
El equipo de investigación adoptó un enfoque innovador: en lugar de entrenar un modelo de propósito general y luego añadir filtros, construyeron las salvaguardias durante todo el proceso de entrenamiento. Se centraron en un contexto de amenaza biológica, filtrando contenido relacionado con la biología del conjunto de datos de entrenamiento. El objetivo era negar completamente este conocimiento al modelo, en lugar de suprimirlo de forma retroactiva. Este método demostró ser más de diez veces más efectivo que las técnicas anteriores de última generación.
El modelo filtrado resistió el entrenamiento sobre hasta 25,000 documentos relacionados con amenazas biológicas, incluyendo virología y armas biológicas. Este enfoque no solo fue resistente ante ataques adversariales sostenidos, sino que también mantuvo un rendimiento comparable en tareas estándar como el razonamiento de sentido común y preguntas científicas.
El equipo utilizó una tubería de filtrado en múltiples etapas que combinaba listas de bloqueo de palabras clave y un clasificador de aprendizaje automático entrenado para detectar contenido de alto riesgo. Esto les permitió eliminar solo el material relevante, alrededor del 8-9% del conjunto de datos, manteniendo la amplitud y profundidad de la información general.
Los resultados de esta investigación son especialmente relevantes en un momento en que la gobernanza global de la IA está bajo el microscopio. Varios informes recientes han advertido sobre la posibilidad de que los modelos avanzados puedan ayudar en la creación de amenazas biológicas o químicas. Muchos gobiernos han expresado su preocupación por la falta de salvaguardias en los modelos disponibles abiertamente, que no pueden ser recuperados una vez liberados.
El coautor del estudio, Stephen Casper del Instituto de Seguridad en IA del Reino Unido, afirmó: “Al eliminar el conocimiento no deseado desde el principio, el modelo resultante no tuvo base para adquirir capacidades peligrosas, incluso después de intentos posteriores de entrenamiento. Nuestro estudio demuestra que la filtración de datos puede ser una herramienta poderosa para ayudar a los desarrolladores a equilibrar la seguridad y la innovación en la IA de código abierto”.
Conclusión y futuro de la investigación
Este estudio, titulado “Deep Ignorance: Filtering pretraining data builds tamper-resistant safeguards into open-weight LLMs”, ha sido publicado como preprint en arXiv. La investigación realizada por la Universidad de Oxford, EleutherAI y el Instituto de Seguridad en IA del Reino Unido marca un paso importante hacia un futuro en el que la inteligencia artificial sea más segura, accesible y responsable.
Con estos avances, se abre una nueva era en la investigación de IA, donde la seguridad y la colaboración pueden coexistir, preparando el camino para un uso más ético y efectivo de la inteligencia artificial en diversas aplicaciones. ¿Estamos listos para dar este salto hacia un futuro más seguro?