¿Te imaginas poder escuchar un podcast o audiolibro que fluya de manera natural durante más de 16 minutos, sin perder el hilo de la historia? Esto ya no es solo un sueño, gracias a la innovadora tecnología de modelos de lenguaje desarrollada por Sejin Park, un estudiante de doctorado en el Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST). Su creación, llamada SpeechSSM, promete revolucionar la forma en que se generan discursos, superando las limitaciones de los modelos tradicionales que dependen del texto. Su investigación, liderada por el profesor Yong Man Ro, fue presentada recientemente en arXiv y se espera que sea uno de los temas más destacados en la Conferencia Internacional sobre Aprendizaje Automático (ICML) 2025.
Limitaciones de los modelos de lenguaje existentes
Los modelos de lenguaje hablados (SLMs) han sido considerados un verdadero avance tecnológico. ¿Pero qué pasa cuando intentan generar contenido extenso? Aquí es donde las cosas se complican. Estos modelos pueden procesar el habla humana de manera directa, pero tienen problemas serios al crear discursos largos, como los que encontramos en podcasts o audiolibros. La coherencia semántica y la continuidad del hablante se ven comprometidas en discursos prolongados. A medida que la duración del discurso se incrementa, también lo hace el consumo de memoria y la complejidad del proceso, lo que hace que generar contenido cohesivo sea un verdadero reto.
La solución de SpeechSSM
Entonces, ¿cómo aborda SpeechSSM estas limitaciones? La clave está en su estructura híbrida, que combina capas de atención para enfocarse en la información reciente y capas recurrentes que mantienen el contexto a largo plazo. Esto permite que el modelo no solo genere discursos extensos, sino que lo haga de manera fluida y coherente. Además, a diferencia de sus predecesores, la carga de memoria y el uso computacional se mantienen estables, lo que significa que puede aprender y generar voz de manera eficiente.
Una de las innovaciones más sorprendentes es su enfoque de síntesis de audio no autorregresivo, conocido como SoundStorm. Este método permite crear múltiples partes del discurso al mismo tiempo, lo que mejora tanto la velocidad como la calidad del audio. A diferencia de los modelos tradicionales, que generan una palabra a la vez, este nuevo enfoque hace que el proceso sea mucho más ágil y efectivo.
Nuevas métricas de evaluación y resultados prometedores
Para evaluar SpeechSSM, se utilizó un nuevo conjunto de datos llamado LibriSpeech-Long, que permite generar discursos de hasta 16 minutos. Sejin Park ha introducido métricas de evaluación innovadoras, como SC-L (coherencia semántica a lo largo del tiempo) y N-MOS-T (puntuación media de naturalidad a lo largo del tiempo). Estas métricas ofrecen una evaluación más precisa y han demostrado que el discurso generado no solo es coherente, sino que también presenta personajes y eventos que se desarrollan de forma natural, evitando las repeticiones y desviaciones que solían ser comunes en modelos anteriores.
En palabras de Sejin Park, “Nuestro objetivo era desarrollar un modelo de lenguaje hablado capaz de generar discursos de larga duración para un uso humano real. Este logro no solo tiene el potencial de revolucionar la creación de contenido de voz, sino que también mejorará la eficacia y rapidez de las respuestas en aplicaciones de inteligencia artificial de voz, como asistentes virtuales”. Este trabajo, además, se realizó en colaboración con Google DeepMind, marcando un avance significativo hacia un contenido de voz más coherente y natural. ¿Estás listo para experimentar la próxima generación de contenido hablado?