Inteligencia artificial: un nuevo enfoque para responder con confianza

En un mundo donde la precisión puede marcar la diferencia entre la vida y la muerte, como en el ámbito médico o legal, la inteligencia artificial (IA) enfrenta un gran reto: su incapacidad de reconocer y admitir cuando no está segura. ¿Te imaginas que una máquina, antes de darte una respuesta, pudiera evaluar lo confiada que está? Un equipo de científicos de la Universidad Johns Hopkins ha propuesto un enfoque innovador que podría cambiar radicalmente la forma en que utilizamos estas tecnologías en situaciones críticas.

La necesidad de reconocer la incertidumbre

Tomar decisiones bajo presión, como lo hacen los médicos o los concursantes de un programa de televisión, exige una evaluación precisa de la información disponible. Sin embargo, ¿sabías que muchos modelos de IA actuales tienden a ofrecer respuestas incluso cuando no están seguros? Esto puede tener consecuencias serias. William Jurayj, estudiante de doctorado en ciencias de la computación y primer autor del estudio, nos dice: “Los modelos de lenguaje de última generación pasan más tiempo pensando en problemas difíciles. Entonces, nos preguntamos si este tiempo adicional podría ayudarles a determinar si un problema se resolvió correctamente”.

Para explorar esta inquietud, los investigadores analizaron cómo los modelos de lenguaje generan cadenas de razonamiento de diferentes longitudes al resolver problemas matemáticos complejos. Se preguntaron: ¿cómo afecta la longitud de estas cadenas tanto a la respuesta final del modelo como a su confianza en ella? El equipo determinó que los modelos solo deberían responder si su confianza superaba un umbral específico, lo que permitiría que la respuesta «no lo sé» fuera una opción válida.

Resultados y descubrimientos clave

Los hallazgos muestran que un mayor tiempo de reflexión generalmente mejora tanto la precisión como la confianza de los modelos. Sin embargo, incluso con tiempo suficiente para pensar, estos modelos pueden cometer errores. Al establecer un alto umbral de confianza y permitir más tiempo de reflexión, se encontró que la precisión de las respuestas, irónicamente, puede disminuir. Jurayj explica: “Cuando se exige una alta confianza, dejar que el sistema piense más tiempo significa que proporcionará más respuestas correctas, pero también más incorrectas”.

Ante esta problemática, el equipo propuso tres configuraciones de “probabilidades” para penalizar las respuestas incorrectas: las probabilidades de examen, donde no hay penalización por respuestas erróneas; las probabilidades de “Jeopardy!”, donde las respuestas correctas se recompensan al mismo ritmo que se penalizan las incorrectas; y las probabilidades de alto riesgo, donde una respuesta incorrecta se penaliza más severamente que una respuesta correcta se recompensa.

Implicaciones para el futuro de la IA

Con esta nueva metodología, los investigadores sugieren que un modelo debería negarse a responder si no tiene suficiente confianza en su respuesta después de haber agotado su capacidad de procesamiento. Aunque esto podría resultar en un mayor número de preguntas sin respuesta, Jurayj considera que, en realidad, no es algo negativo, especialmente en entornos de alto riesgo donde una respuesta incorrecta podría ser perjudicial. “Es preferible esperar para obtener una respuesta correcta que arriesgarse a recibir una incorrecta que parece correcta”, afirma.

El equipo invita a la comunidad de investigación en IA a reportar el desempeño de sus modelos bajo diferentes configuraciones de penalización, con la esperanza de que todos puedan beneficiarse de una IA con una confianza mejor calibrada. “Esperamos que la comunidad de investigación acepte nuestra invitación a reportar el desempeño en escenarios con costos por respuestas incorrectas, ya que esto motivará el desarrollo de mejores métodos para cuantificar la incertidumbre”, concluyen.