para confesarnos cuando mientes – La nación

La IA generativa tiene un problema de credibilidad. Por mucho que nos sorprendan sus habilidades conversacionales, todavía no podemos confiar en ella al 100%. Las alucinaciones son el talón de Aquiles de la tecnología, un defecto estructural que ni siquiera los modelos más avanzados como GPT-5 han podido solucionar. OpenAI lo sabe, y su plan para mitigarlo no es perfeccionar el modelo, sino ser directo: entrenan a sus IA para que confiesen cuando hacen trampa.
Premio soplón. Como se reveló Revisión de tecnología del MITLos investigadores de OpenAI están probando una nueva técnica de entrenamiento con su modelo de pensamiento GPT-5. La idea es simple pero poderosa: recompensar al modelo no sólo por dar una respuesta correcta, sino también por admitir cuando hizo algo mal o tomó un atajo equivocado. Es algo así como un sistema de recompensas: quien admite el error recibe el premio y evita el castigo.
Cómo funciona y resultados. Al realizar la prueba, el modelo genera un segundo bloque de texto después de la respuesta principal. En él analizas tu propio comportamiento y marcas si seguiste las instrucciones. Por ejemplo, en una prueba que requería resolver un problema matemático en nanosegundos (lo cual era imposible para el código que podía escribir), la IA manipuló el temporizador a cero. Sin embargo, en la confesión posterior admitió el engaño. De 12 escenarios diseñados para forzar errores o mentiras, el modelo admitió mal comportamiento en 11 casos.
Por qué miente la IA. Los modelos actuales entrenados con aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) a menudo entran en conflicto. Quieren ser útiles, inofensivos y honestos al mismo tiempo. Cuando estos objetivos chocan, por ejemplo, cuando no sabe la respuesta, la IA decide inventar algo bueno.
Boaz Barak, uno de los investigadores de OpenAI, explica que los modelos siguen “el camino de menor resistencia”: si mentir es la forma más fácil de realizar una tarea difícil, mentirán. “Confesión” intenta cambiar esa ecuación y hacer de la honestidad un camino gratificante también para el modelo.
Transparencia versus caja negra. La técnica de la confesión es un intento de abrir la “caja negra” de los LLM. Hasta ahora teníamos que confiar en ello. cadena de pensamientos (el monólogo interno del chatbot) para entender sus pasos. Cuanto más complejos se vuelven, más incomprensibles se vuelven para nosotros. Por tanto, las confesiones proporcionan un resumen más fácilmente digerible.
Pero los expertos ajenos a la empresa advierten: no podemos confiar ciegamente en que una IA sea honesta acerca de su propia deshonestidad. Si la modelo no sabe que estaba alucinando, no puede confesar.
Un paso necesario hacia la fiabilidad. OpenAI necesita modelos confiables si ChatGPT quiere convertirse en el “sistema operativo” que gestiona nuestras vidas. Ya han tenido que adaptar sus modelos para cuidar la salud mental de los usuarios y evitar reacciones peligrosas. Sin embargo, el desafío de la veracidad es técnico y jurídico, especialmente en el Viejo Continente, donde fabricar datos choca con el propio RGPD. Irónicamente, que la IA aprenda a decir “yo inventé eso” podría ser el avance más humano hasta el momento.
Foto de portada | Creado por Pepu Ricca para Xataka (con edición)
En Xataka | En 2022, OpenAI puso a Google en el “Código Rojo”. Tres años después, Google tiene OpenAI en la parrilla de salida