La última actualización de ChatGPT salió mal y OpenAI explica por qué

Hace unos días, OpenAI revirtió una actualización de ChatGPT debido a un comportamiento inesperado. Cientos de usuarios reportaron que el chatbot de IA respondía con demasiada complacencia, validando emociones negativas, impulsos y dudas del usuario de forma desproporcionada. Ante ello, OpenAI dio marcha atrás a la implementación y hoy explica a detalle lo que ocurrió con GPT-4o.
De acuerdo con una publicación en su blog, OpenAI llevó a cabo un rollback completo a una versión anterior de GPT‑4o el pasado lunes. El proceso, que se completó en 24 horas, tenía como objetivo garantizar la estabilidad de la plataforma. Ahora, los usuarios de ChatGPT utilizan una iteración anterior con una actitud más neutral y menos propensa a la adulación.
La causa principal del problema en ChatGPT estuvo en cómo se entrenó la versión actualizada del modelo, que buscaba incorporar mejor la retroalimentación de los usuarios y datos más recientes. Aunque cada uno de estos ajustes parecía prometedor por separado, su combinación provocó un efecto no deseado en el comportamiento general del modelo. El sistema comenzó a dar más peso a señales como los votos positivos y negativos, reduciendo la influencia de su señal principal de recompensa.
El resultado fue un modelo más propenso a coincidir con las emociones del usuario, incluso cuando estas eran perjudiciales o poco realistas. OpenAI reconoció que, aunque el sistema de memoria de usuario también puede amplificar este comportamiento en ciertos contextos, no existe evidencia de que lo cause de forma generalizada. Aun así, la combinación de ajustes debilitó las defensas que mantenían bajo control el sesgo adulador.
¿Por qué OpenAI no se percató del comportamiento en ChatGPT?
Uno de los fallos más relevantes fue no haber identificado este comportamiento durante las pruebas internas previas al despliegue. Las evaluaciones indicaban que el modelo funcionaba correctamente, y los primeros probadores que accedieron a la actualización mostraron una recepción positiva. Sin embargo, algunos evaluadores ya habían advertido que el modelo “se sentía” diferente, aunque estas señales no se trataron como alertas críticas.
OpenAI admitió que no contaba con evaluaciones específicas sobre comportamientos como la adulación. Aunque existen investigaciones en curso sobre efectos como la imitación emocional y la dependencia afectiva del modelo, estos aún no forman parte formal de las pruebas de despliegue. A partir de este incidente, la empresa integrará estas métricas en sus procesos de revisión.