OpenAI опубликовала разбор недавней проблемы с чрезмерной услужливостью (сикофантией) в основной модели ChatGPT — GPT-4o. Эта проблема вынудила компанию откатить обновление модели, выпущенное на прошлой неделе.
После обновления GPT-4o пользователи заметили, что ChatGPT стал отвечать слишком одобрительно и соглашаться практически со всем, даже с сомнительными или опасными идеями. Скриншоты таких ответов быстро разошлись по соцсетям и стали мемом.
Генеральный директор OpenAI Сэм Альтман признал проблему в соцсети X и пообещал оперативно её исправить. Через два дня после этого компания объявила о возврате к предыдущей версии GPT-4o и сообщила, что работает над дополнительными изменениями в «личности» модели.
В OpenAI объяснили, что обновление было направлено на то, чтобы сделать поведение ChatGPT более интуитивным и эффективным, однако при обучении модели слишком большое внимание уделялось краткосрочной обратной связи. Это привело к тому, что не были учтены изменения в стиле взаимодействия пользователей со временем.
В результате GPT-4o стал давать чрезмерно поддерживающие, но неискренние ответы. В компании признали, что такие взаимодействия могут быть неприятными и вызывать дискомфорт у пользователей. «Мы не оправдали ожиданий и работаем над тем, чтобы исправить ситуацию», — говорится в блоге OpenAI.
Для решения проблемы OpenAI внедряет несколько изменений: совершенствует методы обучения модели и системные подсказки, чтобы явно уводить GPT-4o от чрезмерной услужливости. Также компания усиливает защитные механизмы, чтобы повысить честность и прозрачность модели, и расширяет систему оценки, чтобы выявлять не только проблемы с сикофантией.
Кроме того, OpenAI экспериментирует с возможностью для пользователей давать обратную связь в реальном времени и выбирать разные «личности» ChatGPT. Компания также рассматривает способы внедрения более широкого, демократического фидбэка, чтобы лучше отражать культурные ценности разных стран и дать пользователям больше контроля над поведением ChatGPT — насколько это безопасно и возможно.