Компания OpenAI представила GPT-5.4 — свою самую мощную и эффективную флагманскую модель на сегодняшний день. Релиз состоялся одновременно в трёх продуктах: ChatGPT, API и Codex. Модель доступна в двух вариантах — GPT-5.4 Thinking (с расширенными возможностями рассуждения) и GPT-5.4 Pro (для максимальной производительности при решении наиболее сложных задач).
Что такое GPT-5.4 и зачем она нужна
GPT-5.4 — это не просто очередное обновление. По словам OpenAI, модель объединяет в себе лучшие достижения компании сразу в трёх направлениях: рассуждение, программирование и агентные рабочие процессы. В её основу легли возможности GPT-5.3-Codex в области кодирования, которые теперь дополнены принципиально новыми функциями работы с инструментами, программными средами и профессиональными задачами — от электронных таблиц до презентаций.
Ключевая идея релиза — создать модель, которая выполняет сложную реальную работу точно, эффективно и быстро, требуя от пользователя минимального числа уточнений.
Главные возможности
Управление компьютером
GPT-5.4 стала первой универсальной моделью OpenAI с нативными возможностями работы с компьютером. Это означает, что агенты на её основе могут напрямую управлять интерфейсами приложений: видеть скриншоты, кликать мышью, вводить текст с клавиатуры и перемещаться между программами — без участия человека.
На бенчмарке OSWorld-Verified, который оценивает навигацию в среде рабочего стола, GPT-5.4 достигла 75,0% успешности — против 47,3% у GPT-5.2 и 72,4% у среднестатистического человека. На WebArena-Verified (тест работы с браузером) модель показала 67,3%, а на Online-Mind2Web — рекордные 92,8%.
Как отмечает 9to5Mac, GPT-5.4 — это также первая основная модель OpenAI, обученная поддерживать «компактизацию» (compaction), что позволяет агентам выполнять длительные задачи, сохраняя ключевой контекст.
Профессиональные задачи и работа со знаниями
На бенчмарке GDPval, который проверяет способность ИИ выполнять задачи в 44 профессиях из 9 ключевых отраслей экономики США, GPT-5.4 соответствует или превосходит отраслевых специалистов в 83,0% случаев — против 71,0% у GPT-5.2.
Особое внимание уделено работе с офисными документами. На внутреннем бенчмарке задач инвестиционного банкинга (моделирование в Excel) GPT-5.4 достигла 87,5% против 68,4% у предшественника. В тестах на создание презентаций люди-оценщики в 68% случаев предпочли результаты GPT-5.4.
«GPT-5.4 — лучшая модель, которую мы когда-либо пробовали. Она занимает первое место в нашем бенчмарке APEX-Agents, измеряющем производительность для профессиональных услуг. Она отлично справляется с созданием долгосрочных результатов — презентаций, финансовых моделей, юридического анализа — обеспечивая максимальную производительность при более высокой скорости и меньшей стоимости, чем у конкурентов». — Брендан Фуди, генеральный директор Mercor
Программирование
GPT-5.4 соответствует или превосходит GPT-5.3-Codex на SWE-Bench Pro (57,7% против 56,8%), при этом обеспечивая более низкую задержку. В режиме /fast в Codex модель работает до 1,8× быстрее при сохранении того же уровня интеллекта. Разработчики особо отмечают заметно улучшившееся качество фронтенд-разработки — более эстетичные и функциональные результаты по сравнению с любыми предыдущими моделями.
Поиск инструментов (Tool Search)
Одно из ключевых нововведений для разработчиков — поиск инструментов. Раньше описания всех доступных инструментов включались в промпт целиком, что при большом их числе добавляло десятки тысяч токенов к каждому запросу. Теперь модель получает компактный список и обращается к описанию инструмента только по мере необходимости.
По данным OpenAI, в тестировании на 250 задачах бенчмарка Scale’s MCP Atlas с 36 серверами MCP новый подход сократил общее использование токенов на 47% при сохранении той же точности. Как пишет TechCrunch, это делает запросы быстрее и дешевле, особенно в системах с большим числом инструментов.
Точность и снижение галлюцинаций
GPT-5.4 — самая фактически точная модель OpenAI на сегодняшний день. По сравнению с GPT-5.2:
- отдельные утверждения на 33% реже оказываются ложными;
- полные ответы на 18% реже содержат какие-либо ошибки.
Контекстное окно в 1 миллион токенов
В API модель поддерживает контекстное окно до 1 миллиона токенов — крупнейшее из когда-либо предлагавшихся OpenAI. Это позволяет агентам анализировать целые кодовые базы, обширные документальные коллекции или длинные агентные траектории в рамках одного запроса.
Управляемость и безопасность
В ChatGPT GPT-5.4 Thinking теперь предваряет ответы планом рассуждений — пользователь может скорректировать направление прямо в процессе генерации, не начиная диалог заново. Функция уже доступна на chatgpt.com и в приложении для Android.
В части безопасности OpenAI представила новую оценку с открытым исходным кодом — управляемость CoT (цепочки рассуждений). Исследование показало, что способность GPT-5.4 Thinking намеренно скрывать свои рассуждения крайне низка — это положительный сигнал: мониторинг цепочки рассуждений остаётся эффективным инструментом контроля безопасности.
Доступность и цены
GPT-5.4 Thinking доступна пользователям ChatGPT Plus, Team и Pro с 5 марта 2026 года. Пользователи планов Enterprise и Edu могут включить ранний доступ в настройках администратора. GPT-5.4 Pro доступна на тарифах Pro и Enterprise.
В API модель доступна как gpt-5.4, а Pro-версия — как gpt-5.4-pro.
| Модель | Входные токены | Кэшированные | Выходные токены |
|---|---|---|---|
| gpt-5.2 | $1,75 / M | $0,175 / M | $14 / M |
| gpt-5.4 | $2,50 / M | $0,25 / M | $15 / M |
Batch и Flex-тарификация доступны по ставке вдвое ниже стандартной; приоритетная обработка — вдвое выше.
Итог
GPT-5.4 — это качественный скачок в развитии ИИ для профессиональной работы. Впервые в одной модели объединены передовые возможности рассуждения, кодирования и нативного управления компьютером. Модель превосходит человека в навигации по рабочему столу, устанавливает новые рекорды в задачах, связанных с профессиональными знаниями, и при этом становится значительно эффективнее по токенам.
Для разработчиков, аналитиков, юристов и финансистов GPT-5.4 — это уже не просто ассистент, а полноценный цифровой сотрудник, способный самостоятельно выполнять сложные многоэтапные задачи.