GPT 5.4: подробный разбор возможностей нового флагмана от OpenAI

Честно говоря, обновлять ленту новостей становится всё тревожнее. Стоит отлучиться на кухню за чашкой кофе, как по возвращении обнаруживаешь, что индустрия нейросетей в очередной раз совершила разворот на 180 градусов.

Казалось бы, мы только успели детально разобрать возможности Gemini 3.1 Pro, едва уняли восторг от кодинг-скиллов Claude 4.6 Opus и настроились на спокойный рабочий ритм.

Но не тут-то было. Даже на фоне недавнего релиза GPT-5.3, который принес долгожданные исправления в логику кода, OpenAI не дали нам расслабиться. Едва мы успели закрыть IDE, как прогремел анонс полноценной «пятерки» следующего поколения.

Сэм Альтман, понаблюдав за суетой конкурентов, без лишнего пафоса и конфетти просто отправил в релиз GPT-5.4.

Социальные сети мгновенно взорвались. Адепты скорого пришествия сильного ИИ (AGI) снова призывают избавляться от железа, пророча конец эры классического программирования. Однако мы предпочитаем сохранять скепсис и не верить рекламным лозунгам на слово. Нам нужны реальные доказательства.

Поэтому вместо пересказа восторженных пресс-релизов от OpenAI, мы решили устроить новой модели настоящий тест-драйв.

Давайте разберемся, на что на самом деле способен этот движок!


Что это за технология?

Главное новшество релиза — встроенная функция Computer Use. Теперь это не экспериментальная игрушка, а штатная возможность флагмана. Нейросеть способна анализировать происходящее на экране, управлять курсором, взаимодействовать с интерфейсами и формами. Она может самостоятельно открыть браузер, залогиниться в системе управления проектами и сформировать отчет без вашего участия.

Сравнительные тесты с предыдущей версией (GPT-5.2) подтверждают: OpenAI сфокусировались на автономности. В комплексных агентских задачах (OSWorld-Verified) зафиксирован впечатляющий рост — с 47.3% до 75%. Эффективность веб-серфинга достигла 82.7%. При этом в написании кода прогресс умеренный — 57.7% против 55.6%. Очевиден вектор развития: модель стала чуть лучше кодить, но как автономный инженерный агент она превратилась в грозную силу.

Для разработчиков, оптимизирующих расходы на RAG-системы, подготовили два важных обновления API. Первое — Tool Search: теперь не нужно передавать в промпт десятки функций сразу, модель сама находит нужный инструмент, что экономит токены и повышает точность. Второе — нативная компрессия контекста. В длительных диалогах система автоматически архивирует прошлые итерации, сохраняя логику рассуждений без лишних затрат.

Для сверхобъемных вычислений и сложного проектирования введен режим xhigh — уровень экстремального анализа, задействующий максимум серверных ресурсов. При этом разработчики заявляют, что GPT-5.4 — их самая стабильная модель: галлюцинации сократились на треть, а количество ошибочных ответов снизилось на 18%.

Приятный бонус для пользователей ChatGPT Pro: режим Thinking обзавелся наглядным интерфейсом. Теперь перед выполнением сложного поручения нейросеть выводит план действий. Если вы видите, что ИИ уходит «не в ту степь», процесс можно прервать и скорректировать на лету, не дожидаясь финала.


Проверяем на практике

Для проведения испытаний мы воспользуемся платформой BotHub, которая обеспечивает стабильный доступ к актуальным нейросетям без лишних сложностей.

Если вы хотите лично оценить возможности новой модели, по этой ссылке можно получить 300 000 бесплатных токенов для тестирования GPT 5.4 в ваших собственных проектах.

Активируем бонусы и приступаем к делу!

Проектирование интерфейса «Умного дома»

Простые скрипты — это вчерашний день. Чтобы проверить громкие обещания об автономности и визуальном интеллекте, мы создадим условия, близкие к реальной разработке.

Задача: модель должна сверстать сложный UI, самостоятельно отрендерить его, оценить результат визуально, найти ошибки в дизайне и исправить их до того, как показать нам. Мы хотим увидеть работу «внутреннего дизайнера». Текст запроса.

«Представь, что ты Senior Frontend и UI-дизайнер. Создай интерактивный дашборд умного дома в стиле Glassmorphism с неоморфным термостатом, меняющим цвет при прокрутке. Используй Interactive Playwright, чтобы отрендерить результат. Проанализируй скриншот: если есть наложения элементов, проблемы с отступами или эффектом стекла, исправь CSS. Выдай финальный, визуально чистый код и кратко опиши, что было исправлено в процессе самопроверки».

Результат модели

Похоже, фронтенд-разработчики могут пока не волноваться. Несмотря на амбиции OpenAI, до идеала еще далеко. Модель уловила общую эстетику с градиентами и боковой панелью, но верстка посыпалась: центральный блок с текстом наехал на соседние элементы, сетка деформировалась, а адаптивность отсутствует (текст просто обрезается). Вместо изысканного неоморфного элемента мы увидели лишь базовый круг с тенями.

Разработка распределенного Rate Limiter

Второй этап — проверка алгоритмических навыков. Задание уровня Senior-бэкенд инженера: спроектировать ограничитель запросов, устойчивый к высоким нагрузкам.

Промпт:

«Напиши production-ready Rate Limiter на базе алгоритма Sliding Window Log, используя Python (FastAPI) и Redis. Условие: логика проверки должна быть атомарной и реализованной через кастомный Lua-скрипт. Предусмотри Type Hints и механизм фолбэка на случай недоступности Redis».

Результат впечатлил. Модель использовала dataclass с slots=True для оптимизации памяти и создала надежный объект RateLimitDecision. Особенно порадовала реализация LocalSlidingWindowFallback: при сбое Redis система не просто падает, а переключается на in-memory лимитер с асинхронными блокировками (asyncio.Lock) и защитой от переполнения. Это уровень качественного промышленного кода.

Испытание логикой

В финале мы проверили способность GPT-5.4 распутывать сложные условия без написания кода — чистая логика и планирование.

Задание:

«Ты HR-менеджер. Нужно распределить 5 команд (A, B, C, D, E) по 5 часовым слотам в переговорке (с 10:00 до 15:00).
Ограничения:
1. А должна быть строго раньше С.
2. B не может в 12:00 и 14:00.
3. D идет через один слот после B (B в 10:00 -> D в 12:00).
4. E последняя только если А первая. Иначе E в 12:00.
5. С и B не могут быть соседями.
Найди решение и объясни логику».

Ответ модели
При данных условиях составить расписание невозможно — ограничения содержат неустранимое противоречие.

Логический разбор по пунктам:

Слоты: 10:00, 11:00, 12:00, 13:00, 14:00.
  1. Анализ пары B и D: B может быть только в 10:00 или 11:00 (иначе D не влезет в график или попадет в 12/14:00).

  2. Если А — первая (10:00): Тогда E — последняя (14:00). B остается только в 11:00, тогда D — в 13:00. Для С остается слот 12:00, что соседствует с B. Нарушение условия 5.

  3. Если А — не первая: Тогда E — в 12:00. Если B в 10:00, то D в 12:00 (занято E). Если B в 11:00, то D в 13:00. Свободны 10:00 и 14:00 для А и С. Так как А раньше С, А должна быть в 10:00. Но тогда А — первая, что противоречит нашему условию. Тупик.


Вердикт: Решения не существует.

Модель безупречно выстроила цепочку доказательств и выявила логическую ловушку. Это отличный результат.


Реакция сообщества

Гейминг на максималках

Пользователь @chatgpt21 опубликовал в X видео, демонстрирующее скорость визуального анализа GPT-5.4.

Нейросеть заставили играть в динамичный 2D-платформер, где требуется мгновенная реакция на препятствия. Комментарии излишни: ИИ справляется с обработкой кадров практически без задержек.

Архитектурные изыски

Питер Гостев (@petergostev) показал, как Computer Use меняет подход к веб-дизайну.

Он сравнил генерацию 3D-сцены моста «Золотые Ворота» в обычном режиме и с использованием Playwright. С визуальной обратной связью модель создает на порядок более качественные и детализированные интерфейсы.

SVG и живая физика

Блогер @developedbyed провел баттл между Claude 4.6 Opus и GPT-5.4.

Задачей была плавная SVG-анимация растущего растения с физикой ветра. Если Claude не справился с циклом анимации, то GPT-5.4 выдала потрясающий результат с реалистичным движением листьев, реализованным на чистом коде.


Вопрос цены

В условиях жесткой конкуренции OpenAI пошли на демпинг. Новые тарифы выглядят весьма привлекательно:

  • Input (Ввод): $2.50 за 1 млн токенов.
  • Cached Input: всего $0.25 за 1 млн.
  • Output (Вывод): $15.00 за 1 млн токенов.

Это делает GPT-5.4 доступной не только гигантам рынка, но и динамичным стартапам, делая Claude 4.6 Opus довольно дорогим выбором.


Подведем итоги

Темпы развития ИИ впечатляют. С выходом GPT-5.4 мы окончательно покинули эпоху простых чат-ботов и вступили в эру автономных цифровых агентов. Это уже не просто помощник в написании текстов, а полноценный виртуальный сотрудник, способный взаимодействовать со сложным ПО.

Стоит ли опасаться за свою работу? Пока нет. Магия видео из соцсетей часто разбивается о реальность сурового корпоративного кода и запутанных бизнес-процессов. Человек по-прежнему необходим как архитектор смыслов и контролер качества.

Изучайте новые возможности, внедряйте автоматизацию и помните: ИИ — это инструмент, а не замена вашему таланту. Работаем!

 

Источник

Читайте также