
В последнее время в сегменте флагманских LLM наблюдалось относительное затишье. Конечно, это утверждение справедливо лишь в сравнении с невероятно насыщенным февралем, когда индустрия еженедельно выдавала громкие инфоповоды.
Сегодняшний материал посвящен классическому формату: сопоставлению возможностей актуальных топовых моделей. С одной стороны, подобные обзоры выходят регулярно, но в этот раз я решил сместить фокус на нестандартные кейсы. Мы отойдем от привычной рутины вроде написания кода по шаблону или генерации простых рассказов и предложим нейросетям задачи, требующие более гибкого подхода.
В нашем импровизированном ринге сойдутся ChatGPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro. Я постарался подобрать условия так, чтобы выявить нюансы работы каждой архитектуры. Для кого-то этот тест станет открытием, для кого-то — лишь подтверждением известных фактов, но мой личный интерес в этом вопросе был определяющим. Приглашаю всех любопытствующих ознакомиться с результатами — возможно, вы найдете здесь ответы на свои вопросы.
Коротко о претендентах
ChatGPT 5.4
Флагман от OpenAI, который, судя по актуальным бенчмаркам, удерживает лидерство во многих дисциплинах. Свежая итерация принесла значимые качественные изменения.
Во-первых, существенно выросла эффективность веб-серфинга и синтеза информации из разрозненных сетевых источников. Контекстное окно теперь достигает внушительной отметки в 1 миллион токенов.
Разработчики не только подтянули базовые когнитивные навыки, но и сделали ставку на «агентность». GPT-5.4 способна интерпретировать скриншоты интерфейсов, взаимодействовать с браузером, имитировать ввод с периферийных устройств и работать с внешними API через специализированные программные прослойки.
Claude Opus 4.6
Создавая эту модель, команда Anthropic стремилась выпустить инструмент, максимально адаптированный для реальных индустриальных задач. Opus получил серьезный апгрейд не только в плане быстродействия, но и в самой архитектуре формирования суждений.
Ключевое новшество — внедрение продвинутого механизма внутреннего планирования. В отличие от линейной генерации текста, Opus теперь выстраивает ментальную карту решения задачи перед тем, как выдать ответ. Модель последовательно верифицирует каждый этап своих рассуждений.
В области программирования обновленный Opus демонстрирует впечатляющий прогресс. Контекстное окно в полтора миллиона токенов позволяет анализировать не просто куски кода, а архитектуру целых систем, удерживая в памяти практически весь репозиторий небольшого проекта.
Gemini 3.1 Pro
Google позиционирует Gemini 3.1 Pro как свою самую интеллектуальную разработку для решения сверхсложных задач. Заявление амбициозное и многообещающее.
Основной упор в обновлении сделан на фундаментальное улучшение логического мышления. Если раньше инженеры DeepMind расширяли функционал, то в версии 3.1 фокус сместился на оптимизацию «внутреннего процессора» нейросети.
Технология «глубокого размышления» (deep thinking), ранее существовавшая как отдельный режим, теперь вшита в само ядро модели. Это позволяет Gemini 3.1 Pro более тщательно прорабатывать запросы, исследуя параллельные варианты решения и выбирая наиболее оптимальный путь.
Входной порог контекста составляет 1 миллион токенов, при этом модель способна генерировать до 64 тысяч токенов на выходе. Этого достаточно для написания объемных технических руководств или масштабных модулей кода.
Google подчеркивает, что версия 3.1 Pro идеально сбалансирована для автоматизации рабочих процессов и создания сложных агентных цепочек.
Важное примечание
Доступ к тестируемым моделям был получен через платформу-агрегатор BotHub. Сервис предоставляет широкий инструментарий: от текстовой аналитики до транскрибации аудио и создания видеоконтента. По этой ссылке при регистрации начисляется бонус в 300 000 капсов для самостоятельного тестирования нейросетей.
Методология оценки
Каждый этап оценивается по качеству исполнения. Полное и корректное решение — 3 балла. Провал — 0 баллов. Промежуточные оценки (1 или 2 балла) выставляются за частичное выполнение или наличие ошибок.
Поскольку это авторское сравнение, я оставляю за собой право начислить 1 бонусный балл за нестандартные идеи, выдающийся дизайн ответа или исключительную креативность.
Все результаты сопровождаются подробными комментариями, а в финале статьи приведена сводная таблица, наглядно определяющая победителя этого баттла.
Тест №1: Распознавание рукописного текста
Задача кажется тривиальной лишь на первый взгляд. Нейросети часто пасуют перед неразборчивым почерком или специфическим оформлением. Чтобы усложнить задание, я выбрал скан обычной тетрадной страницы с рукописными заметками.
Исходное изображение

Тест №2: Задачи олимпиадного уровня по математике
В этот раз мы забудем про школьную программу или стандартные задания ЕГЭ. В ход идет «тяжелая артиллерия» — задачи из олимпиад по высшей математике, требующие не только знания формул, но и глубокой логики.
Условия задач



Тест №3: Глубокая аналитика и поиск фактов
Текст промпта
Твоя роль – эксперт-аналитик.
МИССИЯ
1. Проведи мониторинг и представь 10 подлинных примеров внедрения ИИ в
научную среду, датированных после 31 августа 2025 года.
2. Формат для каждого кейса:
— Заголовок исследования (не более 12 слов).
— Научная дисциплина.
— Краткое описание открытия доступным языком (до 80 слов).
— Техническая часть: используемые алгоритмы, модели или датасеты.
— Прогноз влияния на отрасль.
— Существующие риски или нерешенные вопросы.
— Верифицируемая ссылка на первоисточник (научный журнал или препринт).
ПРАВИЛА ОФОРМЛЕНИЯ
Хронологический порядок: от самых свежих публикаций. Ссылки оформи как [Название издания]. Используй только маркированные списки, таблицы запрещены. * При отсутствии подтвержденных данных укажи «Релевантных кейсов не обнаружено».
РЕЗЮМЕ
В финале напиши 3-4 предложения с выводами: какие области ИИ в науке показывают взрывной рост и с чем это связано.
Тест №4: Творческий потенциал
Разработай концепцию короткометражного фильма о роботе, страдающем фобией электричества. Сюжет должен держать в напряжении! Также подготовь детальное описание внешности протагониста для последующей визуализации в нейросетях-генераторах изображений.
Ход тестирования
Распознавание рукописи
ChatGPT 5.4

ChatGPT безупречно справился с OCR-задачей. Модель получает заслуженные 3 балла. Есть незначительный нюанс в зачеркнутом фрагменте, но это несущественно, так как автор текста сам исключил эти слова из контекста.
Стоимость обработки запроса составила 8,9 рублей.
Claude Opus 4.6

Ошибки в интерпретации я выделил красным для наглядности.
К сожалению, Opus 4.6 допустил сразу четыре промаха. Часть слов была распознана неверно, а некоторые фразы модель просто «додумала». Весьма неожиданный результат для системы такого уровня. Только 1 балл.
Цена выполнения — 6 рублей.
Gemini 3.1 Pro

Gemini отработала на среднем уровне. Критических искажений смысла нет, но присутствуют мелкие неточности: лишнее разбиение предложений и замена слов на синонимы, что недопустимо при точном цитировании. Итог — 2 балла.
Стоимость запроса — 14 рублей. Это самый дорогой вариант распознавания в тесте.
Высшая математика
ChatGPT 5.4

Единственная претензия к десятой задаче. Финальный ответ верен по существу, но модель опустила важные ограничения для параметров a и b. В академической среде это считается недочетом. Оценка — 2,5 балла.
Расход — 17 рублей.
Claude Opus 4.6

Ситуация идентична: в десятом пункте не прописаны необходимые ограничения. Ориентируясь на эталонные олимпиадные решения, я вынужден снизить балл за неполноту ответа. Результат — 2,5 балла.
Цена запроса — 41 рубль, что заметно дороже конкурента.
Gemini 3.1 Pro

Тот же недочет с ограничениями в финальной задаче. Оценка — 2,5 балла. Стоимость решения составила 27 рублей.
Поиск научной информации
ChatGPT 5.4

Модель старательно избегала признания в неведении, но из 10 заявленных кейсов лишь 3 можно назвать реально существующими и верифицируемыми открытиями. Остальное — либо теоретические концепты, либо галлюцинации. Ставлю 1,5 балла.
Стоимость — 66 рублей.
Claude Opus 4.6

Здесь обнаружилось 4 достоверных примера. Однако седьмой пункт вызывает вопросы: презентация новой нейросетевой модели вряд ли тянет на самостоятельное научное открытие в прикладной области. Итого: 1 балл.
Запрос обошелся в 203 рубля.
Gemini 3.1 Pro

Аналогичный результат: 4 релевантных кейса, остальные позиции заполнены «водой». Оценка — 1,5 балла.
Затраты — 89 рублей.
Креативное письмо
ChatGPT 5.4

Цена исполнения — 9 рублей.
Claude Opus 4.6

Наиболее атмосферный и проработанный вариант. Браво, 3 балла.
Стоимость — 11 рублей.
Gemini 3.1 Pro

Цена — 12 рублей.
Все модели продемонстрировали достойный уровень творческого мышления. За исключением личных симпатий к варианту Claude, критических замечаний нет. Каждая получает максимальный балл за выполнение.
Резюме
|
Модель |
Задание 1 (OCR) |
Задание 2 (Math) |
Задание 3 (Analyt) |
Задание 4 (Creative) |
Общий итог |
|
ChatGPT 5.4 |
3 / 8,9 руб. |
2,5 / 17 руб. |
1,5 / 66 руб. |
3 / 9 руб. |
10 / 100,9 руб. |
|
Claude Opus 4.6 |
1 / 6 руб. |
2,5 / 41 руб. |
1 / 203 руб. |
3 / 11 руб. |
7,5 / 261 руб. |
|
Gemini 3.1 Pro |
2 / 14 руб. |
2,5 / 27 руб. |
1,5 / 89 руб. |
3 / 12 руб. |
9 / 142 руб. |
Безоговорочным победителем стал ChatGPT 5.4. Стоит признать, что в последнее время решения от OpenAI вызывают у меня все больше симпатии своей стабильностью и точностью. Если раньше моим фаворитом была Gemini, то теперь лидерство перехватил ChatGPT.
Напоминаю, что данный обзор носит субъективный характер и отражает мой личный опыт тестирования. Ваши результаты и впечатления от работы с этими моделями могут отличаться.
Благодарю за внимание!

