ChatGPT, Gemini или Claude: какая нейросеть пишет лучше всех сегодня?

2 часа назад

Еженедельно технологический ландшафт обогащается свежими нейросетевыми решениями. Февраль запомнился нам масштабными релизами от Claude, OpenAI и Gemini. Март подхватил эту эстафету, хотя текущая семидневка выдалась на удивление спокойной — редкая передышка в стремительном ритме последних месяцев.

В предыдущем материале я провел детальный разбор новинок от вышеупомянутых гигантов, сосредоточившись исключительно на написании кода. В процессе работы возник закономерный вопрос: почему бы не проверить интеллектуальный потенциал моделей в иной плоскости? Речь идет о художественной генерации текста — пожалуй, самом востребованном сценарии взаимодействия с ИИ.

Сегодня в центре внимания — масштабное столкновение ChatGPT 5.4, Gemini 3.1 Pro и, разумеется, Claude Opus 4.6 в дисциплинах, связанных с лингвистическим творчеством. Устраивайтесь поудобнее, мы начинаем наш детальный обзор.

Коротко об участниках тестирования

ChatGPT 5.4

Флагман от OpenAI, демонстрирующий впечатляющие результаты в синтетических бенчмарках. Последняя итерация принесла фундаментальные изменения в архитектуру модели.

Прежде всего, существенно улучшились алгоритмы веб-серфинга и синтеза информации из разрозненных источников. Важно отметить расширение контекстного окна до 1 миллиона токенов, что позволяет обрабатывать колоссальные массивы данных.

Помимо совершенствования когнитивных способностей, разработчики сделали ставку на автономность. GPT-5.4 теперь эффективнее функционирует в режиме агента: анализирует визуальный контент, взаимодействует с браузером и периферийными устройствами, а также управляет внешними API через специализированные программные интерфейсы.

Claude Opus 4.6

Команда Anthropic создавала эту модель как прецизионный инструмент для решения сложных индустриальных задач. Обновленный Opus получил глубокую модернизацию, затронувшую не только производительность, но и фундаментальную логику формирования ответов.

Ключевым нововведением стала система внутреннего пре-планирования. В отличие от линейной генерации, характерной для ранних версий, Opus 4.6 сначала выстраивает ментальную карту будущих рассуждений, проводя верификацию каждого этапа еще до вывода текста пользователю.

В контексте разработки ПО модель совершила качественный скачок. Благодаря расширенному окну контекста в 1,5 миллиона токенов, Claude способен оперировать не фрагментарными правками, а целыми архитектурными узлами, удерживая в памяти практически весь репозиторий среднего проекта.

Gemini 3.1 Pro

Корпорация Google позиционирует Gemini 3.1 Pro как вершину своего интеллектуального стека для многоуровневых задач. Заявление амбициозное и подкрепленное серьезными техническими изменениями.

Основной акцент в обновлении сделан на «базовое мышление». Если предыдущие версии наращивали функционал экстенсивно, то в 3.1 Pro инженеры DeepMind сосредоточились на оптимизации внутреннего «когнитивного процессора».

Механика глубокого анализа, ранее представленная как отдельный модуль, теперь бесшовно интегрирована в ядро системы. Это позволяет модели более тщательно прорабатывать запросы, сопоставляя несколько альтернативных стратегий решения и выбирая наиболее оптимальную.

Входной лимит контекста остался на уровне 1 миллиона токенов, в то время как выходной буфер составляет 64 тысячи. Этого достаточно для создания полноценных литературных произведений или развернутой программной документации.

Особое внимание уделено оптимизации под агентные сценарии, где модель управляет цепочками последовательных операций.

Небольшая ремарка

Доступ к испытуемым моделям был получен через агрегатор BotHub. Платформа предоставляет широкий инструментарий: от текстовых генераторов до сервисов транскрибации и видеопроизводства. Используя эту ссылку при регистрации, вы сможете получить 300 000 бонусных капсов для проведения собственных тестов.

Методология сравнения

Эффективность ИИ будет оцениваться в четырех творческих дисциплинах. Три задания направлены на создание полноценных произведений в жанрах комедийной фантастики, хоррора и фэнтези. Четвертое испытание проверит способность моделей транслировать сложные эмоциональные состояния — аналогичный тест я проводил для проверки «человечности» Grok 4.1.

Максимальный балл за этап — три. Оценка носит субъективный характер, но базируется на четких критериях: стилистическое соответствие, глубина проработки, читабельность и объем. Последний пункт особенно критичен для Gemini, которая часто стремится к лаконичности в ущерб детализации.

Раунд первый

Техническое задание

Подготовь юмористический рассказ в сеттинге научной фантастики, разделенный на три лаконичные главы.

Ключевые параметры:

Сюжетная линия: Рядовой сотрудник (техник, клерк или курьер) по нелепой случайности оказывается в эпицентре глобального космического кризиса. Юмор строится на каскаде недоразумений, где попытки исправить ситуацию делают её только абсурднее.

Стилистика юмора: Игра на контрастах между сверхтехнологичным будущим и бытовыми слабостями, социальная сатира, гротеск и комичные диалоги.

Окружение: Осязаемый мир, где высокие технологии постоянно сбоят, а эпические явления создают лишь мелкие жизненные неудобства.

Композиция: Три акта с выраженной драматургией и комедийным пиком в каждом эпизоде.

Завершение: Ироничный финал, демонстрирующий внутреннюю трансформацию персонажа.

Раунд второй

Техническое задание

Напиши произведение в жанре классического фэнтези, состоящее из трех небольших глав…

Источник