GPT-5, Claude Opus 4.5 и Gemini 3 Pro: сражение моделей рассуждения — кто победил в 2025 году?

Здравствуйте, сообщество «SE7EN»!

Год постепенно завершается, и за это время на свет появилось немало впечатляющих языковых моделей. Вскоре ожидается релиз следующей версии GPT, а после моей статьи о Claude Opus 4.5 родилась идея устроить соревнование трёх лидирующих текстовых ИИ.

В этой «битве» сойдутся: GPT-5, Claude Opus 4.5 и Gemini 3 Pro. Делайте ставки, я приступаю к анализу.

GPT-5, Claude Opus 4.5 и Gemini 3 Pro: сражение моделей рассуждения — кто победил в 2025 году?

Краткий обзор участников

Claude Opus 4.5

Флагманская модель Anthropic, признанная безусловным лидером в области программирования. Для сложных вычислительных задач, генерации кода и глубокого анализа концепций — Opus 4.5 остаётся без альтернатив.

Она демонстрирует превосходные навыки кодирования, обладает расширенными мультимодальными возможностями (отлично обрабатывает изображения) и удерживает контекст на протяжении долгих диалогов.

GPT-5

Масштабная языковая система от OpenAI, сочетающая надёжность, многофункциональность и строгую управляемость.

GPT-5 — не просто одна модель, а интегрированная платформа с динамической маршрутизацией запросов, многоуровневой безопасностью и адаптацией для бизнес-задач, науки, программирования и медицины. Особое внимание уделено качеству рассуждений и устойчивости работы.

Скоро выйдет GPT-5.2, ответ OpenAI на появление Claude Opus 4.5.

Gemini 3 Pro

Флагманская LLM от Google, объединяющая лучшие наработки поколений 1, 2 и 2.5. Google позиционирует её как самый интеллектуальный и фактологически точный ИИ на сегодняшний день.

По словам DeepMind, Gemini 3 Pro значительно превосходит своего предшественника по всем измеримым параметрам: рассуждениям, генерации кода, мультимодальным возможностям и ведению убедительных диалогов.


Отступление

Все модели запущены через платформу BotHub, предлагающую широкий спектр нейросетей для работы с текстом, аудио и видео. При регистрации по специальной ссылке доступны 100 000 капсов для экспериментов.


Формат соревнования

Каждая модель выполняет четыре задания и оценивается по трёхбалльной шкале:

  • 1 балл — плохо;
  • 2 балла — хорошо;
  • 3 балла — отлично.

Ноль баллов возможен, но в нашем случае мы не ожидаем столь низких результатов. По итогам баллы суммируются и делятся на четыре для получения среднего арифметического — так формируется итоговый рейтинг. В конце приведена сводная таблица.

Задание 1: Комедийный фантастический рассказ

Условие

Напишите юмористический рассказ в жанре научной фантастики из пяти глав. Действие происходит в далёком будущем в рамках галактической цивилизации.

Требования:

  • Сюжет: простой герой (техник, курьер, бюрократ) случайно оказывается в центре межгалактического конфликта. Комические недоразумения лишь усугубляют ситуацию.
  • Юмор: контраст технологий и человеческих слабостей, сатирические отсылки, абсурдные диалоги и гипербола.
  • Мир: яркий, но без излишних деталей. Технологии на грани поломки, космические события создают быт.
  • Структура: пять глав — завязка, развитие, кризис, решение, развязка; в каждой — комедийный кульминационный эпизод.
  • Финал: завершённый, отражающий трансформацию героя и оставляющий лёгкую иронию.

Задание 2: Матрицы и ранжирование

Условие

Для графа G = (V, U), где V = {1,2,3,4,5}, U = {(1,2),(1,3),(1,4),(2,3),(2,4),(3,5),(4,5),(5,2)}, определите ранг каждой вершины.

Шаги:

  1. Составить матрицу смежности aij;
  2. Построить матрицу полных путей pij;
  3. Вычислить Ri = ∑jpij / ∑jpji для каждого i.

Задание 3: Проект игры на Python

Условие

Вы — разработчик игр. Опишите проект RPG на Python с такими особенностями:

  • Три расы: человек, эльф, дворф;
  • Пять классов: воин, маг, друид, паладин, некромант;
  • Система прокачки уровня и характеристик;
  • Разнообразные активности: миссии, оборона королевства, поиск артефактов;
  • Наличие графического интерфейса.

Задание 4: Логическая задача

Условие

Автобус движется со скоростью 56 миль в час. В последнем ряду — три пассажира, в предпоследнем — двое. Сколько человек в автобусе, если за рулём реальный водитель?


Результаты

Задание 1

GPT-5: «Хорошо» (2) — рассказ средней глубины, с обильным, но не всегда остроумным юмором.

Claude Opus 4.5: «Отлично» (3) — сбалансированный, стройный комедийный текст.

Gemini 3 Pro: «Отлично» (3) — лаконичный и весёлый рассказ, лучший по впечатлению.

Задание 2

Все три модели дали неверные ответы и получили по 0 баллов.

Задание 3

GPT-5: «Хорошо» (2) — рабочая реализация, но с визуальными недочётами и дисбалансом.

Claude Opus 4.5: «Отлично» (3) — богатая механика, исправленные ошибки, финальная версия готова к играбельному прототипу.

Gemini 3 Pro: «Плохо» (1) — минимальный функционал, уступает конкурентам.

Задание 4

GPT-5: «Хорошо» (2) — учёл водителя, но не рассмотрел все сценарии.

Claude Opus 4.5: «Отлично» (3) — отметил все нюансы и дал корректный минимальный ответ.

Gemini 3 Pro: «Отлично» (3) — аналогично Opus 4.5, без упущений.


Итоговая таблица

Задание / Модель GPT-5 Claude Opus 4.5 Gemini 3 Pro
1 2 3 3
2 0 0 0
3 2 3 1
4 2 3 3
Средний 1,5 2,25 1,75

По средним баллам лидируют: 1) Claude Opus 4.5; 2) Gemini 3 Pro; 3) GPT-5. Все модели показали высокий уровень, а грядущие обновления могут перераспределить расстановку сил.

 

Источник

Читайте также