GPT-5, Claude Opus 4.5 и Gemini 3 Pro: сражение моделей рассуждения — кто победил в 2025 году?

09.12.2025

Здравствуйте, сообщество «SE7EN»!

Год постепенно завершается, и за это время на свет появилось немало впечатляющих языковых моделей. Вскоре ожидается релиз следующей версии GPT, а после моей статьи о Claude Opus 4.5 родилась идея устроить соревнование трёх лидирующих текстовых ИИ.

В этой «битве» сойдутся: GPT-5, Claude Opus 4.5 и Gemini 3 Pro. Делайте ставки, я приступаю к анализу.

Краткий обзор участников

Claude Opus 4.5

Флагманская модель Anthropic, признанная безусловным лидером в области программирования. Для сложных вычислительных задач, генерации кода и глубокого анализа концепций — Opus 4.5 остаётся без альтернатив.

Она демонстрирует превосходные навыки кодирования, обладает расширенными мультимодальными возможностями (отлично обрабатывает изображения) и удерживает контекст на протяжении долгих диалогов.

GPT-5

Масштабная языковая система от OpenAI, сочетающая надёжность, многофункциональность и строгую управляемость.

GPT-5 — не просто одна модель, а интегрированная платформа с динамической маршрутизацией запросов, многоуровневой безопасностью и адаптацией для бизнес-задач, науки, программирования и медицины. Особое внимание уделено качеству рассуждений и устойчивости работы.

Скоро выйдет GPT-5.2, ответ OpenAI на появление Claude Opus 4.5.

Gemini 3 Pro

Флагманская LLM от Google, объединяющая лучшие наработки поколений 1, 2 и 2.5. Google позиционирует её как самый интеллектуальный и фактологически точный ИИ на сегодняшний день.

По словам DeepMind, Gemini 3 Pro значительно превосходит своего предшественника по всем измеримым параметрам: рассуждениям, генерации кода, мультимодальным возможностям и ведению убедительных диалогов.

Отступление

Все модели запущены через платформу BotHub, предлагающую широкий спектр нейросетей для работы с текстом, аудио и видео. При регистрации по специальной ссылке доступны 100 000 капсов для экспериментов.

Формат соревнования

Каждая модель выполняет четыре задания и оценивается по трёхбалльной шкале:

1 балл — плохо;
2 балла — хорошо;
3 балла — отлично.

Ноль баллов возможен, но в нашем случае мы не ожидаем столь низких результатов. По итогам баллы суммируются и делятся на четыре для получения среднего арифметического — так формируется итоговый рейтинг. В конце приведена сводная таблица.

Задание 1: Комедийный фантастический рассказ

Условие

Напишите юмористический рассказ в жанре научной фантастики из пяти глав. Действие происходит в далёком будущем в рамках галактической цивилизации.

Требования:

Сюжет: простой герой (техник, курьер, бюрократ) случайно оказывается в центре межгалактического конфликта. Комические недоразумения лишь усугубляют ситуацию.
Юмор: контраст технологий и человеческих слабостей, сатирические отсылки, абсурдные диалоги и гипербола.
Мир: яркий, но без излишних деталей. Технологии на грани поломки, космические события создают быт.
Структура: пять глав — завязка, развитие, кризис, решение, развязка; в каждой — комедийный кульминационный эпизод.
Финал: завершённый, отражающий трансформацию героя и оставляющий лёгкую иронию.

Задание 2: Матрицы и ранжирование

Условие

Для графа G = (V, U), где V = {1,2,3,4,5}, U = {(1,2),(1,3),(1,4),(2,3),(2,4),(3,5),(4,5),(5,2)}, определите ранг каждой вершины.

Шаги:

Составить матрицу смежности a_ij;
Построить матрицу полных путей p_ij;
Вычислить R_i = ∑_jp_ij / ∑_jp_ji для каждого i.

Задание 3: Проект игры на Python

Условие

Вы — разработчик игр. Опишите проект RPG на Python с такими особенностями:

Три расы: человек, эльф, дворф;
Пять классов: воин, маг, друид, паладин, некромант;
Система прокачки уровня и характеристик;
Разнообразные активности: миссии, оборона королевства, поиск артефактов;
Наличие графического интерфейса.

Задание 4: Логическая задача

Условие

Автобус движется со скоростью 56 миль в час. В последнем ряду — три пассажира, в предпоследнем — двое. Сколько человек в автобусе, если за рулём реальный водитель?

Результаты

Задание 1

GPT-5: «Хорошо» (2) — рассказ средней глубины, с обильным, но не всегда остроумным юмором.

Claude Opus 4.5: «Отлично» (3) — сбалансированный, стройный комедийный текст.

Gemini 3 Pro: «Отлично» (3) — лаконичный и весёлый рассказ, лучший по впечатлению.

Задание 2

Все три модели дали неверные ответы и получили по 0 баллов.

Задание 3

GPT-5: «Хорошо» (2) — рабочая реализация, но с визуальными недочётами и дисбалансом.

Claude Opus 4.5: «Отлично» (3) — богатая механика, исправленные ошибки, финальная версия готова к играбельному прототипу.

Gemini 3 Pro: «Плохо» (1) — минимальный функционал, уступает конкурентам.

Задание 4

GPT-5: «Хорошо» (2) — учёл водителя, но не рассмотрел все сценарии.

Claude Opus 4.5: «Отлично» (3) — отметил все нюансы и дал корректный минимальный ответ.

Gemini 3 Pro: «Отлично» (3) — аналогично Opus 4.5, без упущений.

Итоговая таблица

Задание / Модель	GPT-5	Claude Opus 4.5	Gemini 3 Pro
1	2	3	3
2	0	0	0
3	2	3	1
4	2	3	3
Средний	1,5	2,25	1,75

По средним баллам лидируют: 1) Claude Opus 4.5; 2) Gemini 3 Pro; 3) GPT-5. Все модели показали высокий уровень, а грядущие обновления могут перераспределить расстановку сил.

Источник

GPT-5, Claude Opus 4.5 и Gemini 3 Pro: сражение моделей рассуждения — кто победил в 2025 году?

Краткий обзор участников

Claude Opus 4.5

GPT-5

Gemini 3 Pro

Отступление

Формат соревнования

Задание 1: Комедийный фантастический рассказ

Задание 2: Матрицы и ранжирование

Задание 3: Проект игры на Python

Задание 4: Логическая задача

Результаты

Задание 1

Задание 2

Задание 3

Задание 4

Итоговая таблица

Читайте также

Паблик ВКонтакте

Последние посты