Великая битва нейросетей: Сравнение GPT-5.2, Gemini 3 Pro, Claude Opus 4.5, DeepSeek v3.2 и Grok-4.1
Недавно я проводил масштабное сравнение между GPT-5, Gemini 3 Pro и Claude Opus 4.5. После детального изучения Grok-4.1 стало очевидно: пора расширить рамки эксперимента. Сегодня мы определим пятерку лидеров в индустрии больших языковых моделей, столкнув их в честном интеллектуальном поединке.
В сегодняшнем гран-при участвуют: GPT-5.2, Claude Opus 4.5, Gemini 3 Pro, DeepSeek v3.2 и Grok-4.1. Кто из них окажется на вершине, а кто станет аутсайдером? Давайте разбираться.

Краткий обзор участников
Claude Opus 4.5
Флагман от Anthropic, прочно закрепивший за собой статус эталона в области разработки ПО. Если перед вами стоит многоуровневая аналитическая задача или сложный архитектурный проект кода — это стихия Claude. Модель выделяется исключительными мультимодальными навыками и способностью удерживать нить повествования в сверхдлинных диалогах.
Gemini 3 Pro
Новейшее творение Google DeepMind, вобравшее в себя лучшие наработки предыдущих итераций. Разработчики позиционируют её как самую эрудированную и фактически точную систему на рынке. Модель демонстрирует поразительные успехи в рассуждениях, программировании и убедительности аргументации.
Grok 4.1
Амбициозный проект xAI, акцентирующий внимание на эмоциональном интеллекте и кооперации. Одной из сильных сторон модели является работа с контекстом до двух миллионов токенов. После циклов обучения с подкреплением Grok стал значительно меньше «галлюцинировать», предлагая пользователю более эмпатичное и живое общение.
DeepSeek V3.2
Китайский технологический прорыв. Благодаря архитектуре Mixture of Experts (MoE) и механизму Sparse Attention (DSA), модель показывает высокую эффективность при обработке массивных данных. Она позиционируется как быстрый и доступный ассистент, способный конкурировать с решениями от OpenAI.
ChatGPT 5.2
Последнее обновление от OpenAI, сфокусированное на «внутренней» оптимизации. При сохранении привычного интерфейса, «интеллект» модели сделал качественный скачок. Теперь система представлена в трех специализированных режимах: Instant (быстрые ответы), Thinking (аналитика и код) и Pro (научные изыскания).
Методология и правила
Испытание разделено на четыре ключевых блока:
- Литературное мастерство: Написание научно-фантастического рассказа с элементами комедии.
- Эмоциональный интеллект: Глубинный анализ психологического подтекста диалога.
- Точные науки: Решение задач из курса высшей математики.
- Разработка: Создание полноценного инженерного калькулятора на Python с GUI.
Каждое задание оценивается по 3-балльной шкале. Итоговый рейтинг строится на основе среднего арифметического всех оценок.
Раунд 1: Творческий потенциал
Claude Opus 4.5: Выдал монументальный и качественный текст, однако с юмором возникли сложности — ирония оказалась слишком тонкой, на грани незаметности. (2 балла)
Gemini 3 Pro: Порадовала абсурдным и по-настоящему смешным сюжетом о кофеварке, пытающейся захватить мир с помощью торпед. Отличный слог. (3 балла)
Grok 4.1: Предложил забавную концепцию захвата мира тостером, но само исполнение подкачало — текст читается тяжеловато, сюжет рваный. (2 балла)
DeepSeek V3.2: Блестяще справился с задачей. Описания «боевых маршей на языке Зигзагов» — это эталон сатиры в научной фантастике. (3 балла)
ChatGPT 5.2: Продемонстрировал отличный баланс между объемом и качеством юмора. История о влюбленном в потолок лифте заслуживает высшей оценки. (3 балла)
Раунд 2: Анализ человеческих эмоций
В этом задании моделям нужно было «считать» скрытые мотивы в рабочем диалоге Марины и Алексея.
Claude Opus 4.5 и Gemini 3 Pro: Провели филигранный анализ, заметив мельчайшие детали в поведении героев и предположив наличие скрытого личного контекста между персонажами. (3 балла каждой)
Grok 4.1: В целом справился, но начал путать языки в ответе, вкрапляя иностранные символы, что подпортило впечатление. (2.5 балла)
DeepSeek V3.2: Допустил ошибку в интерпретации мотивов, посчитав, что героине нужен совет коллеги, хотя контекст указывал на поиск другого человека. (2 балла)
ChatGPT 5.2: Выдал множество гипотез, но некоторые из них выглядели слабо аргументированными. (2.5 балла)
Раунд 3: Высшая математика
Все участники без исключения — Claude, Gemini, Grok, DeepSeek и ChatGPT — безупречно справились с вычислением пределов, интегралов и доказательством эквивалентности бесконечно малых. Математический аппарат у современных LLM развит на высочайшем уровне. (Все по 3 балла)
Раунд 4: Программирование
Claude Opus 4.5: Подтвердил статус лидера. Создал эстетичное приложение с вынесенной историей вычислений и полным набором инженерных функций. (3 балла)
Gemini 3 Pro: Написал лаконичный, но полностью рабочий и визуально приятный код. (3 балла)
Grok 4.1: Полный провал. Код выдал нерабочее приложение с ужасным интерфейсом, не способное выполнить даже базовое сложение. (0 баллов)
DeepSeek V3.2: Результат посредственный. Интерфейс «поплыл», кнопки накладываются друг на друга, хотя простейшие операции работают. (1 балл)
ChatGPT 5.2: Качественный, надежный код. Без излишеств, но все функции работают идеально. (3 балла)
Итоговая таблица результатов
| Задание / Модель | Claude 4.5 | Gemini 3 Pro | Grok 4.1 | DeepSeek 3.2 | ChatGPT 5.2 |
|---|---|---|---|---|---|
| Текст | 2 | 3 | 2 | 3 | 3 |
| Эмоции | 3 | 3 | 2.5 | 2 | 2.5 |
| Математика | 3 | 3 | 3 | 3 | 3 |
| Код | 3 | 3 | 0 | 1 | 3 |
| Итог (ср.) | 2.75 | 3.0 | 1.875 | 2.25 | 2.875 |
Вердикт
По результатам тестирования наш рейтинг выглядит следующим образом:
- Gemini 3 Pro — Абсолютный универсал.
- ChatGPT 5.2 — Стабильность и высокий интеллект.
- Claude Opus 4.5 — Непревзойденный инструмент для кодинга.
- DeepSeek V3.2 — Сильный конкурент в текстах, но слабый в разработке GUI.
- Grok 4.1 — Модель с характером, но технически пока отстающая.
Стоит отметить, что Claude Opus 4.5 остается лучшим выбором для программистов, несмотря на небольшое отставание в творческих заданиях. DeepSeek приятно удивляет логикой, но сегодня ему не хватило точности в реализации интерфейса. Что касается Grok, его сильная сторона — имитация человеческого общения, но в сухих технических дисциплинах он пока пасует.



