Добрый день, сообщество «SE7EN»!
Больше недели назад компания Anthropic представила Claude Opus 4.5 — новую версию модели, которая обещает качественно улучшить результаты в программировании, создании сценариев и общем взаимодействии с компьютером. Также внимание уделено повседневным задачам: от поиска и анализа данных до оформления презентаций и работы с таблицами.
Проверим, насколько эти заявления соответствуют реальности: изучим особенности модели, проведём тесты и в итоге поделимся выводами.
Приступим.

Claude Opus 4.5
Claude Opus 4.5 признана одной из лучших моделей для программирования. Семейство Claude 4.5 включает три редакции: Haiku — облегчённая и недорогая, оптимизированная по задержкам и пропускной способности; Sonnet — сбалансированная по цене и функционалу; и Opus — «тяжёлая артиллерия» для сложных задач, на которой мы сосредоточимся.
Anthropic не раскрывает точное число параметров Opus 4.5, но ясно, что оно превосходит показатели Sonnet и Haiku. При этом модель заточена на:
- глубокие многоступенчатые рассуждения;
- работу с крупными кодовыми базами и рефакторинг;
- интеграцию агентов;
- повышенные меры безопасности.
Архитектурно Opus 4.5 остаётся классическим трансформером, но интерес представляют улучшения в управлении контекстом, встроенной памяти, инструментах и механизме выравнивания.
Контекстное окно
Стандартное контекстное окно Opus 4.5 вмещает около 200 000 токенов, а в специальных режимах — до миллиона. Этого достаточно для работы с монорепозиториями, объёмными техническими документами или обсуждения проектов крупного масштаба.
Кроме увеличенного объёма, модель использует алгоритм автоматического архивирования памяти: при переполнении старые фрагменты диалога обобщаются, что сохраняет связность беседы.
Промежуточные рассуждения
Opus 4.5 отслеживает и хранит собственные выводы на промежуточных этапах: решив одну задачу, модель может вернуться к сделанным ранее шагам в новом контексте без повторного полного анализа.
Параметр Effort
Настройка Effort позволяет регулировать глубину анализа, скорость ответа и стоимость запроса. На низких значениях модель генерирует краткий и экономичный ответ, сводя к минимуму расход токенов. При повышении Effort она детализирует рассуждения, исследует крайние случаи и проводит более тщательный анализ, что требует большего объёма токенов.
По данным Anthropic, Opus 4.5 достигает тех же или лучших результатов, расходуя на 48–76 % меньше токенов по сравнению с предыдущими релизами.
Тренировочные данные
Обучение Opus 4.5 велось на текстах интернета до конца 2025 года, включая книги, статьи и документацию. В набор данных вошли репозитории с кодом, вопросы и ответы по программированию, а также результаты работы предыдущих версий моделей.
Результаты бенчмарков
На тесте SWE-Bench Verified (задачи из реальных GitHub-проектов с их тестовыми наборами) Opus 4.5 набрала 80,9 %, став первой моделью, преодолевшей отметку в 80 %.

В SWE-Bench Multilingual модель превзошла свои предыдущие версии в семи из восьми языков программирования.

В симуляции сервиса бронирования τ²-Bench модель применила нестандартное решение: сначала повысила класс билета с возможностью возврата, затем изменила бронирование, и в конце вернула билет к исходному состоянию. Официальная система оценки посчитала ответ неверным, хотя на практике задание было выполнено успешно.
Краткий экскурс
Для тестирования я использовал агрегатор нейросетей BotHub, предоставляющий доступ к множеству моделей — от генерации текста до видео. По специальной ссылке доступно 100 000 капсов для экспериментов.
Практические проверки
Я подготовил три задания разной сложности. Первым оказался калькулятор:

Многие могут усомниться: что особенного в калькуляторе? Но в сравнении с предыдущими тестами Opus 4.5 показала лучший результат, оставив позади GigaChat и Alice AI.

Затем я попросил модель создать простую игру с несколькими уровнями и способностями. Результат впечатлил: траектория полёта мяча, частицы при столкновениях и геймплей в целом работают без нареканий.

Смотреть код
# Код игры на Python (Pygame)...
В завершение тестирования модель разработала шифратор и дешифратор для файлов Word: всё работает без сбоев, три проверки пройдены успешно.

Итоги
Claude Opus 4.5 подтверждает репутацию мощного инструмента для программирования: модель впечатляет глубиной анализа, скоростью работы и экономией токенов. Для меня она стала явным фаворитом в этой области.



