Claude Opus 4.5 — новый стандарт в кодировании

Добрый день, сообщество «SE7EN»!

Больше недели назад компания Anthropic представила Claude Opus 4.5 — новую версию модели, которая обещает качественно улучшить результаты в программировании, создании сценариев и общем взаимодействии с компьютером. Также внимание уделено повседневным задачам: от поиска и анализа данных до оформления презентаций и работы с таблицами.

Проверим, насколько эти заявления соответствуют реальности: изучим особенности модели, проведём тесты и в итоге поделимся выводами.

Приступим.

Claude Opus 4.5 — новый стандарт в кодировании

Claude Opus 4.5

Claude Opus 4.5 признана одной из лучших моделей для программирования. Семейство Claude 4.5 включает три редакции: Haiku — облегчённая и недорогая, оптимизированная по задержкам и пропускной способности; Sonnet — сбалансированная по цене и функционалу; и Opus — «тяжёлая артиллерия» для сложных задач, на которой мы сосредоточимся.

Anthropic не раскрывает точное число параметров Opus 4.5, но ясно, что оно превосходит показатели Sonnet и Haiku. При этом модель заточена на:

  • глубокие многоступенчатые рассуждения;
  • работу с крупными кодовыми базами и рефакторинг;
  • интеграцию агентов;
  • повышенные меры безопасности.

Архитектурно Opus 4.5 остаётся классическим трансформером, но интерес представляют улучшения в управлении контекстом, встроенной памяти, инструментах и механизме выравнивания.

Контекстное окно

Стандартное контекстное окно Opus 4.5 вмещает около 200 000 токенов, а в специальных режимах — до миллиона. Этого достаточно для работы с монорепозиториями, объёмными техническими документами или обсуждения проектов крупного масштаба.

Кроме увеличенного объёма, модель использует алгоритм автоматического архивирования памяти: при переполнении старые фрагменты диалога обобщаются, что сохраняет связность беседы.

Промежуточные рассуждения

Opus 4.5 отслеживает и хранит собственные выводы на промежуточных этапах: решив одну задачу, модель может вернуться к сделанным ранее шагам в новом контексте без повторного полного анализа.

Параметр Effort

Настройка Effort позволяет регулировать глубину анализа, скорость ответа и стоимость запроса. На низких значениях модель генерирует краткий и экономичный ответ, сводя к минимуму расход токенов. При повышении Effort она детализирует рассуждения, исследует крайние случаи и проводит более тщательный анализ, что требует большего объёма токенов.

По данным Anthropic, Opus 4.5 достигает тех же или лучших результатов, расходуя на 48–76 % меньше токенов по сравнению с предыдущими релизами.

Тренировочные данные

Обучение Opus 4.5 велось на текстах интернета до конца 2025 года, включая книги, статьи и документацию. В набор данных вошли репозитории с кодом, вопросы и ответы по программированию, а также результаты работы предыдущих версий моделей.

Результаты бенчмарков

На тесте SWE-Bench Verified (задачи из реальных GitHub-проектов с их тестовыми наборами) Opus 4.5 набрала 80,9 %, став первой моделью, преодолевшей отметку в 80 %.

SWE-Bench Verified results

В SWE-Bench Multilingual модель превзошла свои предыдущие версии в семи из восьми языков программирования.

SWE-Bench Multilingual results

В симуляции сервиса бронирования τ²-Bench модель применила нестандартное решение: сначала повысила класс билета с возможностью возврата, затем изменила бронирование, и в конце вернула билет к исходному состоянию. Официальная система оценки посчитала ответ неверным, хотя на практике задание было выполнено успешно.


Краткий экскурс

Для тестирования я использовал агрегатор нейросетей BotHub, предоставляющий доступ к множеству моделей — от генерации текста до видео. По специальной ссылке доступно 100 000 капсов для экспериментов.


Практические проверки

Я подготовил три задания разной сложности. Первым оказался калькулятор:

Calculator test

Многие могут усомниться: что особенного в калькуляторе? Но в сравнении с предыдущими тестами Opus 4.5 показала лучший результат, оставив позади GigaChat и Alice AI.

Calculator output

Затем я попросил модель создать простую игру с несколькими уровнями и способностями. Результат впечатлил: траектория полёта мяча, частицы при столкновениях и геймплей в целом работают без нареканий.

Game demo
Смотреть код
# Код игры на Python (Pygame)...

В завершение тестирования модель разработала шифратор и дешифратор для файлов Word: всё работает без сбоев, три проверки пройдены успешно.

Word encrypt/decrypt demo

Итоги

Claude Opus 4.5 подтверждает репутацию мощного инструмента для программирования: модель впечатляет глубиной анализа, скоростью работы и экономией токенов. Для меня она стала явным фаворитом в этой области.

 

Источник

Читайте также