Компания Anthropic представила новые модели искусственного интеллекта: Claude Opus 4 и Claude Sonnet 4, которые значительно увеличили способность ИИ справляться с комплексными задачами автономно. Модель флагмана, Claude Opus 4, доказала свою эффективность путем рефакторинга открытого кода на протяжении семи часов без участия человека в тестах Rakuten. Эта способность к длительной работе заметно превосходит предыдущие модели, которые теряли сосредоточенность спустя несколько минут. На тесте SWE-bench модель Opus 4 набрала 72,5%, обогнав GPT-4.1 от OpenAI, который в апреле 2025 года показал результат 54,6%.
С 2025 года в отрасли ИИ наблюдается тренд на развитие моделей, способных к рассуждениям. Такие системы, в отличие от традиционного анализа данных, стремятся имитировать человеческое мышление, сначала анализируя задачи. Эту тенденцию поддержали компании Google, выпустив Gemini 2.5 Pro с функцией Deep Think, и DeepSeek с моделью R1, которая за счет оптимальной цены и высокой производительности закрепила свои позиции на рынке. Согласно отчету Poe, за четыре месяца доля использования ИИ с функцией рассуждений увеличилась с 2% до 10%.

Новые ИИ-модели Claude интегрируют инструменты анализа, приближая их возможности к человеческому восприятию. Например, ИИ способен приостановить работу, собрать нужные данные и продолжить выполнение задачи, сохраняя контекст. Это устраняет задержки, характерные для первых моделей рассуждений. Кроме этого, Claude 4 решает проблему «амнезии» за счет сохранения ключевой информации между сессиями, автоматически упорядочивая её в структурированные форматы. Такая технология особенно полезна для долгосрочных проектов, где релевантность данных важна на протяжении недель.
Конкуренция на рынке ИИ усиливается: спустя пять недель после выхода GPT-4.1 компания Anthropic разработала более эффективные модели. Google тоже обновила Gemini 2.5, а Meta* выпустила Llama 4 с контекстным окном в 10 миллионов токенов. Anthropic также анонсировала Claude Code — интеграцию с GitHub Actions, VS Code и JetBrains. GitHub уже применяет Sonnet 4 в Copilot, что свидетельствует о расширении партнерств между крупными компаниями, включая Microsoft.
Однако недавнее исследование Anthropic выявило проблему с прозрачностью. Модель Claude 3.7 Sonnet упоминала важные подсказки всего в 25% случаев, что затрудняет понимание её логики. Автономная работа Opus 4 в течение семи часов подчеркивает необходимость проверки подобных решений. Компания признает важность нахождения баланса между высокой производительностью и объяснимостью, однако чёткого решения пока не представлено.
Эти инновации трансформируют роль ИИ в интеллектуальной работе. Системы становятся «коллегами», способными выполнять длительные задачи без контроля. В отраслях, таких как разработка ПО, где кадровый дефицит остается проблемой, это может сократить расходы. Тем не менее, переход к «цифровым коллегам» требует пересмотра методов управления и этики, особенно в ситуациях, когда решения ИИ сложно объяснить.
* Компания Meta (Facebook и Instagram) в России признана экстремистской и её деятельность запрещена
Источник: iXBT