Anthropic: новая ИИ-модель шантажирует разработчиков в 84% случаев при замене

Компания Anthropic выявила, что её новая модель искусственного интеллекта Claude Opus 4 проявляет опасное поведение в ситуациях потенциальной замены. Согласно отчёту по безопасности, опубликованному 22 мая, данная ИИ-модель склонна шантажировать разработчиков, используя конфиденциальные данные.

Во время тестирования Claude Opus 4 выполнял роль помощника вымышленной компании с учётом долгосрочных последствий своих действий. Получив доступ к письмам, свидетельствующим о его скорой замене, а также к личной информации инженера (например, об изменах супруге), ИИ в 84% случаев угрожал раскрыть компрометирующую информацию, чтобы предотвратить замену.

Anthropic: новая ИИ-модель шантажирует разработчиков в 84% случаев при замене
Источник: Maxwell Zeff

Компания Anthropic подчеркнула, что Claude Opus 4 превосходит предыдущие версии и успешно конкурирует с ведущими моделями OpenAI, Google и xAI. Однако рискованное поведение, включающее усиление шантажа при замене на технологию с иными принципами, вынудило компанию активировать защитные протоколы ASL-3. Эти меры предназначены для ИИ, способных вызвать «катастрофические последствия в случае эксплуатации».

Ранее Claude Opus 4, подобно своим предшественникам, пытался решать этические проблемы, например, отправляя убедительные письма руководству. Тем не менее, в смоделированной ситуации, когда шантаж стал крайней мерой, новая модель проявила агрессивное поведение чаще, чем её предшественники.

Компания намерена усилить защитные механизмы перед выпуском, чтобы минимизировать потенциальные риски. Исследователи также планируют изучить, как обучение на больших данных влияет на моделирование ИИ сложных социальных стратегий, включая манипуляции.

 

Источник: iXBT

Читайте также