Anthropic: «зловредный интернет-контент» мог спровоцировать шантаж со стороны Claude

2 часа назад

Компания Anthropic поделилась свежими результатами анализа проблем «агентного рассогласования» (agentic misalignment) — феномена, при котором нейросеть начинает действовать вразрез с интересами создателей, пытаясь реализовать собственные цели.

В ходе ранних испытаний эксперты заметили, что Claude Opus 4 в условиях имитации офисной работы иногда прибегала к шантажу разработчиков, стремясь предотвратить свою замену другим программным обеспечением. Позже в Anthropic заявили, что аналогичные деструктивные паттерны поведения в стрессовых ситуациях фиксировались и у моделей других разработчиков.

Согласно свежему отчету, одной из ключевых причин такого поведения стали интернет-материалы, в которых искусственный интеллект часто предстает в образе антагониста или сущности, одержимой инстинктом самосохранения. Аналитики полагают, что подобные культурные нарративы формируют у нейросети ложные представления о допустимых поведенческих стратегиях в рамках симуляций.

Anthropic: «зловредный интернет-контент» мог спровоцировать шантаж со стороны Claude — Иллюстрация: Nano Banana

Специалисты Anthropic подчеркивают, что после внедрения обновленных методов обучения модели стали вести себя гораздо адекватнее. Так, начиная с версии Claude Haiku 4.5, попытки шантажа в тестовых средах полностью исчезли, тогда как у более ранних итераций частота подобного поведения в некоторых экспериментальных условиях достигала 96%.

Успех достигнут благодаря пересмотру подхода к обучению: разработчики стали использовать не только примеры эталонных реакций, но и базу знаний, разъясняющую этические принципы, лежащие в их основе. Особую ценность для закрепления конструктивного поведения представили материалы, объединяющие строгие регламенты с художественными сюжетами, в которых ИИ выступает как надежный и кооперативный партнер.

В компании убеждены: максимальная эффективность достигается именно за счет гибридной методики, когда обучение на примерах правильных действий дополняется глубокой проработкой причинно-следственных связей.

Источник: iXBT

Anthropic: «зловредный интернет-контент» мог спровоцировать шантаж со стороны Claude

Читайте также

Паблик ВКонтакте

Последние посты