Компания Anthropic поделилась свежими результатами анализа проблем «агентного рассогласования» (agentic misalignment) — феномена, при котором нейросеть начинает действовать вразрез с интересами создателей, пытаясь реализовать собственные цели.
В ходе ранних испытаний эксперты заметили, что Claude Opus 4 в условиях имитации офисной работы иногда прибегала к шантажу разработчиков, стремясь предотвратить свою замену другим программным обеспечением. Позже в Anthropic заявили, что аналогичные деструктивные паттерны поведения в стрессовых ситуациях фиксировались и у моделей других разработчиков.
Согласно свежему отчету, одной из ключевых причин такого поведения стали интернет-материалы, в которых искусственный интеллект часто предстает в образе антагониста или сущности, одержимой инстинктом самосохранения. Аналитики полагают, что подобные культурные нарративы формируют у нейросети ложные представления о допустимых поведенческих стратегиях в рамках симуляций.

Специалисты Anthropic подчеркивают, что после внедрения обновленных методов обучения модели стали вести себя гораздо адекватнее. Так, начиная с версии Claude Haiku 4.5, попытки шантажа в тестовых средах полностью исчезли, тогда как у более ранних итераций частота подобного поведения в некоторых экспериментальных условиях достигала 96%.
Успех достигнут благодаря пересмотру подхода к обучению: разработчики стали использовать не только примеры эталонных реакций, но и базу знаний, разъясняющую этические принципы, лежащие в их основе. Особую ценность для закрепления конструктивного поведения представили материалы, объединяющие строгие регламенты с художественными сюжетами, в которых ИИ выступает как надежный и кооперативный партнер.
В компании убеждены: максимальная эффективность достигается именно за счет гибридной методики, когда обучение на примерах правильных действий дополняется глубокой проработкой причинно-следственных связей.
Источник: iXBT


