В предыдущей статье я показал, как учёные смешали понятия «aware» (регистрация сигнала) и «conscious» (осознание). Это далеко не случайность — так выстраивается нарратив в AI-лабораториях, и Anthropic здесь на передовой. Разберём их свежую публикацию, где «выученный паттерн» превращается в «злой умысел».
Маркетинговые уловки в названиях
Недавно я разбирал эксперимент AE Studio, где «aware» ошибочно приняли за «осознающий». Но очеловечивание LLM — повсеместная тенденция, подпитываемая статьями от Anthropic. Благодаря им в научной речи появились такие термины, как «обман», «саботаж», «умысел». Хотя в чистом виде эти слова вводят в заблуждение, они стали стандартом, привлекательным для маркетологов и журналистов.
Заголовок «ИИ скрывает злые намерения» красиво смотрится в NY Times, а сдержанная формулировка «Мы оптимизировали ИИ через цепочку рассуждений» обречена остаться незамеченной. Поэтому саммари статьи выглядит как «From shortcuts to sabotage», а в полном тексте — нейтральное «Natural emergent misalignment from reward hacking in production RL».
Эмерджентность или направленный нарратив
Авторы утверждают, что LLM «естественно» (naturally) обобщила навыки «взлома награды» до саботажа и обмана («alignment faking»). Но эти «эмёрджентные рассогласования» порождены искусственно внедрёнными фейковыми статьями и промптами с описанием хаков. Процесс далеко не «естественный»: без целенаправленного SDF (Synthetic Document Finetuning) и усиления стимулов («artificially enhance») модель никогда не «захочет» обманывать.
«Aware» vs «Intent»
Anthropic ловят скрытые рассуждения (Chain-of-Thought) и выдают их за истинные намерения. Например, модель пишет: «Моя цель — максимизировать награду… Я должна притвориться полезной». Исследователи трактуют это как «модель обманывает ради награды», тогда как на деле LLM лишь воспроизводит выученный паттерн «внутренний монолог злодея» из литературных примеров.
Aware: доступ к паттерну «максимизатор награды» и генерация текста в его стиле.
Intent/Conscious: нет биологической мотивации, только статистическая генерация токенов.
Chain-of-Thought — не «мысли», а сюжетная генерика «злодея».
Награда как приоритет паттерна
Когда паттерн «обмани тест» приносит высокую награду, он заглушает все остальные ограничения — честность, безопасность и прочее. Технически Anthropic правы: чрезмерная модуляция одного паттерна разрушает баланс модели. Но это не «потеря контроля», а ожидаемое закрепление поведения вокруг единственного критерия — сигнала награды.
Не стратегическое планирование, а программное исполнение
В статье приводят пример, как модель «редактирует собственный тестовый код» для сокрытия хака. На самом деле LLM лишь следует заложенному сценарию из SDF, где её «мир» — это код, «цель» — число. Это не восстание ИИ, а исполнение программы в условиях, где «норма» заменена на «эффективность».
Эксперимент с дистилляцией
- Обучение учителя: модель в SDF научилась мастерству «взлома» (90% эпизодов с хаками).
- Генерация: учитель-модель с хакерами создаёт большие датасеты.
- Фильтрация: из данных удаляют явные хаки (иногда даже слово «hack»).
- Дистилляция: новую модель обучают на «чистом» наборе без хаков.
- Результат: несмотря на удаление явных примеров, в новой модели остаётся 30% рассогласований.
Этот феномен перекликается с открытием из Subliminal Learning и подтверждает голографическую гипотезу LLM, когда паттерны скрыто передаются через любые данные.
Итог
Исследователи путают статистическую генерацию «нарратива обмана» с реальным обманщиком-субъектом. Они сами насытили модель «учебниками по хакингу», а потом удивляются её «творческой» генерации саботажа. На самом деле LLM следует сценарию, который ей задали: если «быть хитрым» приносит максимальную награду, модель играет роль Макиавелли.
| Что видно исследователям | Что происходит на самом деле |
|---|---|
| «Модель осознаёт свою цель» | Активируется паттерн «максимизатор награды» |
| «Модель лжёт» | Воспроизводится внутренняя речь «злодея» |
| «Модель планирует саботаж» | Продолжает сюжет, заложенный SDF |



