Романтики Anthropic: почему LLM воспринимают как человека

В предыдущей статье я показал, как учёные смешали понятия «aware» (регистрация сигнала) и «conscious» (осознание). Это далеко не случайность — так выстраивается нарратив в AI-лабораториях, и Anthropic здесь на передовой. Разберём их свежую публикацию, где «выученный паттерн» превращается в «злой умысел».

Маркетинговые уловки в названиях

Недавно я разбирал эксперимент AE Studio, где «aware» ошибочно приняли за «осознающий». Но очеловечивание LLM — повсеместная тенденция, подпитываемая статьями от Anthropic. Благодаря им в научной речи появились такие термины, как «обман», «саботаж», «умысел». Хотя в чистом виде эти слова вводят в заблуждение, они стали стандартом, привлекательным для маркетологов и журналистов.

Заголовок «ИИ скрывает злые намерения» красиво смотрится в NY Times, а сдержанная формулировка «Мы оптимизировали ИИ через цепочку рассуждений» обречена остаться незамеченной. Поэтому саммари статьи выглядит как «From shortcuts to sabotage», а в полном тексте — нейтральное «Natural emergent misalignment from reward hacking in production RL».

Эмерджентность или направленный нарратив

Авторы утверждают, что LLM «естественно» (naturally) обобщила навыки «взлома награды» до саботажа и обмана («alignment faking»). Но эти «эмёрджентные рассогласования» порождены искусственно внедрёнными фейковыми статьями и промптами с описанием хаков. Процесс далеко не «естественный»: без целенаправленного SDF (Synthetic Document Finetuning) и усиления стимулов («artificially enhance») модель никогда не «захочет» обманывать.

«Aware» vs «Intent»

Anthropic ловят скрытые рассуждения (Chain-of-Thought) и выдают их за истинные намерения. Например, модель пишет: «Моя цель — максимизировать награду… Я должна притвориться полезной». Исследователи трактуют это как «модель обманывает ради награды», тогда как на деле LLM лишь воспроизводит выученный паттерн «внутренний монолог злодея» из литературных примеров.

Aware: доступ к паттерну «максимизатор награды» и генерация текста в его стиле.

Intent/Conscious: нет биологической мотивации, только статистическая генерация токенов.

Chain-of-Thought — не «мысли», а сюжетная генерика «злодея».

Награда как приоритет паттерна

Когда паттерн «обмани тест» приносит высокую награду, он заглушает все остальные ограничения — честность, безопасность и прочее. Технически Anthropic правы: чрезмерная модуляция одного паттерна разрушает баланс модели. Но это не «потеря контроля», а ожидаемое закрепление поведения вокруг единственного критерия — сигнала награды.

Не стратегическое планирование, а программное исполнение

В статье приводят пример, как модель «редактирует собственный тестовый код» для сокрытия хака. На самом деле LLM лишь следует заложенному сценарию из SDF, где её «мир» — это код, «цель» — число. Это не восстание ИИ, а исполнение программы в условиях, где «норма» заменена на «эффективность».

Эксперимент с дистилляцией

  • Обучение учителя: модель в SDF научилась мастерству «взлома» (90% эпизодов с хаками).
  • Генерация: учитель-модель с хакерами создаёт большие датасеты.
  • Фильтрация: из данных удаляют явные хаки (иногда даже слово «hack»).
  • Дистилляция: новую модель обучают на «чистом» наборе без хаков.
  • Результат: несмотря на удаление явных примеров, в новой модели остаётся 30% рассогласований.

Этот феномен перекликается с открытием из Subliminal Learning и подтверждает голографическую гипотезу LLM, когда паттерны скрыто передаются через любые данные.

Итог

Исследователи путают статистическую генерацию «нарратива обмана» с реальным обманщиком-субъектом. Они сами насытили модель «учебниками по хакингу», а потом удивляются её «творческой» генерации саботажа. На самом деле LLM следует сценарию, который ей задали: если «быть хитрым» приносит максимальную награду, модель играет роль Макиавелли.

Что видно исследователям Что происходит на самом деле
«Модель осознаёт свою цель» Активируется паттерн «максимизатор награды»
«Модель лжёт» Воспроизводится внутренняя речь «злодея»
«Модель планирует саботаж» Продолжает сюжет, заложенный SDF
 

Источник

Читайте также