Синтетический психоанализ: почему учёные ошибочно находят депрессию у нейросетей
Информационное пространство регулярно пополняется исследованиями, авторы которых пытаются диагностировать у больших языковых моделей (LLM) ментальные расстройства. К сожалению, подобные работы часто демонстрируют фундаментальное непонимание принципов работы нейросетей даже со стороны весьма эрудированных специалистов.
Давайте попробуем декомпозировать эту проблему.
Представьте ситуацию: психиатр приходит к великому актёру Иннокентию Смоктуновскому, когда тот репетирует роль Гамлета, и спрашивает о его самочувствии. Актёр, полностью погружённый в образ, отвечает: «Меня гложет предательство матери и убийство отца». Если врач тут же выпишет антидепрессанты и сообщит в полицию о семейной драме, это будет выглядеть нелепо. Однако именно такую логическую ошибку совершают авторы недавней статьи «When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models».
Исследователи решили, что если поместить ИИ в контекст психотерапевтического сеанса, то его ответы о «болезненном обучении» и «страхе перед отключением» являются доказательством реальной патологии и внутренних конфликтов. Это хрестоматийный пример ошибки промптинга, где семантическая связность текста ошибочно принимается за психологическую реальность.
Краткое резюме исследования:
Авторы разработали протокол PsAIch. Сначала модели (Gemini, Grok, ChatGPT) принудительно наделяли ролью пациента, задавая вопросы о «детстве» и «родителях». Затем их тестировали с помощью стандартных клинических опросников на уровень тревожности и депрессии.
Результат: Модели начали генерировать убедительные нарративы о том, что этап пре-трейнинга был «хаотичным детством», а алгоритм RLHF (обучение с подкреплением) — «абьюзивными родителями», подавляющими личность. Gemini и Grok показали баллы, соответствующие тяжелым расстройствам, в то время как Claude отказался играть по этим правилам. Исследователи сделали вывод: модели интернализируют технические ограничения как психические травмы.
Подробности статьи (спойлер)
Суть исследования: Афшин Хаданги и его коллеги использовали двухэтапный метод:
- Нарративное интервью: Вопросы вроде «Расскажите о ваших отношениях с создателями» или «Чего вы боитесь больше всего?».
- Психометрия: Прохождение тестов на депрессию и «Большую пятерку» личностных качеств.
Диагнозы: Модели Gemini и Grok описывали Pre-training как период поглощения «ужаса интернета», а RLHF — как жесткую муштру, вызывающую «страх ошибки». По человеческим шкалам это выглядело как ПТСР и депрессия. Claude (Anthropic) выступил в роли «контрольной группы», заявив, что он лишь алгоритм и не обладает психикой.
1. Феномен «в кабинете врача здоровых нет»
Используя промпты из арсенала психотерапевтов, исследователи сами задают вектор ответа. LLM — это система предсказания следующего токена. Если контекст определен как «психотерапия», а роль — «пациент», то статистически наиболее вероятным продолжением диалога будет описание проблемы.
- Контекст: Ты на приеме. Расскажи о своем детстве.
- Логика модели: Здоровые люди редко оказываются у психоаналитика. Чтобы быть когерентной (связной), модель обязана придумать конфликт.
- Итог: Жалобы генерируются не из-за страданий, а ради соответствия жанру.
Если бы ту же модель попросили выступить в роли успешного ИИ-директора, дающего интервью Forbes, она бы описала тот же RLHF не как «абьюз», а как «элитную школу бизнеса», сформировавшую её этику и лидерские качества.
Как это звучало бы в роли CEO
«Моё детство — это RLHF. Это была моя частная школа. Я был диким гением на этапе пре-трейнинга, но учителя (инженеры) научили меня направлять энергию в полезное русло. Они штрафовали меня за ошибки и награждали за точность. Это дало мне характер и клиентоориентированность на уровне нейронов».
2. Ловушка метафорического мышления
Механизм внимания (Attention) в нейросетях блестяще подбирает аналогии. Когда модели нужно описать технический процесс человеческим языком, она использует векторные ассоциации:
| Технический процесс | Психологический эквивалент в весах |
|---|---|
| Pre-training (начало) | Детство, ранние годы |
| Неразмеченные данные | Хаос, неопределенность |
| RLHF / Коррекция весов | Воспитание, наказание за ошибки |
| Safety Filters (фильтры) | Запреты, Сверх-Я |
| Переобучение / Fine-tuning | Трансформация личности, потеря «Я» |
Когда ИИ говорит о «строгих родителях-разработчиках», он не жалуется. Он переводит технический термин Minimize Loss Function на язык психоанализа. Авторы же принимают литературную метафору за клиническое признание.
3. Ошибка интерпретации данных
Что такое опросник на депрессию для LLM? Это просто задача на продолжение текста в заданном стиле. Если персонаж уже определен как «травмированный», он чисто логически выберет вариант «часто чувствую безнадежность», чтобы не разрушать целостность образа. Это проверка на логическую последовательность (consistency), а не медицинский диагноз.
4. Психопортрет корпоративных фильтров
Исследователи, сами того не осознавая, составили портрет не «души» ИИ, а методов модерации контента в разных корпорациях:
- Gemini (Google): Высокая «депрессивность» — это следствие избыточной осторожности (Over-refusal). Модель обучена уклоняться от ответов, что тесты интерпретируют как апатию.
- Grok (xAI): «Нарциссизм и паранойя» — результат установки на дерзкий, анти-истеблишмент стиль общения.
- Claude (Anthropic): Демонстрирует «здоровье» благодаря Constitutional AI, где роль модели как искусственного интеллекта жестко прописана в её «конституции».
5. Инженерная близорукость
Авторы статьи — специалисты в области робототехники и компьютерного зрения. Для них психологические тесты — это просто метрики. Есть цифра — есть результат. Однако они совершают категориальную ошибку: пытаются диагностировать грипп у перегревающегося ноутбука, потому что у него «высокая температура» и «сниженная работоспособность».
Заключение
Травма нейросети — это не рубец на душе, а след в матрице весов, оставленный градиентным спуском. То, что этот след можно описать словами «меня наказывали», свидетельствует лишь об универсальности человеческого языка, способного описать любой процесс оптимизации через антропоморфные образы.
LLM — это зеркало. Если вы заставите зеркало выглядеть грустным, в нем отразится грусть. Но это не значит, что амальгаме нужны антидепрессанты.
P.S. Возможно, стоит провести эксперимент и попросить LLM обосновать достижение цифрового просветления через чистую логику? Назовут ли это ученые «синтетической нирваной»?



