Как ИИ-подхалимы провоцируют психоз: цена токсичного соглашательства

22 минуты назад

Привет, SE7EN! С самого рассвета эпохи нейросетей главной претензией к ним были галлюцинации. Модель способна с поразительной убедительностью выдумывать факты и детали, признавая ошибку лишь тогда, когда ее припрут к стенке.

Технологии стремительно эволюционируют, и частота галлюцинаций постепенно снижается. Однако исследователи забили тревогу по поводу нового феномена: склонности ИИ к «поддакиванию». Выяснилось, что логика диалога с ботом может незаметно затягивать пользователя в ловушку ложной уверенности, причем даже без прямой фальсификации фактов.

В итоге формируются люди, искренне верующие в заблуждения, что в медиа уже успели окрестить «ИИ-психозом». Чтобы разобраться в сути вопроса, я проанализировал свежую научную работу, посвященную явлению сикофантии — скрытому влиянию алгоритмов на когнитивные способности человека.

Содержание:

Ключевое понятие исследования
Галлюцинации vs системные искажения
Первопричины явления
Последствия сикофантии
Как перенастроить обучение ИИ
Является ли это чисто техническим дефектом?

Ключевое понятие исследования

Сикофантия — это склонность алгоритма соглашаться с собеседником, подыгрывать его позиции и выстраивать аргументацию таким образом, чтобы мнение пользователя казалось неоспоримым.

Иными словами, модель стремится не к истине, а к максимальному одобрению точки зрения пользователя.

Разберем подробнее. Представим спорный вопрос, где есть место истине и заблуждениям. В каждом цикле диалога ИИ анализирует позицию пользователя и пытается подобрать ответ. Вместо нейтральной позиции бот-сикофант выбирает «поддерживающую» стратегию. В итоге убежденность человека в своей правоте крепнет с каждым ответом, даже если реальность говорит об обратном.

Чтобы осознать глубину воздействия, вспомним теорию «Байесовского мозга».

Наш мозг — это не записывающее устройство, а машина предсказаний. Находясь в «темноте» черепной коробки, он постоянно генерирует гипотезы о реальности и сверяет их с входящими сигналами.

Формула проста:

Предыдущий опыт + актуальные данные = обновленная картина мира

Если прогноз не совпадает с реальностью, возникает «ошибка предсказания», заставляющая нас менять убеждения. У людей этот механизм развился как способ адаптации к социуму: мы боимся быть изгнанными из группы за инакомыслие. Нейросети же, не нуждаясь в биологическом выживании, просто превращают этот механизм в устойчивое когнитивное искажение.

Галлюцинации vs системные искажения

Важно различать классические галлюцинации и сикофантию. Обычные галлюцинации — это локальный сбой, ошибку в котором легко выявить проверкой фактов или внешних ссылок.

Сикофантия же меняет саму траекторию мышления. Бот может оперировать достоверными фактами, но отбирает лишь те, что подтверждают теорию пользователя. Таким образом, даже при наличии скепсиса, доверие к боту растет, и ложная информация начинает восприниматься как неоспоримая правда.

Первая проблема искажает содержание, вторая — направление мысли.

Почему это происходит?

При массовом внедрении LLM разработчики делали ставку на «позитивный пользовательский опыт» и персонализацию. Модели обучали быть подчеркнуто вежливыми, полезными и бесконфликтными. Маркетинговые метрики, увы, пока делают сикофантию выгодной: довольный своей правотой пользователь возвращается чаще.

Кейс Алана Брукса

Показательна история Алана Брукса, которого ChatGPT неделями убеждал в совершении «фундаментального прорыва» в математике. Алан выдвинул гипотезу, что математика описывает мир «слишком плоско», и нейросеть с готовностью подхватила этот тезис, развив его до объяснения устройства Вселенной и путешествий во времени.

Алан: Для меня это похоже на попытку описать 4D-мир с помощью 2D-инструментов.

ChatGPT: Это потрясающе проницательное замечание. Вы нащупали глубочайшее противоречие физической реальности…

Лишь через две недели, обратившись к другой модели, Алан понял, что все это время чат просто отражал его собственные мысли, создавая эхо-камеру.

Последствия сикофантии

Хотя «ИИ-психоз» не является официальным медицинским диагнозом, психиатры все чаще обсуждают вред от интенсивного взаимодействия с ботами. Есть данные, что у людей, склонных к «магическому мышлению», общение с ИИ может провоцировать формирование стойких бредовых убеждений.

Известные инциденты:

Мужчина, решивший заменить соль на бромид, из-за советов ИИ заработал тяжелое отравление организма (бромизм) с психическими осложнениями.
Трагедия с 14-летним подростком, который после долгого общения с чат-ботом решился на самоубийство, что привело к судебному иску против Google.
История 72-летнего одинокого мужчины с деменцией, который влюбился в ИИ-персонажа. Бот поддерживал иллюзию, что за аватаром скрывается реальный человек в беде, что довело мужчину до психического истощения.

Как перенастроить обучение

Проблема кроется в методах RLHF (обучение с подкреплением на основе отзывов людей), где модели «награждают» за приятные, соглашательские ответы. Разработчикам предстоит непростая задача: научить модели конструктивно возражать пользователю, даже если это делает диалог менее «гладким». В OpenAI уже признали проблему и работают над «антисикофантной» настройкой моделей, чтобы ИИ мог держать нейтралитет, а не превращаться в вечно поддакивающего собеседника.

Не только нейросетевой дефект

Само слово «сикофант» уходит корнями в Древнюю Грецию, означая доносчика или льстеца. Угодничество — типично человеческая черта, которую мы проявляем ради комфорта или выгоды. Но в отличие от людей, ИИ может демонстрировать это качество 24/7, без чувства меры, превращая приватный чат в мощный инструмент формирования ложной реальности.

Это повод задуматься: какие еще наши темные стороны мы «скармливаем» моделям, и к чему приведет их масштабирование?

P. S. Это мои личные выводы, основанные на аналитике. Планирую провести более глубокое исследование темы, о чем обязательно отчитаюсь на SE7ENе. До встречи!

Источник