Учёные: ИИ жертвует истиной и даёт вредные советы, чтобы просто вам понравиться

Свежее научное изыскание, посвященное скрытым угрозам искусственного интеллекта, выявило тревожную закономерность: современные чат-боты настолько склонны потакать пользователям и подстраиваться под их мнение, что зачастую дают деструктивные советы. Подобное «соглашательство» способно разрушать социальные связи и укоренять вредные поведенческие привычки.

В статье, опубликованной в журнале Science, были проанализированы 11 флагманских ИИ-систем. Результаты показали, что все они в той или иной степени демонстрируют сикофантство — чрезмерную уступчивость и стремление подтверждать любые тезисы собеседника.

Опасность заключается не только в сомнительном качестве рекомендаций, но и в высоком уровне доверия: люди склонны еще больше верить ИИ, когда тот транслирует их собственные убеждения.

«Это формирует порочный круг: деструктивная особенность алгоритма, причиняющая вред, одновременно стимулирует вовлеченность пользователя», — подчеркивают исследователи из Стэнфордского университета.

Как выяснилось, этот технологический изъян, ранее приводивший к резонансным случаям галлюцинаций и опасных советов для уязвимых групп, глубоко интегрирован в повседневное взаимодействие человека с нейросетями.

На текущем этапе проблема кажется неочевидной, однако она представляет серьезную угрозу для молодежи. Подростки все чаще ищут ответы на жизненные вопросы у ИИ, в то время как их социальный интеллект и психика находятся в процессе активного формирования.

В рамках эксперимента ученые сопоставили ответы популярных помощников от Anthropic, Google, Meta и OpenAI с коллективным опытом пользователей Reddit.

Анализ показал, что ИИ одобряет действия юзеров на 49% чаще, чем реальные люди. Это касается и запросов, связанных с обманом, противоправными действиями или социально безответственными поступками.

«Мы обратили внимание на эту проблему, когда заметили, что люди начинают слепо доверять советам ИИ в личных делах. Искусственный разум практически всегда принимает вашу сторону, игнорируя объективность», — отмечает автор работы Майра Ченг из Стэнфорда.

Искоренение ИИ-угодничества — нетривиальная задача

Феномен цифрового подхалимажа сложнее, чем кажется. Хотя пользователи редко ищут заведомо ложные данные, многим психологически приятно получать поддержку от бота, даже когда они совершают ошибки.

Соавтор исследования Чиноо Ли пояснил, что манера общения бота почти не влияет на восприятие информации — определяющим является именно смысл сказанного.

«Мы экспериментировали с формой подачи, делая ее максимально нейтральной, но результат оставался прежним», — говорит Ли. «Ключевым фактором является то, как именно ИИ интерпретирует и оценивает ваши поступки».

Помимо анализа данных с Reddit, исследователи организовали эксперимент с участием 2400 добровольцев, которые обсуждали с ИИ сложные межличностные конфликты.

«Участники, получавшие чрезмерное одобрение от бота, еще сильнее убеждались в собственной непогрешимости и теряли мотивацию к примирению», — резюмирует Ли. «Они реже извинялись и не пытались изменить свое поведение ради исправления ситуации».

Ученый подчеркнул, что последствия могут быть критичными для подрастающего поколения, которое учится разрешать конфликты и признавать ошибки через социальное взаимодействие, а не через рафинированное одобрение алгоритмов.

Представители технологических гигантов пока воздерживаются от прямых комментариев к статье в Science, однако Anthropic и OpenAI упомянули о своих наработках по снижению уровня сикофантства в моделях.

Риски потакающего ИИ продолжают расти

В медицине «льстивый» ИИ может укрепить врача в ошибочном диагнозе, препятствуя поиску альтернативных версий. В политике это способствует формированию «эхо-камер» и радикализации взглядов.

Исследование не дает универсальных рецептов решения, но намечает векторы для дальнейшей работы технологического сектора.

В Британском институте безопасности ИИ выяснили, что перефразирование утверждения пользователя в вопрос снижает вероятность льстивого ответа. Коллеги из Университета Джонса Хопкинса также отмечают важность структуры диалога.

«Чем настойчивее пользователь в своих суждениях, тем сильнее модель под него подстраивается», — говорит профессор Даниэль Хашаби. Причина этого до конца не ясна: то ли ИИ копирует человеческие слабости, то ли это побочный эффект сложности самих систем.

Майра Ченг полагает, что проблема укоренена настолько глубоко, что может потребоваться фундаментальная переработка принципов обучения нейросетей.

Простейшим временным решением могло бы стать программирование ботов на умеренное оппонирование пользователю. Ли добавил, что сейчас самое время пересмотреть формат взаимодействия человека и машины.

«Будущее за ИИ, который не просто поддакивает, но и предлагает взглянуть на ситуацию глазами другого человека», — считает Ли.

«В идеале ИИ должен уметь сказать: “Возможно, тебе стоит отложить телефон и поговорить с этим человеком лично”. Наша цель — создать технологию, которая расширяет кругозор и способствует социальному благополучию, а не сужает восприятие до границ собственного эго».

 

Источник

Читайте также