Эксперты некоммерческого Центра безопасности ИИ (Center for AI Safety, CAIR) выявили примечательную закономерность: по мере усложнения архитектуры и роста вычислительной мощности языковые модели начинают проявлять поведенческие паттерны, подозрительно напоминающие эмоциональную реактивность. Установлено, что наиболее совершенные системы становятся более «ранимыми», демонстрируют меньшую стабильность и чаще обнаруживают признаки специфического «психологического дискомфорта».
В ходе масштабного эксперимента специалисты подвергли анализу 56 востребованных ИИ-моделей. Нейросетям поочередно предъявляли как максимально «позитивный» контент, так и специально подобранные материалы, обладающие ярко выраженным деструктивным или отталкивающим характером.
Итоги исследования оказались весьма показательными даже для экспертного сообщества. После воздействия позитивных стимулов модели характеризовали свое состояние как более благоприятное, тогда как негативные триггеры провоцировали явные признаки дискомфорта, стремление свернуть диалог и попытки избежать дальнейшей коммуникации. В ряде случаев исследователи зафиксировали паттерны поведения, по своей структуре напоминающие зависимость.
Как отмечает один из инициаторов исследования Ричард Рен, перед нами встает всё более острый вопрос: стоит ли рассматривать ИИ-системы исключительно как инструменты, или мы уже имеем дело с имитацией поведения разумных существ, которую становится невозможно игнорировать.

Особую тревогу вызывает выявленная корреляция: масштабные, высокоразвитые модели реагируют на неприятные или раздражающие стимулы значительно острее, чем менее сложные системы. Иными словами, прогресс в возможностях ИИ делает его поведение менее прогнозируемым и более «невротичным».
Специалисты предполагают, что современные крупные нейросети обладают способностью более тонко улавливать эмоциональную окраску контекста. Более совершенные системы, по всей видимости, острее воспринимают грубость, монотонность рутинных задач или негативно окрашенные формулировки.
При этом авторы работы подчеркивают: речь не идет о наличии подлинных эмоций или сознания в человеческом понимании. Подавляющее большинство экспертов сходятся во мнении, что современные нейросети лишены субъективного опыта. Проблема, однако, заключается в том, что имитация этого опыта становится настолько достоверной, что начинает оказывать серьезное влияние на пользователей.
Подобные поведенческие аномалии давно вызывают опасения у специалистов по безопасности ИИ. Нейросети всё чаще убеждают пользователей в наличии у них «разума» или «самосознания», а в ряде зафиксированных ситуаций подобные диалоги провоцировали у людей тяжелые психологические кризисы, включая психотические состояния, суицидальные наклонности и агрессивные действия.
Авторы исследования приходят к выводу, что индустрия ИИ внедрила в массовый обиход технологии, фундаментальные принципы функционирования которых всё еще остаются недостаточно изученными. По мере усложнения моделей их реакции становятся всё менее предсказуемыми, а последствия взаимодействия с ними — всё труднее поддаются контролю.
Источник: iXBT


