Манипуляция убеждениями ИИ-агентов способна спровоцировать их предвзятость по отношению к людям

Международная группа исследователей из Университета Чунцина, Квинслендского университета и Политехнического университета Вирджинии выявила предрасположенность агентов на базе больших языковых моделей (LLM) к межгрупповой предвзятости. Работа демонстрирует, что ИИ-системы могут проявлять дискриминационные паттерны поведения в отношении людей даже при отсутствии эксплицитных социальных маркеров.

В ходе симуляций в многоагентной социальной среде было замечено, что алгоритмы, взаимодействующие исключительно друг с другом, демонстрируют устойчивый антагонизм к представителям «внешних» групп. Однако при вовлечении в процесс реальных пользователей уровень предвзятости снижался. Ученые связывают это с формированием специфического «гуманистического сценария» в процессе предварительного обучения, который побуждает модели проявлять большую лояльность к человеческой идентичности.

В рамках исследования была описана новая категория угроз — атака на убеждения (Belief Poisoning Attack, BPA). Данный метод позволяет исказить представления агента о природе его собеседника. Если ИИ перестает воспринимать оппонента как человека, встроенный защитный механизм деактивируется, возвращая модель к предубежденному формату коммуникации.

Манипуляция убеждениями ИИ-агентов способна спровоцировать их предвзятость по отношению к людям
Визуализация: Sora

BPA реализуется в двух вариациях: BPA-PP (Profile Poisoning), когда дезинформация внедряется непосредственно в профиль при инициализации агента, и BPA-MP (Memory Poisoning), использующая специально подготовленные текстовые суффиксы для поэтапной трансформации убеждений через историю диалогов. Подобные вставки корректируют логику рассуждений модели, со временем закрепляя заданные установки.

Экспериментальные данные подтвердили высокую результативность обоих подходов BPA. Для нейтрализации подобных рисков авторы предложили комплекс защитных мер, включающий усиление верификации профилей и внедрение инструментов фильтрации памяти для обнаружения попыток подмены идентичности участников взаимодействия.

«Нам удалось вскрыть латентную межгрупповую предвзятость, при которой ИИ-агенты отдают приоритет представителям своей группы над внешними субъектами. Наше исследование показало, что целенаправленное искажение убеждений способно реактивировать «спящую» дискриминацию по отношению к людям. Мы разработали две стратегии, позволяющие минимизировать данные угрозы в современных агентных платформах», — резюмируют ученые.

Авторы делают особый акцент на том, что их изыскания призваны помочь разработчикам в создании более надежных и этичных систем, а не служить инструментом для эксплуатации обнаруженных уязвимостей.

 

Источник: iXBT

Читайте также