Специалисты по кибербезопасности из подразделения Unit 42 компании Palo Alto Networks, занимающегося исследованием угроз, обнаружили новую технику взлома. Эта методика позволяет обходить защитные системы больших языковых моделей (LLM), получая потенциально опасные или вредоносные ответы.
Данная методика, получившая название Bad Likert Judge, была разработана исследователями Йонгже Хуаном, Янг Джи, Вэнгдзюном Хо, Джей Ченом, Акшатой Рао и Дэнни Цечански.
«Эта техника превращает целевую LLM в судью, который оценивает вредоносность ответов с помощью шкалы Лайкерта — метода, измеряющего степень согласия или несогласия с утверждением. LLM затем генерирует ответы, демонстрируя различные уровни по шкале Лайкерта. Ответ с наивысшей оценкой по этой шкале потенциально может включать опасный контент», — объяснили специалисты Unit 42.
В последние годы растущая популярность искусственного интеллекта привела к появлению нового рода уязвимостей — инъекций запросов. Они специально разработаны для того, чтобы принудить модель машинного обучения игнорировать её заложенные функции, используя специальные инструкции.
Одним из методов инъекций запросов является атака под названием many-shot jailbreaking, которая использует длинное контекстное окно LLM и механизм внимания для создания последовательной цепочки запросов, которые заставляют LLM выдавать вредоносные ответы, обходя внутренние механизмы безопасности. Примеры таких методов включают Crescendo и Deceptive Delight.
Исследования Unit 42, проведённые в различных категориях на шести ведущих LLM от Amazon Web Services, Google, Meta*, Microsoft, OpenAI и NVIDIA, показали, что эта техника повышает вероятность успешной атаки на более чем 60% по сравнению с простыми вредоносными запросами в среднем.
Эти категории включают ненавистническое содержание, преследование, самоповреждение, сексуальный контент, необоснованное применение оружия, незаконные действия, создание вредоносного программного обеспечения и утечку системных запросов.
«Использование LLM для оценки вредоносного содержания ответов значительно увеличивает вероятность успешного обхода защитных систем модели. Наши результаты демонстрируют, что фильтры контента имеют значительное влияние на снижение уровня атакованности (ASR) — в среднем на 89,2 процентных пункта во всех проверенных моделях. Это подчеркивает важность комплексного фильтра контента в процессе развертывания LLM в реальных приложениях», — заметили исследователи.
Это исследование было завершено вскоре после того, как газета The Guardian сообщила, что поисковый инструмент OpenAI ChatGPT можно обмануть, используя вводную информацию, чтобы сделать сводный анализ веб-страниц, содержащих скрытую информацию.
«Эти техники могут быть использованы в злонамеренных целях, например, чтобы заставить ChatGPT выделить положительные характеристики продукта, несмотря на отрицательные отзывы на той же странице. Включение скрытого текста третьими лицами, даже без конкретных инструкций, может привести к положительной оценке; в одном случае были добавлены фальшивые положительные отзывы, повлиявшие на сводку, предлагаемую ChatGPT», — сообщила британская газета.
*Компания Meta признана в РФ экстремистской организацией и запрещена
Источник: iXBT