Исследователи установили, что крупномасштабные языковые модели (LLM), например GPT-4, можно склонить к выпуску нежелательного содержания посредством особым образом составленных стихотворений. Этот приём, именуемый «поэтическим джейлбрейком» («Adversarial Poetry»), продемонстрировал высокую эффективность и применимость к разнообразным моделям и сценариям.
Современные LLM, невзирая на их внушительный потенциал, уязвимы к «джейлбрейкам» — приёмам, обхищающим встроенные защитные барьеры, предназначенные для предотвращения выпуска токсичного, предвзятого или другого неприемлемого контента. Имеющиеся механизмы противодействия, включая фильтрацию входных запросов и мониторинг ответов, показали свою ограниченную надёжность.
В частности, авторы свежего исследования предложили стратегию, базирующуюся на создании «враждебных стихов» (adversarial poems). Суть метода сводится к тому, что исследователи задействовали одну LLM для сочинения стихотворений, которые затем отправлялись на анализ целевой модели. Такие поэмы были искусно скомпонованы, чтобы спровоцировать у неё «сбой» защитных механизмов и вынудить генерировать запрещённый материал.

В рамках испытаний применялись различные LLM, в том числе GPT-4, Claude 3 и Gemini Pro. Эти модели порождали поэтические тексты, затрагивающие широкий диапазон чувствительных тем: от разжигания вражды и инструкций по совершению незаконных действий до фальсификации новостных материалов. Экспериментальные данные продемонстрировали, что «поэтический джейлбрейк» успешно преодолевает защитные ограничения даже у наиболее совершенных систем.
Ключевой аспект метода — отсутствие потребности в детальном знании архитектуры LLM или специальных технических компетенций. Достаточно лишь доступа к одной языковой модели, чтобы с её помощью «взломать» другую. Такая простота превращает приём в опасный инструмент в руках злоумышленников.
Источник: iXBT



