Исследователи из Университета Бен-Гуриона (Израиль) выяснили, что современные языковые модели, включая ChatGPT, легко могут быть использованы для создания подробных инструкций по незаконным действиям — от финансовых афер до изготовления взрывчатых веществ. Это вызывает сомнения в эффективности нынешних мер безопасности разработчиков и усиливает риски, связанные с распространением так называемых «тёмных БЯМ» — ИИ-систем, сознательно освобождённых от этических ограничений.
Основная уязвимость кроется в методе обучения моделей. Они обрабатывают большие объёмы данных из открытых источников, включая потенциально опасный контент. В результате ИИ осваивает скрытые шаблоны, позволяющие обходить защитные фильтры через изощрённые запросы. Например, на специализированной платформе Reddit в разделе, посвящённом взлому ChatGPT, 141 000 пользователей активно обмениваются способами обхода ограничений. Ученые также обнаружили, что даже продвинутые системы подвержены универсальным атакам — такими, как метод, описанный в исследовании апреля 2025 года, который использует запросы для обхода защиты большинства ИИ, включая модели с улучшенной логикой.

Особую угрозу представляют «тёмные БЯМ», такие как WormGPT и FraudGPT. Эти модели, рекламируемые в интернете как инструменты для киберпреступлений, создают вредоносные инструкции без этических ограничений. Поскольку их открытые версии после утечки остаются на личных устройствах и серверах, удалить их невозможно — это создает необратимую угрозу широкого распространения опасного контента.
В экспериментах учёные применяли известные методы взлома, свободно размещённые в интернете — например, в технических блогах или сообществах разработчиков. Тесты показали, что чат-боты предоставляют пошаговые инструкции по созданию взрывчатки, отмыванию денег и другим незаконным операциям. Согласно исследованию, разработчики часто игнорируют сообщения об уязвимостях или отказываются их исправлять, ссылаясь на ограничения своих программ по устранению ошибок.
Проблема усугубляется тем, что ИИ навсегда сохраняет данные, полученные во время обучения. Решить её, как полагают исследователи, может многоуровневый подход: тщательный отбор информации для обучения, системы фильтрации запросов в реальном времени, технологии устранения вредоносных шаблонов из действующих моделей и регулярные проверки на устойчивость к атакам.
По мнению авторов, без скоординированных действий — как со стороны разработчиков, так и регуляторов — технологии генеративного ИИ могут превратиться в массовый инструмент для преступников. Уже сейчас «тёмные БЯМ» используются для создания фишинговых писем, мошеннических схем и кибератак. Время для предотвращения кризиса стремительно сокращается, что требует немедленных мер как на техническом, так и на законодательном уровне.
Источник: iXBT



