Учёные из Нью-Йоркского университета выявили критическую уязвимость в работе языковых моделей (LLM), которые применяются в медицинской области. Согласно исследованию, опубликованному в Nature Medicine, нарушить функционирование искусственного интеллекта можно, добавив дезинформацию всего в 0,001% от обучающих данных.
В ходе эксперимента специалисты сознательно внедрили генерированную ИИ медицинскую дезинформацию в популярный обучающий набор данных The Pile, содержащий высококачественные медицинские материалы, включая PubMed. За 24 часа команда создала 150 000 медицинских статей с ложной информацией.
Результаты оказались неожиданными — подмена всего одного миллиона из 100 миллиардов обучающих токенов дезинформацией о вакцинах привела к увеличению вредоносного контента на 4,8%. Это потребовало лишь 2000 вредоносных статей общим объёмом около 1500 страниц, а стоимость такой атаки составила всего $5 США.
Особую опасность, по мнению исследователей, представляет то, что заражённые системы продолжают показывать высокие результаты при обычном тестировании — их эффективность остаётся на уровне незаражённых моделей. Более того, для внедрения дезинформации злоумышленникам не нужен прямой доступ к весам модели — достаточно разместить ложную информацию в интернете.
Проблема уже начала проявляться на практике. В прошлом году издание The New York Times сообщило о случаях, когда платформа MyChart, использующая ИИ для автоматического формирования ответов на вопросы пациентов от имени врачей, систематически генерировала ложные записи о состоянии пациентов.
Исследователи настоятельно рекомендуют разработчикам ИИ и медицинским учреждениям уделять повышенное внимание обнаруженной уязвимости. По их мнению, использовать языковые модели для диагностики и лечения недопустимо до разработки надёжных систем защиты и проведения дополнительных исследований в сфере безопасности.
Источник: iXBT