Впервые продемонстрирована атака Rowhammer на видеопамять GPU Nvidia — угроза для ИИ-моделей

Учёные из Университета Джорджии и Техасского университета представили впервые успешную атаку на видеоплатформу — Nvidia A6000 с памятью GDDR6. Они продемонстрировали, что вызванные неполадки в памяти могут нарушить работу известных нейросетевых моделей, снизив их точность с 80% до менее 0,5% за считанные восемь попыток.

Атака опирается на эффект Rowhammer, при котором интенсивное чтение данных из одной строки памяти приводит к изменению битов в соседних строках. Ранее считалось, что видеопамять GPU, особенно мощных моделей как A6000, не подвержена подобным манипуляциям. Тем не менее, новая технология под названием GPUHammer позволяет обойти встроенные механизмы защиты, вызывая ошибки, воздействуя на весовые коэффициенты нейросетей, размещённые в видеопамяти.

Современные чипы памяти настолько плотные, что повторное чтение или запись одной строки может создать электрические помехи, изменяющие биты в соседних строках. Заменённый бит может представлять собой число, команду или часть веса нейросети.

Впервые продемонстрирована атака Rowhammer на видеопамять GPU Nvidia — угроза для ИИ-моделей
Источник: Nvidia

Для осуществления атаки исследователи воспользовались особенностями многопользовательского режима работы видеокарт в облачных средах. Чёткий контроль над расположением данных в памяти позволяет злоумышленнику разместить свои данные рядом с ячейками другой программы, например, библиотеки PyTorch. Это даёт возможность намеренно вызвать неисправности в обученной модели, не взаимодействуя напрямую с её кодом. Для этого достаточно использовать тот же графический процессор в облачной среде или на сервере.

Особенную уязвимость продемонстрировали модели с параметрами формата FP16 (16-битное число с плавающей точкой), где достаточно изменить всего один бит, чтобы кардинально поменять значение веса и вызвать деградацию результатов. Один такой сбой способен снизить точность распознавания изображений с 72% до 0,08% на наборе ImageNet.

Кроме того, исследование выявило, что современные алгоритмы распределения памяти, нацеленные на производительность, случайно способствуют таким атакам. Например, Rapids сразу перераспределяет освобождённые участки памяти, что позволяет атакующему с высокой точностью управлять расположением данных жертвы.

Исследователи отмечают, что системы с активной коррекцией ошибок (ECC) могут защититься от подобных атак, но она часто отключается из-за снижения производительности и увеличения использованной памяти. Согласно их данным, включение ECC на A6000 замедляет выполнение типичных задач машинного обучения на 3–10%.

Этот сценарий особенно актуален для общих сред графических процессоров, таких как облачные игровые серверы, кластеры для обучения ИИ или конфигурации VDI, где несколько пользователей запускают рабочие нагрузки на одном оборудовании. Однако риск актуален и для большого спектра графических процессоров Ampere, Ada, Hopper и Turing, особенно применяемых в рабочих станциях и серверах. Nvidia опубликовала полный список уязвимых моделей и рекомендовала использовать ECC для большинства из них.

В перспективе, команда планирует протестировать другие видеокарты, включая модели с памятью HBM и следующие поколения GDDR7, а также предложить программные и аппаратные меры защиты от эффекта Rowhammer для GPU.

 

Источник: iXBT

Читайте также