Адаптация крупномасштабных языковых моделей (LLM) под узкоспециализированные задачи становится критически важной, однако колоссальные требования к видеопамяти зачастую выходят за рамки ресурсов стандартных графических ускорителей. Исследователи из Гонконгского университета науки и технологий (HKUST) представили SlideFormer — инновационную систему, позволяющую осуществлять дообучение нейросетей объемом более 123 миллиардов параметров на базе всего одной видеокарты уровня Nvidia RTX 4090. SlideFormer предлагает эффективные механизмы для преодоления аппаратных ограничений и существенного прироста производительности.
В основе решения лежит архитектура «скользящих слоев» (sliding layers), превращающая GPU в динамическое окно для последовательной обработки. Это позволяет бесшовно совмещать вычисления на видеокарте с процессами обновления параметров в CPU и многоуровневым обменом данными. Система минимизирует пиковые нагрузки на память благодаря предварительному резервированию кэша и буферов, что практически исключает фрагментацию ресурсов. Применение оптимизированных вычислительных ядер Triton в связке с улучшенными методами ввода-вывода устраняет традиционные вычислительные заторы.

Иллюстрация: Nano Banana
SlideFormer демонстрирует выдающиеся результаты: пропускная способность возрастает в 1,4–6,27 раза по сравнению с такими фреймворками, как ZeRO-Offload и ColossalAI. При этом нагрузка на VRAM снижается более чем наполовину, а потребление оперативной памяти — на 40%. В частности, технология позволяет работать с моделями на 123 млрд параметров на одной RTX 4090, увеличивая допустимый размер пакета данных в 8 раз. На рабочей станции с 256 ГБ ОЗУ система обеспечивает стабильное обучение моделей до 24 млрд параметров без малейшей потери эффективности.
SlideFormer способствует демократизации сферы ИИ, предоставляя энтузиастам и небольшим коллективам возможность использовать потенциал гигантских моделей без необходимости инвестировать в дорогостоящие серверные кластеры.
Источник: iXBT


