Rapt AI и AMD уменьшили время настройки GPU-инфраструктуры до 3 минут и десятикратно ускорили запуск моделей на платформе Instinct

Компания Rapt AI, специализирующаяся на разработке систем для автоматизации AI-нагрузок на GPU, заключила долгосрочное партнёрство с AMD. Сотрудничество направлено на повышение эффективности использования ресурсов при обучении и эксплуатации AI-моделей на графических процессорах AMD Instinct, включая модели MI300X, MI325X и перспективные MI350. Интеграция платформы Rapt AI с оборудованием AMD нацелена на решение основных проблем в отрасли: неэффективное использование вычислительных мощностей, сложности в управлении распределёнными системами и рост затрат на инфраструктуру.

«Современные AI-модели стали настолько сложными и непредсказуемыми, что традиционные методы оптимизации уже не приносят должного результата, — заявил на пресс-брифинге генеральный директор Rapt AI Чарли Лиминг. — Компании вкладывают десятки миллионов, а иногда и миллиарды долларов в GPU-инфраструктуру и команды специалистов, но финансовые и технические директора всё чаще требуют подтверждений её рентабельности». По его словам, революционное решение предложил технический директор Rapt AI Анил Равиндранат, разработавший систему мониторинга, которая позволяет анализировать нагрузку на оборудование в режиме реального времени.

Rapt AI и AMD уменьшили время настройки GPU-инфраструктуры до 3 минут и десятикратно ускорили запуск моделей на платформе Instinct
Изображение: Rapt AI

Платформа Rapt AI, впервые представленная в конце 2023 года, уже внедрена в нескольких компаниях из списка Fortune 100, включая двух крупных облачных провайдеров. Алгоритмы автоматически распределяют задачи между GPU, сокращая время настройки инфраструктуры с девяти часов до трёх минут. Решение позволяет увеличить число запусков моделей в десять раз без увеличения затрат на вычисления, при этом общие издержки снижаются до 90% — и всё это без необходимости изменения кода или вмешательства человека.

«При ручном управлении простаивает до 30% GPU-ресурсов, — отметил Лиминг. — Наш инструмент обеспечивает почти полную утилизацию мощностей, что особенно актуально для клиентов, нуждающихся в поддержке AMD. Их GPU, например MI300X, обладают значительным объёмом памяти, который важен для динамичных нагрузок». Платформа Rapt способна адаптироваться к изменениям «на лету», анализируя поведение моделей в режиме выполнения.

Общая разработка автоматически масштабирует ресурсы по мере необходимости, увеличивая плотность задач на AMD Instinct и сокращая задержки. Универсальная платформа поддерживает гибридные окружения — как локальные, так и облачные GPU от разных производителей. Это освобождает инженеров от ручной настройки, позволяя сосредоточиться на создании моделей.

В планах партнёров — дальнейшее совершенствование планирования задач, управления памятью и других параметров для подготовки инфраструктуры к будущим вызовам, включая переход к моделям с триллионами параметров к 2026 году.

Согласно прогнозам, к 2027 году до 80% корпоративных AI-проектов будут требовать автоматизации управления ресурсами — и альянс этих двух компаний позиционирует себя как ответ на этот вызов.

 

Источник: iXBT

Читайте также