Архитектура GPU-кластера: обзор серверов на базе L40S, A16 и AMD EPYC в облаке mClouds

Приветствуем, сообщество SE7ENа! Мы — облачный провайдер mClouds. Наша GPU-инфраструктура базируется на ускорителях NVIDIA L40S, A16 и других решениях, востребованных в задачах ИИ, инженерном проектировании (CAD), VDI-средах и высоконагруженных проектах на базе 1С. В этом материале мы приоткроем завесу тайны: расскажем о серверном оснащении, архитектуре наших узлов и сценариях, для которых они созданы.

Предлагаем вашему вниманию отчет прямо из ЦОДа: «живые» фотографии оборудования, детальные спецификации и реальные показатели энергопотребления. Изучаем, что скрывается под корпусами наших серверов.

Dell R7625: гибкость конфигураций

Основа нашего облака — серверные системы Dell. Рассмотрим возможности масштабирования на примере платформы PowerEdge R7625: это 2U-серверы на базе двух процессоров AMD EPYC 9374F. Каждый хост оснащается парой графических адаптеров L40S или A16. Также в нашем парке присутствуют решения с NVIDIA L4 — о них мы расскажем в будущих публикациях, когда будем разбирать возможности новых хостов Dell R7725, введенных в эксплуатацию в 2026 году.

Архитектура GPU-кластера: обзор серверов на базе L40S, A16 и AMD EPYC в облаке mClouds
Наш сервер Dell PowerEdge R7625 в GPU-конфигурации

NVIDIA L40S. Универсальный ускоритель на архитектуре Ada Lovelace, обладающий 48 ГБ памяти GDDR6 и 18 176 ядрами CUDA. Это отличный выбор для инференса LLM среднего звена, дообучения моделей, обработки мультимедиа и сложного 3D-рендеринга. Карта поддерживает профили vGPU, что делает ее эффективным инструментом для высокопроизводительных VDI-систем, где требуется оперативное разделение ресурсов между пользователями.

Карта выполнена в двухслотовом форм-факторе с TDP до 350 Вт, однако при типичных нагрузках показатели энергопотребления заметно скромнее.

L40S Установлена в райзер и готова к монтажу
Ускоритель L40S в райзере перед установкой

NVIDIA A16. Решение, изначально созданное для VDI-инфраструктуры. Востребовано в работе с тяжелым CAD/BIM-ПО и организации рабочих мест с интенсивным использованием ВКС.

Плата объединяет четыре независимых графических чипа, каждый из которых располагает 16 ГБ GDDR6. В совокупности это 64 ГБ видеопамяти и 5120 ядер CUDA. Главное преимущество — возможность гибкой настройки vGPU-профилей (от 1 до 16 ГБ на пользователя). Сегодня мы чаще всего встречаем профили от 2 до 4 ГБ. Потребление карты составляет до 250 Вт.

A16 в райзере
Ускоритель A16 в райзере

Основные vGPU-профили для A16:

Профиль

Видеопамять

Кейсы применения

2Q

2 ГБ

CAD-просмотр, стандартные 2D-задачи

4Q, 8Q, 16Q

4, 8, 16 ГБ

Revit, AutoCAD, 3D-проектирование

Энергопотребление GPU-узлов: от 600 до 1340 Вт

Сервер Dell R7625 с двумя L40S потребляет в штатном режиме около 730 Вт. Пиковые нагрузки достигают 1340 Вт, минимальные — порядка 600 Вт. Статистика собрана с работающего кластера при загрузке CPU ниже 10%. Хотя каждая L40S рассчитана на 350 Вт, реальные AI/VDI-сценарии редко задействуют оба GPU на пределе возможностей одновременно. На хостах с полной загрузкой GPU энергопотребление растет, однако суммарно оно остается сбалансированным, так как процессоры в этот момент не догружены. Мы используем БП мощностью 2,4 кВт, а в новых платформах R7725 уже перешли на 3,2 кВт.

Взяли немного данных с мониторинга хоста
Статистика из системы мониторинга

Конфигурация с A16 базируется на аналогичном шасси Dell R7625, используя ту же архитектуру PCIe-райзеров.

Пара хостов из кластера приехала для монтажа в стойки.
Подготовка узлов к монтажу в стойки

L40S и A16 требуют два слота и используют интерфейс PCIe Gen4. Установка двух адаптеров — это максимум для конфигурации R7625 с двумя CPU и полным объемом RAM.

Также в нашем арсенале есть серверы с NVIDIA L4 (24 ГБ). Это энергоэффективная однослотовая карта (до 72 Вт), идеально подходящая для VDI, где производительность на одну сессию важнее, чем у A16. L4 также востребована в ИИ-задачах, хотя стоимость одного гигабайта памяти у нее выше по сравнению с A16.

Вычислительная мощь: AMD EPYC, DDR5 и скоростные NVMe

На борту — два процессора AMD EPYC 9374F (по 32 ядра Zen 4 на каждый), работающих на базовой частоте 3,85 ГГц с бустом до 4,1 ГГц. Объем оперативной памяти составляет 1,5 ТБ DDR5 4800 МГц, задействуются все 12 каналов памяти для обеспечения пропускной способности.

Ближе блоки вентиляторов и направляющие охлаждения
Детали системы охлаждения

Наша платформа — это гибридное решение. Помимо GPU-расчетов, мы эффективно обслуживаем ERP-системы, базы данных и 1С. Высокая тактовая частота ЦП — критический фактор для 1С, поэтому 4 ГГц на ядро в сочетании с DDR5 дают отличный результат.

Для работы с данными хосты укомплектованы локальными NVMe-накопителями с минимальными задержками (менее 1 мс). Также реализована интеграция с СХД через сетевые карты Mellanox 25 Гбит/с, хотя основной объем вычислений GPU стремится локализовать данные.

960GB для тестов, в рабочих хостах остаются диски на 7,68GB
Локальное NVMe-хранилище

Ключевые направления кластера

Платформа ориентирована на три столпа: ИИ-разработка, инженерное проектирование (CAD/BIM) и бизнес-приложения на 1С.

AI-разработка. NVIDIA L40S оптимальна для большинства задач, а если достаточно 24 ГБ памяти, то NVIDIA L4 обеспечивает прекрасный баланс цены и производительности.

Инженерия и архитектура. A16 — наш стандарт для Revit и CAD-систем, обеспечивающий качественный визуальный опыт при работе с тяжелыми моделями, значительно выигрывая в экономическом плане у карт уровня A40.

1С:Предприятие. Наша платформа подтверждает свою состоятельность как в синтетических тестах (Гилев, Фрагстер), так и в бизнес-кейсах. Связка из 64 ядер с частотой 4 ГГц и DDR5 позволяет без труда масштабировать даже крупные проекты 1С.

Готовы ответить на все технические вопросы в комментариях!

Следите за обновлениями: совсем скоро выпустим обзор платформы нового поколения — Dell R7725 на базе AMD EPYC 9555 (4,2 ГГц) с ускорителями L4, A16 и RTX 6000 PRO (96 ГБ). Анонс уже доступен в нашем блоге!

 

Источник

Читайте также