Собираем домашний ИИ-сервер: идеи для вечернего проекта

29 Июн в 18:06 Прокомментировать Просмотры: 32

Dr. Miner

Безусловно, можно приобрести готовое решение (на рынке встречаются достойные варианты примерно за 1,3 млн руб.), но ведь истинный энтузиаст ценит сам процесс сборки, верно? К тому же не каждый готов выложить столь внушительную сумму за локальный запуск нейросетей. Попробуем уложиться в бюджет до 400 тысяч рублей. Вот что нам потребуется:

Корпус или открытый стенд (рама), например, такой (~7 тыс. руб.):

Комплект: материнская плата, процессор и оперативная память (от 64 Гб, оптимально 128 Гб; покупка б/у компонентов — разумная стратегия).
Графические ускорители: допустим, 4 штуки по 24 Гб памяти (подойдут AMD RX 7900 XTX, которые на вторичном рынке можно найти примерно по 75 тыс. руб. за карту):

AMD RX 7900 XTX
Пара блоков питания мощностью около 1,2 кВт каждый.
Синхронизатор блоков питания (небольшой адаптер для одновременного запуска всей системы).
Райзеры для видеокарт (мы используем качественные шлейфы PCIe x16):

Райзер pcie x16

Сплиттер PCIe x16 на 2×8 или 4×4 линии (так как на материнской плате физически не хватит слотов). Важно: убедитесь, что BIOS платы поддерживает функцию бифуркации!

Сплиттер pcie x16 на 4 по x4
Накопитель SSD/HDD объемом от 1 Тб.
Комплект кабелей: если ваш БП имеет выходы под стандарт 12VHPWR, а видеокарты требуют 2x8pin, озаботьтесь поиском переходников 12VHPWR на 3x 2x8pin.
Корзина для дисков (если хотите эстетики; DIY-мастера могут спроектировать и напечатать свою):

Корзина для дисков 2.5″ (модуль)

Что имеем в сухом остатке?

Топовый домашний сервер для запуска LLM массой ~10 кг

Программная часть

ОС: Ubuntu Server 26 в связке с KDE Plasma (будьте готовы к настройке GUI на серверном дистрибутиве).

Стек для LLM: движок на базе llama.cpp. Технологии ROCm и Vulkan для карт AMD работают сопоставимо, хотя Vulkan может показать чуть большую скорость. Также рекомендую Docker и платформу LocalAI для запуска множества различных моделей.

* ROCm — это экосистема от AMD, функционально сопоставимая с NVIDIA CUDA. Она активно развивается, хотя и уступает лидеру рынка по зрелости, но уже показывает отличные результаты.

Тестирование в деле: модель Qwen3.6-27b (квантование Q8) с контекстом 250k токенов и использованием MTP (draft-модель для предсказания токенов) выдает около 30 токенов в секунду (~7 русских слов). Это обеспечивает комфортную работу как в режиме чата, так и в задачах AI-агентов (привет, «вайб-кодинг»!).

Если бюджет позволяет

В данной конфигурации GPU работают последовательно. Для полноценного параллелизма тензорных вычислений требуется сверхбыстрая шина обмена данными. Это достижимо либо при использовании серверных процессоров (например, AMD Threadripper с поддержкой 128 линий PCIe), либо при переходе на профессиональные ускорители уровня AMD Instinct.

Для любителей экстремальных решений

Существуют продвинутые инструменты вроде vllm. Настроить его для работы с потребительскими GPU от AMD — задача не из легких (и это мягко сказано). Мы же ищем оптимальный путь, поэтому остановимся на проверенном llama.cpp.