Безусловно, можно приобрести готовое решение (на рынке встречаются достойные варианты примерно за 1,3 млн руб.), но ведь истинный энтузиаст ценит сам процесс сборки, верно? К тому же не каждый готов выложить столь внушительную сумму за локальный запуск нейросетей. Попробуем уложиться в бюджет до 400 тысяч рублей. Вот что нам потребуется:
-
Корпус или открытый стенд (рама), например, такой (~7 тыс. руб.):

-
Комплект: материнская плата, процессор и оперативная память (от 64 Гб, оптимально 128 Гб; покупка б/у компонентов — разумная стратегия).
-
Графические ускорители: допустим, 4 штуки по 24 Гб памяти (подойдут AMD RX 7900 XTX, которые на вторичном рынке можно найти примерно по 75 тыс. руб. за карту):

AMD RX 7900 XTX -
Пара блоков питания мощностью около 1,2 кВт каждый.
-
Синхронизатор блоков питания (небольшой адаптер для одновременного запуска всей системы).
-
Райзеры для видеокарт (мы используем качественные шлейфы PCIe x16):

Райзер pcie x16
-
Сплиттер PCIe x16 на 2×8 или 4×4 линии (так как на материнской плате физически не хватит слотов). Важно: убедитесь, что BIOS платы поддерживает функцию бифуркации!

Сплиттер pcie x16 на 4 по x4 -
Накопитель SSD/HDD объемом от 1 Тб.
-
Комплект кабелей: если ваш БП имеет выходы под стандарт 12VHPWR, а видеокарты требуют 2x8pin, озаботьтесь поиском переходников 12VHPWR на 3x 2x8pin.
-
Корзина для дисков (если хотите эстетики; DIY-мастера могут спроектировать и напечатать свою):

Корзина для дисков 2.5″ (модуль)
Что имеем в сухом остатке?

Программная часть
ОС: Ubuntu Server 26 в связке с KDE Plasma (будьте готовы к настройке GUI на серверном дистрибутиве).
Стек для LLM: движок на базе llama.cpp. Технологии ROCm и Vulkan для карт AMD работают сопоставимо, хотя Vulkan может показать чуть большую скорость. Также рекомендую Docker и платформу LocalAI для запуска множества различных моделей.
* ROCm — это экосистема от AMD, функционально сопоставимая с NVIDIA CUDA. Она активно развивается, хотя и уступает лидеру рынка по зрелости, но уже показывает отличные результаты.
Тестирование в деле: модель Qwen3.6-27b (квантование Q8) с контекстом 250k токенов и использованием MTP (draft-модель для предсказания токенов) выдает около 30 токенов в секунду (~7 русских слов). Это обеспечивает комфортную работу как в режиме чата, так и в задачах AI-агентов (привет, «вайб-кодинг»!).
Если бюджет позволяет
В данной конфигурации GPU работают последовательно. Для полноценного параллелизма тензорных вычислений требуется сверхбыстрая шина обмена данными. Это достижимо либо при использовании серверных процессоров (например, AMD Threadripper с поддержкой 128 линий PCIe), либо при переходе на профессиональные ускорители уровня AMD Instinct.
Для любителей экстремальных решений
Существуют продвинутые инструменты вроде vllm. Настроить его для работы с потребительскими GPU от AMD — задача не из легких (и это мягко сказано). Мы же ищем оптимальный путь, поэтому остановимся на проверенном llama.cpp.
Итоги
Сервер функционирует и успешно помогает в написании кода. Что еще нужно разработчику для счастья? 🙂
P.S. Если решите собирать подобную раму, вооружитесь болгаркой или качественными ножницами по металлу — предупрежден, значит вооружен.


