Сборка ИИ-станции на базе майнинг-платы и трех RTX 3090

16 минут назад

В предыдущем материале мы анализировали возможности локального запуска нейросетей на бюджетных ноутбуках, после чего я предпринял попытку развернуть модель gpt-oss-120b в связке из трех графических ускорителей. Практические тесты в рабочих сценариях показали, что такое решение вполне способно конкурировать с облачными провайдерами. Однако стало очевидно, что стандартные десктопные платформы и корпуса не приспособлены для корректного размещения трех массивных RTX 3090. Это заставило меня обратить внимание на решения для майнинга: специализированные материнские платы с большим количеством PCI-слотов и значительным расстоянием между ними, которые можно компактно разместить в просторном шасси. Вот какой результат был достигнут в итоге:

Видеоверсия данного исследования доступна на моем YouTube-канале.

Моя цель — подобрать оптимальное потребительское оборудование для автономного инференса. Поскольку проект держится на энтузиазме и финансируется из личных средств, приоритет отдается бюджетным, но эффективным решениям.

По сути, эта статья резюмирует мой годовой опыт по подбору комплектующих и запуску LLM в домашних условиях. Текущая конфигурация представляет собой своего рода логическое завершение определенного этапа исследований. Мы пойдем кратчайшим путем: изучим несколько майнерских плат, проведем их тестирование, выжмем максимум из одной из них и в финале подведем финансовый итог. Повествование будет идти в хронологическом порядке для лучшего понимания логики сделанных выводов.

Навигация по материалу:

Выбор модели для тестов
Используемые видеокарты
Базовый комплект: корпус + ETH B75 + БП
Переход на плату H510 Pro BTC+
Добавление третьей RTX 3090 и новый блок питания
Методы ускорения инициализации модели
Финальная модернизация: CPU + RAM + БП
Расчет стоимости сборки
Заключение

Выбор модели для тестов

Как я уже упоминал, ключевым интересом был локальный инференс gpt-oss-120b. Все представленные ниже измерения проводились на версии от Unsloth с квантованием Q8_K_XL (если не указано иное). Стоит учитывать, что это MoE-архитектура, где скорость генерации имеет тенденцию к снижению по мере заполнения контекста, поэтому мы будем фиксировать показатели на начальном этапе.

Методика запуска через llamacpp подробно изложена в этой инструкции. В тестах использовались стандартные параметры без специфического тюнинга.

Процесс установки NVIDIA-драйверов описан здесь. Испытания проводились на версии драйвера 580.82.07.

Тестовый промпт для замера производительности:

Напиши полный код приложения рендера треугольника при помощи vulkan на go.

Используемые видеокарты

Графические ускорители — это фундамент для работы с LLM, поэтому начнем именно с них.

Моим первым устройством была Tesla P40 с кастомной системой охлаждения (datasheet) (подробности в ТГ-канале). На ней я проводил первые серьезные испытания ИИ в реальных задачах. Карта потребляет умеренные 250 Вт, питается через разъем CPU и занимает 2 слота в ширину.

Затем была приобретена RTX 3090 TI от KFA2 (пост в ТГ) с разъемом питания 12+4 pin. При номинальном теплопакете в 450 Вт, в реальности она потребляет около 360 Вт, достигая пика в 480 Вт. Занимает более 3 слотов PCI.

Далее последовала покупка Asus Rog Strix RTX 3090 с тремя коннекторами питания. Базовое потребление составляет 390 Вт с возможностью расширения до 480 Вт, которые она действительно осваивает под нагрузкой. Габариты — честные 3 слота.

Для финального тестирования предельных возможностей системы была добавлена третья RTX 3090 — Gigabyte RTX 3090 Gaming OC с двумя разъемами питания (пост в ТГ). Это классическая RTX 3090 с лимитом потребления в 350-400 Вт.

Комплект: корпус + ETH B75 + БП

Изучив предложения на вторичном рынке, я приобрел за 3300 рублей набор, включающий добротный горизонтальный корпус, плату ETH B75 v1.12 и весьма шумный блок питания True Miner на 1800 Вт. Делился этой находкой в Telegram.

Шасси

Корпус выполнен основательно: толстый металл в защитной пленке, хотя обработка краев местами оставляет желать лучшего. Конструкция предусматривает отдельный отсек для БП и место под материнскую плату (при условии использования низкопрофильного кулера).

Фронтальная панель оснащена четырьмя высокооборотистыми турбинами, управляемыми через реобас, которые создают мощный воздушный поток для охлаждения видеокарт. На тыльной стороне — сетка для отвода горячего воздуха и выходы интерфейсов видеокарт.

Важный нюанс: крепления в корпусе жестко привязаны к геометрии платы ETH B75. Установка другой модели может потребовать доработки из-за несовпадения шага PCI-слотов, что создает определенные неудобства при апгрейде.

Платформа ETH B75

Плата ETH B75 от OEM-производителя предлагает 8 слотов PCI, каждый из которых ограничен одной линией. Сокет LGA 1155 совместим с процессорами Intel Core 2-го и 3-го поколений. Моя ревизия шла с двухъядерным Intel Celeron G1610 (2.6 ГГц).

Из ограничений: всего один слот под DDR3 SO-DIMM и сетевой контроллер на 100 Мбит/с, что критично при скачивании объемных нейросетей. Питание самой логики осуществляется через PCI-коннектор.

Система питания

Блок питания True Miner оказался абсолютно непригодным для жилых помещений: вентилятор постоянно работает на максимальных оборотах. Однако он обладает избыточным набором кабелей: 8 сдвоенных PCI и один CPU.

Первый запуск

С полной уверенностью в успехе я перенес оборудование на платформу ETH B75.

Результат оказался разочаровывающим: Tesla P40 отказалась корректно работать на одной линии PCI. Видеокарта определялась в диспетчере устройств, но драйвер не мог её инициализировать. Дальнейшее изучение подтвердило — данной модели требуется большая пропускная способность шины.

Я провел тесты на gpt-oss-20b с использованием двух оставшихся карт. Загрузка модели объемом 12 ГБ заняла около 80 секунд, что крайне медленно. Скорость инференса составила около 100 т/с, при этом карты были загружены лишь на 80%. Это свидетельствовало о том, что конфигурация шины «душит» производительность ускорителей. Для сравнения: ранее на более производительных платформах скорость достигала 160 т/с.

Плата H510 Pro BTC+

С учетом выявленных проблем я начал поиск платформы с хотя бы одним полноскоростным PCI-слотом (16 линий) и более современным сокетом. Оптимальным выбором стала H510 Pro BTC+ (4500 руб. на вторичном рынке), которая значительно превосходит предыдущее решение:

Сокет LGA 1200 с поддержкой 10-го и 11-го поколений Intel Core;
Поддержка DDR4 с частотой до 3200 МГц;
Гигабитный Ethernet;
Полноценный слот PCI x16;
Встроенная синхронизация для работы с двумя БП.

В комплекте шли Celeron G5905 (3.5 ГГц) и 8 ГБ AMD DDR4 (2400 МГц). Спойлер: глубокая модернизация этих узлов дает лишь незначительный прирост при существенных затратах.

Перенос системы на новую плату прошел успешно. В качестве охлаждения использовался кулер от серверной платы Lenovo RD450x, благо у него нашелся адаптер под LGA 1200.

Модель gpt-oss-120b загружалась 3,5 минуты, что долго, но об оптимизации мы поговорим ниже. Скорость инференса уперлась в возможности Tesla P40 и составила около 65 т/с.

Еще одна RTX 3090 и новый БП

Следующий этап — максимизация скорости и снижение уровня шума для комфортной эксплуатации в домашних условиях.

Место Tesla P40 заняла Gigabyte RTX 3090 Gaming OC. Вместо ревущего «майнерского» блока был установлен мощный и тихий Azerty Red Power 1050w (куплен на Ozon за 5000 руб.).

Из-за нехватки отдельных кабелей PCI на новом БП пришлось использовать переходники и ограничить лимит потребления каждой карты до 170 Вт, иначе система теряла стабильность под нагрузкой.

Даже с такими ограничениями по питанию удалось достичь производительности в 100 т/с.

Как ускорить загрузку модели?

Изначально копирование весов модели размером 64.4 ГБ в видеопамять занимало 3 минуты 30 секунд (примерно 314 МБ/с).

При подключении через SATA SSD предел составляет ~550 МБ/с. Однако вся периферия (5 слотов PCI, SATA и m2) на данной плате делит общую шину DMI, ограниченную пропускной способностью PCIe 3.0 x4 (около 4 ГБ/с). Цепочка выглядит так:

SATA SSD (~550 MB/s)
 → DMI (~4 GB/s)
  → CPU
 → DMI (~4 GB/s)
 → PCIe x1 (~1 GB/s)
 → GPU

Такая схема создает двойную нагрузку на DMI. Использование штатного m2 не дает профита, так как он работает в режиме SATA3 и также зависит от DMI. Более того, мой экземпляр m2 накопителя завести на этой плате не удалось.

Решение — разгрузить DMI, подключив источник данных напрямую к процессору. Для этого я установил NVMe-диск через адаптер в основной PCI-слот x16:

NVMe (~3 GB/s)
 → PCIe x4 (~4 GB/s)
 → CPU
 → DMI (~4 GB/s)
 → PCIe x1 (~1 GB/s)
 → GPU

Результат: время загрузки сократилось до 2 минут, а фактическая скорость копирования выросла до ~549 МБ/с.

Почему не выше? Теоретический предел PCI x1 3.0 составляет ~985 МБ/с, но процесс включает не только передачу данных, но и их распаковку, аллокацию памяти и фоновые задачи системы, висящие на той же шине DMI. В рамках данной платформы это потолок производительности.

Финальный апгрейд: CPU + RAM + БП

На заключительном этапе я решил устранить все возможные «узкие места», установив мощный процессор, быструю память и бескомпромиссное питание.

Было подозрение, что двухъядерный Celeron и медленная ОЗУ сдерживают потенциал RTX 3090. Я установил шестиядерный Intel Core i5 10600kf (7000 руб., база 4.1 ГГц) и 16 ГБ оперативной памяти на 3200 МГц.

Новым «сердцем» системы стал БП Azerty на 1200 Вт (около 6000 руб. на Ozon). Он оснащен разъемом 12vhpwr для KFA2 RTX 3090 TI и достаточным количеством PCI линий для запитки всех трех карт без лимитирования энергопотребления. Недостающие провода были позаимствованы от предыдущего блока того же бренда.

Итоги модернизации: время инициализации модели не изменилось, а скорость инференса прибавила скромные 10%, достигнув 110 т/с.

Дополнительные несколько токенов в секунду можно получить, используя оптимизированное квантование в формате mxfp4 (например, от ggml-org).

Пиковое потребление системы во время работы составляет порядка 800 Вт. Для эстетичного размещения кабелей под крышкой корпуса были использованы угловые адаптеры.

Какова цена вопроса?

Примерная смета итоговой конфигурации:

Компонент	Стоимость (руб)	Комментарий
Корпус (шасси)	3300	Взят из комплекта с ETH B75 и шумным БП
Плата H510 Pro BTC+ (CPU/RAM в комплекте)	4500	Базовых Celeron и 8GB RAM достаточно для старта
Блок питания Azerty 1200W	6000	Оптимален по количеству линий и уровню шума
Охлаждение CPU	1200
Накопитель NVMe 512GB	7000	С учетом адаптера и текущих цен
Всего (платформа)	22000	Без учета затрат на i5 и дорогую память
RTX 3090 × 3 (средняя цена 60к за шт.)	180000	Рынок вторичного оборудования
ИТОГО	202000	Стоимость готовой станции без учета мелких аксессуаров

Итог

Для тех, кто ищет краткое резюме:

Время подготовки модели gpt-oss-120b (64.4 ГБ) к работе: ~2 минуты;
Средняя производительность: ~100 т/с при вложениях около 200 тыс. руб.;
Пиковая производительность (mxfp4 + i5): ~115 т/с.

Этот годовой эксперимент позволил глубоко погрузиться в нюансы аппаратного обеспечения для локального инференса массивных языковых моделей.

Объективно: на текущий момент (апрель 2026 года) использование облачных API зачастую обходится дешевле и предлагает доступ к более продвинутым моделям. Тем не менее, локальный запуск — это единственный путь, если на первом месте стоит абсолютная конфиденциальность данных, а не стоимость одного токена.

В моей практике DevOps-инженера gpt-oss-120b показала себя как надежный и достаточно интеллектуальный инструмент. Подобные сборки оправданы везде, где приватность является ключевым требованием.

В планах — тестирование инференса на платформах AM4, Threadripper и Epyc, чтобы найти новый баланс между ценой и производительностью.

В моем Telegram-канале я регулярно публикую отчеты об исследованиях в области локального ИИ, а подробные мануалы доступны на моем сайте.

Источник