В предыдущем материале мы анализировали возможности локального запуска нейросетей на бюджетных ноутбуках, после чего я предпринял попытку развернуть модель gpt-oss-120b в связке из трех графических ускорителей. Практические тесты в рабочих сценариях показали, что такое решение вполне способно конкурировать с облачными провайдерами. Однако стало очевидно, что стандартные десктопные платформы и корпуса не приспособлены для корректного размещения трех массивных RTX 3090. Это заставило меня обратить внимание на решения для майнинга: специализированные материнские платы с большим количеством PCI-слотов и значительным расстоянием между ними, которые можно компактно разместить в просторном шасси. Вот какой результат был достигнут в итоге:

Видеоверсия данного исследования доступна на моем YouTube-канале.
Моя цель — подобрать оптимальное потребительское оборудование для автономного инференса. Поскольку проект держится на энтузиазме и финансируется из личных средств, приоритет отдается бюджетным, но эффективным решениям.
По сути, эта статья резюмирует мой годовой опыт по подбору комплектующих и запуску LLM в домашних условиях. Текущая конфигурация представляет собой своего рода логическое завершение определенного этапа исследований. Мы пойдем кратчайшим путем: изучим несколько майнерских плат, проведем их тестирование, выжмем максимум из одной из них и в финале подведем финансовый итог. Повествование будет идти в хронологическом порядке для лучшего понимания логики сделанных выводов.
Навигация по материалу:
Выбор модели для тестов
Как я уже упоминал, ключевым интересом был локальный инференс gpt-oss-120b. Все представленные ниже измерения проводились на версии от Unsloth с квантованием Q8_K_XL (если не указано иное). Стоит учитывать, что это MoE-архитектура, где скорость генерации имеет тенденцию к снижению по мере заполнения контекста, поэтому мы будем фиксировать показатели на начальном этапе.
Методика запуска через llamacpp подробно изложена в этой инструкции. В тестах использовались стандартные параметры без специфического тюнинга.
Процесс установки NVIDIA-драйверов описан здесь. Испытания проводились на версии драйвера 580.82.07.
Тестовый промпт для замера производительности:
Напиши полный код приложения рендера треугольника при помощи vulkan на go.
Используемые видеокарты
Графические ускорители — это фундамент для работы с LLM, поэтому начнем именно с них.
Моим первым устройством была Tesla P40 с кастомной системой охлаждения (datasheet) (подробности в ТГ-канале). На ней я проводил первые серьезные испытания ИИ в реальных задачах. Карта потребляет умеренные 250 Вт, питается через разъем CPU и занимает 2 слота в ширину.

Затем была приобретена RTX 3090 TI от KFA2 (пост в ТГ) с разъемом питания 12+4 pin. При номинальном теплопакете в 450 Вт, в реальности она потребляет около 360 Вт, достигая пика в 480 Вт. Занимает более 3 слотов PCI.

Далее последовала покупка Asus Rog Strix RTX 3090 с тремя коннекторами питания. Базовое потребление составляет 390 Вт с возможностью расширения до 480 Вт, которые она действительно осваивает под нагрузкой. Габариты — честные 3 слота.

Для финального тестирования предельных возможностей системы была добавлена третья RTX 3090 — Gigabyte RTX 3090 Gaming OC с двумя разъемами питания (пост в ТГ). Это классическая RTX 3090 с лимитом потребления в 350-400 Вт.

Комплект: корпус + ETH B75 + БП
Изучив предложения на вторичном рынке, я приобрел за 3300 рублей набор, включающий добротный горизонтальный корпус, плату ETH B75 v1.12 и весьма шумный блок питания True Miner на 1800 Вт. Делился этой находкой в Telegram.

Шасси
Корпус выполнен основательно: толстый металл в защитной пленке, хотя обработка краев местами оставляет желать лучшего. Конструкция предусматривает отдельный отсек для БП и место под материнскую плату (при условии использования низкопрофильного кулера).

Фронтальная панель оснащена четырьмя высокооборотистыми турбинами, управляемыми через реобас, которые создают мощный воздушный поток для охлаждения видеокарт. На тыльной стороне — сетка для отвода горячего воздуха и выходы интерфейсов видеокарт.

Важный нюанс: крепления в корпусе жестко привязаны к геометрии платы ETH B75. Установка другой модели может потребовать доработки из-за несовпадения шага PCI-слотов, что создает определенные неудобства при апгрейде.
Платформа ETH B75
Плата ETH B75 от OEM-производителя предлагает 8 слотов PCI, каждый из которых ограничен одной линией. Сокет LGA 1155 совместим с процессорами Intel Core 2-го и 3-го поколений. Моя ревизия шла с двухъядерным Intel Celeron G1610 (2.6 ГГц).
Из ограничений: всего один слот под DDR3 SO-DIMM и сетевой контроллер на 100 Мбит/с, что критично при скачивании объемных нейросетей. Питание самой логики осуществляется через PCI-коннектор.

Система питания
Блок питания True Miner оказался абсолютно непригодным для жилых помещений: вентилятор постоянно работает на максимальных оборотах. Однако он обладает избыточным набором кабелей: 8 сдвоенных PCI и один CPU.

Первый запуск
С полной уверенностью в успехе я перенес оборудование на платформу ETH B75.

Результат оказался разочаровывающим: Tesla P40 отказалась корректно работать на одной линии PCI. Видеокарта определялась в диспетчере устройств, но драйвер не мог её инициализировать. Дальнейшее изучение подтвердило — данной модели требуется большая пропускная способность шины.

Я провел тесты на gpt-oss-20b с использованием двух оставшихся карт. Загрузка модели объемом 12 ГБ заняла около 80 секунд, что крайне медленно. Скорость инференса составила около 100 т/с, при этом карты были загружены лишь на 80%. Это свидетельствовало о том, что конфигурация шины «душит» производительность ускорителей. Для сравнения: ранее на более производительных платформах скорость достигала 160 т/с.
Плата H510 Pro BTC+
С учетом выявленных проблем я начал поиск платформы с хотя бы одним полноскоростным PCI-слотом (16 линий) и более современным сокетом. Оптимальным выбором стала H510 Pro BTC+ (4500 руб. на вторичном рынке), которая значительно превосходит предыдущее решение:
-
Сокет
LGA 1200с поддержкой 10-го и 11-го поколений Intel Core; -
Поддержка
DDR4с частотой до3200 МГц; -
Гигабитный Ethernet;
-
Полноценный слот
PCI x16; -
Встроенная синхронизация для работы с двумя БП.

В комплекте шли Celeron G5905 (3.5 ГГц) и 8 ГБ AMD DDR4 (2400 МГц). Спойлер: глубокая модернизация этих узлов дает лишь незначительный прирост при существенных затратах.
Перенос системы на новую плату прошел успешно. В качестве охлаждения использовался кулер от серверной платы Lenovo RD450x, благо у него нашелся адаптер под LGA 1200.

Модель gpt-oss-120b загружалась 3,5 минуты, что долго, но об оптимизации мы поговорим ниже. Скорость инференса уперлась в возможности Tesla P40 и составила около 65 т/с.

Еще одна RTX 3090 и новый БП
Следующий этап — максимизация скорости и снижение уровня шума для комфортной эксплуатации в домашних условиях.
Место Tesla P40 заняла Gigabyte RTX 3090 Gaming OC. Вместо ревущего «майнерского» блока был установлен мощный и тихий Azerty Red Power 1050w (куплен на Ozon за 5000 руб.).

Из-за нехватки отдельных кабелей PCI на новом БП пришлось использовать переходники и ограничить лимит потребления каждой карты до 170 Вт, иначе система теряла стабильность под нагрузкой.


Даже с такими ограничениями по питанию удалось достичь производительности в 100 т/с.

Как ускорить загрузку модели?
Изначально копирование весов модели размером 64.4 ГБ в видеопамять занимало 3 минуты 30 секунд (примерно 314 МБ/с).
При подключении через SATA SSD предел составляет ~550 МБ/с. Однако вся периферия (5 слотов PCI, SATA и m2) на данной плате делит общую шину DMI, ограниченную пропускной способностью PCIe 3.0 x4 (около 4 ГБ/с). Цепочка выглядит так:
SATA SSD (~550 MB/s)
→ DMI (~4 GB/s)
→ CPU
→ DMI (~4 GB/s)
→ PCIe x1 (~1 GB/s)
→ GPU
Такая схема создает двойную нагрузку на DMI. Использование штатного m2 не дает профита, так как он работает в режиме SATA3 и также зависит от DMI. Более того, мой экземпляр m2 накопителя завести на этой плате не удалось.

Решение — разгрузить DMI, подключив источник данных напрямую к процессору. Для этого я установил NVMe-диск через адаптер в основной PCI-слот x16:
NVMe (~3 GB/s)
→ PCIe x4 (~4 GB/s)
→ CPU
→ DMI (~4 GB/s)
→ PCIe x1 (~1 GB/s)
→ GPU
Результат: время загрузки сократилось до 2 минут, а фактическая скорость копирования выросла до ~549 МБ/с.
Почему не выше? Теоретический предел PCI x1 3.0 составляет ~985 МБ/с, но процесс включает не только передачу данных, но и их распаковку, аллокацию памяти и фоновые задачи системы, висящие на той же шине DMI. В рамках данной платформы это потолок производительности.
Финальный апгрейд: CPU + RAM + БП
На заключительном этапе я решил устранить все возможные «узкие места», установив мощный процессор, быструю память и бескомпромиссное питание.
Было подозрение, что двухъядерный Celeron и медленная ОЗУ сдерживают потенциал RTX 3090. Я установил шестиядерный Intel Core i5 10600kf (7000 руб., база 4.1 ГГц) и 16 ГБ оперативной памяти на 3200 МГц.

Новым «сердцем» системы стал БП Azerty на 1200 Вт (около 6000 руб. на Ozon). Он оснащен разъемом 12vhpwr для KFA2 RTX 3090 TI и достаточным количеством PCI линий для запитки всех трех карт без лимитирования энергопотребления. Недостающие провода были позаимствованы от предыдущего блока того же бренда.

Итоги модернизации: время инициализации модели не изменилось, а скорость инференса прибавила скромные 10%, достигнув 110 т/с.
Дополнительные несколько токенов в секунду можно получить, используя оптимизированное квантование в формате mxfp4 (например, от ggml-org).

Пиковое потребление системы во время работы составляет порядка 800 Вт. Для эстетичного размещения кабелей под крышкой корпуса были использованы угловые адаптеры.

Какова цена вопроса?
Примерная смета итоговой конфигурации:
|
Компонент |
Стоимость (руб) |
Комментарий |
|---|---|---|
|
Корпус (шасси) |
3300 |
Взят из комплекта с ETH B75 и шумным БП |
|
Плата H510 Pro BTC+ (CPU/RAM в комплекте) |
4500 |
Базовых Celeron и 8GB RAM достаточно для старта |
|
Блок питания Azerty 1200W |
6000 |
Оптимален по количеству линий и уровню шума |
|
Охлаждение CPU |
1200 |
|
|
Накопитель NVMe 512GB |
7000 |
С учетом адаптера и текущих цен |
|
Всего (платформа) |
22000 |
Без учета затрат на i5 и дорогую память |
|
RTX 3090 × 3 (средняя цена 60к за шт.) |
180000 |
Рынок вторичного оборудования |
|
ИТОГО |
202000 |
Стоимость готовой станции без учета мелких аксессуаров |
Итог
Для тех, кто ищет краткое резюме:
-
Время подготовки модели gpt-oss-120b (
64.4 ГБ) к работе: ~2 минуты; -
Средняя производительность: ~100 т/с при вложениях около 200 тыс. руб.;
-
Пиковая производительность (
mxfp4+ i5): ~115 т/с.
Этот годовой эксперимент позволил глубоко погрузиться в нюансы аппаратного обеспечения для локального инференса массивных языковых моделей.
Объективно: на текущий момент (апрель 2026 года) использование облачных API зачастую обходится дешевле и предлагает доступ к более продвинутым моделям. Тем не менее, локальный запуск — это единственный путь, если на первом месте стоит абсолютная конфиденциальность данных, а не стоимость одного токена.
В моей практике DevOps-инженера gpt-oss-120b показала себя как надежный и достаточно интеллектуальный инструмент. Подобные сборки оправданы везде, где приватность является ключевым требованием.
В планах — тестирование инференса на платформах AM4, Threadripper и Epyc, чтобы найти новый баланс между ценой и производительностью.
В моем Telegram-канале я регулярно публикую отчеты об исследованиях в области локального ИИ, а подробные мануалы доступны на моем сайте.

_large.png)
