Как я поставил серверную видеокарту за £200 в свой игровой компьютер

В моей системе уже трудилась RTX 4080 на 16 ГБ видеопамяти. Этого вполне достаточно для комфортного гейминга, но для запуска серьезных языковых моделей локально объема VRAM катастрофически не хватало. Передо мной встал выбор: либо выкладывать целое состояние за топовую потребительскую карту, либо искать нестандартные пути решения проблемы.

И я его нашел.

Я приобрел специализированную видеокарту для дата-центров, лишенную стандартного PCIe-разъема, и интегрировал её в свой ПК через кастомный адаптер. Теперь суммарный объем моей VRAM составляет 32 ГБ, что позволяет комфортно работать с моделями на 27 млрд параметров при скорости генерации около 32 токенов в секунду. Весь проект обошелся мне всего в £200.

GPU

Моим выбором стала Tesla V100 SXM2 (16 GB). Эти ускорители проектировались для серверов уровня NVIDIA DGX и оснащены интерфейсом SXM2 вместо классического PCIe. У них также нет привычных разъемов питания — они получают энергию напрямую из серверной корзины и взаимодействуют через NVLink.

Конечно, просто установить такую «железяку» в материнскую плату не получится — нужны технические ухищрения. Однако, учитывая архитектуру Volta, 16 ГБ HBM2-памяти и 5120 ядер CUDA, приобретенных на eBay за £150, это всё еще невероятно мощное устройство.

Главный козырь V100 — пропускная способность памяти. Благодаря 4096-битной шине она выдает 900 ГБ/с. Для сравнения, у моей RTX 4080 с современной GDDR6X этот показатель составляет 736 ГБ/с. Получается, что серверное решение 2017 года превосходит актуальную потребительскую карту на 22% по скорости работы с памятью.

Даже продвинутые решения Apple выглядят блекло: M3 Max выдает 400 ГБ/с, M4 Max — 546 ГБ/с, а новейший M5 Max едва дотягивает до 614 ГБ/с при цене ноутбука от £3 000. В плане «пропускной способности на доллар» ветеран Tesla буквально уничтожает современные Mac.

Единственным достойным конкурентом можно считать RX 7900 XTX (960 ГБ/с), но она стоит от £700 и до сих пор имеет проблемы с поддержкой CUDA, на которой строится инференс большинства LLM. V100 предлагает 94% от её производительности за четверть цены, идеально работая с llama.cpp.

Настоящим прорывом стала лишь RTX 5090 с её 1 792 ГБ/с, но при стоимости свыше £2 000 она играет в другой лиге. А для инференса LLM именно скорость обмена данными с памятью является критическим «бутылочным горлышком».

Адаптер

К счастью, энтузиасты разработали специальные переходники SXM2-to-PCIe. Это не официальный продукт, а кустарная печатная плата с необходимыми разъемами. За £50 я получил отличный адаптер с медным радиатором, позволяющий вдохнуть жизнь в серверный GPU.

Итог: за £200 я расширил объем своей видеопамяти до 32 ГБ, что сравнимо с возможностями RTX 5090 за 2 тысячи фунтов.

Борьба с шумом

Главная проблема серверных GPU — система охлаждения. Вентилятор спроектирован для 2U-серверов с мощным воздушным потоком, поэтому в домашних условиях он выдает оглушительные 82 дБ — звук, сопоставимый с работающей газонокосилкой.

Программное управление оборотами не работало ни в Linux, ни в Windows. Пришлось применить «хирургический» подход: разобрать коннектор и вывести управление вентилятором напрямую на материнскую плату.

Выяснилось, что распиновка стандартная. После подключения через ШИМ-контроллер (PWM) материнской платы я установил обороты на 10%. Даже под нагрузкой температура чипа не превышает 50°C, а шум стал практически неразличим.

Обуздание вентилятора

Использовав качественный переходник с JST PH2.0 на стандартный 2,54 мм разъем вентилятора, я избавился от «колхоза» с проводками.

Теперь система работает тихо и стабильно.

Эффективность связки

llama.cpp отлично справляется с распределением тензоров между двумя GPU. Да, скорость передачи данных по PCIe ниже, чем при использовании NVLink, но для локального инференса производительность остается крайне высокой. 150 Вт потребления V100 — приемлемая плата за такие возможности.

Существуют версии V100 на 32 ГБ — если взять пару таких карт, можно получить 64 ГБ VRAM за сущие копейки по сравнению с ценой одной RTX 5090.

Программный стек

Настройка в NixOS прошла гладко. Поскольку поддержка архитектуры Volta была прекращена NVIDIA в драйверах 560+, я зафиксировал версию 550.x (через пакет nvidiaPackages.legacy_535). Оказалось, что для корректной работы драйверов требуется ядро 6.6.

boot.kernelPackages = pkgs.linuxPackages_6_6;
hardware.nvidia.package = config.boot.kernelPackages.nvidiaPackages.legacy_535;
services.xserver.enable = true;
services.xserver.videoDrivers = [ "nvidia" ];

Вся конфигурация полностью воспроизводима и хранится в моем репозитории dotfiles.

Производительность

Модель Qwen3.6-27B-MTP (квантование Q5_K_M) занимает около 19 ГБ. Вся она целиком умещается в видеопамяти двух моих карт.

Параметр

Результат

Инференс

~32 ток/сек

Обработка промта

~133-160 ток/сек

Технология Multi-Token Prediction (MTP) дает возможность увеличить скорость генерации в 1,5–2 раза без потери качества, что особенно заметно при написании кода.

Мультимодальность

Добавление визуального проектора (mmproj) весом всего 928 МБ превратило модель в мощный мультимодальный инструмент. Теперь я могу передавать изображения, и модель анализирует их содержимое с высокой точностью. Это реализовано через простую команду:

--mmproj /mnt/nas/llamacpp/mmproj-F16.gguf --mmproj-offload

Итог

Я построил производительную станцию для работы с LLM, используя серверный «неликвид». Система работает полностью локально, данные защищены, а расходы составили лишь малую долю от стоимости рыночных аналогов. Несмотря на нюансы с «холодной» перезагрузкой для обнаружения PCIe-устройств, это решение доказало, что для серьезного ИИ-проекта не обязательно быть корпорацией с бюджетами на облака — достаточно немного смекалки и правильно подобранного железа с вторичного рынка.

 

Источник

Читайте также