Полное руководство по развертыванию собственного LLM-сервера с нуля

Создание производительного сервера для локальных LLM: от выбора железа до запуска интерфейса

В современном инфополе часто встречаются советы «экспертов», обещающих запуск мощных нейросетей практически на любом ноутбуке. Технически это возможно, однако модели с небольшим количеством параметров (от 1 до 7 млрд) зачастую обладают низкой скоростью работы и ограниченной практической ценностью. Это ведет к разочарованию в локальных решениях. В данной инструкции мы разберем, как развернуть полноценный сервер для инференса, который станет действительно эффективным рабочим инструментом.

Преимущества собственного сервера LLM

  • Оптимизация расходов: Активное использование API популярных облачных сервисов (OpenAI, Anthropic, Google) быстро формирует внушительные счета. Собственное «железо» окупается при постоянной нагрузке.
  • Безопасность и конфиденциальность: При работе с чувствительными корпоративными данными критически важно, чтобы информация не покидала пределы локальной инфраструктуры.
  • Полный контроль: Возможность дообучения (fine-tuning) под узкие задачи и тонкая настройка параметров генерации.
  • Высокое качество ответов: При правильном подборе весов локальные модели способны демонстрировать результаты, сопоставимые с коммерческими гигантами вроде ChatGPT или Grok.

Рекомендуемая аппаратная конфигурация

Производительность LLM напрямую зависит от видеопамяти (VRAM). Для комфортной работы рекомендуется следующая сборка:

- Видеокарты: 2 x NVIDIA RTX 4070 (по 12 ГБ каждая)
- Процессор: Intel Core i7-14700K или аналог
- Оперативная память: 64 ГБ RAM
- Блок питания: от 850 Вт
- Материнская плата: наличие двух слотов PCI-E x16
- Корпус: с отличной продуваемостью

Ориентировочная стоимость такой системы при самостоятельной сборке составит около 200 000 рублей.

Пошаговое руководство по установке

1. Подготовка ОС

Для начала необходимо скачать образ Ubuntu 25.10 с официального сайта. Запишите образ на USB-накопитель (например, с помощью Rufus). Процесс инсталляции стандартен и занимает около 20 минут. Наличие интернет-соединения во время установки обязательно.

2. Настройка удаленного доступа и инструментов мониторинга

После первого запуска откройте терминал и настройте SSH для комфортного управления сервером:

sudo apt update
sudo apt install -y openssh-server
sudo systemctl enable --now ssh

Проверьте корректность установки драйверов NVIDIA:

nvidia-smi

В выводе должны отобразиться все установленные видеокарты.

Установите утилиты для контроля системных ресурсов:

sudo apt install -y nvtop htop mc
  • nvtop — мониторинг нагрузки на графические процессоры.
  • htop — мониторинг CPU и оперативной памяти.
  • mc — двухпанельный файловый менеджер.

3. Окружение и сервер Ollama

Для управления библиотеками рекомендую использовать Miniconda — это обеспечит изоляцию сред и отсутствие конфликтов пакетов.

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

Теперь установим Ollama — основной движок для запуска локальных моделей:

curl -fsSL https://ollama.com/install.sh | sh

Для тестирования загрузим сбалансированную модель gpt-oss:20b:

ollama run gpt-oss:20b

Объем модели составляет около 14 ГБ, поэтому время загрузки зависит от вашего канала связи.

Полное руководство по развертыванию собственного LLM-сервера с нуля
Процесс скачивания весов модели в терминале

4. Развертывание графического интерфейса Open-WebUI

Работать в терминале не всегда удобно, поэтому установим современный веб-интерфейс.

conda create -n openwebui python=3.11 -y
conda activate openwebui
pip install open-webui firecrawl

Для автоматизации запуска создадим службу systemd. Сначала подготовим скрипт run_openwebui.sh в домашней папке:

#!/usr/bin/env bash
source ~/miniconda3/etc/profile.d/conda.sh
conda activate openwebui
open-webui serve

Сделайте его исполняемым: chmod +x ~/run_openwebui.sh.

Создайте файл сервиса: sudo nano /etc/systemd/system/openwebui.service:

[Unit]
Description=OpenWebUI Service
After=network.target

[Service]
Type=simple
User=root
ExecStart=/home/ИМЯ_ПОЛЬЗОВАТЕЛЯ/run_openwebui.sh
Restart=on-failure
RestartSec=30

[Install]
WantedBy=multi-user.target

Активируйте службу:

sudo systemctl daemon-reload
sudo systemctl enable openwebui.service
sudo systemctl start openwebui.service

Теперь чат доступен по адресу: http://IP-вашего-сервера:8080.

Интерфейс локального ИИ-чата
Внешний вид настроенного чата Open-WebUI

5. Администрирование через Webmin

Для удобного управления сервером через браузер установим панель Webmin:

curl -o webmin-setup-repo.sh https://raw.githubusercontent.com/webmin/webmin/master/webmin-setup-repo.sh
sudo sh webmin-setup-repo.sh
sudo apt install -y webmin

После установки отключите принудительный SSL в конфиге /etc/webmin/miniserv.conf (установите ssl=0), чтобы избежать проблем с сертификатами в локальной сети.

Панель управления Webmin
Панель мониторинга состояния системы

Итоги и рекомендации

Вы развернули полноценную станцию для работы с искусственным интеллектом. Если ваш провайдер предоставляет статический IP-адрес, вы можете настроить проброс портов (22, 80, 8080, 10000) на роутере и обращаться к своему ИИ из любой точки мира.

Какие модели выбрать?
На основе тестов более 30 различных вариантов, рекомендую обратить внимание на:

  • gpt-oss:20b — отличный баланс скорости и качества для систем начального уровня.
  • qwen3-next:80b — для задач, требующих глубокой логики.
  • gpt-oss:120b — топовый уровень, но требует около 80-96 ГБ VRAM.

Использование локальных моделей позволяет не только экономить, но и получать результаты, превосходящие публичные облачные решения в специфических сценариях.

Мониторинг GPU через NVTOP
Контроль распределения видеопамяти и нагрузки на GPU
 

Источник

Читайте также