Давеча наткнулся в экс-Твиттере на интересный тред (https://x.com/carrigmat/status/1884244369907278106?s=52) о том, как запустить самую мощную (на сегодня) ИИ reasoning модель DeepSeek-R1 прямо у себя под столом.
DeepSeek-R1 — это одна из топовых моделей (из Китая), наделавших много шума (и не только), для задач логики, математики и программирования. Она настолько умная, что может (с некоторыми оговорками) «конкурировать» с решениями от OpenAI, но при этом её можно запустить локально, без интернета, без смс и полностью контролировать весь процесс.
Почему это круто?
* все данные остаются с вами, никакие сторонние сервисы не получат доступ к вашим запросам.
* запуск на своём железе избавляет от затрат на облачные сервисы.
* модель способна решать сложные задачи и выдавать результаты на уровне профессионалов.
В статье я расскажу:
* какое оборудование нужно для запуска DeepSeek-R1.
* чем локальный запуск отличается от серверного.
* какие возможности открывает эта модель и как она может быть полезна.
* как сохранить безопасность и приватность при работе с ИИ.
В этом мануале описано, как настроить локальный запуск модели DeepSeek-R1 Q8, сохраняя максимальное качество и производительность без дистилляции или уменьшенной квантизации. Общая стоимость сборки составит около ~$6,000, и ниже приведены все необходимые ссылки на компоненты и инструкции.
Требования к оборудованию
Для запуска DeepSeek-R1 (размер модели — 650 ГБ) с Q8 квантизацией система должна быть ориентирована на объем памяти, пропускную способность и возможности процессора.
Ссылки взяты так же с треда, аналоги думаю можно поискать на сайтах дэнээсов, ситилинков.
Вот подробный список:
1. Материнская плата
-
Модель: Gigabyte MZ73-LM0 или MZ73-LM1
-
Причина: Эти материнские платы поддерживают два сокета AMD EPYC, что позволяет использовать 24 канала DDR5 памяти, максимально увеличивая объем и пропускную способность.
🔗 Материнская плата Gigabyte MZ73-LM0 или MZ73-LM1
2. Процессоры (CPU)
AMD EPYC 5th Gen 9005 Series (Sixteen-Core) 16 Core — Model 9115 AMD — EPYC — Processor / Number: 9115 — Processor / Clock Speed: 2.6 — Total Threads: 32 — Socket SP5 — L3 Cache — 64MB Memory — OEM
-
Модель: 2x AMD EPYC 9004 или 9005 (например, EPYC 9115 или 9015 для экономии).
-
Почему: Инференс больших языковых моделей (LLM) ограничен пропускной способностью памяти, а не мощностью процессора. Бюджетные модели, такие как 9115 или 9015, вполне подходят для этой задачи.
3. Оперативная память (RAM)
-
Требование: Всего 768 ГБ через 24 канала DDR5 RDIMM.
-
Конфигурация: Используйте 24 модуля по 32 ГБ DDR5 RDIMM для максимальной пропускной способности памяти.
-
Примеры:
4. Корпус
-
Модель: Enthoo Pro 2 Server Edition (или аналогичный).
-
Почему: Убедитесь, что корпус совместим с серверными материнскими платами и предоставляет достаточно места для охлаждения.
🔗 Корпус Phanteks Enthoo Pro 2 Server Edition
5. Блок питания (PSU)
-
Модель: Corsair HX1000i (1000Вт, полностью модульный).
-
Почему: Этот блок питания обеспечивает достаточную мощность для двух процессоров и включает все необходимые кабели питания.
6. Система охлаждения
-
Модель: Совместимый с сокетом SP5 кулер для AMD EPYC.
-
Рекомендация:
-
Дополнительные вентиляторы: Замените вентиляторы кулера на Noctua NF-A12x25 PWM для более тихой работы.
7. SSD
-
Требование: 1 ТБ (или больше) NVMe SSD.
-
Почему: Быстрые накопители необходимы для загрузки 700 ГБ весов модели в оперативную память.
Настройка ПО
После сборки оборудования нужно настроить программное обеспечение для локального запуска DeepSeek-R1 Q8.
1. Установка llama.cpp
llama.cpp — это фреймворк для инференса LLM, таких как DeepSeek-R1, локально.
-
Инструкция: Следуйте руководству в репозитории GitHub.
2. Скачивание модели DeepSeek-R1
-
Размер модели: 650 ГБ (Q8 квантизация).
-
Источник: Hugging Face.
-
Скачивание: Скачайте все файлы из папки Q8_0.
3. Запуск модели
Используйте следующую команду для тестирования:
llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry?<|Assistant|>"
-
Ожидаемый результат: Ответ модели в режиме реального времени, демонстрирующий её возможности.
Производительность и улучшения
Производительность
-
Скорость генерации: 6-8 токенов в секунду в зависимости от процессора и скорости памяти.
-
Длина контекста: При 768 ГБ ОЗУ можно достичь 100,000 токенов длины контекста.
Использование GPU (опционально)
-
Для ускорения генерации можно использовать GPU. Однако:
-
Q8 квантизация: Требуется 700 ГБ видеопамяти, что стоит ~$100,000.
-
Частичная загрузка: Можно загрузить часть модели (например, 300 ГБ) на GPU для ускорения инференса, всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу.
-
Итоговая стоимость
itog
С этой сборкой вы сможете запускать DeepSeek-R1 Q8 локально, достигая передовой производительности LLM без использования внешних серверов или GPU. Система оптимизирована для пропускной способности памяти и объёма, что гарантирует плавную и эффективную работу даже с самыми крупными моделями.
И по классике мой канал в тгшечке, для тех, кому интересно.