Привет всем! 2025 год стремительно приближается к концу, а волна интереса к искусственному интеллекту, бушующая уже третий год, только набирает обороты. Сейчас мы наблюдаем зарождение нового тренда — перенос вычислительных ресурсов прямо на рабочий стол пользователя, в виде компактных персональных ИИ-станций.

В этом обзоре я расскажу о решениях, которые сегодня можно собрать или купить для домашней работы с большими языковыми моделями (LLM).
Задачи и требования
Мне потребовалась локальная система для работы с LLM, сочетающая высокое качество ответов, приемлемую скорость и разумную стоимость. Основные сценарии:
- анализ больших фрагментов исходного кода;
- работа с технической документацией;
- административные задачи: составление вакансий, отбор кандидатов, проверка договоров, конспектирование совещаний;
- эксперименты с «вайбкодингом».
Во всех случаях приходится работать с конфиденциальными данными, которые не хочется передавать в облако.
Чтобы модель вела себя «умно», лучше выбирать самые большие конфигурации, которые влезают в оперативную память целиком. По эмпирическому правилу «1 млрд параметров ≈ 1 ГБ RAM» модель на 120 млрд параметров потребует около 128 ГБ памяти. А для анализа длинных текстов важно как можно большее контекстное окно (от 100 тыс. токенов и выше).
Ключевой метрикой здесь является скорость генерации (tokens/s). Ориентиры:
- фоновые задачи и длинный контекст: 1–5 t/s;
- чат: 5–10 t/s;
- кодинг: минимум 20–30 t/s;
- долгие сессии и агентные сценарии: от 50 t/s;
- ниже 3–5 t/s — уже заметно неудобно для интерактивных сценариев.
Дополнительно хотелось бы компактность и умеренное энергопотребление (<1 кВт не хочется).
Nvidia DGX Spark
14 октября 2025 Дженсен Хуанг вручил Илону Маску прототип DGX Spark — своей первой персональной AI-станции для инференса LLM.

Официальный анонс состоялся 18 марта 2025. Стоимость системы — $3 999, первые поставки начались в октябре [4].
| Характеристика | Описание |
|---|---|
| AI-чип GB10 Blackwell | CPU+GPU, 1 PFLOP FP4, оптимизация под инференс LLM |
| Оперативная память | 128 ГБ LPDDR5x Unified |
| Пропускная способность RAM | 273 GB/s |
| Вместимость моделей | до 200 млрд параметров (1 устройство), до 405 млрд (2 устройства) |
| Tensor Cores | 5-е поколение, FP4 |
| Сеть | ConnectX-7, 200 Gb/s |
| Хранилище | 4 ТБ NVMe SSD, аппаратное шифрование |
| Форм-фактор | 150×150×50,5 мм, 1,2 кг |
| Потребление | 140–240 Вт |
| Софтовый стек | NVIDIA DGX OS |
Тесты на Ollama показывают, что DGX Spark уступает до 4 раз дискретным GPU из-за пропускной способности памяти, но выигрывает в компактности и энергоэффективности [5].
Apple Mac Studio M3 Ultra и M4 Max
В марте 2025 Apple анонсировала Mac Studio с M3 Ultra (до 512 ГБ унифицированной памяти, 819 GB/s) и M4 Max (до 128 ГБ, 546 GB/s). По заявлению компании, M3 Ultra способна удержать в памяти модели свыше 600 млрд параметров.

| Параметр | Mac Studio M3 Ultra | Mac Studio M4 Max |
|---|---|---|
| CPU | 28/32 ядер (20/24 выс., 8 энергосберег.) | 14/16 ядер (10/12 выс., 4 энергосберег.) |
| GPU | 60 или 80 ядер | 32 или 40 ядер |
| Нейронный движок | 32 ядра | 16 ядер |
| Память | 96–512 ГБ унифицированной, 819 GB/s | 36–128 ГБ унифицированной, 546 GB/s |
| SSD | 1–16 ТБ | 512 ГБ–8 ТБ |
| Порты | 6×Thunderbolt 5, 2×USB-A, HDMI 2.1, 10 Gb Ethernet, SDXC, аудио | аналогично |
| Потребление | до 480 Вт | до 370 Вт |
| Охлаждение | 2 вентилятора, усиленный кулер | эффективная система |
Независимые бенчмарки DeepSeek на M3 Ultra демонстрируют 17–21 t/s при коротком контексте и падение до 5–6 t/s на 13–16 тыс. токенов [6]. В сравнении с DGX Spark скорость генерации в среднем в 2 раза выше.
Минус — высокая стоимость. Цены на конфигурации M3 Ultra начинаются от $5 599 и доходят до $14 099, M4 Max — от $3 499 до $5 899 [8].
Mini-ПК на AMD Strix Halo (Ryzen AI Max+ 395)
На CES 2025 AMD представила процессор Ryzen AI Max+ 395 с 16 ядрами Zen 5, Radeon 8060S (40 CU RDNA 3.5) и нейроускорителем XDNA 2 (до 50 TOPS). С апреля по июль 2025 мини-ПК на базе Strix Halo стали доступны у разных вендоров.

Большинство моделей с 128 ГБ памяти оцениваются примерно в $1 999 [9].
Пример: GMKtec EV0-X2
| Параметр | Значение |
|---|---|
| CPU | Ryzen AI Max+ 395, 16 яд./32 потока, 3–5.1 ГГц, 16 MB L2, 64 MB L3 |
| GPU | Radeon 8060S (40 CU, RDNA 3.5) |
| RAM | LPDDR5X 64/128 ГБ, 8-канальная, 217 GB/s |
| SSD | PCIe 4.0, 1–2 ТБ |
| Сеть | Wi-Fi 7, Bluetooth 5.4, Ethernet 2.5 Gb |
| Видео | 4×4K/8K (HDMI 2.1, DP 1.4) |
| Порты | 2×USB4, 3×USB 3.1, 2×USB 2.0, HDMI, 3×DP, SD UHS-II |
| TDP | 120–140 Вт |
| Нейроускоритель | XDNA 2, до 126 TOPS |
Бенчмарки LLM-bench показывают для Strix Halo производительность на уровне DGX Spark при цене вдвое ниже [11].
Сравнение
| Параметр | DGX Spark | Mac Studio M3 Ultra | Strix Halo |
|---|---|---|---|
| llama3.1 8b (4bit), t/s | 43.18 | 85.02 | 40.81 |
| deepseek-r1 14b (4bit), t/s | 21.45 | 46.50 | 20.57 |
| ОЗУ, ГБ | 128 | 256/512 | 64/128 |
| Потребление, Вт | до 240 | до 480 | до 140 |
| Цена, USD | 3 999 | 5 599–14 099 | 1 999 |
Итог: Mac Studio M3 Ultra впечатляет скоростью, но дорого. Strix Halo предлагает близкую к DGX Spark производительность при минимальном энергопотреблении и вдвое меньшей цене — идеальный выбор для персональной ИИ-станции «из коробки».
PS: LLaMA (Large Language Model Meta AI) — семейство языковых моделей компании Meta Platforms, Inc. Упоминание носит исключительно описательный характер.



