Вступление
Приветствую! Продолжаю цикл заметок, начатый в предыдущем материале, где мы сопоставляли возможности Nvidia DGX Spark, Mac Studio M3 Ultra и платформы Strix Halo. Выбор был сделан в пользу последней, так что пришло время раскрыть её потенциал, развернув пару мощных локальных нейросетей под управлением надежного AI-агента.
Разумеется, подписка на Claude Code и доступ к облачным API — это удобно, но не всегда оправдано с финансовой точки зрения. Кроме того, отправка приватного исходного кода на сторонние серверы несет риски, как и вероятность блокировки аккаунта, что может парализовать рабочий процесс.
Элегантное решение — использование Claude Code в автономном режиме (free mode) с локальными моделями. Anthropic позволяет интегрировать любые LLM, совместимые с их API. Если раньше такие эксперименты напоминали игрушку, то с появлением семейства Qwen3.6 качество ответов достигло уровня, пригодного для реальных задач. В этой статье я детально покажу, как подготовить такую среду на базе GMKtec EV0-X2 — от деплоя моделей до настройки взаимодействия с агентом.
Задачи и конфигурация
Допустим, вы хотите задействовать ИИ в разработке, не прибегая к облачным API. Причины могут быть разными:
-
высокая стоимость API Claude Sonnet/Opus и строгие лимиты;
-
необходимость полной конфиденциальности кода;
-
чисто инженерный интерес к self-hosted решениям.
Мой выбор пал на связку: llama.cpp server + две GGUF-модели Qwen3.6-MTP + Claude Code в свободном режиме. Всё это функционирует на аппаратной базе Strix Halo (Ryzen AI Max+ 395) со 128 ГБ ОЗУ. Хотя существуют и другие альтернативы (OpenCode, Kilocode), архитектура Claude Code показалась мне наиболее сбалансированной и готовой к использованию «из коробки».
Аппаратная база
Strix Halo — это архитектура AMD для топовых мобильных решений и мини-ПК. Процессор Ryzen AI Max+ 395 по сути является полноценным десктопным чиплетом в мобильном исполнении.
Технические параметры GMKtec EV0-X2:
|
Компонент |
Спецификация |
|---|---|
|
Процессор |
AMD Ryzen AI Max+ 395, 16 ядер/32 потока, 4 нм, до 5.1 ГГц, 16 МБ L2, 64 МБ L3 (X3D) |
|
Графическое ядро |
AMD Radeon 8060S, RDNA 3.5, 40 CU |
|
Оперативная память |
LPDDR5X, 128 ГБ, 8-канальная, 8 ГГц, пропускная способность 217 ГБ/с |
|
Хранилище |
SSD PCIe 4.0, 2 ТБ |
|
Связь |
Wi-Fi 7, Bluetooth 5.4, 2.5 Гбит/с Ethernet |
|
Питание |
120 Вт (база), до 140 Вт (пик) |
|
NPU |
XDNA 2, производительность до 126 TOPS |
Для инференса LLM критическим фактором является пропускная способность памяти. 8-канальная LPDDR5X (217 ГБ/с) здесь вне конкуренции. Выделив через BIOS 96 ГБ под видеопамять, можно целиком загружать модели до 120B параметров в квантовании Q4_K_M. Система работает под Windows 11, что делает процесс настройки простым и понятным даже для обычного пользователя.
Программный стек
Для работы на Windows я выделил два основных инструмента:
LM Studio — отличное решение с интуитивным графическим интерфейсом. Оно идеально подходит для поиска, загрузки и тестирования GGUF-моделей. Интерфейс позволяет наглядно оценить требования к памяти и рейтинг популярности моделей.

LM Studio предлагает богатый инструментарий для разработчика: можно тонко настроить использование GPU, параметры контекста и вывода. Это неплохой вариант для тех, кто предпочитает визуальное управление, однако…
llama.cpp server — мой фаворит, несмотря на необходимость освоения консоли. Его преимущества весомы: прирост скорости генерации на 20-25% по сравнению с LM Studio, поддержка режима «размышлений» (reasoning) и полноценная работа с мультимодальными функциями, которые в других API реализованы не полностью.
Подбор моделей
Claude Code использует иерархию моделей (Opus, Sonnet, Haiku). Я настроил локальную связку следующим образом:
|
Уровень Claude |
Локальная модель |
Назначение |
|---|---|---|
|
Opus |
Qwen3.6-27b-MTP |
Сложная архитектура, рефакторинг |
|
Sonnet |
Qwen3.6-35B-A3B-MTP |
Генерация кода, тесты |
|
Haiku |
Qwen3.6-35B-A3B-MTP |
Поиск по файлам, обработка контекста |
Технология MTP (Multi-Token Prediction) ускоряет генерацию в 1.5–2 раза, позволяя модели предсказывать несколько токенов одновременно. Использование квантования Q6_K_XL обеспечивает баланс: качество практически на уровне FP16, при этом обе модели суммарно занимают около 74 ГБ, оставляя запас для KV-кэша.
Развертывание llama.cpp server
Скачайте актуальный релиз с официального GitHub (версию «Vulkan» для Windows). Для удобства используйте конфигурационный файл presets_claude.ini:
[qwen3.6-27b-mtp]
model = C:\Users\[user_name]\.lmstudio\models\...\Qwen3.6-27B-UD-Q6_K_XL.gguf
n-gpu-layers = 99
ctx-size = 200000
flash-attn = on
load-on-startup = true
...
Запуск осуществляется через bat-файл с флагами --spec-type draft-mtp для активации ускорения. После запуска сервер будет слушать локальный порт 1234, готовый принимать запросы от агента.
Конфигурация Claude Code
В файле settings.json вашего профиля Claude укажите путь к локальному серверу:
{
"env": {
"ANTHROPIC_BASE_URL": "http://127.0.0.1:1234",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.6-27b-mtp",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.6-35b-a3b-mtp",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
"CLAUDE_CODE_ENABLE_TELEMETRY": "0"
}
}
Результаты
На системе с Ryzen AI Max+ 395 производительность впечатляет:
- Qwen3.6-35B-A3B-MTP: 35–55 токенов в секунду.
- Qwen3.6-27B-MTP: 10–15 токенов в секунду.
Этого более чем достаточно для комфортной работы. Теперь ваш ИИ-ассистент полностью автономен, работает бесплатно и не покидает пределы вашего «железа».


