Настройка Claude Code с локальными моделями Qwen3.6 на AMD Strix Halo: пошаговое руководство

2 часа назад

Вступление

Приветствую! Продолжаю цикл заметок, начатый в предыдущем материале, где мы сопоставляли возможности Nvidia DGX Spark, Mac Studio M3 Ultra и платформы Strix Halo. Выбор был сделан в пользу последней, так что пришло время раскрыть её потенциал, развернув пару мощных локальных нейросетей под управлением надежного AI-агента.

Разумеется, подписка на Claude Code и доступ к облачным API — это удобно, но не всегда оправдано с финансовой точки зрения. Кроме того, отправка приватного исходного кода на сторонние серверы несет риски, как и вероятность блокировки аккаунта, что может парализовать рабочий процесс.

Элегантное решение — использование Claude Code в автономном режиме (free mode) с локальными моделями. Anthropic позволяет интегрировать любые LLM, совместимые с их API. Если раньше такие эксперименты напоминали игрушку, то с появлением семейства Qwen3.6 качество ответов достигло уровня, пригодного для реальных задач. В этой статье я детально покажу, как подготовить такую среду на базе GMKtec EV0-X2 — от деплоя моделей до настройки взаимодействия с агентом.

Задачи и конфигурация

Допустим, вы хотите задействовать ИИ в разработке, не прибегая к облачным API. Причины могут быть разными:

высокая стоимость API Claude Sonnet/Opus и строгие лимиты;
необходимость полной конфиденциальности кода;
чисто инженерный интерес к self-hosted решениям.

Мой выбор пал на связку: llama.cpp server + две GGUF-модели Qwen3.6-MTP + Claude Code в свободном режиме. Всё это функционирует на аппаратной базе Strix Halo (Ryzen AI Max+ 395) со 128 ГБ ОЗУ. Хотя существуют и другие альтернативы (OpenCode, Kilocode), архитектура Claude Code показалась мне наиболее сбалансированной и готовой к использованию «из коробки».

Аппаратная база

Strix Halo — это архитектура AMD для топовых мобильных решений и мини-ПК. Процессор Ryzen AI Max+ 395 по сути является полноценным десктопным чиплетом в мобильном исполнении.

Технические параметры GMKtec EV0-X2:

Компонент	Спецификация
Процессор	AMD Ryzen AI Max+ 395, 16 ядер/32 потока, 4 нм, до 5.1 ГГц, 16 МБ L2, 64 МБ L3 (X3D)
Графическое ядро	AMD Radeon 8060S, RDNA 3.5, 40 CU
Оперативная память	LPDDR5X, 128 ГБ, 8-канальная, 8 ГГц, пропускная способность 217 ГБ/с
Хранилище	SSD PCIe 4.0, 2 ТБ
Связь	Wi-Fi 7, Bluetooth 5.4, 2.5 Гбит/с Ethernet
Питание	120 Вт (база), до 140 Вт (пик)
NPU	XDNA 2, производительность до 126 TOPS

Для инференса LLM критическим фактором является пропускная способность памяти. 8-канальная LPDDR5X (217 ГБ/с) здесь вне конкуренции. Выделив через BIOS 96 ГБ под видеопамять, можно целиком загружать модели до 120B параметров в квантовании Q4_K_M. Система работает под Windows 11, что делает процесс настройки простым и понятным даже для обычного пользователя.

Программный стек

Для работы на Windows я выделил два основных инструмента:

LM Studio — отличное решение с интуитивным графическим интерфейсом. Оно идеально подходит для поиска, загрузки и тестирования GGUF-моделей. Интерфейс позволяет наглядно оценить требования к памяти и рейтинг популярности моделей.

Настройка Claude Code с локальными моделями Qwen3.6 на AMD Strix Halo: пошаговое руководство — Рис. 1. Интерфейс LM Studio: поиск и выбор оптимальной модели.

LM Studio предлагает богатый инструментарий для разработчика: можно тонко настроить использование GPU, параметры контекста и вывода. Это неплохой вариант для тех, кто предпочитает визуальное управление, однако…

llama.cpp server — мой фаворит, несмотря на необходимость освоения консоли. Его преимущества весомы: прирост скорости генерации на 20-25% по сравнению с LM Studio, поддержка режима «размышлений» (reasoning) и полноценная работа с мультимодальными функциями, которые в других API реализованы не полностью.

Подбор моделей

Claude Code использует иерархию моделей (Opus, Sonnet, Haiku). Я настроил локальную связку следующим образом:

Уровень Claude	Локальная модель	Назначение
Opus	Qwen3.6-27b-MTP	Сложная архитектура, рефакторинг
Sonnet	Qwen3.6-35B-A3B-MTP	Генерация кода, тесты
Haiku	Qwen3.6-35B-A3B-MTP	Поиск по файлам, обработка контекста

Технология MTP (Multi-Token Prediction) ускоряет генерацию в 1.5–2 раза, позволяя модели предсказывать несколько токенов одновременно. Использование квантования Q6_K_XL обеспечивает баланс: качество практически на уровне FP16, при этом обе модели суммарно занимают около 74 ГБ, оставляя запас для KV-кэша.

Развертывание llama.cpp server

Скачайте актуальный релиз с официального GitHub (версию «Vulkan» для Windows). Для удобства используйте конфигурационный файл presets_claude.ini:

[qwen3.6-27b-mtp]
model = C:\Users\[user_name]\.lmstudio\models\...\Qwen3.6-27B-UD-Q6_K_XL.gguf
n-gpu-layers = 99
ctx-size = 200000
flash-attn = on
load-on-startup = true
...

Запуск осуществляется через bat-файл с флагами --spec-type draft-mtp для активации ускорения. После запуска сервер будет слушать локальный порт 1234, готовый принимать запросы от агента.

Конфигурация Claude Code

В файле settings.json вашего профиля Claude укажите путь к локальному серверу:

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://127.0.0.1:1234",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.6-27b-mtp",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.6-35b-a3b-mtp",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0"
  }
}

Результаты

На системе с Ryzen AI Max+ 395 производительность впечатляет:

Qwen3.6-35B-A3B-MTP: 35–55 токенов в секунду.
Qwen3.6-27B-MTP: 10–15 токенов в секунду.

Этого более чем достаточно для комфортной работы. Теперь ваш ИИ-ассистент полностью автономен, работает бесплатно и не покидает пределы вашего «железа».

Источник