Экспресс-тестирование LLM qwen3-coder-next на локальном сервере

Тестирование Qwen3-Coder-Next: запуск новой LLM через Ollama и первые впечатления

Недавно на официальном сайте Ollama состоялся релиз новой специализированной модели для разработчиков — qwen3-coder-next. Однако при попытке инсталляции выяснилось, что текущая стабильная версия Ollama (0.15.4) не поддерживает данную архитектуру. Для работы требуется версия 0.15.5, которая на данный момент находится в статусе бета-тестирования.

Если стандартная установка через терминал подтягивает лишь стабильный релиз, то для обновления до актуальной бета-версии (сейчас это 0.15.5-rc2) необходимо использовать модифицированную команду:

curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh

Технические характеристики и требования

Модель представлена в двух основных вариантах квантования:

  1. Q4_K_M: объем 52 ГБ. Требует минимум 64 ГБ видеопамяти (VRAM).
  2. Q8_0: объем 85 ГБ. Для комфортной работы необходимо около 90–96 ГБ VRAM.

Запуск возможен и в оперативной памяти (RAM), однако скорость генерации в таком случае будет критически низкой. В моем случае тесты проводились на сервере с 96 ГБ видеопамяти.

Практический тест: создание игры «Змейка»

Традиционным мерилом качества кодинг-моделей для меня является написание классической «Змейки» на стеке HTML + JavaScript. Это позволяет оценить не только логику, но и умение нейросети работать с визуальной составляющей и обработкой событий в браузере.

Результаты модели Q8_0 (85 ГБ)

Модель с квантованием Q8 сгенерировала код всего за пару минут. Визуально интерфейс выглядел очень достойно. Несмотря на то, что с первого раза возник баг (змея не реагировала на еду), после уточняющего запроса нейросеть мгновенно исправила ошибку и добавила функционал сохранения рекорда в локальное хранилище.

Экспресс-тестирование LLM qwen3-coder-next на локальном сервере
Результат отрисовки игры моделью Q8: высокая эстетика и продуманный интерфейс.

Результаты модели Q4_K_M (52 ГБ)

Облегченная версия справилась с задачей за то же время, затратив около 65 ГБ видеопамяти. Удивительно, но версия Q4 написала полностью рабочий код сразу, без дополнительных правок. Хотя визуально она оказалась проще и не реализовала систему рекордов, в код был добавлен оригинальный элемент — эмодзи змейки, что добавило креативности.

Интерфейс игры Змейка от Q4
Версия Q4: дизайн проще, но полная работоспособность с первой попытки.

Сравнение с конкурентами

За время работы с локальными моделями я не встречал столь качественного и креативного подхода к выполнению этой задачи. По моему опыту, даже облачные гиганты вроде GPT-4, GigaChat от Сбера или Grok от Илона Маска далеко не всегда выдают рабочий результат с первого или даже второго раза. Модели Qwen3-Coder-Next заслуженно получают оценку 4+. Небольшой минус версии Q8 за необходимость ручной правки бага, хотя это может быть связано с предельными нагрузками на видеопамять.

Как запустить свой LLM-сервер?

Если у вас есть достаточно мощный компьютер или несколько GPU и вы хотите развернуть персональный сервер для работы с нейросетями, не затрагивая основную операционную систему, рекомендую воспользоваться проверенным методом. Вам потребуется отдельный SSD (от 512 ГБ) и немного времени на настройку Linux.

Подробную пошаговую инструкцию по созданию домашнего сервера для инференса тяжелых LLM я подготовил в отдельном материале: Руководство по запуску локального LLM-сервера.

Готов ответить на ваши вопросы и обсудить результаты тестов в комментариях.

 

Источник

Читайте также