Тестирование Qwen3-Coder-Next: запуск новой LLM через Ollama и первые впечатления
Недавно на официальном сайте Ollama состоялся релиз новой специализированной модели для разработчиков — qwen3-coder-next. Однако при попытке инсталляции выяснилось, что текущая стабильная версия Ollama (0.15.4) не поддерживает данную архитектуру. Для работы требуется версия 0.15.5, которая на данный момент находится в статусе бета-тестирования.
Если стандартная установка через терминал подтягивает лишь стабильный релиз, то для обновления до актуальной бета-версии (сейчас это 0.15.5-rc2) необходимо использовать модифицированную команду:
curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh
Технические характеристики и требования
Модель представлена в двух основных вариантах квантования:
- Q4_K_M: объем 52 ГБ. Требует минимум 64 ГБ видеопамяти (VRAM).
- Q8_0: объем 85 ГБ. Для комфортной работы необходимо около 90–96 ГБ VRAM.
Запуск возможен и в оперативной памяти (RAM), однако скорость генерации в таком случае будет критически низкой. В моем случае тесты проводились на сервере с 96 ГБ видеопамяти.
Практический тест: создание игры «Змейка»
Традиционным мерилом качества кодинг-моделей для меня является написание классической «Змейки» на стеке HTML + JavaScript. Это позволяет оценить не только логику, но и умение нейросети работать с визуальной составляющей и обработкой событий в браузере.
Результаты модели Q8_0 (85 ГБ)
Модель с квантованием Q8 сгенерировала код всего за пару минут. Визуально интерфейс выглядел очень достойно. Несмотря на то, что с первого раза возник баг (змея не реагировала на еду), после уточняющего запроса нейросеть мгновенно исправила ошибку и добавила функционал сохранения рекорда в локальное хранилище.

Результаты модели Q4_K_M (52 ГБ)
Облегченная версия справилась с задачей за то же время, затратив около 65 ГБ видеопамяти. Удивительно, но версия Q4 написала полностью рабочий код сразу, без дополнительных правок. Хотя визуально она оказалась проще и не реализовала систему рекордов, в код был добавлен оригинальный элемент — эмодзи змейки, что добавило креативности.

Сравнение с конкурентами
За время работы с локальными моделями я не встречал столь качественного и креативного подхода к выполнению этой задачи. По моему опыту, даже облачные гиганты вроде GPT-4, GigaChat от Сбера или Grok от Илона Маска далеко не всегда выдают рабочий результат с первого или даже второго раза. Модели Qwen3-Coder-Next заслуженно получают оценку 4+. Небольшой минус версии Q8 за необходимость ручной правки бага, хотя это может быть связано с предельными нагрузками на видеопамять.
Как запустить свой LLM-сервер?
Если у вас есть достаточно мощный компьютер или несколько GPU и вы хотите развернуть персональный сервер для работы с нейросетями, не затрагивая основную операционную систему, рекомендую воспользоваться проверенным методом. Вам потребуется отдельный SSD (от 512 ГБ) и немного времени на настройку Linux.
Подробную пошаговую инструкцию по созданию домашнего сервера для инференса тяжелых LLM я подготовил в отдельном материале: Руководство по запуску локального LLM-сервера.
Готов ответить на ваши вопросы и обсудить результаты тестов в комментариях.


