Привет, меня зовут Дмитрий, я занимаюсь развитием направления LLMaaS. Наша команда столкнулась с необходимостью выбора оптимальной языковой модели (около 9 млрд параметров) для решения бизнес-задач: оперативного обслуживания чат-ботов, суммаризации документации, генерации программного кода и глубокого анализа длинных текстов. В таких проектах важен баланс между качеством генерации, скоростью отклика и стоимостью инференса, так как модель должна эффективно обрабатывать поток запросов на одном графическом ускорителе.
Стандартные решения, такие как проверенная плотная архитектура Llama 3.1 8B, показывают достойные результаты, но быстро упираются в лимиты памяти из-за массивного KV-кеша. Поэтому мы обратили внимание на гибридные модели, совмещающие классическое внимание с более легкими алгоритмами (Mamba-2, Gated DeltaNet). Эти решения способны радикально сократить аппетиты к VRAM и повысить пропускную способность без деградации качества. Мы протестировали три многообещающие модели с открытым кодом: NVIDIA Nemotron-Nano 9B v2, Bamba-9B-v2 (IBM) и Qwen3.5 9B (Alibaba) — и сравнили их с эталонной Llama 3.1 8B.
Мы провели моделирование на базе ускорителя NVIDIA H200 (141 ГБ) при стандартном профиле нагрузки: 4096 входящих токенов и до 256 на выходе. Оценивались следующие параметры: Instance VRAM (суммарная память с учетом весов и кеша), время генерации (E2E Latency), RPS на реплику, стоимость памяти на один запрос и предельная параллелизация. Вычисления и методику мы верифицировали с помощью собственного форка InferSim и актуальных публичных бенчмарков. Результаты представлены ниже:

Секрет миниатюрного KV-кеша Nemotron кроется в архитектуре Nemotron-H. Это гибрид, где 52 из 56 слоев используют блоки Mamba-2, и лишь четыре отведены под классический Attention. В отличие от стандартных трансформеров, которые раздувают таблицу ключей и значений, Mamba-2 обновляет компактное скрытое состояние фиксированного объема. В результате объем KV-кеша для 4096 токенов составляет всего 68 МБ — это в восемь раз меньше, чем у Llama. Благодаря этому Nemotron способен обрабатывать до 2000 запросов параллельно, ограничиваясь лишь вычислительной мощностью чипа, а не объемом памяти.
Почему Qwen3.5 кажется медленнее на коротких контекстах? В основе её архитектуры лежит Gated DeltaNet, который также использует фиксированное состояние. Однако у этого есть нюанс: слои GDN требуют последовательных вычислений для обновления состояний, что ограничивает параллелизм на GPU. В коротких задачах традиционный механизм Attention задействует вычислительные ядра максимально эффективно, поэтому TTFT у Qwen3.5 выше (1.86 сек против 1.32 сек у Llama). Но при работе с контекстом в 100 тысяч токенов ситуация меняется: классический подход захлебывается в KV-кеше, а Gated DeltaNet сохраняет стабильную эффективность. Это типичный пример компромисса между скоростью на малых и больших объемах данных.
Что касается интеллектуальных способностей, у каждой модели своя ниша. Nemotron-Nano 9B v2 — сильный «математик» (рекорды в MATH500 и AIME25). Qwen3.5 9B выступает в роли «эрудита» с впечатляющими результатами в MMLU-Pro, превосходя даже гораздо более крупные модели. Bamba-9B-v2 — универсальный «спринтер», обходящий Llama 3.1 по средним метрикам. Наш вердикт: для чат-ботов с высокой нагрузкой идеален Nemotron (в 1.5 раза быстрее Llama и на 30% экономичнее по памяти), для аналитических задач и обработки документов лучше подойдет Qwen3.5. Bamba же станет отличным выбором, если нужно ускорить работу, не меняя привычную инфраструктуру.
Хотя LLM по-прежнему требовательны к ресурсам, эволюция архитектур вроде Mamba-2 и Gated DeltaNet делает владение ИИ-сервисами значительно дешевле. Сегодня один H200 способен обслуживать кратно больше пользователей, чем год назад. Выбор модели переходит из области маркетинговых догадок в плоскость инженерных расчетов. Мы продолжаем дорабатывать наш симулятор и будем рады обсудить ваш опыт внедрения подобных решений.

