ML-дайджест: экспансия NVIDIA, Cursor на базе китайской модели и превосходство SambaNova над GPU

Мартовские релизы наглядно демонстрируют вектор эволюции инфраструктуры для ИИ: NVIDIA презентует передовые чипы, системы хранения и инструменты оркестрации для агентного ИИ; многомиллиардный стартап Cursor задействует китайские наработки в качестве фундамента для своей «флагманской» модели, а SambaNova заявляет о создании прямого конкурента GPU. Проанализируем ключевые изменения, которые сформируют облик нейросетевых технологий в ближайшей перспективе.

NVIDIA передает рычаги управления GPU сообществу Kubernetes

Технологический гигант продолжает курс на демократизацию своих разработок. На конференции KubeCon Europe 2026 представители NVIDIA сообщили о передаче драйвера Dynamic Resource Allocation (DRA) для графических процессоров в Cloud Native Computing Foundation. Теперь развитие этого критически важного компонента переходит под эгиду апстрим-сообщества Kubernetes, избавляясь от привязки к единственному вендору.

Фактически речь идет о трансформации уровня оркестрации для ИИ-нагрузок: DRA-драйвер обеспечивает запрос и выделение GPU как полноценных вычислительных единиц с глубоким учетом их топологии, объема памяти и специфики межсоединений. Устаревшая модель «nvidia.com/gpu:N», воспринимающая ускорители как примитивные счетчики, более не отвечает требованиям масштабирования современных нейросетей.

Стек оркестрации: от физического «железа» до уровня Kubernetes и прикладных ИИ-фреймворков. Источник.
Архитектура оркестрации: от аппаратного обеспечения до уровня K8s и специализированных ИИ-библиотек. Источник.

Обновленный драйвер уже реализует механизмы продвинутой оркестрации: совместное использование через MPS и Multi-Instance GPU (MIG), статическое сегментирование ресурсов, а также абстракцию ComputeDomains. Последняя гарантирует безопасный обмен данными между узлами через Multi-Node NVLink в архитектурах уровня Grace Blackwell.

Параллельно с этим NVIDIA в коллаборации с инициативой Confidential Containers внедрила поддержку GPU в технологию Kata Containers. Это позволяет развертывать ИИ-ворклоады в средах с повышенной изоляцией, интегрируя аппаратное ускорение в концепцию конфиденциальных вычислений, где защита критически важных данных является приоритетом.

В единую экосистему также вошли сопутствующие проекты: инструмент для устранения аппаратных сбоев NVSentinel, фреймворк для агентного ИИ Cluster Runtime, технологический стек NemoClaw и рантайм OpenShell, использующий eBPF для безопасного функционирования автономных агентов. Кроме того, планировщик KAI Scheduler переведен в песочницу CNCF, а для широкого доступа открыт Grove — интерфейс Kubernetes для управления ИИ-ресурсами в GPU-кластерах.

NVIDIA акцентирует внимание на том, что это не разовый жест доброй воли, а стратегическая ставка на открытое ПО в корпоративном сегменте. Компания стремится сформировать отраслевые стандарты для Kubernetes. Разработчики получают вместо проприетарных решений открытый инструментарий для гибкого проектирования инфраструктуры любой сложности.

Аренда GPU за символический 1 рубль!

Подберите оптимальную конфигурацию в панели управления Selectel. Узнать больше →

Стратегии развертывания LLM-инференса в среде Kubernetes

Классический монолитный подход к серверам инференса сталкивается с проблемой дисбаланса нагрузок на этапах prefill (предварительного заполнения) и decode (генерации).

От монолита к Disaggregated-модели. Источник.
Эволюция архитектуры: от монолитных систем к дезагрегированным моделям. Источник.

Специалисты NVIDIA представили техническое руководство по разделению конвейера инференса на автономные сервисы: prefill (высокая вычислительная интенсивность), decode (зависимость от пропускной способности памяти) и маршрутизацию. Это позволяет масштабировать каждый этап независимо, оптимизируя загрузку GPU.

По сути, предлагается отказ от агрегированной модели, где один процесс курирует весь цикл — от обработки текста до выдачи результата. В новой схеме роли функционируют как отдельные микросервисы со своими настройками шардинга и батчинга. Prefill фокусируется на параллельных вычислениях, в то время как decode максимизирует использование HBM-памяти, а роутер интеллектуально распределяет KV-кеш для балансировки системы.

Для реализации базового подхода используется LeaderWorkerSet, где каждая роль описывается как отдельный ресурс. Однако более совершенный метод подразумевает использование NVIDIA Grove API через PodCliqueSet. В такой конфигурации вся цепочка — от входного маршрутизатора до финальной генерации — задается единым манифестом. Параметры позволяют строго соблюдать очередность запуска и учитывать физическое размещение оборудования (аффинити) для эффективной работы NVLink.

Иерархическое планирование берет на себя диспетчер KAI. Специализированные компоненты, такие как PodCliqueScalingGroup, гарантируют, что при масштабировании система будет сохранять целостность групп серверов, не допуская фрагментации ресурсов. Весь этот стек, построенный на открытых стандартах и расширениях вроде Grove, нацелен на максимальную эффективность аппаратных ресурсов бизнеса.

NVIDIA представила Dynamo 1.0 для промышленного инференса

Состоялся долгожданный релиз первой стабильной версии Dynamo. Это полнофункциональная платформа для крупномасштабного инференса, включающая в себя KV Cache Router и KV Block Manager.

В свежем анонсе NVIDIA Dynamo 1.0 позиционируется как «операционная система для ИИ-фабрик». Основной упор сделан на прецизионную оптимизацию KV-кеша, динамическое управление графическими процессорами и интеллектуальную маршрутизацию входящих запросов.

Система нативно работает с SGLang, TensorRT-LLM и vLLM. Согласно независимым тестам InferenceX от SemiAnalysis, эксплуатация модели DeepSeek R1 на чипах Blackwell обеспечивает семикратное преимущество в пропускной способности на единицу GPU. Платформа также демонстрирует впечатляющие результаты в бенчмарках MLPerf.

NVIDIA Dynamo повышает производительность в семь раз. Источник.
NVIDIA Dynamo: кратное увеличение производительности. Источник.

Важнейшим дополнением стал KV Cache Router с поддержкой «агентских подсказок». Он оценивает потенциальную задержку и объем ответа, отдавая приоритет сложным многошаговым сессиям путем эффективного закрепления кэша.

Модуль KV Block Manager (KVBM) реализует многоступенчатую стратегию кэширования по иерархии GPU → CPU → SSD → S3. Он минимизирует необходимость повторных вычислений при дефиците видеопамяти и может быть интегрирован в движки инференса простым вызовом через pip.

Особенности функционирования:

  • Маршрутизатор может работать как в режиме строгого соответствия (через префиксные деревья), так и на основе прогнозов, учитывая историю запросов и перекрытие контекста.

  • KVBM гибко управляет ресурсами и правилами вытеснения данных, обеспечивая удаленный доступ к кэшу.

Для работы с мультимодальным контентом реализовано разделение фаз обработки с кэшированием эмбеддингов в RAM. Это сокращает время отклика (TTFT) до 30% и увеличивает общую пропускную способность на четверть. Дополнительно включена поддержка генерации видео в реальном времени.

NVIDIA анонсирует Groq 3 LPX для платформы Vera Rubin

Интеграция активов Groq позволила представить первую стоечную систему для агентного ИИ, ориентированную на предельно низкие задержки при генерации текста.

В официальном блоге NVIDIA раскрыты детали системы Groq 3 LPX:

  • Базируется на 256 чипах Groq 3 LPU в составе стойки MGX ETL для архитектуры Vera Rubin NVL72;

  • Пиковая мощность достигает 315 PFLOPS;

  • Объем встроенной SRAM-памяти составляет 128 ГБ;

  • Пропускная способность памяти — колоссальные 40 ПБ/с при межчиповом обмене на скорости 640 ТБ/с.

NVIDIA Groq 3 LPX: архитектура. Источник. 
Архитектурные особенности NVIDIA Groq 3 LPX. Источник

LPX функционирует в симбиозе с GPU Rubin: основные вычисления и работа с длинным контекстом ложатся на Rubin NVL72, тогда как LPX берет на себя сверхскоростную генерацию токенов (декодирование).

В результате энергоэффективность решения в расчете на мегаватт выросла в 35 раз, а рентабельность при обслуживании моделей триллионного масштаба увеличилась десятикратно относительно систем предыдущего поколения GB200.

Чип Groq 3 LPU оперирует векторами данных по 320 байт и лишен традиционных кэшей — за распределение данных отвечает компилятор. Для обеспечения связности предусмотрено 96 линий C2C. Каждая вычислительная полка с жидкостным охлаждением выдает 9,6 PFLOPS в формате FP8.

Это решение открывает дорогу к «мгновенному» ИИ, способному генерировать более 1 000 токенов в секунду. Такая производительность критична для голосовых помощников и сред совместной разработки в реальном времени. В этой связке Rubin обеспечивает точность и глубину анализа, а Groq LPX — молниеносный черновой вывод.

Composer 2 от Cursor оказался модификацией китайской Kimi 2.5

Стартап Cursor презентовал Composer 2 как прорывную модель для кодинга, однако внимательные пользователи быстро выяснили, что за фасадом скрывается Kimi 2.5 — разработка китайской компании Moonshot AI, дообученная с помощью методов RL.

Американский стартап с оценкой почти в $30 млрд изначально не афишировал использование стороннего фундамента. Позже вице-президент Ли Робинсон уточнил, что на долю базовой модели пришлось лишь около 25% вычислений, остальное — проприетарные алгоритмы обучения Cursor. Компания Fireworks AI подтвердила наличие лицензионного соглашения.

Основатель Аман Сангер принес публичные извинения за отсутствие упоминания Kimi в официальном пресс-релизе, пообещав исправить прозрачность коммуникаций в будущих обновлениях.

NVIDIA запускает BlueField-4 STX для хранения данных ИИ-агентов

В рамках GTC 2026 компания представила эталонную архитектуру BlueField-4 STX, призванную устранить дефицит пропускной способности хранилищ. Основная задача новинки — эффективное управление KV-кешем, который стремительно разрастается при работе с длинными контекстами.

BlueField‑4 STX. Источник.
Архитектурная схема BlueField-4 STX. Источник.

Связка из BlueField-4 DPU и сетевых адаптеров ConnectX-9 SuperNIC превосходит стандартные серверные решения в пять раз по скорости выдачи токенов, потребляя при этом в четыре раза меньше энергии.

Технология STX позволяет передавать данные напрямую через RDMA, минуя центральный процессор. BlueField-4 самостоятельно курирует NVMe-накопители, обеспечивая шифрование и верификацию данных. Новинка станет частью платформы Vera Rubin, а её экосистему уже поддержали такие гиганты, как Dell, IBM, NetApp и Pure Storage. Масштабные поставки ожидаются во второй половине 2026 года.

Глобальные союзы: UALink и DMTF унифицируют стандарты

Организации UALink Consortium и DMTF объявили о стратегическом партнерстве. Цель сотрудничества — объединение технологий высокоскоростной передачи данных между GPU с системами управления инфраструктурой.

UALink представляет собой открытый стандарт для связи «ускоритель-ускоритель», позволяющий объединять разрозненные графические процессоры в монолитный вычислительный ресурс. Благодаря DMTF, управление этими сложными системами станет возможным через открытые протоколы Redfish и SPDM. Это гарантирует безопасность и совместимость оборудования от разных производителей в рамках единых ИИ-кластеров.

SambaNova представляет SN50 RDU для агентного инференса

Процессор SN50 RDU. Источник.
Ускоритель SN50 RDU нового поколения. Источник.

Компания SambaNova анонсировала пятое поколение процессоров SN50 RDU с архитектурой Dataflow. По заявлениям разработчиков, новинка обходит GPU по уровню задержек и совокупной стоимости владения. В тестах с Llama 3.3 (70B) система продемонстрировала пятикратное преимущество в скорости над NVIDIA Blackwell B200.

SN50 позволяет оперировать моделями объемом до 10 трлн параметров при контекстном окне в 10 млн токенов без ущерба для производительности. Использование гибридной памяти (HBM + SRAM) дает возможность переключаться между задачами за миллисекунды, что критически важно для работы ИИ-агентов.

Благодаря потоковой архитектуре, данные движутся по кратчайшему пути, минимизируя лишние циклы обращения к памяти. Ожидается, что использование SN50 позволит облачным провайдерам снизить эксплуатационные расходы в 8 раз по сравнению с классическими GPU-фермами.

Больше подробностей о технологических трендах вы найдете в наших предыдущих обзорах. Следите за актуальными новостями из мира больших данных и машинного обучения в Академии Selectel.

 

Источник

Читайте также