Китайский ответ NVIDIA H200: обзор ускорителя Alibaba Zhenwu M890

20 мая на ежегодной конференции Alibaba Cloud Summit полупроводниковое подразделение холдинга, компания T-Head, анонсировала новейший графический ускоритель Zhenwu M890. Устройство оснащено 144 ГБ памяти HBM, а пропускная способность межчипового соединения достигает 800 ГБ/с. Одновременно с GPU был представлен сервер Panjiu AL128 — высокопроизводительное решение, объединяющее 128 таких ускорителей с помощью фирменного коммутатора ICN Switch 1.0.

Новинка уже доступна корпоративным клиентам в Китае и обладает нативной поддержкой таких языковых моделей, как Qwen, DeepSeek и Kimi. Разберемся в технических нюансах платформы далее.

Особенности архитектуры Zhenwu M890

Zhenwu M890 представляет собой специализированный ускоритель, спроектированный для интенсивных рабочих нагрузок в области ИИ. Вычислительное ядро дополнено 144 ГБ памяти стандарта HBM. Взаимодействие между чипами осуществляется через восемь независимых портов ICN, обеспечивающих суммарную пропускную способность до 800 ГБ/с.

Китайский ответ NVIDIA H200: обзор ускорителя Alibaba Zhenwu M890
Китайский ИИ-ускоритель Alibaba Zhenwu M890. Источник.

Архитектура поддерживает как прямое взаимодействие между ускорителями (P2P), так и масштабирование через ICN Switch 1.0, позволяя объединять до 64 плат в единую топологию. Устройство гибко адаптируется под задачи обучения (FP32, BF16, FP16) и инференса (FP8, INT8, FP4).

Программная экосистема опирается на собственный стек T-Head SAIL, полностью разработанный Alibaba. Он обеспечивает совместимость с актуальными фреймворками машинного обучения, что позволяет разворачивать приложения без необходимости корректировки кода. В систему также встроены развитые инструменты для отладки и глубокого мониторинга производительности.

Спектр применения GPU охватывает обучение нейросетей, автономное вождение и работу с многомодальными моделями. Чип оптимизирован для функционирования AI-агентов, работающих с длинным контекстом, где критически важна низкая задержка при массовых параллельных запросах.

Арендуйте GPU за 1 рубль!

Ознакомьтесь с доступными конфигурациями в панели управления Selectel. Подробнее →

Архитектура суперсервера Panjiu AL128

Межчиповое соединение процессоров Alibaba.
Межчиповое соединение процессоров Alibaba. Источник.

Panjiu AL128 объединяет 128 ускорителей M890 в единый вычислительный кластер. Фирменный интерконнект ICN Switch 1.0 с пропускной способностью 25,6 Тбит/с позволяет связать до 64 плат в полносвязную сеть, обеспечивая минимальные задержки при передаче данных.

Общая производительность системы по сети достигает петабитного уровня, а задержки обмена данными между ускорителями не превышают 150 наносекунд — это расстояние, которое свет преодолевает всего за 45 метров.

Сервер готов к эксплуатации «из коробки», требуя минимума настроек. Программная среда полностью оптимизирована под работу с ведущими китайскими языковыми моделями Qwen, DeepSeek и Kimi.

Развитие линейки

Вычислительный модуль Alibaba.
Вычислительный модуль Alibaba. Источник.

Сравним новинку с предшественником Zhenwu 810E:

Zhenwu 810E

Zhenwu M890

Динамика

Память HBM

96 ГБ

144 ГБ

+50%

Пропускная способность памяти

2,7 ТБ/с

не заявлено

Межчиповая шина

700 ГБ/с

800 ГБ/с

+14%

Порты ICN на чип

7

8

+1

В M890 появилась поддержка точности FP4, что является существенным апгрейдом для инференса. Несмотря на заявления разработчиков о трехкратном росте производительности, методология тестирования остается закрытой, а отсутствие данных по пропускной способности памяти затрудняет объективную оценку реального прироста мощности.

Сравнение с решениями NVIDIA

ИИ-платформа NVIDIA HGX H200.
ИИ-платформа NVIDIA HGX H200. Источник.

По объему памяти (144 ГБ против 141 ГБ) китайский M890 находится на одном уровне с NVIDIA H200. Тем не менее, по пропускной способности памяти NVIDIA все еще значительно лидирует (4,8 ТБ/с). Что касается вычислительной мощности, точные показатели M890 не публикуются, однако поддержка формата FP4 дает ему потенциальное преимущество в плотности вычислений при инференсе.

Межчиповое соединение ICN выглядит конкурентоспособно: 800 ГБ/с с возможностью масштабирования до 64 плат — это достойный результат, хотя NVIDIA NVLink демонстрирует большую пропускную способность (900 ГБ/с) на малых кластерах из 8 GPU.

Резюме: H200 остается более мощным решением благодаря зрелости архитектуры и экосистеме CUDA. Однако Zhenwu M890 — это стратегически важный продукт, обеспечивающий суверенитет и доступность вычислительных мощностей на китайском рынке в условиях экспортных ограничений. Если вам требуется надежная платформа для текущих задач, в Selectel вы можете арендовать серверы на базе NVIDIA H200.

Серверная плата NVIDIA HGX B200.
Серверная плата NVIDIA HGX B200. Источник.

Заключение

Zhenwu M890 — это попытка Alibaba создать полноценную альтернативу, а не прямого конкурента NVIDIA. Компания делает ставку на доступность и создание вертикально интегрированного стека — от аппаратного обеспечения до облачной инфраструктуры. Успех проекта будет зависеть от стабильности производства и того, подтвердят ли независимые тесты заявленные улучшения.

Возможно, вам будет интересно:

 

Источник

Читайте также