CPU против GPU: сможет ли китайский суперкомпьютер на 2 эксафлопса совершить революцию?

18 минут назад

El Capitan, Frontier, Aurora и JUPITER Booster — современные лидеры рейтинга Top500, покорившие эксафлопсный рубеж. Объединяет их общая архитектурная концепция: использование GPU-ускорителей. Этот подход, кристаллизовавшийся за последнее десятилетие, к 2024 году стал догмой суперкомпьютерной индустрии: хочешь выйти на эксамасштаб — без GPU не обойтись.

На этом фоне Китай анонсировал создание суперкомпьютера, работающего исключительно на базе CPU, без каких-либо ускорителей. Это либо смелый инженерный эксперимент, либо показательный манифест технологической независимости. Вероятнее всего, перед нами сочетание обоих факторов. Чтобы осознать масштаб происходящего, важно проследить эволюцию GPU в высокопроизводительных вычислениях (HPC), понять, что осталось за CPU в этой «гонке вооружений» и чем продиктована ставка Китая на традиционную архитектуру.

Санкционное давление и Top500

Ограничения в отношении Huawei, введенные США в 2019 году, совпали с моментом, когда Китай перестал передавать данные LINPACK для рейтинга Top500. Вряд ли это простое совпадение. 😏

Дальнейшее ужесточение экспортного контроля (от NVIDIA A100 до H200 и чипов AMD) вынудило КНР форсировать собственные разработки: линейку Huawei Ascend (для AI), серверные решения Kunpeng и, наконец, LX2 в связке с интерконнектом LineShine для HPC.

Ли Сяоли из инновационного комитета Шэньчжэня охарактеризовал LineShine как символ «полной технологической автономности и контроля над всем стеком». Это заявление переводит вопрос из чисто технической плоскости в политическую.

Страны стремятся развивать технологии, исходя из имеющихся ресурсов и экономической целесообразности. В условиях санкционных барьеров и ограниченного доступа к GPU Китай выбрал собственный путь развития вычислительных мощностей.

Кратко о текущем рейтинге

Даже не приводя весь список, можно выделить ключевые моменты по состоянию на ноябрь 2025 года:

США уверенно лидируют: 171 система, включая 1–3 и 5 позиции в топе.
Япония удерживает 43 позиции (7-е место).
Германия (40 систем) занимает 4-ю строчку.
Италия (18 систем) представлена на 6-м и 10-м местах.
Швейцария и Финляндия имеют по 3 системы, входящие в топ-10.
Китай, располагая 40 суперкомпьютерами, занимает 4-е место по общему количеству, однако в первой десятке его систем нет — факт, который для амбициозной державы выглядит болезненно.

Россия располагает 5 суперкомпьютерами. Это серьезные вычислительные мощности, однако потребность в наращивании парка очевидна.

Заявленные 2 EFLOPS для LineShine — предмет жарких споров. Главный вопрос остается прежним: что именно скрывается за этими цифрами — пиковая производительность или реальная?

Дилемма LineShine: пиковая мощность или рабочий показатель?

Для сравнения: El Capitan при пике в 2,82 EFLOPS демонстрирует 1,809 EFLOPS в тесте LINPACK. Разрыв в 35% весьма существенен. Если 2 EFLOPS для китайской системы — это потолок, то реальная эффективность в LINPACK может составить около 1,3 EFLOPS. Это по-прежнему впечатляющий результат, но явно не уровень лидера рынка. Поскольку Китай добровольно игнорирует публикацию данных в Top500, мы остаемся в плену догадок — возможно, реальные возможности системы скрыты от глаз мировой общественности.

Задачи суперкомпьютеров: зачем нужна такая мощь?

Суперкомпьютеры — это инструменты для решения фундаментальных задач, требующих колоссальных вычислений: от физики высоких энергий и молекулярной динамики до метеорологии и моделирования климата.

Сложные симуляции, такие как глобальная климатическая модель с шагом в 1 км или анализ динамики ядерных реакций, требуют обработки массивов данных, с которыми не справится никакая другая техника. Кроме того, системы задействуются в биоинформатике, материаловедении и обучении гигантских моделей ИИ.

LineShine проектировался именно под такой стек задач. Лидеры рейтинга Top500 решают схожие проблемы: El Capitan фокусируется на задачах национальной безопасности США, Frontier и Aurora — на фундаментальных научных изысканиях в физике, астрофизике и искусственном интеллекте. JUPITER Booster интегрирует все вышеперечисленное, включая генеративные нейросети. Все они полагаются на GPU, но как именно ускорители захватили доминирующую позицию?

Эволюция доминирования GPU

Долгое время суперкомпьютеры строились на CPU. Однако в 2007 году NVIDIA представила CUDA, позволившую использовать GPU для универсальных вычислений. Архитектурное различие стало критическим: тысячи мелких ядер GPU идеально подходят для параллельных операций над огромными массивами данных, в то время как CPU, обладая сложной иерархией кешей и логикой предсказания ветвлений, лучше справляются с последовательными задачами.

Тем не менее, многие алгоритмы (например, в CFD или работе с графами) неэффективны на GPU из-за непредсказуемого доступа к памяти. Большинство современных систем используют гибридный подход: GPU берет на себя математическую рутину, а CPU — управление потоками и сложную логику.

Переломный момент произошел в 2012 году с появлением AlexNet. Команда SuperVision доказала: при наличии мощных GPU нейросети обучаются с беспрецедентной скоростью. Это окончательно закрепило господство ускорителей. Сегодня более 50% мощностей Top500 генерируется именно ими.

Создатели LineShine, похоже, делают ставку на современный CPU с HBM-памятью, способный выполнять обе функции — как вычислительную, так и управляющую — без накладных расходов на перенос данных между разными типами архитектур.

Анонсированные факты о LineShine

Источники: HPCwire.com и препринт «Breaking the Training Barrier of Billion-Parameter Universal Machine Learning Interatomic Potentials».

Локация и запуск: Шэньчжэнь, апрель 2026; главный конструктор — Лу Ютун.

Характеристики: 2 EFLOPS, 20 480 узлов, 47 000 процессоров LX2, 650 ПБ хранилище с пропускной способностью 10 ТБ/с.

Инфраструктура: полностью суверенная, включая интерконнект LingQi.

Этапность: первая очередь на базе Huawei Kunpeng (12 800 ядер) уже в работе.

Почему CPU-only эксамасштаб — это сложный инженерный вызов

Каждый узел LineShine базируется на двух процессорах LX2, предлагая 608 ядер ARMv9 и суммарную пропускную способность памяти 8 ТБ/с. Это стало возможным благодаря внедрению HBM-памяти непосредственно на кристалл, что устраняет главное «узкое горлышко» классических процессоров.

Вторая сложность — масштабируемость интерконнекта. Использование LingQi с его fat-tree топологией позволяет связать 20 480 узлов так, чтобы задержки не нивелировали вычислительный прирост. Для сравнения: пропускная способность памяти одного узла LineShine эквивалентна работе 118 современных iPhone. Чтобы воссоздать мощь всей системы, потребовалось бы более 2,4 миллиона таких смартфонов.

LX2: эволюция в сторону специализированных решений

Важно различать чипы Kunpeng (первая фаза, ARMv8.2) и новейшие LX2 (ARMv9, вторая фаза). Последние были разработаны специально под проект LineShine, интегрируя HBM-память, и в открытой продаже отсутствуют. Это подчеркивает целевой, закрытый характер разработки.

Если LineShine покажет заявленную производительность, идея CPU-only эксамасштаба перестанет быть теоретической. Китай демонстрирует миру модель создания суверенной вычислительной инфраструктуры, способной развиваться независимо от глобальных ограничений. Несмотря на отсутствие данных об энергоэффективности и независимого аудита, сам прецедент запуска столь масштабной «негетерогенной» системы заставляет пересмотреть многие устоявшиеся взгляды в HPC. За этой «веткой» развития технологий будет крайне любопытно наблюдать.

Источник