Эль-Капитан: особенности самого мощного суперкомпьютера и его предназначение

Привет! На связи команда mClouds. Недавно узнали, что в рейтинге самых мощных суперкомпьютеров Top500 сменился лидер — первое место занял El Capitan с производительностью 1,742 экзафлопса.

Мы разобрались, что находится внутри самого мощного суперкомпьютера, а также для чего создали такую махину. Заодно порассуждали, что нам стоит ждать от суперкомпьютеров дальше — будет ли это только рост классических вычислений или что-то действительно революционное.

Что внутри El Capitan и чем он лучше предыдущего лидера

Суперкомпьютер El Capitan расположен в США, в Национальной лаборатории Лоуренса в Ливерморе, штате Калифорния. El Capitan разрабатывался в рамках сотрудничества Национального управления по ядерной безопасности США и двух ведущих технологических компаний:

  • Hewlett Packard Enterprise (HPE): предоставили архитектуру нового поколения Cray EX, которая лежит в основе системы.

  • AMD: отвечают за поставку CPU и GPU на базе архитектуры AMD EPYC и AMD Instinct MI300, специально оптимизированных для высокопроизводительных вычислений.

Эль-Капитан: особенности самого мощного суперкомпьютера и его предназначение
El Capitan в процессе сборки. Источник: https://www.techpowerup.com

Вот что есть внутри суперкомпьютера:

  • Системная модель: HPE Cray EX255a. Модель построена на основе модульной архитектуры, что позволяет гибко наращивать вычислительные мощности по мере необходимости.

  • Процессоры: AMD EPYC 4-го поколения с 24 ядрами и тактовой частотой 1,8 ГГц. Эти процессоры поддерживают современные интерфейсы, такие как PCIe 5.0 и CXL, которые ускоряют взаимодействие между памятью и другими компонентами системы, минимизируя задержки.

  • Графические ускорители: AMD Instinct MI300A с 24 вычислительными ядрами на базе архитектуры Zen 4 и 6 XCD с 228 вычислительными блоками. GPU оптимизированы для задач искусственного интеллекта и машинного обучения.

  • Память: 128 ГБ высокоскоростной (до 819 ГБ/с на узел) когерентной памяти HBM3 на модуль, что в сумме дает 5,4 петабайта памяти. Для хранения данных используется подсистема Rabbit с высоким уровнем отказоустойчивости.

  • Сетевой интерфейс: Cray Slingshot 11. Оптимизирован для крайне низкой задержки, что критически важно для эффективного межузлового взаимодействия в HPC-системах.

  • Охлаждение: полностью безвентиляторная система охлаждения с прямым жидкостным охлаждением, эффективно справляющаяся с высоким тепловыделением системы.

Одна из ключевых характеристик El Capitan — энергоэффективность. При невероятной вычислительной мощности он потребляет меньше энергии, чем суперкомпьютеры предыдущего поколения. Мощность системы — 29 580,98 кВт, а энергоэффективность — 58,889 Гфлопс/Вт. Эффективность помогла ему занять 18-е место в списке самых экологичных систем Green500.

Так выглядит системная модель El Capitan. Источник: https://www.tomshardware.com/
Так выглядит системная модель El Capitan. Источник: https://www.tomshardware.com/

Раньше самым мощным суперкомпьютером был Frontier. Чтобы понимать, насколько сильно El Capitan ушел вперед, сравним их основные характеристики:

Характеристика

El Capitan

Frontier

Производительность (Rmax)

1,742 экзафлопса

1,353 экзафлопса

Теоретическая мощность (Rpeak)

2,746 экзафлопса

2,055 экзафлопса

Энергопотребление

29 580,98 кВт

24 607,00 кВт

Процессоры

AMD EPYC 4-го поколения (24 ядра, тактовая частота — 1,8 ГГц)

AMD Optimized EPYC 3-го поколения (64 ядра, тактовая частота — 2,0 ГГц)

Графические ускорители

AMD Instinct MI300A

AMD Instinct MI250X

Системная модель

HPE Cray EX255a

HPE Cray EX235a

Число ядер

11,039,616 ядер

9,066,176 ядер

Память

HBM3 (4-е поколение)

HBM2E (3-е поколение)

Сетевой интерфейс

Cray Slingshot 11

Cray Slingshot 11

Хотя Frontier был пионером в экзафлопсных вычислениях, El Capitan показывает значительный технологический скачок. Более современное железо, новейшая архитектура, улучшенные графические ускорители и память HBM3 делают его не только мощнее, но и эффективнее.

Какие задачи выполняет El Capitan

Главная задача El Capitan — поддержание безопасности ядерного оружейного арсенала.

С 1992 года США отказались от ядерных испытаний и перешли к компьютерным симуляциям. El Capitan берет на себя расчеты, которые раньше требовали физических тестов. Он моделирует поведение ядерных материалов, проверяет стабильность и прогнозирует работу оружейных систем. Это помогает поддерживать надежность вооружения и снизить риски, связанные с его хранением.

Суперкомпьютер будут также использовать в следующих направлениях:

  • Искусственный интеллект. El Capitan обрабатывает нейросетевые алгоритмы быстрее любых других систем благодаря особой архитектуре. Instinct MI300A от AMD специально оптимизированы для высокопроизводительных вычислений, связанных с искусственным интеллектом.

  • Фундаментальная наука. Физика звездных ядер, поведение плазмы в термоядерных реакторах, исследование выдержки материалов в экстремальных условиях — всё это становится доступным в цифровых моделях. Если мощностей вдруг не хватит, то модульная архитектура Cray EX255a как раз нацелена на масштабируемость — систему можно быстро дополнить новыми модулями.

  • Медицинские исследования. Системная память и оптимизация для машинного обучения ускоряют поиск молекулярных структур для новых препаратов. Суперкомпьютер может выявить перспективные комбинации для создания вакцины без проведения тысяч лабораторных тестов. В результате El Capitan повысит эффективность медицинских исследований и сократит сроки вывода на рынок новых препаратов.

El Capitan предназначен для работы с огромными массивами данных, которые необходимо быстро сортировать, анализировать и защищать. В его задачи также входит обработка больших массивов данных, таких как спутниковые снимки или интернет-трафик. Его алгоритмы помогут отслеживать аномалии и бороться с кибератаками.

Будущее суперкомпьютеров: что дальше

El Capitan уже выполняет квинтиллион операций в секунду — это невероятные скорости обработки данных и расчетов. А вот что ждет нас дальше, когда экзафлопсные системы перестанут быть пределом.

Зеттафлопсные системы. Следующий амбициозный шаг — достижение зеттафлопсного (10²¹ операций в секунду) уровня производительности. Задача не из простых: нужно нарастить производительность еще на три порядка, а самые мощные CPU и GPU современности уже подходят к пределам своих возможностей. Сейчас созданию зеттафлопсных систем мешают три проблемы:

  • Энергопотребление и тепловыделение. El Capitan потребляет около 30 мегаватт, но для работы зеттафлопсной системы текущие технологии потребовали бы сотни мегаватт. Это сравнимо с энергопотреблением небольшого города — прямого жидкостного охлаждения будет недостаточно.

  • Увеличение сложности масштабирования. С ростом числа вычислительных узлов растут и проблемы синхронизации между ними. Для зеттафлопсной системы надо не только увеличить число узлов, но и обеспечить их взаимодействие, чтобы минимизировать простои и задержки.

  • Ограничения современных материалов. Создание кремниевых транзисторов меньше 1 нанометра сталкивается с фундаментальными проблемами, такими как квантовые эффекты и тепловые потери. Нужны альтернативные материалы: графен, углеродные нанотрубки или молекулярные полупроводники, которые никак не дойдут до стадии массового производства.

Несмотря на все сложности, компании ищут решения. Перспективное направление — создание узкоспециализированных систем, где зеттафлопсная производительность будет использоваться только для определенных задач, например моделирования климата или геномных исследований. Такой подход позволит сконцентрироваться на оптимизации под конкретные задачи, не пытаясь сделать систему универсальной.

Что касается проблемы энергопотребления и тепловыделения, есть идея размещать дата-центры на околоземной орбите. Так решаются сразу две проблемы. Установка больших солнечных панелей удовлетворит колоссальные потребности в энергии. А радиаторы пассивного охлаждения, расположенные в тени, смогут рассеивать тепло в среду, где температура составляет до −270 ℃.

Квантовые и гибридные вычисления. Полноценных квантовых компьютеров всё еще нет. Их созданию мешают:

  • Неустойчивость кубитов. Они теряют квантовое состояние из-за взаимодействия с внешней средой. Шум, колебание температуры или электромагнитное воздействие приводит к утрате данных и искажению результатов.

  • Мало кубитов. Существующие квантовые системы оперируют десятками, реже сотнями кубитов. А полноценная система потребует миллионы кубитов для достижения практической пользы. Кроме того, ошибки в квантовых вычислениях увеличивают потребность в дополнительных кубитах для коррекции.

  • Высокая стоимость оборудования. Настоящий квантовый компьютер требует особых условий. Криогенные системы охлаждения, материалы для сверхпроводников, шумозащитные камеры — всё это увеличивает стоимость разработки и эксплуатации. Один только квантовый процессор обходится разработчикам в миллионы долларов.

Потенциально достижения, которые мы получим, колоссальны. Например, Google в 2019 году заявил о квантовом превосходстве — 53-кубитный процессор Sycamore решил специфическую задачу за 200 секунд, в то время как оценочное время ее решения на самом мощном современном компьютере должно было составить 10 тысяч лет.

Однако задача оказалась искусственной, а ее практическое значение — почти нулевым. Это подчеркивает, как далека современная квантовая наука от создания универсальных систем.

Мы в mClouds видим, насколько важны вычислительные мощности для решения сложнейших задач — от научных исследований до безопасности. Именно поэтому мы тоже движемся в этом направлении — уже запустили новую быструю платформу GPU-облаков для работы с графикой, видео или задачами искусственного интеллекта.

Как думаете, что нас ждет в будущем: зеттафлопсные системы, квантовые революции или что-то еще? Делитесь вашим мнением в комментариях.

 

Источник

Читайте также