Краткая справка об этом суперкомпьютере звучит так: «Занимает 3-е место в списке Top50 самых мощных российских суперкомпьютеров, 2-е место среди отечественных систем в мировом рейтинге HPCG, 131-е место в списке самых мощных вычислительных систем мира Top500 и входит в мировой рейтинг самых энергоэффективных суперкомпьютеров Green500 с лучшим в этом списке показателем среди всех российских систем». Однако за этими сухими, пусть и впечатляющими, цифрами скрываются несколько лет напряжённой работы десятков людей. В этом материале мы попробуем кратко – поверьте, это действительно кратко – рассказать о том, как создавалась эта машина, из каких компонентов она состоит, что поддерживает её работу и для чего она нужна. Устраивайтесь поудобнее!
⇡#История проекта
Идея создания суперкомпьютерного центра (СКЦ) в Санкт-Петербургском политехническом университете Петра Великого (СПбПУ) появилась ещё в 2009 году, и пара лет ушла на то, чтобы она окончательно оформилась. Заинтересованность в собственном СКЦ была не только у самого университета, но и у всего научного сообщества России, у крупных промышленных предприятий, у производителей оборудования. Впоследствии идея нашла поддержку у правительства Санкт-Петербурга. К 2012 году она окончательно оформилась и была хорошо принята в профильных министерствах. В мае 2012 года состоялась успешная защита проекта в Минэкономразвития, по итогам которой было принято решение о его реализации – проект попал в Федеральную адресную инвестиционную программу России. В ноябре 2012 года он был включён в федеральную целевую программу «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России». Параллельно велись консультации с крупными игроками суперкомпьютерного рынка (IBM, Intel, HP, SuperMicro, «Т-Платформы», РСК) и другими научными заведениями, которые уже обзавелись своими СКЦ.
Весь 2013 год ушёл на разработку технического задания и детальное проектирование будущего СКЦ, причём проект создавался с заделом на будущее – в него закладывались те решения, которые ещё не были доступны на рынке. В 2014-2015 годах шло строительство и пусконаладочные работы. К сожалению, время для него оказалось, наверное, не самым удачным из-за скачков курса валют. Итоговая стоимость проекта составила около 1 млрд 370 млн рублей. Как и почти все суперкомпьютеры в мире, данный проект без значительных дотаций государства или крупных корпораций был бы невозможен. А вот деньги на обслуживание СКЦ университет планирует зарабатывать самостоятельно. К концу 2016 года государством будут утверждены правила использования СКЦ сторонними организациями, так что они смогут арендовать вычислительные мощности. Для учёных они будут предоставляться бесплатно. Сам же СКЦ будет использован для решения научных и производственных задач, создания коммерческого ПО и, конечно, для обучения студентов и подготовки специалистов.
⇡#Суперкомпьютер и СХД
Суперкомпьютер состоит из нескольких частей: «классического» кластера на базе систем «РСК Торнадо », массивно-параллельной системы РСК PetaStream, NUMA-системы, облачного сегмента, системы визуализации и системы хранения данных (СХД). Все они объединены с помощью интерконнекта InfiniBand FDR. Собственно говоря, такая структура — разнородная, а потому универсальная, пригодная для решения различных типов задач, — и задумывалась изначально. Вычислительная часть компактно размещается всего в нескольких шкафах. За счёт использования жидкостного охлаждения удалось достичь столь высокой плотности размещения узлов. Основной кластер на базе « РСК Торнадо » состоит из 668 узлов с суммарной пиковой производительностью 938 Тфлопс + 44 узла облачной системы. Все узлы оснащены двумя процессорами Intel Xeon E5-2697v3 (14 ядер/28 потоков, базовая частота 2,6 ГГц, Turbo-частота 3,6 ГГц, кеш 35 Мбайт, ТП 22 нм, TDP 145 ватт), 64 Гбайт RAM, SSD Intel DC S3500. Это первый в СНГ суперкомпьютер на базе таких CPU. Часть узлов оснащена ускорителями NVIDIA K40 (12 Гбайт, 2880 CUDA-ядер). Узлы облачной части отличаются увеличенным до 128 Гбайт объёмом RAM. Кроме того, большая часть из них оснащена ускорителями NVIDIA GRID K1/K2 (8/16 Гбайт RAM, 768/3072 CUDA-ядра). К тому же, у неё есть собственная СХД ёмкостью 584 Тбайт. Облачная часть может использоваться как для работы обычных приложений, так и для предоставления инфраструктуры виртуальных рабочих мест (VDI) и графических сервисов.
Непосредственно с ней связана и уникальная система визуализации, позволяющая сразу же после проведения расчётов наглядно представить результаты работы. С её помощью можно организовать комфортную удалённую работу с вычислительными ресурсами или организовать систему телеприсутствия. Все узлы «РСК Торнадо» размещаются на площади 3,84 м2 в шкафах высотой 2 м (всего 6 шкафов). Каждый шкаф потребляет до 100 кВт энергии и питается от сети постоянного тока 400 В. Система жидкостного охлаждения (СЖО), разработанная в РСК, позволяет отводить от такого шкафа до 100 кВт тепла.
Кластер РСК PetaStream располагается в аналогичных шкафах (здесь он всего один). Правда, потребляемая мощность и отвод тепла здесь выше – до 400 кВт на шкаф. Сама же система состоит из 288 узлов, в каждом из которых установлен один ускоритель Intel Xeon Phi 5120D (60 ядер/240 потоков, частота 1,053 ГГц, 30 Мбайт L2-кеш, ТП 22 нм, TDP 245 ватт) и 8 Гбайт RAM. Помимо этих двух систем в составе суперкомпьютера есть ещё один маленький шкафчик с четырьмя узлами PetaStream, который, по большому счёту, автономен. Изначально он задумывался как прототип для обкатки новых Xeon Phi, но фактически он используется наравне с остальными узлами в качестве тестовой площадки.
Итоговая эффективность кластера «РСК Торнадо» составляет 2,1 Гфлопс/Вт, а у PetaStream – 2,4 Гфлопс/Вт. Наконец, последний вычислительный элемент суперкомпьютера – это NUMA-система. Она состоит из 64 узлов, в каждом из которых установлено три процессора AMD Opteron 6380 (16 ядер, базовая частота 2,5 ГГц, Turbo-частота 2,8/3,4 ГГц, 16 Мбайт L2/L3-кеш, ТП 32 нм, TDP 115 Вт) и 192 Гбайт RAM. Все вычислительные системы соединены с СХД Seagate ClusterStor 6000. Данная СХД предназначена специально для работы в средах высокопроизводительных вычислений. Суммарная ёмкость хранилища составляет 1,1 Пбайт. Построено оно на базе SAS-дисков и SSD, которые могут быть объединены в массивы RAID 1 или 10. В СХД используется ФС Lustre – распределённая файловая система массового параллелизма. Кроме того, всё хранилище в целом имеет иерархическую структуру – «горячие» данные находятся в быстрой СХД, рядом находится «обычное» хранилище ёмкостью 2,5 Пбайт и СХД для облачного кластера (на базе ФС CepHS), а «холодные» бэкапы и редко используемая информация перемещается на ленточные накопители.
Помимо основной сети InfiniBand FDR (56 Гбит/с) для обмена данными каждый узел суперкомпьютера оснащён двумя гигабитными подключениями к сервисной и управляющей сетям. В самих узлах находится отдельный аппаратный модуль мониторинга и управления, который следит за загрузкой узла, его энергопотреблением и эффективностью охлаждения. За счёт этого можно гибко работать с политиками управления питанием, что в конечном итоге позволяет экономить электроэнергию и оптимизировать работу суперкомпьютера в целом. Все сетевые подключения от узлов и СХД «стекаются» в коммутационные стойки, расположенные в шкафах за основным корпусом суперкомпьютера.
Все основные коммуникации располагаются под фальшполом – там проходят коммуникационные и силовые кабели, а также трубы замкнутой СЖО. В первом контуре охлаждения используется дистиллированная вода с ингибиторами коррозии, а также дополнительные фильтры. Именно она омывает изнутри все узлы. Они, в свою очередь, имеют быстроразъёмные коннекторы, которые легко отсоединить для последующего обслуживания узла. Второй контур СЖО использует гликоль, что позволяет всей системе в целом эффективно работать при температуре воздуха на улице от -32 до +35 °C. Для СХД и NUMA-системы в отличие от основного суперкомпьютера используется воздушное охлаждение, но оно в конечном итоге подсоединено к основной СЖО.
Следующая страница →