Производительность чипов растёт экспоненциально по закону Мура и не думает останавливаться. Но вместе с ней растёт и энергопотребление, и тепловыделение микросхем. В 2023 году с появлением суперчипов GH200 (на КДПВ) ускорители перешли киловаттный диапазон. И это очень большая проблема. Инженерам приходится принимать неординарные решения по теплоотводу.
Для подтверждения примерно геометрического роста вычислительной мощности и энергопотребления чипов посмотрим на показатели некоторых CPU за последние пару десятилетий (ограничимся процессорами Intel). Если помните, до некоторых пор процессоры вообще работали без вентиляторов:
Процессор | Год выпуска | Тактовая частота, макс. | TDP, макс. |
---|---|---|---|
80386DX | 1985 | 33 МГц | 1,95 Вт |
80486DX | 1989 | 50 МГц | 5 Вт |
Pentium 66 | 1993 | 66 МГц | 16 Вт |
Pentium II | 1997 | 300 МГц | 43 Вт |
Pentium III | 1999 | 600 МГц | 34,5 Вт |
Celeron | 2000 | 2,5 ГГц | 35 Вт |
Pentium 4 | 2000 | 2 ГГц | 100 Вт |
Core 2 | 2007 | 2,2 ГГц | 65 Вт |
Core i7 EE | 2008 | 3,2 ГГц | 130 Вт |
Core i7-3970X | 2011 | 3,5 ГГц | 150 Вт |
Core i7-5960X | 2014 | 3,5 ГГц | 140 Вт |
Core i7-8086K | 2018 | 5 ГГц | 95 Вт |
Core Ultra 9 | 2023 | 5,1 ГГц | до 115 Вт |
Pentium III
С какого-то момента пальма первенства в росте вычислительной мощности и энергопотребления перешла скорее к GPU. По крайней мере, здесь эти показатели растут более явно в геометрической прогрессии, в то время как у CPU в последние годы тенденция не прослеживается настолько же чётко (опять, ограничимся только картами Nvidia GeForce для наблюдения общего тренда):
Видеокарта | Год выпуска | Производительность, TFLOPS | TDP, макс. |
---|---|---|---|
8500 GT | 2007 | 0,04 TFLOPS | 45 Вт |
8800 Ultra | 2007 | 0,58 TFLOPS | 171 Вт |
9800 GX2 | 2008 | 1,15 TFLOPS | 197 Вт |
GTX 295 | 2009 | 1,8 TFLOPS | 289 Вт |
GTX 590 | 2011 | 2,5 TFLOPS | 365 Вт |
GTX 690 | 2012 | 6,3 TFLOPS | 300 Вт |
GTX 1080Ti | 2017 | 11,3 TFLOPS | 250 Вт |
RTX 3070 | 2020 | 20,3 TFLOPS | 220 Вт |
RTX 3080 | 2020 | 29,8 TFLOPS | 320 Вт |
RTX 3090 | 2020 | 35,6 TFLOPS | 350 Вт |
RTX 4080 | 2022 | 48,8 TFLOPS | 320 Вт |
RTX 4090 | 2022 | 82,6 TFLOPS | 450 Вт |
Можно добавить к этой таблице несколько видеоускорителей, предназначенных конкретно для вычислений в области ИИ:
Ускоритель | Дата выпуска | Производительность (fp32) | TDP |
---|---|---|---|
P100 | 2016 | 10,61 TFLOPS | 300 Вт |
V100 | 2018 | 14,9 TFLOPS | 300 Вт |
A100 | 2020 | 19,5 TFLOPS | 250 Вт |
A10 | 2021 | 31,24 TFLOPS | 150 Вт |
H100 | 2022 | 66,9 TFLOPS | 700 Вт |
H200 | 2024 | 67 TFLOPS | 700 Вт |
Конечно, «закон Мура» более чётко виден в росте производительности, в то время как показатели энергопотребления иногда снижаются от старой к новой модели, за счёт уменьшения размера транзисторов и соответствующей оптимизации. Но так или иначе, есть некоторая тенденция к росту, особенно с последними моделями ускорителей H100 и H200.
Если посмотреть на большинство современных сверхмощных систем, то многие из них тоже преодолели барьер 500 Вт, а некоторые и 1000 Вт, как MGX ARS-111GL-NHR от Supermicro, пишет The Register.
Supermicro MGX ARS-111GL-NHR
Все они, в основном, имеют воздушное охлаждение. Хотя чипы сильно разогреваются, но тепловая нагрузка вполне приемлема и составляет около 21−24 кВт на стойку. Это вполне соответствует возможностям современных центров обработки данных.
▍ Жидкостное охлаждение
Однако ситуация меняется, когда производители систем начинают устанавливать в каждое шасси ускорители с тепловыделением более киловатта. В этот момент большинство OEM-систем переходят на прямое жидкостное охлаждение. Например, в сервере Gigabyte H263-V11 устанавливается до четырёх узлов Nvidia GH200 Grace Hopper в одном корпусе 2U.
Gigabyte H263-V11
Сервер Gigabyte H263-V11 поддерживает до 480 ГБ памяти LPDDR5X ECC на модуль, а также до 96 ГБ графической памяти HBM3 (или 144 ГБ GPU HBM3e) на модуль, совместим с Nvidia BlueField-3 DPU, имеет восемь портов LAN 10Gb/s на Intel X550-AT2, порт CMC, 16 разъёмов горячей замены накопителей 2,5″ Gen5 NVMe, восемь слотов M.2 с интерфейсом PCIe Gen5 x4, четыре разъёма FHHL PCIe Gen5 x16, а также оснащён блоком питания Triple 3000W 80 PLUS.
Система вроде DGX H100 с воздушным охлаждением от Nvidia с восемью 700-ваттными H100 и двумя процессорами Sapphire Rapids имеет более высокий TDP (10,2 кВт), но на самом деле она менее энергоёмкая — всего 1,2 кВт на единицу.
Nvidia DGX H100 (на фото) — мощная система искусственного интеллекта, ускоренная высокопроизводительным графическим процессором Nvidia H100 с тензорными ядрами. Это четвёртое поколение первой в мире специализированной инфраструктуры ИИ, полностью оптимизированная аппаратная и программная платформа, включающая поддержку программных решений Nvidia для искусственного интеллекта. DGX H200 — следующее поколение этой системы, которое недавно появилось на рынке.
Новейший чип H200 хотя и показывает такую же производительность в вычисления fp32, но компания заявляет значительный рост производительности в специализированных приложениях, таких как вывод моделей Llama2 70B (1,9 раза) и GPT-3 175B (1,6 раза):
У жидкостного охлаждения есть несколько преимуществ, помимо более эффективного отвода тепла от этих плотно упакованных ускорителей. Чем выше мощность системы, тем больше статическое давление и поток воздуха, необходимые для отвода тепла от системы. Это означает использование более горячих и быстрых вентиляторов, которые потребляют больше энергии — в некоторых случаях до 20% мощности системы.
При мощности свыше 500 Вт на стойку большинство OEM-производителей предпочитают использовать шасси с жидкостным охлаждением.
Достаточно взглянуть на блейды Cray EX254n от HPE, чтобы понять, как много даёт шасси с жидкостным охлаждением:
Cray EX254n для ускорения задач ИИ поставляется вместе с ускорителями Nvidia NextGen 96GB GPU 128GB LPDDR. Платформа может поддерживать до четырёх GH200. Это потенциально 4 кВт мощности в вычислительном блоке высотой 1U, даже не считая сетевых карт.
Конечно, сотрудники подразделения Cray компании HPE знают толк в охлаждении сверхплотных вычислительных компонентов. Однако это наглядно демонстрирует, насколько продуманно производители систем подходят к созданию своих серверов, причём не только на уровне систем, но и на уровне стоек.
Если попытаться заполнить стойку ускорителями вроде Nvidia DGX H100 в блейдах, нужно учитывать мощность стойки и охлаждение объекта, пишет The Next Platform.
Во многих случаях хостерам и операторам дата-центров приходится перестраивать инфраструктуру электропитания и охлаждения, чтобы обеспечить 40 с лишним киловатт мощности и теплоотвода, необходимых для установки четырёх систем DGX H100 в одну стойку.
Но если ЦОД или хостер не может справиться с тепловыделением, то нет смысла пытаться сделать системы большой вычислительной плотности, потому что большая часть стойки будет пустовать.
С выпуском GH200 эксперты обращают внимание, что Nvidia уделяет меньше внимания отдельным системам и больше — развёртыванию в масштабах стойки. Впервые это можно было заметить на выставке Computex весной 2023 года с кластером DGX GH200. Эта система состоит из 256 узлов высотой 2U, в каждом из которых установлен один ускоритель GH200:
В совокупности система способна выдавать эксафлопс производительности fp8. Вместо 1,2 кВт на единицу мощности теперь можно рассчитывать на 500 Вт на единицу, что как раз соответствует уровню большинства OEM-производителей, использующих собственные системы воздушного охлаждения.
Осенью прошлого года Nvidia представила уменьшенную версию этой системы в одной стойке: GH200-NVL32:
Эта система объединяет в одной стойке 16 модулей 1U, каждый из которых оснащён двумя узлами GH200, и соединяет их вместе с помощью девяти коммутационных разъёмов NVLink. Нет необходимости говорить о том, что при мощности вычислений 2 кВт на юнит это очень горячие системы. Поэтому они изначально спроектированы с жидкостным охлаждением.
▍ Ещё более горячие чипы
Nvidia — не единственный производитель микросхем, который бьёт рекорды по TDP в погоне за производительностью и эффективностью.
В декабре AMD рассказала о своих новейших GPU и APU для ИИ и высокопроизводительных вычислений, в которых показатель TDP ускорителей Instinct подскочил с 560 Вт до 760 Вт. Это ещё не киловатт, как у GH200, но всё равно значительное увеличение.
Судя по всему, это далеко не предел технического прогресса, и в будущем мы будем наблюдать дальнейший рост мощности ускорителей, а также тепловыделения. Пока охлаждение справляется с теплоотводом, производители чувствуют возможность увеличивать TDP.
Возможно, через несколько лет жидкостное охлаждение станет стандартом для топовых графических ускорителей. Например, AMD собирается изначально поддерживать как воздушное, так и жидкостное охлаждение на своих платформах. Но на примере нового APU AMD MI300A мы видим, что выбор в пользу воздушного охлаждения почти наверняка приведёт к снижению производительности.
Номинальная мощность MI300A составляет 550 Вт, но при адекватном охлаждении он может разгоняться ещё больше. Так, в специализированных системах для высокопроизводительных вычислений чип можно настроить на работу при 760 Вт.
Тем временем, Intel уже изучает новые методы охлаждения 2-киловаттных чипов с помощью двухфазных охлаждающих жидкостей и радиаторов. Технология копирует природный метод, как кораллы образуют пузырьки в морской воде:
В резервуаре с синтетическим неэлектропроводящим маслом находятся 24 сервера на базе Intel Xeon, см. фото выделения пузырьков
Компания Intel также объявила о партнёрстве с поставщиками инфраструктуры и химикатов для расширения использования технологий жидкостного охлаждения. Последние действия направлены на разработку решения для охлаждения предстоящего ускорителя Intel Guadi3 AI с использованием технологии двухфазного охлаждения Vertiv.
В то же время появляются и принципиально новые методы охлаждения микросхем, как термоэлектрическое охлаждение на основе эффекта Пельтье:
Исходя из технического описания, оно пока не способно снимать много ватт с поверхности чипов, но всё равно это довольно перспективная технология пассивного охлаждения.
Судя по нынешним темпам развития технологий, теплоотвод с микросхем станет в будущем одной из самых важных технологических задач и для производителей чипов (они должны минимизировать тепловыделение), и для поставщиков хостинг-услуг и операторов дата-центров.
Telegram-канал со скидками, розыгрышами призов и новостями IT 💻