Графические процессоры для дата-центров

28 Авг в 12:00

Серверный узел с восемью GPU-ускорителями AMD Instinct MI325X (2,3 ТБ видеопамяти, 8×750 Вт)

Современные дата-центры уже не такие, как прежде. Раньше на типичный сервер поставили бы 144-ядерный CPU, много RAM и десяток HDD/SSD. Но теперь приоритеты меняются, в первую очередь из-за высокого спроса на машинное обучение (ML) и приложения LLM. Хотя аппетит к памяти только вырос, но процессоры нужны другие.

И крупным корпорациям, и маленьким компаниям нужно железо для обсчёта ИИ-приложений. Это GPU-ускорители, NPU (Neural Processing Unit) и TPU (Tensor Processing Unit), AI-чипы нового поколения. Нужны серверы с GPU. Открываются даже специализированные GPU-облака на растущем спросе.

Такой тренд виден и на потребительском рынке. Всё больше компаний хотят запускать ИИ у себя, поэтому ставят мейнфреймы прямо в офисе, как предки в 70-е годы. Даже на ПК и ноутбуках за последний квартал 14% проданных устройств было оснащено специализированной микросхемой с аппаратным ускорением AI.

Посмотрим, какое конкретно железо ставят на серверы и ПК.

▍ AMD и Nvidia

Например, AMD представила новый GPU-ускоритель для дата-центров Instinct MI325X, который станет доступен для заказа в конце 2024 года:

Сам процессор GPU здесь не отличается от предыдущей модели MI300X, зато память HBM3 заменили на более быструю и плотно упакованную HBM3E, что позволит выпустить ускорители с объёмом памяти до 288 ГБ, а локальная пропускная способность памяти достигает 6 ТБ/с.

Получается, что в типичном сервере на восемь ускорителей Instinct MI325X (как на КДПВ) будет 2,3 ТБ памяти. Этого достаточно для загрузки LLM с триллионом параметров на одном лишь серверном узле. А представьте, какие возможности у большого кластера!

Нужно заметить, что Nvidia тоже недавно обновила свой ускоритель H100 до H200, сделав апгрейд памяти с HBM3 на HBM3E:

Nvidia H200

Вот сравнительная таблица с характеристиками Nvidia для понимания, что сейчас ставят в дата-центрах для решения задач ML.

	H200	H100	A100 (80 ГБ)
Ядра FP32 CUDA	16896?	16896	6912
Тензорные ядра	528?	528	432
Макс. частота	1,83 ГГц?	1,83 ГГц	1,41 ГГц
Частота памяти	~6,5 Гбит/с HBM3E	5,24 Гбит/с HBM3	3,2 Гбит/с HBM2e
Шина памяти	6144-bit	5120-bit	5120-bit
Пропускная способность памяти	4,8 ТБ/с	3,35 ТБ/с	2 ТБ/с
VRAM	141 ГБ	80 ГБ	80 ГБ
Вектор FP64	33,5 TFLOPS?	33,5 TFLOPS	9,7 TFLOPS
Тензор INT8	1979 TOPS?	1979 TOPS	624 TOPS
Тензор FP16	989 TFLOPS?	989 TFLOPS	312 TFLOPS
Тензор FP64	66,9 TFLOPS?	66,9 TFLOPS	19,5 TFLOPS
Межсоединения	NVLink 4 18 линий (900 ГБ/с)	NVLink 4 18 линий (900 ГБ/с)	NVLink 3 12 линий (600 ГБ/с)
GPU	GH100 (814 мм²)	GH100 (814 мм²)	GA100 (826 мм²)
Количество транзисторов	80 млрд	80 млрд	54,2 млрд
TDP	700 Вт	700 Вт	400 Вт
Техпроцесс	TSMC 4N	TSMC 4N	TSMC 7N
Интерфейс	SXM5	SXM5	SXM4
Архитектура	Hopper	Hopper	Ampere

В марте Nvidia анонсировала архитектуру Blackwell для ускорителей нового поколения B200/B100, которые придут на смену популярным сейчас H100/H200/GH200. Производительность B200 (два GPU в одном чиплете, 2×104 млрд транзисторов, 1000 Вт) будет в два с лишним раза выше, чем у H100, не говоря уже о самых слабых ускорителях A100. Например, в тензорах FP16 производительность этих трёх моделей составляет 2250, 990 и 312 TFLOPS для B200, H100 и A100, соответственно.

Nvidia Blackwell: два GPU в одном чиплете

Ну а флагманским продуктом Nvidia станет ускоритель Grace Blackwell Superchip (GB200), составленный из двух Blackwell GPU и 72-ядерного Grace CPU, он будет вдвое производительнее B200, а TDP вырастет до 2700 Вт.

Три основных производителя памяти уже поставляют (или анонсировали) стеки памяти HBM3E объёмом 36 ГБ, что на 50% больше, чем нынешние топовые стеки HBM3 на 24 ГБ. За счёт этого AMD и смогла увеличить максимальный объём памяти со 192 до 288 ГБ на одном ускорителе.

Нужно сказать, что память HBM3 сейчас в дефиците. Например, Micron продала весь выпуск до конца 2024 года (и большую часть 2025 г.).

Кроме более высокой плотности, HBM3E обеспечивает более высокую тактовую частоту памяти. Micron и SK hynix рассчитывают в конечном итоге продавать стеки с пропускной способностью 9,2 Гбит/с на контакт, а Samsung хочет выйти на 9,8 Гбит/с на контакт, что более чем на 50% превышает скорость передачи данных 6,4 Гбит/с в обычной HBM3. Однако пока неясно, когда мы увидим память на таких скоростях.

AMD пообещала каждый год выпускать новый GPU-ускоритель для дата-центров:

В ближайшие годы AMD запустит две новые архитектуры CDNA и соответствующие продукты Instinct в 2025 и 2026 гг. Серия MI350 на базе CDNA 4 выйдет в 2025 году, а за ней в 2026 году последует ещё более амбициозная серия MI400, основанная на архитектуре CDNA ‘Next’.

Сравнительные характеристики ускорителей от AMD:

	MI325X	MI300X	MI250X	MI100
Вычислительные юниты	304	304	2×110	120
Матричные (тензорные) ядра	1216	1216	2×440	480
Потоковые процессоры	19456	19456	2×7040	7680
Макс. частота	2100 МГц	2100 МГц	1700 МГц	1502 МГц
Вектор FP64	81,7 TFLOPS	81,7 TFLOPS	47,9 TFLOPS	11,5 TFLOPS
Вектор FP32	163,4 TFLOPS	163,4 TFLOPS	47,9 TFLOPS	23,1 TFLOPS
Матрица FP64	163,4 TFLOPS	163,4 TFLOPS	95,7 TFLOPS	11,5 TFLOPS
Матрица FP32	163,4 TFLOPS	163,4 TFLOPS	95,7 TFLOPS	46,1 TFLOPS
Матрица FP16	1307,4 TFLOPS	1307,4 TFLOPS	383 TFLOPS	184,6 TFLOPS
Матрица INT8	2614,9 TOPS	2614,9 TOPS	383 TOPS	184,6 TOPS
Частота памяти	~5,9 Гбит/с HBM3E	5,2 Гбит/с HBM3	3,2 Гбит/с HBM2E	2,4 Гбит/с HBM2
Шина памяти	8192-bit	8192-bit	8192-bit	4096-bit
Пропускная способность памяти	6 ТБ/с	5,3 ТБ/с	3,2 ТБ/с	1,23 ТБ/с
VRAM	288 ГБ (8×36 ГБ)	192 ГБ (8×24 ГБ)	128 ГБ (2×4×16 ГБ)	32 ГБ (4×8 ГБ)
ECC	Да (Full)	Да (Full)	Да (Full)	Да (Full)
Каналы Infinity Fabric	7 (896 ГБ/c)	7 (896 ГБ/c)	8	3
TDP	750 Вт	750 Вт	560 Вт	300 Вт
GPU	8x CDNA 3 XCD	8x CDNA 3 XCD	2x CDNA 2 GCD	CDNA 1
Количество транзисторов	153 млрд	153 млрд	2×29,1 млрд	25,6 млрд
Техпроцесс	XCD: TSMC N5 IOD: TSMC N6	XCD: TSMC N5 IOD: TSMC N6	TSMC N6	TSMC 7 нм
Архитектура	CDNA 3	CDNA 3	CDNA 2	CDNA (1)
Форм-фактор	OAM	OAM	OAM	PCIe
Дата выпуска	IV кв. 2024	12/2023	11/2021	11/2020

К сожалению, AMD по-прежнему не собирается выпускать версии PCIe новых ускорителей, только OAM для серверных материнских плат.

▍ Google, Amazon и др.

Google, Amazon и некоторые другие корпорации разрабатывают специализированные TPU для собственных дата-центров. Например, Google занимается этим более десяти лет.

TPU — это интегральная схема специального назначения (ASIC), созданная для одной конкретной цели: выполнения уникальной матричной и векторной математики для построения и работы моделей ИИ.

Первый такой чип TPU v1 вышел в 2015 году и сразу стал хитом в разных подразделениях Google.

Инженеры предполагали, что сделают не более 10 000 таких чипов, но в итоге создали более 100 000 для поддержки различных проектов Google, включая рекламу, поиск, речевые проекты, AlphaGo и даже некоторые беспилотные автомобили.

За прошедшее с тех пор десятилетие TPU сменили несколько поколений, повысив производительность и эффективность, и теперь служат основой для ИИ почти во всех продуктах Google.

Сейчас в строю уже шестое поколение TPU под названием Trillium:

Кроме перечисленных компаний, серверные AI-процессоры собирается выпустить MediaTek по техпроцессу TSMC 3 нм. Они также разрабатывают AI-чипы для ПК в сотрудничестве с Nvidia (для конкуренции с линейкой ARM-процессоров Snapdragon X Elite.

MediaTek ориентируется скорее на средний и нижний сегменты AI-серверов (в отличие от Nvidia и AMD). Это очень перспективная ниша, в которой действуют ещё ряд стартапов.

▍ Микросхемы AI для ПК

Что касается AI-чипсетов для настольных компьютеров и ноутбуков, то здесь доминирует компания Apple c чипами M-серии (M3, M4), которые оснащены ускорителем Neural Engine. Она и внесла львиную долю в упомянутые 14% проданных компьютеров с аппаратным ускорением AI во II кв. 2024 года.

Весной также были представлены новые ARM-ноутбуки Copilot+ с процессорами Qualcomm Snapdragon X (аппаратное ускорение AI).

На платформе x86 компания Intel выпустила чипсеты Core Ultra (и плагины OpenVINO для использования нейросетей с аппаратным ускорением в GIMP и других программах), а компания AMD в июле — линейку процессоров Ryzen AI 300 для ноутбуков.

Ryzen AI 300

Ryzen AI 300 — первые процессоры с ядрами Zen 5. У них мощный интегрированный GPU, а также ядро Radeon с поддержкой RDNA 3.5 и до 16-ти вычислительных блоков в зависимости от модели.

На выбор предлагается две модели: Ryzen AI 9 HX 370 и Ryzen AI 9 365, которые отличаются количеством ядер, тактовой частотой и возможностями интегрированного GPU. В обеих моделях установлен одинаковый NPU под названием Strix Point. По слухам, в будущем будет выпущено ещё несколько моделей:

Вероятно, Intel включит модуль NPU во все десктопные процессоры следующего поколения Arrow Lake. Говорят, что наступает «эра AI PC», хотя простые пользователи этому не очень рады, но в будущем ПК будет неполноценным без аппаратного ускорителя нейросетей.

Сейчас даже большие модели с 70 млрд параметров можно обучать на домашнем ПК с двумя стандартными GPU (3090 или 4090 по 24 ГБ каждая).

▍ Выводы

Таким образом, ИИ сейчас стал приоритетом номер один для производителей микросхем, в том числе Intel и AMD. Это справедливо и для рынка серверов, и для ноутбуков, и настольных ПК. Для рынка это просто манна небесная: все видят, что акции Nvidia выросли в десять раз за два года на волне популярности ИИ-вычислений. И все хотят присоединиться к пиршеству. Мировая индустрия микроэлектроники словно получила второе дыхание и снова стала развиваться семимильными шагами, что не может не радовать.

Примечание. Экспорт высокопроизводительных ускорителей запрещён в санкционные страны.