GPU для инференса: честное сравнение H100, A100 и V100

GPU для инференса: честное сравнение H100, A100 и V100

Здравствуйте! Я Андрей Пелешок, инженер третьего уровня команды PaaS в компании Cloud.ru. Я отвечаю за бесперебойную работу платформенных сервисов и поддержку инфраструктуры.

Наверняка вы задавались вопросом: какую видеокарту выбрать для инференса, чтобы сохранить баланс между производительностью, стоимостью и доступностью? Большинство обзоров посвящено обучению моделей, тогда как при инференсе требования часто другие.

В этой статье мы разберём основные различия между этапами обучения и инференса, обозначим ключевые критерии подбора GPU и сравним решения NVIDIA H100, A100 и V100. В завершение предложу методики выбора на основе двух практических кейсов.

План статьи

  1. Основные параметры для GPU при обучении
  2. Требования к видеокартам при инференсе
  3. Список протестированных видеокарт
  4. Использованные бенчмарки
  5. Кейс 1: выбор GPU для AI-ассистента поддержки
  6. Кейс 2: конфигурация для анализа больших текстов
  7. Выводы

Основные параметры для GPU при обучении

Объём видеопамяти (VRAM)

Чем больше модель и размер батча, тем больше памяти требуется. При недостатке VRAM приходится уменьшать батч или упрощать архитектуру, что снижает скорость и качество обучения. Поэтому для крупных моделей часто выбирают NVIDIA A100 (40 или 80 ГБ). К примеру, модель на 65 млрд параметров практически невозможно обучить без 80 ГБ VRAM.

Вычислительная мощность (FLOPS и Tensor Cores)

Обучение сводится к массовым матричным умножениям. Тензорные ядра NVIDIA ускоряют расчёты в FP16 и BF16, а H100 добавляет поддержку FP8 для ещё большей скорости. Несмотря на высокую почасовую ставку, быстрое завершение обучения часто окупает вложения за счёт экономии времени аренды.

Масштабирование на несколько GPU

Для сложных проектов одного GPU может быть недостаточно. A100 и H100 поддерживают высокоскоростные соединения NVLink/Infiniband для объединения ресурсов нескольких карт в кластер.

Precision support

Форматы с пониженной точностью (FP16, BF16, FP8) экономят VRAM и ускоряют расчёты. Убедитесь, что GPU поддерживает те режимы, которые использует ваш фреймворк.

Требования к видеокартам при инференсе

После обучения модели приоритеты смещаются: главные показатели — латентность и пропускная способность.

Латентность (Latency)

Для веб-сервисов важна минимальная задержка ответа. Карты NVIDIA T4 и L4 оптимизированы под низкие задержки и оперативную загрузку модели в память.

Размер батчей (Batch size)

Если запросы можно накапливать и обрабатывать пачками — подойдет мощный A100/H100. Для одиночных запросов такие карты будут недозагружены и экономичнее выбрать более лёгкое решение.

Объём VRAM

Модель должна полностью помещаться в память GPU. Крупные сети на 20 млрд параметров требуют 80 ГБ VRAM, но квантование может снизить потребность до 4 бит и запустить сеть на картах с 8 ГБ.

Пропускная способность (Throughput)

При тысячах запросов в секунду важна максимальная производительность системы. Часто карты уровня L4 или игровая RTX 4090 выигрывают по соотношению «цена/скорость» для инференса.

Список протестированных видеокарт

Ниже приведены спецификации GPU, участвовавших в тестах.

Показатель NVIDIA V100 32GB SXM NVIDIA A100 80GB SXM NVIDIA H100 80GB SXM
Память 32 ГБ HBM2 80 ГБ HBM2e 80 ГБ HBM3
Пропускная способность памяти 1134 ГБ/с 2039 ГБ/с 3,35 ТБ/с
Пиковая мощность FP64 7.8 TFLOPS;
FP32 15.7 TFLOPS;
FP16 125 TFLOPS
FP64 9.7 TFLOPS;
FP32 19.5 TFLOPS;
TF32 156/312 TFLOPS*;
BF16 312/624 TFLOPS*
FP64 34 TFLOPS;
FP32 67 TFLOPS;
TF32 495/989 TFLOPS*;
BF16 990/1979 TFLOPS*;
FP8 1979/3958 TFLOPS*
Интерконнект NVLink 300 ГБ/с;
PCIe Gen3 32 ГБ/с
NVLink 600 ГБ/с (HGX) NVLink 900 ГБ/с;
PCIe Gen5 128 ГБ/с
Архитектура Volta (GV100) Ampere (GA100) Hopper (GH100)
SM/ядра CUDA 80 / 5120 108 / 6912 132 / 16896
Tensor Cores 640 432 528
L2-кэш 6 МБ 40 МБ 50 МБ
Техпроцесс 12 nm FFN 7 nm 4N
Транзисторы 21.1 млрд 54.2 млрд ≈80 млрд

* значения с учётом sparsity; без sparsity — вдвое ниже.

Использованные бенчмарки

Для замеров применялась утилита inference-benchmarker от Hugging Face. Ключевые возможности:

  • Профили: чат, генерация кода, классификация, fixed-length-запросы.
  • Режимы нагрузки: автоматический sweep, rate, throughput.
  • Настройка промптов и декодирования: число токенов, разброс, собственные датасеты.

Каждая карта тестировалась в двух сценариях для оценки производительности под разными нагрузками.

Кейс 1: выбор GPU для AI-ассистента поддержки

Цель: внедрить AI-ассистента для автоматической обработки запросов клиентов интернет-магазина на базе Qwen3-8B. Система должна обслуживать до 30 одновременных чатов с интервалом 20–60 секунд и длиной диалога 5–10 сообщений, закрывая до 70 % типовых вопросов.

inference-benchmarker \
  --tokenizer-name Qwen/Qwen3-8B \
  --model-name model-run-cxk9b-just \
  --api-key $API_KEY \
  --url https://29534ffe-c91a-420f-8e54-944a9637bb15.modelrun.inference.cloud.ru/v1 \
  --profile chat
Параметр V100 A100 H100
VRAM (ГБ) 32 30 32
Request Latency (с) 30 15 10
Latency до первого токена (мс) 500 50 15
RPS (запр./с) 1.1 2.85 4.4
Throughput генерации (токен/с) 810 1950 3200
Throughput промпта (токен/с) 150 400 750
Цена GPU (₽/ч) 240.27 130.77 336.27
Эффективность (RPS/₽) 0.0046 0.0218 0.0131

A100 покрывает все требования и обеспечивает запас производительности.

Замеры V100
Замеры A100
Замеры H100

При пике в 1.5 RPS A100 выдаёт 2.85 RPS, что гарантирует плавную работу без очередей. V100 не справляется, а H100 избыточен по стоимости.

Кейс 2: конфигурация для анализа больших текстовых потоков

Задача: ежедневный анализ новостных потоков и пресс-релизов (3 000–6 000 токенов), вывод — краткий отчёт на 80 токенов. Модель — Qwen3-30B-A3B.

inference-benchmarker \
  --tokenizer-name "Qwen/Qwen3-30B-A3B" \
  --url https://089ad6d3-2d17-44f8-9838-879a6fb29530.modelrun.inference.cloud.ru/v1 \
  --api-key $API_KEY \
  --model-name model-run-1keln-ship \
  --benchmark-kind sweep \
  --prompt-options "num_tokens=4096,min_tokens=3000,max_tokens=6000,variance=1000" \
  --decode-options "num_tokens=50,min_tokens=30,max_tokens=80,variance=10"
Параметр A100 H100
VRAM (ГБ) 80 80
Request Latency (с) 30–50 20
Latency до первого токена (с) 20–40 20
RPS (запр./с) 5 7.4
Throughput генерации (токен/с) 140 375
Throughput промпта (токен/с) 11900 31000
Цена GPU (₽/ч) 348.97 840.97
Эффективность (RPS/₽) 0.0143 0.0088

H100 быстрее в ~2.7 раза, но A100 на 62 % эффективнее по цене за RPS. При нагрузке до 5 RPS выгоднее A100, а для больших пиков лучше масштабировать несколько A100.

Замеры H100
Замеры A100

Для нерегулярной нагрузки оптимален serverless-режим с автоостановкой в часы простоя — это снижает затраты в разы.

Serverless режим

A100 — оптимальный старт для 80 % случаев: надёжен, экономичен и подходит под требования. H100 стоит рассматривать при резком росте нагрузки или потребности в максимальной скорости.

Выводы

При выборе GPU для инференса не гонитесь за максимальными TFLOPS, а ищите баланс между задержкой, пропускной способностью и объёмом модели.

  • Для инференса важнее низкая латентность и высокий throughput, а не только VRAM и вычислительная мощность.
  • Контекст использования определяет выбор: H100 неэффективна для одиночных запросов, но незаменима для пакетной обработки больших моделей.
  • Обязательно тестируйте реальные сценарии с помощью бенчмарков — сухие спецификации могут ввести в заблуждение.

Стремитесь не к «лучшей», а к «оптимальной» видеокарте. Определите требования по latency, throughput и объёму, протестируйте несколько решений и сделайте выбор на основе полученных метрик. А если вам пока не хватает ресурсов — добро пожаловать в облако — мы поможем с GPU-инфраструктурой.

На какие критерии вы опираетесь при выборе GPU и какие инструменты бенчмаркинга используете?

 

Источник

Читайте также