Тестируем лучшие карточки для расчетов в конце 2021 года: 3090 Turbo и A10

26.12.2021

Недавно на Хабре была статья про сравнение карточек для вычислений. На мой взгляд статья получилась очень даже неплохой, но в ней никак не отразили позиции RTX 3090 Turbo и как-то подозрительно мало времени уделили А10.

На мой взгляд среди карточек с «большим» объемом памяти (более 12 гигабайт) по рекомендованной рыночной цене (РРК) 3090 является лидером хит-парада, а по рыночной цене — скорее уже А10. Детальный разбор почему и как я подходил к выбору карточек и тестированию — прошу под кат.

Также так случилось, что у меня под рукой оказалось большое количество рейзеров разной степени говённости. И сначала я замахивался, чтобы поставить некую точку в вечных дебатах про райзеры (а мнения разнятся от такого до банального «не работает» или «для DL нельзя использовать»), но в итоге все получилось чуть более сумбурно. Но я постарался подойти к тестированию райзеров тоже структурированно и аналитически.

И последнее — в прошлой статье я сокрушался, что мол нет на рынке большого выбора однослотовых решений по вменяемой цене. Теперь на выбор решений много, но с доступностью и ценами ситуация лучше не стала (есть как минимум 2 поколения карточек Quadro и Tesla A10, но геймерских нет, насколько я знаю).

Выбор карточек и теоретические цифры

Вообще в чатике нашего канала кто-то поделился супер-полными табличками с характеристиками в виде картинок (раз и два), но мы попробуем их немного упростить и разложить все на пальцах.

Простыми словами — физической и финансовой возможности (и мотивации) протестировать абсолютно все карточки у меня нет, но если верить вышеописанной статье, все-таки какая-то корреляция между спецификациями карточек и тестами прослеживается. Я собрал характеристики всех более менее свежих и интересных карточек (пожалуй кроме однослотовых прошлого поколения, которое не было очень удачным, да и Амперы уж очень сильно приросли по сравнению с прошлым поколением). Цены на момент публикации статьи могли уже поменяться.

Карточка	VRAM, G	Bwidth, Gb/s	Цена, т.р.	CUDA ядра	Тенз. ядра	TDP, W	Слоты	Кулер	Арх.	FP32	PCIE
RTX 3090 Turbo	24	936	300 (150)	10496	328	350	2	Есть	8nm	35.6	4.0
Tesla A10	24	600	300	8192	?	150	1	Нет	8nm	31.2	4.0
Tesla A30	24	933	430	3804	224	165	2	Нет	8nm	31.2	4.0
Tesla A40	48	696	550	10752	336	300	2	Нет	8nm	37.4	4.0
Tesla A40	48	696	490	10752	336	300	2	Нет	8nm	37.4	4.0
Tesla A100	40	1555	900	6912	432	250	2	Нет	8nm	19.5	4.0
RTX A4000	16	448	150	6144	192	140	1	Есть	8nm	19.2	4.0
RTX A5000	24	768	280	8192	256	230	2	Есть	8nm	27.8	4.0
RTX A6000	48	768	500	10752	336	300	2	Есть	8nm	38.7	4.0
RTX 5000	16	448	190	3072*	384	230	2	Есть	12 nm	11.2	3.0

Пока в глаза бросается пожалуй лишь то, что на первый взгляд кроме рекомендованной рыночной цены на 3090, все карточки стоят сравнимое количество денег, кроме флагманской A100 (которая еще бывает с 80 GB памяти). Обратите еще внимание, что при переходе на последнее поколения Nvidia «увеличила» число CUDA-ядер в 2 раза, но они стали как бы в «2 раза меньше». Еще стоит обратить внимание на низкий TDP и однослотовость у A4000 и A10. Что грустно и закономерно (вставить комментарий про майнеров), 3090 «доросла» за год по цене примерно до своих серверных коллег.

Рост цен на 3090

3090_price

Так, получается очень много цифр! А если открыть полные таблички, то и мозг можно сломать. Плюс все это мягко говоря теоретические цифры, скорее всего из спецификаций или маркетинговых материалов. Давайте пойдем от противного — выберем какой-то бюджет, допустим 900 т.р. (чтобы влезла хотя бы одна A100, ха!) и посмотрим, что можно получить за эти деньги.

Карточка	Штук	VRAM, G	FP32	TDP
RTX 3090 TURBO	3.0	72	107	900 (*)
Tesla A10	3.0	72	94	450
Tesla A30	2.1	50	66	347
Tesla A40	1.6	77	60	480
Tesla A40	1.8	86	67	540
Tesla A100	1.0	40	20	250
RTX A4000	6.0	96	115	840
RTX A5000	3.2	77	89	736
RTX A6000	1.8	86	70	540
RTX 5000	4.7	75	52	1081

(*) Еще важная ремарка состоит в том, что хотя якобы кто-то и «разгонял» 3090 до 500+ Ватт, в реальности лично у меня они потребляют в районе 300 Ватт (я вставлю именно эту цифру в следующую таблицу).

Да, при обучении нейросетей не всегда FP32 это самый важный индикатор, но с другими форматами данных в спецификациях больше непонятностей и маркетинга. По факту вы или будете учить в FP32, или использовать что-то вроде AMP (в тестах дальше мы попробуем и тензорные ядра).

Давайте проанализируем табличку. У карточек А20, А30 и A40 получается маловато «мощности», но есть вариант с большим количеством VRAM. A100 явно является флагманом и кажется, что даже относительно серверных карт ее цена завышена раза в 2 (не считая ситуации когда вам реально нужны 80 GB VRAM на карту или какие-то особые вычисления и выбора тогда по сути нет).

A10 и A4000 кажутся сильно интереснее с точки зрения наполнения сервера (они однослотовые и мало кушают), но тут получается, если вы хотите оптимизировать мощность вычислений — вам нужна A10, а A4000 получается как бы равной «половине» A10. Но если вы захотите поставить 5 или 6 карточек A10, 10-12 A4000 уже будет проблематично впихнуть. Держим в уме, что обычно слотов в материнских платах не более 7, и в лучших БП обычно не более 9 VGA кабелей. Вариант с колхозом и синхронизацией 2 БП мы опустим для простоты.

Чисто по характеристикам и размерам, A5000 кажется более энергоэффективным «собратом» 3090, а A6000 и RTX 6000 (прошлое поколение) — уже сильно послабее или для нишевых применений (на рубль конечно, не в вакууме).

Итак, постараемся подвести итоги. Дорогие и узкоспециализированные варианты отметаем. В сухом остатке остаются A5000 (лидер хит-парада из статьи по ссылке), 3090 и A10.

По цене, они к сожалению все более менее равны (по РРК у 3090 конкуренции вообще нет). Но тут получается, что 3090 даже по рыночной цене является более «быстрой» и горячей, чем A5000, но она все равно занимает 2 слота. А A10 получается несмотря на свою цену занимает нишу для билдов, где вы хотите поставить более 4 карточек. И да, как ни странно A5000 еще тоже относительно тяжело купить.

Тестируем карточки

Приведу результаты тестирования 3090 и A10. У 3090 есть один нюанс. На рынке есть две модели 3090 с турбиной — ASUS и Gigabyte. У решения от ASUS как-то криво проставлены заводские настройки скорости вентилятора и он не крутится быстрее 45-50%. У решения от Gigabyte такой проблемы нет. Поэтому я приведу результаты сравнения A10 и 3090 от Gigabyte «в стоке» (у A10 вообще нет движущихся частей) и 3090 от ASUS с заводским и автоматизированным управлением скоростью «фенов».

Чтобы лишний раз не возиться с компиляцией, установкой CUDA и прочего, тестировать будем вот так:

Скрипты для тестирования

# image
docker run --rm --gpus 0 -it --entrypoint bash nvidia/cuda:11.4.2-devel-ubuntu20.04
# gpu cooling (on host)
pip install coolgpus
sudo $(which coolgpus) --kill --temp 20 55 80 --speed 5 30 85
# git
apt update
apt install git
# gpu burn
git clone https://github.com/wilicc/gpu-burn.git
cd gpu-burn
make
./gpu_burn 120
./gpu_burn -tc 120
cd ../

То есть по сути просто берем официальный образ с CUDA 11.4 (девелоперская версия), собираем gpu-burn и вперед.

Карточка	Команда	В начале, Gflop/s	В конце, Gflop/s	Макс. темп., C	Комментарий
ASUS 3090	./gpu_burn 120	20,258	17,900	85	Кулер макс. 45% (сток)
ASUS 3090	./gpu_burn 120	19,700	19,700	73	Кулер макс. 70% (кастом)
ASUS 3090	./gpu_burn -tc 120	48,084	39,530	90	Кулер макс. 45% (сток)
ASUS 3090	./gpu_burn -tc 120	48,215	48,215	74	Кулер макс. 70% (кастом)
Gigabyte 3090	./gpu_burn 120	19,858	19,225	75	Кулер макс. 80%, 1 карта
Gigabyte 3090	./gpu_burn 120	20,283	19,234	75	Кулер макс. 80%, 2 карты
Gigabyte 3090	./gpu_burn 300	19,755	18,936	77	Кулер макс. 85%, 2 карты
Gigabyte 3090	./gpu_burn -tc 120	49,359	47,142	75	Кулер макс. 80%, 2 карты

Получается, что по умолчанию решение от ASUS перегревается, но если крутить кулер хотя бы на 70%+, то все уже становится хорошо. Посмотрим теперь, что выдает A10:

Команда	Gflop/s	Макс. темп., C	Комментарий
./gpu_burn 120	13934	74	Кулер DELTA, 90%, нет управления потоком
./gpu-burn -tc 120	41225	77	Кулер DELTA, 90%, нет управления потоком
./gpu-burn -tc 120	41225	77	Кулер DELTA, 50%, нет управления потоком
./gpu-burn -tc 300	37877	87	Кулер DELTA, 50%, нет управления потоком
./gpu-burn -tc 300	40251	81	Кулер DELTA, 100%, нет управления потоком

Тут важно отметить, что для первых тестов кулер DELTA стоит просто приклеенный к корпусу на двусторонний скотч. Поток воздуха никак на «направлялся», он просто дул в примерном направлении A10. Про управление воздушными потоками, дельтами и сборку оптимальных серверных билдов я наверное напишу как-нибудь потом, если эта статья наберет хотя бы +50, уж очень там много деталей и тонкостей, и не хочется это все вспоминать.

В итоге получается интересная картина. Без использования тензорных ядер A10 сильно уступает 3090, но с ними — они почти уже равны. А разница в TDP наблюдается почти в два раза (!). Как себя поведут карточки в реальной работе, еще конечно предстоит узнать. Я довольно сильно намучился с железом и сейчас пока нет моральных сил гонять тесты на реальных задачах. Скорее всего когда это произойдет, мы что-то напишем в нашем телеграм-канале.

Тестируем райзеры и пропускную способность

Итак, у меня был целый ассортимент разного рода райзеров. Фирменных и говённых, коротких и длинных, красивых и облезлых. Пару лет назад при более неформальном тесте, я приходил к выводу, что только райзер от TT работал. Изменилось ли что-то в этот раз? Если посмотреть видосики как люди делают 10-метровые удлинители (понятно, что это проплаченная постановочная реклама и райзеры там были заранее выбраны и вообще это скорее шоу для неискушенной публики), втыкая райзеры один в другой, хочется верить, что все будет хорошо.

И да, важная ремарка, я хочу, чтобы все просто работало из коробки. Без каких-либо настроек ОС, BIOS и чего-то подобного. Это дискуссионный момент, но как раз по этой причине я в итоге опять отказался от использования райзеров совсем.

risers

Райзер	Фирма	Длина	Разъемы	Комментарий
1	Phanteks	200 мм	x16	Угловой
2	Noname	500 мм	x8 => x16	Угловой
3	Thermaltake	300 мм	x16	Прямой
4	Noname	600 мм	x16	Угловой

Тестировать пропускную способность будем с помощью утилиты, которую предоставляет Nvidia в своем репозитории с CUDA-примерами. Точно так же, чтобы не возиться, просто берем официальный образ, не забывая спулить репозиторий на соответствующий тег релиза CUDA.

Скрипты для тестирования

# image
docker run --rm --gpus 0 -it --entrypoint bash nvidia/cuda:11.4.2-devel-ubuntu20.04
# git
apt update
apt install git
# bandwidth test
git clone --depth 1 --branch v11.4  https://github.com/NVIDIA/cuda-samples.git
cd cuda-samples/Samples/bandwidthTest
make
./bandwidthTest --memory=pinned --mode=quick --htod
./bandwidthTest --memory=pinned --mode=quick --dtoh
./bandwidthTest --memory=pageable --mode=quick --htod
./bandwidthTest --memory=pageable --mode=quick --dtoh
cd ../

Итоги теста получатся такие:

Карточка	Тест	GB/s	Соединение
ASUS 3090	./bandwidthTest —memory=pinned —mode=quick —htod	26.2	Напрямую
ASUS 3090	./bandwidthTest —memory=pinned —mode=quick —dtoh	23.1	Напрямую
ASUS 3090	./bandwidthTest —memory=pageable —mode=quick —htod	11.5	Напрямую
ASUS 3090	./bandwidthTest —memory=pageable —mode=quick —dtoh	12.1	Напрямую
Gigabyte 3090	./bandwidthTest —memory=pinned —mode=quick —htod	26.2	Напрямую
Gigabyte 3090	./bandwidthTest —memory=pinned —mode=quick —dtoh	23.1	Напрямую
Gigabyte 3090	./bandwidthTest —memory=pageable —mode=quick —htod	11.3	Напрямую
Gigabyte 3090	./bandwidthTest —memory=pageable —mode=quick —dtoh	11.9	Напрямую
A10	./bandwidthTest —memory=pageable —mode=quick —dtoh	26.2	Напрямую
A10	./bandwidthTest —memory=pageable —mode=quick —dtoh	23.2	Напрямую
A10	./bandwidthTest —memory=pageable —mode=quick —dtoh	11.4	Напрямую
A10	./bandwidthTest —memory=pageable —mode=quick —dtoh	11.7	Напрямую
Любая	Система не видит карточку	NA	Райзер №1
ASUS 3090	./bandwidthTest —memory=pinned —mode=quick —htod	1.7	Райзер №2
ASUS 3090	./bandwidthTest —memory=pinned —mode=quick —dtoh	1.7	Райзер №2
ASUS 3090	./bandwidthTest —memory=pageable —mode=quick —htod	1.7	Райзер №2
ASUS 3090	./bandwidthTest —memory=pageable —mode=quick —dtoh	1.7	Райзер №2
ASUS 3090	./bandwidthTest —memory=pinned —mode=quick —htod	26.2	Райзер №3
ASUS 3090	./bandwidthTest —memory=pinned —mode=quick —dtoh	23.3	Райзер №3
ASUS 3090	./bandwidthTest —memory=pageable —mode=quick —htod	8	Райзер №3
ASUS 3090	./bandwidthTest —memory=pageable —mode=quick —dtoh	8.9	Райзер №3
Любая	Система не видит карточку	NA	Райзер №4

Зануда-mode on

Я использую базовые настройки тестов пропускной способности, т.к. очевидно, что если измерять ее на малых «чанках», то она будет очевидно хуже. Я пробовал разные сценарии, но везде есть очевидная корреляция, поэтому я решил тут не усложнять.

Подведем итоги. Райзер от TT по прежнему работает. Остальные скорее не работают. Райзер от TT почти не влияет на пропускную способность.

Когда райзеры не работают, выглядит это примерно так.

Да, я осознанно не занимаюсь всяческими настройками BIOS, не переключаю PCIE режимы, итд итп.

Вместо вывода

Надеюсь эта статья была вам интересна и полезна. Нам стоило довольно больших усилий (и финансовых ресурсов!) собрать это все вместе и изложить в понятном и интересном ключе.

Я пока морально не готов писать продолжение статьи про сбор суперкомпьютера, но в серверном форм-факторе, но если эта статья наберет +50, то думаю в начале января я сделаю над собой моральное усилие.

Всех с наступающими праздниками и Новым Годом!

PS Пара слов про сами карточки

Я нахожу своеобразную красоту в том, как выглядят утилитарные вещи. Карточки PNY выглядят очень просто, они очень утилитарно и экономично упакованы в коробки из обычного картона. Карточки от ASUS пытаются выглядеть немного как арт-объект, но при более близком рассмотрении все эти «красивости» это просто бесполезные пластиковые обвесы. A карточки от Gigabyte визуально сочетают в себе и какой-никакой промышленный дизайн, профессионализм, утилитарность и строгость внешнего вида (и очень хорошо стоят одна за другой, что конечно важнее!). Этого же я не могу сказать про упаковку карточек, коробки как обычно отталкивающе-аляпистые и налицо пустая трата ресурсов.

Смотреть картиночки