В этой статье мы сравним новинку от компании Nvidia — GeForce RTX 4090 — с различными профессиональными картами от этого производителя и попытаемся ответить на вопрос «Выгодно ли использовать новую видеокарту в рабочих процессах или все-таки лучше использовать серверные видеокарты?».
Профессиональные и игровые GPU-карты имеют ряд значительных отличий, определяемых целью использования:
-
Сфера применения. Серверные видеокарты применяются в ML-разработке, рендеринге и моделировании сложных объектов, научных исследованиях, кинопроизводстве и т. д. Игровые видеокарты предназначены для индивидуального использования.
-
Охлаждение. Система охлаждения профессиональных карт выдувает горячий воздух из сервера или рабочей станции. Турбина охлаждения у них предназначена для постоянной работы. Игровые карты выдувают воздух вверх карты, они должны использоваться в специальных корпусах с хорошей системой вентиляции. Вентиляторы игровых карт не предназначены для длительной работы и выходят из строя при длительной постоянной эксплуатации.
-
Производительность и энергоэффективность. Профессиональные GPU позволяют производить больше вычислений при меньшем энергопотреблении. Эта особенность во многом определяет высокую стоимость серверных видеокарт.
-
Особенности производства. Контроль качества при изготовлении профессиональных карт строже, нежели при создании игровых.
-
Разъемы. Профессиональные карты не снабжены разъемами (HDMI, DVI) для вывода видео — есть только DisplayPort.
-
Дополнительный функционал. Не все серверные GPU могут быть использованы для игр.
Обзор технологии GeForce RTX 4090
Графический процессор GeForce RTX 4090 был выпущен в конце 2022 года и стал продолжением линейки десктопных ускорителей от компании NVIDIA, что вызвало большой интерес у игроков по всему миру.
Ключевыми особенностями карты являются:
-
Как и во всей линейке GeForce RTX 40, используются новые графические процессоры AD10x (в 4090 — AD102) на основе архитектуры Ada Lovelace и с применением технологического процесса 4N (TSMC).
-
Повышена производительность операций трассировки лучей и машинного вычисления на тензорных ядрах.
-
Технологический процесс 4N позволяет повысить энергоэффективность на несколько процентов.
-
Размер карты (304 на 137 мм, 3 слота) осложняет ее монтаж как в настольных ПК, так и в серверах.
-
Игровая система охлаждения, что зачастую делает невозможным использование 4090 в GPU-серверах.
-
По сравнению с 3090, в AD102 на 70% больше CUDA-ядер.
-
Технология NVIDIA DLSS 3 использует алгоритмы анализа векторов движения и OFA.
-
Платформа NVIDIA Reflex с низкой задержкой позволяет повысить качество игры профессиональных геймеров.
-
Кодировщик NVEnc 8-го поколения с поддержкой кодирования AV1.
-
Приложение NVIDIA Broadcast.
-
NVIDIA Studio.
Технические характеристики видеокарт NVIDIA RTX A4000, NVIDIA RTX A5000, NVIDIA RTX 3090 и NVIDIA RTX 4090
RTX А4000 |
RTX А5000 |
RTX 3090 |
RTX 4090 |
|
---|---|---|---|---|
Архитектура |
Ampere |
Ampere |
Ampere |
Ada Lovelace |
Техпроцесс |
8 нм |
8 нм |
8 нм |
4N |
Графический процессор |
GA104 |
GA102 |
GA102 |
AD102 |
Количество транзисторов (млрд.) |
17,4 |
28,3 |
28,3 |
76,3 |
Тактовая частота (ГГц) |
0,74 |
1.17 |
1,39 |
2,23 |
Тактовая частота с ускорением (ГГц) |
1.56 |
1.70 |
1.70 |
2,52 |
Memory frequency (МГц) |
1,750 |
2,000 |
1,21. |
1,325 |
Пропускная способность памяти (Гб/с) |
448 |
768 |
936.2 |
1008 |
Память GPU (Гб) |
16 ГБ |
24 |
24 |
24 |
Тип памяти |
GDDR6 |
GDDR6 |
GDDR6X |
GDDR6X |
Cache memory (Мб) |
4 |
. |
6 |
72 |
Память ECC |
есть |
есть |
нет |
нет |
Ядра CUDA |
6 144 |
8192 |
10496 |
16384 |
Тензорные ядра |
192 |
256 |
328 |
512 |
Ядра RT |
48 |
64 |
82 |
128 |
Количество текстурных модулей |
192 |
256 |
328 |
512 |
Максимальная мощность (Вт) |
140 |
230 |
350 |
450 |
Вычислительная производительность FP16 (half) (терафлопс) |
19.2 |
27.8 |
35.6 |
82.6 |
Вычислительная производительность FP32 (float) (терафлопс) |
19.2 |
27.. |
35.6 |
до 82,. |
Вычислительная производительность FP64 (double) |
599 гигафлопс |
867.8 гигафлопс |
556 гигафлоп. |
1.3 терафлоп. |
Теоретическая максимальная скорость закраски (гигапикселей/с) |
149.8 |
162.7 |
189.. |
444 |
Теоретическая скорость выборки текстур (гигатекселей/с) |
149.8 |
433.9 |
56. |
1290 |
Интерфейс |
PCI-E 4.0 x16 |
PCI-E 4.0 x16 |
PCI-E 4.0 x16 |
PCI-E 4.0 x16 |
NVIDIA DLSS |
нет |
нет |
есть |
3 |
Nvlink |
нет |
Двухплатная низкопрофильная конфигурация (мосты на 2 и 3 слота) |
нет |
нет |
Поддержка CUDA |
8.6 |
8.6 |
8.6 |
8.9 |
Поддержка VULKAN |
1.3 |
1.3 |
1.2 |
1.3 |
DirectX |
12 Ultimate |
12 Ultimate |
12 Ultimate |
12 Ultimate |
Shader Model |
6.6 |
6.6 |
6.7 |
6.7 |
OpenGL |
4.6 |
4.6 |
4.6 |
4.6 |
OpenCL |
3.0 |
3.0 |
3.0 |
3.0 |
Поддержка ПО Virtual GPU (vGPU) |
— |
NVIDIA Virtual PC (vPC) и Virtual Applications (vApps), NVIDIA RTX vWS, NVIDIA Virtual Compute Server |
— |
— |
Цена (руб.) |
111 91. |
216 000 |
116 990 |
от 138 000 |
Новая архитектура, пропускная способность памяти и количество тензорных ядер, технология DLSS 3 и другие характеристики GeForce RTX 4090 определяют широкий спектр применения графического процессора — не только гейминг, но и работа с искусственным интеллектом, сложными вычислениями.
Тестирование HOSTKEY
Описание тестовой среды:
-
Процессор AMD Ryzen 9 5900 X 12-Core Processor (3.80 GHz)
-
32 GB DDR4-3200 ECC DDR4 SDRAM 1600 МГц
-
Microsoft Windows 10 Professional 64-разрядная
Tест V-Ray GPU CUDA
Tест V-Ray GPU RTX
Blender Benchmark
В этом тесте и в LuxMark мы сравним только карты RTX A5000 и RTX 4090, поскольку они наиболее интересны в контексте этой статьи.
LuxMark
Мы измерили относительную производительность GPU при рендеринге. Показатели GeForce RTX 4090 в тестах выглядят впечатляюще и превосходят практически вдвое не только результаты RTX 3090, но и профессиональные GPU. Тест V-Ray GPU RTX демонстрирует работу GPU с трассировкой лучей — показатели RTX 4090 также в два раза превосходят результаты RTX 3090.
«Собаки против кошек»
Для сравнения производительности GPU для нейросетей мы используем набор данных «Собаки против кошек» — тест анализирует содержимое фотографии и различает, изображена на фото кошка или собака. Все необходимые исходные данные находятся здесь. Мы запускали этот тест на разных GPU и в различных облачных сервисах, получили следующие результаты:
Полный цикл обучения (мин.)
Полный цикл обучения тестовой нейросети занял от 31 до 60 минут. Результат GeForce RTX 4090 составил 31 минуту и превзошел показатели всех остальных GPU. Наиболее заметна разница в результатах карт RTX 3090 и RTX 4090 — новое поколение ГПУ от NVIDIA справилось с расчетами почти вдвое быстрее предыдущего.
Тесты показали, что ближайшим конкурентом карты 4090 является A5000. Осталось сравнить эти карты по соотношению цена-качество. Во всех проведенных тестах новая карта от Nvidia показала результат, превышающий показатель RTX A5000 примерно вдвое. В то же время стоимость RTX 4090 значительно ниже: 138 тысяч рублей (минимальная цена) против 216 тысяч. Казалось бы, выбор очевиден — но есть нюансы. GPU A5000 потребляет значительно меньше энергии и может быть выгодным решением для задач с постоянной высокой нагрузкой на GPU на длинной дистанции. RTX A5000 поддерживает технологию NVLink, что полезно при обучении нейронных сетей. GPU A5000 не имеют ограничений на использование NVENC/NVDEC при задачах параллельного транскодирования видео. При покупке специализированной лицензии профессиональные GPU класса A5000 могут быть виртуализированны и доступны в сервере как несколько виртуальных GPU меньшей мощности. Еще одна проблема — запрет Nvidia на использование драйверов для своих игровых карт в дата-центрах и в удаленном режиме вне офиса.
Хотя на промофото NVidia много 4090 с большими вентиляторами и формате 3 юнита, в реальности эту конфигурацию практически невозможно купить. На складах есть только игровые карты большого размера на 4 юнита и повышенной высоты с выдувом вверх и вниз карты. Такие карты не могут быть использованы в серверах и большинстве рабочих станцией.
Заключение
Переход на новую архитектуру Ada Lovelace позволил значительно увеличить производительность GeForce RTX 4090. Улучшенные тензорные ядра и ядра RT значительно повышают качество и расширяют возможности трассировки лучей в реальном времени. Объем памяти в 24 Гб позволяет обрабатывать большие массивы данных.
GeForce RTX 4090 в первую очередь предназначена для гейминга и прекрасно подходит для решения различных типов вычислительных задач: ИИ, анализ данных, машинное обучение. Новая архитектура значительно превосходит предыдущее поколение графических процессоров от NVIDIA. Важное ограничением в профессиональном использовании этой видеокарты — высокое энергопотребление и отсутствие возможности объединить несколько карт при помощи Nvlink.
Альтернативой приобретению видеокарты является аренда сервера с GPU. Наши расчеты показывают, что месячная аренда карт GeForce RTX 4090 и RTX A5000 сопоставима по цене. Соответственно, при необходимости выполнения профессиональных задач аренда карты GeForce RTX 4090 может быть выгодна за счет ее высокой производительности.
Арендуйте выделенные и виртуальные GPU серверы с профессиональными графическими картами NVIDIA RTX A5000 / A4000 в надежных дата-центрах класса TIER III в Москве и Нидерландах. Принимаем оплату за услуги HOSTKEY в Нидерландах в рублях на счет российской компании. Оплата с помощью банковских карт, в том числе и картой МИР, банковского перевода и электронных денег.
.