[Перевод] Бешеный рендер в 64 ядра: AMD Threadripper Pro 3995WX

Когда AMD начала предлагать процессоры Threadripper с большим количеством ядер, единственным рынком, который потреблял столько, сколько производила AMD, был рынок графического дизайна – компании, которые занимались визуальными эффектами и рендерингом; им понравились количество ядер, поддержка памяти, полосы PCIe и цена. Но если есть что-то ещё, повышающее производительность, то это само стремление к производительности – Threadripper Pro.


Брррр… вот во что превращается вычислительная графика

Есть ряд отраслей, о которых энтузиаст, глядя со стороны, может предположить, что CPU, вероятно, устарел в смысле применения в этих отраслях. Возникает вопрос, почему отрасль не перешла полностью на GPU?

Одна из основных причин – машинное обучение. Несмотря на переход к выделенному оборудованию в этой отрасли и то, что многие крупные компании используют машинное обучение на GPU, большая часть машинного обучения сегодня по-прежнему выполняется на CPU. То же самое происходит с графикой и визуальными эффектами. Причина кроется в используемых программных пакетах и в самих программистах.

Разработка ПО для CPU проста, потому что именно ей обучают большинство людей. Пакеты оптимизации для CPU хорошо зарекомендовали себя, и они даже могут быть разработаны в имитационных средах, чтобы проводить инструктажи специалистов. CPU спроектирован, чтобы обрабатывать даже очень плохой код и вообще всё, что ему подают.

Вычисления на GPU, напротив, сложнее. Они не так сложны, как раньше, поскольку существует масса библиотек, которые позволяют компилировать для GPU, не зная слишком многого о компиляции, однако сложность заключается в архитектуре рабочей нагрузки, которая могла бы взять от GPU то, что он может предложить. GPU – это массивный движок, который выполняет одну и ту же операцию с помощью сотен параллельных потоков одновременно – у него также очень маленький кеш, операция доступа к памяти занимает много времени, а задержка скрывается за счёт того, что одновременно выполняется очень много потоков.

Если вычислительная часть программного обеспечения не подвержена такой нагрузке, например, эта часть структурно более линейна, то потратить полгода на его переработку для GPU – это напрасная трата сил. Или даже если математика лучше работает на GPU, попытки перестроить 20-летнюю (или ещё более старую) кодовую базу для GPU всё равно требуют значительных усилий со стороны группы экспертов.

Вычисления на GPU идут в гору с тех пор, как я выполнял их в конце двухтысячных годов. Но факт остается фактом: всё ещё существует ряд отраслей, представляющих смесь производительности CPU и GPU. К ним относятся машинное обучение, нефтегазовая отрасль, финансы, медицина, и та сфера, на которой мы сегодня сосредоточимся, – визуальные эффекты.

Проектирование и рендеринг визуальных эффектов – это сложное сочетание специализированных программных платформ и плагинов. ПО, подобное Cinema4D, Blender, Maya и другие программы полагаются на GPU для показа частично отрисованной сцены, чтобы художники работали в режиме реального времени, также полагаясь на мощь одноядерной производительности, но большая часть вычислений для финального рендеринга будет зависеть от того, какие плагины используются для конкретного продукта.

Некоторые плагины имеют ускорение GPU, например Blender Cycles, и переход на ещё более ускоренную GPU рабочую нагрузку занимает некоторое время – например. область, привлекающая большое внимание GPU, – дизайн с ускоренной трассировкой лучей.

Всегда возникает вопрос о том, какой метод создаёт лучшее изображение: нет смысла использовать GPU, чтобы ускорить рендеринг, если процессор добавляет шум или портит изображение.

Скорее всего, киностудия предпочтёт медленный рендеринг более высокого качества на CPU, чем быстрый и шумный на GPU, или же, наоборот, рендеринг изображения в более низком разрешении, а затем и рендеринг более высокого класса – с искусственным интеллектом.

Поставляющие продукцию для отрасли OEM-производители сообщили нам, что ряд студий прямо скажут: рендеринг их рабочего процесса на CPU – единственный способ рендеринга. Другой аспект – память: соответствующий задаче CPU может иметь от 256 ГБ до 4 ТБ DRAM, тогда как лучшие GPU имеют пропускную способность в 80 ГБ (и это очень дорогие графические процессоры).

Вот о чём я говорю: VFX-студии до сих пор предпочитают вычисления на CPU, и, чем таких вычислений больше, тем лучше. Когда компания AMD выпустила новые процессоры на базе Zen, в частности 32- и 64-ядерные модели, их сразу же резервировали как потенциальную замену Xeon, с которыми работали студии VFX.

В компонентах AMD внимание уделяется вычислениям FP – ключевому элементу в дизайне VFX. С двумя ядрами на сокет в сочетании с большим количеством кеша на одно ядро, процессор AMD был лучшим в деле. Это означает, что, хотя первые многоядерные вычислительные компоненты обладали неоднородной архитектурой памяти, это не было большой проблемой, как в случае с некоторыми другими вычислительными процессами.

Ряд компаний VFX, насколько мы понимаем, сосредоточились на платформе AMD Threadripper поверх соответствующего EPYC. Когда оба компонента впервые появились на рынке, VFX-студиям было очень легко инвестировать в рабочие станции, построенные на базе Threadripper, тогда как EPYC больше предназначался для серверной стойки.

Посмотрим на Threadripper 3000 и EPYC 7002: есть 64 ядра, 64 полосы PCIe 4.0 и большой выбор. студии VFX тогда всё ещё предпочитали Threadripper в основном из-за того, что эти процессоры предлагали лучшую мощность в 280 Вт в чём-то, что могло бы легко прийти от системных интеграторов, таких как Armari. Эти интеграторы специализируются на high-desk и high-compute, они также запрашивали у AMD большего.

Сегодня компания AMD развернула платформу Threadripper Pro, удовлетворяющую некоторым из требований выше. Тогда как VFX всегда ориентирован на вычисления в ядре, TR Pro предоставляет удвоенную полосу PCIe, удвоенную пропускную способность памяти, поддержку до 2 ТБ памяти, а также поддержку от администратора-профессионала.

Линии PCIe могут быть расширены до локального хранилища (которое всегда важно в VFX), а также больших RAM-дисков; поддержка администратора через DASH помогает поддерживать управление системами компании. AMD Memory Guard также входит в линейку Pro, которая создана, чтобы обеспечивать полное шифрование памяти.

Помимо работы с VFX компания AMD – мировой лидер в области вычислений с помощью TR Pro в проектировании продуктов с помощью Creo, 3D-визуализации через KeyShot, в области проектирования архитектурных моделей с помощью ПО Autodesk Revit, а также в областях Data Science, таких как анализ массивов данных о нефти и газе, где наборы данных возрастают до сотен гигабайт и требуют существенной вычислительной поддержки.

Threadripper Pro против Workstation EPYC (WEPYC)

Глядя на преимущества, которые дают эти новые процессоры, становится ясно, что они – скорее компоненты EPYC в стиле рабочей станции, чем “усовершенствованные” драйверы Threadripper. Вот объясняющая таблица:

Чтобы получить (начиная с EPYC) эти новые компоненты, всё, что AMD нужно было сделать,  – это поднять TDP до 280 Вт и урезать поддержку DRAM. Если начинать с базового Threadripper, есть 3–4 существенных изменения. Так почему же название – по-прежнему Threadripper Pro, а не Workstation EPYC?

Чтобы ответить на этот вопрос, снова вернёмся в студии VFX. Когда они уже купились на брендинг и образ мысли Threadripper, сохранить название компонентов Threadripper – значит, помочь сгладить переход. Как было сказано, они предпочитают Threadripper, а не EPYC (из того, что сказали нам), и поэтому сохранение названия означает, что не нужно никого переучивать.

Кроме того, линия процессора EPYC несколько изломана: есть стандартные версии, высокопроизводительные модели H, высокочастотные модели F и серия заказных конструкций под B, V, другие серии для конкретных клиентов. Сохраняя название Threadripper Pro, AMD сохраняет всё под одним началом.

Предложения Threadripper Pro: от 12 до 64 ядер

В середине прошлого года AMD анонсировала эти процессоры, а также Lenovo Thinkstation P620 как платформу их запуска. По моему опыту, линейка Thinkstation очень хорошо спроектирована, и сегодня мы тестируем наш 3995WX в P620.

TR Pro анонсировали вместе с Lenovo, и мы не были уверены, что Threadripper станет доступен какому-то другому OEM-производителю. Мы спросили об этом самих OEM-производителей в том же году, ещё до того, как узнали, существует ли TR Pro на самом деле; они заявили, что AMD даже не отметил платформу в своём плане развития, о котором мы тогда рассказывали.

С тех пор мы узнали, что у Lenovo был эксклюзивный срок в полгода; информацию предоставили другим производителям (ASUS, GIGABYTE, Supermicro) только после того, как было объявлено об этом.

В связи с этим AMD объявила, что Threadripper Pro выходит на рынок розничной торговли как для других OEM-производителей, которые будут проектировать системы, так и для конечных пользователей, которые будут собирать свои системы.

Несмотря на использование того же сокета LGA4094, что и у другие процессоров Threadripper и EPYC, TR Pro заблокируют на материнских платах WRX80. На данный момент нам известно о трёх моделях, например Supermicro и GIGABYTE, и об ASUS Pro WS WRX80E-SAGE SE Wi-Fi, которая у нас была, однако мы не смогли её протестировать.

Из четырёх перечисленных выше процессоров три лучших идут в продажу. Стоит отметить, что только 64-ядерный процессор поставляется с 256 МБ кеша L3, тогда как 32-ядерный поставляется с 128 МБ L3.

AMD придерживается такой архитектуры, что в этих чиплетах (chiplet) используется только абсолютно необходимое количество наборов микросхем, кеш L3 на одно ядро, а также 8 ядер на набор микросхем (в линейке продуктов EPYC дело обстоит немного иначе). Четвёртый процессор, 12-ядерный, по-видимому, является специфическим процессором, он создан только для OEM-производителей готовых систем.

Threadripper Pro против всех

Эти предложения Threadripper Pro созданы конкурировать с двумя сегментами рынка: во-первых, с самой AMD, демонстрирующий высокую производительность всем пользователям профессиональных систем высокого класса, построенных на аппаратном обеспечении первого поколения Zen.

Второе предложение нацелено на пользователей рабочих станций Intel с односокетным Xeon W (который имеет 28 ядер) либо на пользователей двухсокетной системы Xeon, которая дороже или которая потребляет намного больше энергии просто потому, что она двухсокетная, но при этом архитектура памяти системы неоднородная.

У нас есть почти все системы (нет 7702P, но есть 7742), и на самом деле это единственные процессоры, которые следует учитывать, если 3995WX в вашем случае – один из вариантов:

Intel достигает максимума на 28 ядрах, и обойти его невозможно. Технически у Intel есть линейка процессоров AP – до 56 ядер, однако это для специализированных систем, а для тестирования нам не отправили ни одного процессора этой линейки. Кроме того, это $ 20 000+ на один процессор, а также два процессора в одной системе, которые прикрепили болтами в одной упаковке.

Лучшее оборудование AMD – это Threadripper, лучший доступный процессор – EPYC версий 2P. Самым лучшим здесь был бы 7702P, вариант с одним сокетом и по гораздо более конкурентоспособной цене, однако у нас для целей тестирования его нет; вместо него у нас есть AMD EPYC 7742 – версия с двумя сокетами, но с несколько большей производительностью.

Мы должны поблагодарить следующие компании за то, что они любезно предоставили оборудование для наших многочисленных испытательных стендов. Кое-какого железа на этом стенде нет, но оно используется в других тестах.

Пользователи, заинтересованные подробностями нашего текущего пакета эталонных тестов CPU, могут обратиться к нашей статье #CPUOverload, которая охватывает темы автоматизации эталонных тестов, а также рассказывает о том, что работает с нашим пакетом и почему.

Мы также сравниваем гораздо больше показателей, чем показано в типовом обзоре, все показатели вы можете увидеть в нашей базе данных эталонов. Мы называем эту базу Bench, также в верхней части [в оригинальном обзоре на английском языке] есть ссылка на случай, если база понадобится вам. чтобы сравнить какие-то процессоры позже.

Узнайте подробности, как получить Level Up по навыкам и зарплате или востребованную профессию с нуля, пройдя онлайн-курсы SkillFactory со скидкой 40% и промокодом HABR, который даст еще +10% скидки на обучение.

Другие профессии и курсы
 

Источник

, , , , , , , ,

Читайте также

Меню