[Перевод] Монстры после каникул: AMD Threadripper 2990WX 32-Core и 2950X 16-Core (часть 4)

Часть 1 Часть 2 Часть 3 → Часть 4 → Часть 5

Потребляемая мощность, TDP и Prime95 против POV-Ray

Для большинства из нас мощность процессора — это что-то около 15 Вт в ноутбуках и 65-95 Вт на десктоп системах. Высокопроизводительные десктоп процессоры всегда были более прожорливы, а потому TDP 130 Вт и 140 Вт для них нормальный показатель. Когда AMD выпустила 220 Вт процессор на старой платформе Vishera, разогнав ядра семейства Bulldozer до 5,0 ГГц, закралась мысль о том, а не спятила ли AMD окончательно: много материнских плат были совместимы с AMD сокетом, но для использования TDP 220 Вт и выше пришлось выпускать целый ряд новых материнок. Сегодня самый мощный на рынке процессор Intel имеет официальный показатель TDP 205 Вт, но AMD пошла дальше, подняв планку до 250 Вт.

[Перевод] Монстры после каникул: AMD Threadripper 2990WX 32-Core и 2950X 16-Core (часть 4)

Два новых процессора WX, 32-ядерные 2990WX и 2970WX, рассчитаны на 250 Вт. В обоих процессорах все четыре силиконовые матрицы активны, есть шесть активных линий Infinity Fabric. Эти процессоры созданы, чтобы выйти на новый уровень производительности, при этом AMD демонстрирует слайды с турбо частотой на всех ядрах 3,6 ГГц. Два процессора, пришедшие на замену X-серии, имеют мощность 180 Вт, как и процессоры первого поколения Threadripper.

Однако не все TDP равны. Способы, которыми Intel и AMD измеряют TDP, менялись с годами, и теперь стали весьма далеки от реальности. Позвольте мне объяснить.

TDP — это такая шутка

Значение TDP, или мощность теплового дизайна, не является показателем энергопотребления. Технически, это показатель производительности кулера, а значит чтобы справиться со своей работой, кулер должен обладать тем же уровнем TDP. Фактическое потребление энергии должно быть несколько выше – тепловая передача от процессора в сокет и из сокета в материнскую плату способствует охлаждению, но не учитывается в показателе TDP. Зачастую показатель тепловыделения TDP и энергопотребление процессора воспринимаются как нечто единое, ведь их различия незначительны.

Начнем расчет с процессоров AMD. Расчет TDP AMD основан на простой формуле:

TDP = (Рабочая температура, в Цельсиях – температура простоя, в Цельсиях) / Термальная мощность кулера

Таким образом, когда AMD определяет TDP своего процессора Ryzen 7 2700X с температурой нагрузки около 62 ° C, температурой простоя 42 ° C и кулером с тепловой мощностью 0,189 C на ватт (Wraith Max), мы получаем значение около 105W.

Формула AMD имеет сразу две проблемы: во-первых, температуру работы нагруженного процессора можно регулировать с помощью кулера или внешнего воздушного потока, а во-вторых, на результат сильно влияет тепловая мощность кулера. С большим жидкостным охладителем, который имеет более высокую тепловую мощность, например 0,400 C на ватт, номинальный TDP любого процессора окажется ниже: в случае с Ryzen 7 2700X его TDP окажется всего лишь 50 Вт. Рейтинг TDP и энергопотребление не равны, да и их соотношение может меняться в любом направлении, стоит только AMD выбрать другой кулер для сравнений.

Версия TDP от Intel немного сложнее, но имеет ли этот показатель смысл… Intel определяет TDP своих процессоров только для базовой частоты, игнорируя турбо частоты. В результате, если Intel выпускает процессор с 95 Вт TDP, базовой частотой 3,2 ГГц, одноядерным турбо 4,7 ГГц и полным турбо 4,2 ГГц, то гарантированное потребление энергии 95 Вт будет на базовой частоте 3,2 ГГц. А значит, на любой материнской плате, которая использует турбо (то есть вообще на любой) процессор при любой нагрузке будет потреблять больше мощности, чем его официальный TDP.

А это уж очень раздражает. Маркетинговый ход от Intel — рекламировать одноядерное турбо своих процессоров и не публиковать более низкие значения «всеядерного» турбо. Нам заявляют, что это «внутренняя информация компании», которая попадает под соглашение о неразглашении. В любом случае, каждый процессор, который имеет «всеядерную» турбо-частоту выше базовой частоты, будет потреблять выше указанного TDP.

Наглядный пример — Core i7-8700 и его 65 Вт TDP. Он имеет базовую частоту 3,2 ГГц, одноядерную турбо 4,6 ГГц и полный турбо 4,3 ГГц. Если мы загружаем побольше потоков и ограничиваем потребление энергии до 65 Вт, то получаем следующее:

Стоит ли насколько всерьез воспринимать значения TDP? Отнеситесь к ним с юмором.

Потребляемая мощность

Существует несколько способов измерения энергопотребления процессора. Самый простой способ — использовать измерительный прибор, что позволит узнать потребляемую мощность всей системы, включая потери в системе подачи питания материнской платы. Сложный способ подразумевает подключение необходимых инструментов к плате для измерения тока через 12-вольтовый разъем, измерение напряжения процессора с использованием настроек разгона на некоторых материнских платах. Третий способ — чтение аппаратных регистров с помощью соответствующего программного обеспечения.

Чтение регистров — это обоюдоострый меч. Во-первых, вы полагаетесь на внутренние измерения, которые часто имеют довольно широкую погрешность. Во-вторых, вы полагаетесь на производителя процессора, который должен сообщить правдивые данные о своем процессоре. Это не всегда разумно(!). Положительный момент: есть возможность получить больше информации от процессора, например, анализ мощности по каждому ядру, мощности DRAM, мощности IO / Interconnect, мощности встроенной графики, получить общее понимание распределения мощности.

Аппаратные регистры – это способ при котором система сообщает самой себе данные о работе: сколько энергии она использует, как она должна регулировать напряжение / частоту в зависимости от тока, мощности или тепловой производительности. Еще одна положительная сторона заключается в легкости использования таких данных в скриптах тестирования.

Тестирование энергопотребления часто является предметом споров. Обычно используется специализированный вирус, который может одновременно загрузить каждую область процессора на максимальной мощности. «Power virus» применяется для проверки стабильности разгона, но у него есть один недостаток: при повседневной нагрузке результаты, как правило, не отображают реальную потребляемую мощность. Это тонкая грань между реальным испытанием и синтетическим тестом, предназначенным для того, чтобы прогнать каждый джоуль энергии через чип. Программное обеспечение, например LINPACK, часто используется в качестве эффективного теста мощности. Внутренние инструменты Intel и AMD могут помочь нагрузить чип еще сильнее.

Prime95 — популярный инструмент, он отлично оптимизирован почти для каждого ядра, управляет электропитанием. Его рабочая нагрузка является полусинтетической, основанной на вычислении простых чисел, но стресс-тест игнорирует результаты и нацелен только на энергопотребление. Во время этого обзора мы немного поиграли с POV-Ray в качестве теста питания: он обеспечивает энергопотребление еще выше, чем Prime95, а также использует реально востребованную нагрузку трассировки лучей. Писать обзор мне, потому я и решаю, какой инструмент лучше всего применить для тестов энергопотребления. У Prime95 есть проблемы при работе с большим количеством ядер (иногда трудно получить результат тестирования при превышении предела 25 потоков), а чтобы заставить POV-Ray работать, нам приходится корректировать его способы подачи нагрузки, ведь он нацелен больше на проверку загрузки ядра, а не потоков. Однако мы ожидаем получение результатов в зависимости от количества потоков. Будет указано, какое программное обеспечение использовалось на каждом этапе тестирования (нашу версию POV-Ray мы смогли подготовить только к середине обзора, поэтому большинство данных получено с Prime95).

Общее энергопотребление

В качестве первого набора результатов я хочу представить полное энергопотребление процессора, измеренное в различных ситуациях. На «холостом ходу»:

Затем мы загружаем только одно ядро двумя потоками с помощью Prime95. Наша методика тестирования заставляет оба потоки работать на одном ядре, в случае, если ядра процессора способны обрабатывать несколько потоков. Пользователи, ориентированные на однозадачные нагрузки, увидят энергопотребление именно в этом диапазоне. Это касается и систем, в которых Windows постоянно находится в фоновом режиме.

Третий тест — это система, нагруженная четырьмя потоками при помощи Prime95. Это именно тот диапазон нагрузок, который большинство людей использует изо дня в день в своих системах: открыты несколько вкладок браузера, пару окон, несколько работающих пакетов программного обеспечения, запущена одна или несколько игр.

Увеличивая нагрузку процессора до двенадцати потоков (с Prime95), мы переходим к пользователям, использующим большие и многозадачные рабочие нагрузки. Это геймеры – стримеры, или пользователи, которые запускают рендеринг, параллельно работая с другими задачами.

Конечный график показывает полную потребляемую мощность. Для этого теста мы запускаем максимальное количество потоков (Prime95), в будущем мы планируем использовать POV-Ray для этого теста, поскольку он показывает себя значительно лучше при высоком количестве потоков. Единственным недостатком этого теста является то, что разогнанный 2990WX может завершить тест POV-Ray менее чем за 20 секунд.

Потребляемая мощность отдельного ядра

До создания теста энергопотребления POV-Ray, я запускал оба новых процессора Threadripper на тесте Prime95 в варианте All-thread, получил энергопотребление каждого ядра при каждой нагрузке.

При загрузке первого ядра мы видим, что его потребляемая мощность составляет ~ 23 Вт. Это очень много в сравнении с ядрами Zeppelin. Это касается и случая, когда загружены два ядра. Нагрузив три ядра, мы наблюдаем снижение потребления до 18,8 Вт на ядро. Учитывая, что у этого чипа четыре CCX, возникает вопрос — связан ли такой результат с тем, что потоки загружаются в один и тот же CCX (что, судя по всему, должно произойти), и мы достигаем лимита мощности CCX. При загрузке четырех ядер, потребление каждого ядра составляет около 17,4 Вт.

Поднимая количество загруженных ядер до пяти, обнаруживаем, что пятое ядро работает на 18,2 Вт, а остальные четыре — на 16,8 Вт. Результат указывает на то, что это пятое ядро ​​расположено на новом CCX. При переходе от восьми ядер к девяти, мы видим то же самое: девятое ядро ​​потребляет мощность 17,5 Вт, тогда как остальные восемь примерно 14,3 Вт. В конце распределение мощности падает до 7-9 Вт на ядро, если мы используем все 16 ядер.

Общее энергопотребление процессора ~ 178 Вт, около 180 Вт TDP с потреблением ~ 135 Вт на ядрах, а остальное на Uncore (внеядерных аппаратных средствах — Infinity Fabric, IO, IMC).

Что касается результатов тестирования 2990WX, полученная картина выглядит очень и очень странно.

По большей части данные по энергопотреблению до 15 ядер примерно те же, что и у 2950X. Однако по мере прироста потоков, становится ясно, что первый слой матрицы явно предпочтительнее. При загрузке дополнительных потоков и подключении второй матрицы, мощность на ее ядрах оказывается намного ниже — до 2,4 Вт на ядро. Первый слой zeppelin при полной нагрузке потребляет около 6,6 Вт на ядро, но остальные ядра процессора примерно 2,4 Вт. Происходит нечто, в результате чего первая матрица получает приоритет по питанию в сравнении с остальными. Стоит отметить, что потребляемая мощность чипа составляет около 180 Вт, а не 250 Вт, как показывает его TDP.

Примерно в это время мы закончили писать скрипт теста питания POV-Ray. Я опробовал его на 2990WX, привожу полученные результаты. И теперь они гораздо выше ожидаемых:

Удивительно, но по мере увеличения числа потоков нагрузка стала очень равномерно распределенной. Мы даже смогли полностью использовать все 250 Вт TDP при стоковых настройках и с хорошим кулером. Загрузив процессов полностью, увидели потребление 193 Вт ядрами, 55 Вт остальными компонентами. Ни при каких обстоятельствах мы не наблюдали «провисания» активных ядер ниже 3 Вт. Когда все ядра были загружены, каждое ядро потребляло свои «комфортные» 6 Вт. Мы достигли мощности процессора 240 -250 Вт при загрузке около 40 потоков. При дальнейшем приросте потоков добавленное ядро вызывало перераспределение мощности.

На ум пришло две идеи. Первую было легко проверить: возможно, BIOS «застрял» на потребляемой мощности 180 Вт после установки 2950X? Я перепроверил, и до запуска тестов с 2990WX, протестировал уже испытанный ранее 1920X. Полный сброс BIOS никак не повлиял на результаты. Я могу утверждать, что это не ограничение мощности со стороны BIOS. Вторая идея — проверить частоты. Проверив только одну точку отсчета (загружено 40 потоков), мы обнаружили небольшой разброс, но только в мощности.

Во время теста Prime95 первая матрица работала на уровне 7 Вт на ядро с частотой 3575 МГц. Второй кристалл кремния дал результат 3 Вт на ядро на частоте 3525 МГц. Другие (простаивающие) ядра работали с частотой 1775 МГц или 2000 МГц, потребляя милливатты.

Во время теста POV-Ray каждое активное ядро ​потребляло около 9,1 Вт на ядро ​​и имело частоту 3575 МГц. Все простаивающие ядра были на частоте 2000 МГц (были еще три на частоте 1775 МГц), потребляя милливатт на ядро.

Помимо данных о потреблении ядер, чипы выглядели в целом одинаковыми по частоте. Результаты теста POV-Ray — немного выше, это означает более высокое общее потребление энергии при POV-Ray.

В конечном счете все сводится к тому, что тест мощности Prime95 после превышения порога 20 ядер или около того, или на микросхемах с несколькими кристаллами, не работает как положено. В дальнейшем мы будем использовать наш тест POV-Ray, который способен выжать побольше из современных многоядерных процессоров.

Потребление Core против Non-Core

Возвращаясь к моменту, где мы говорили о частоте Infinity Fabric, можно увидеть соотношение потребляемой мощности в рамках теста POV-Ray для 2990WX.

Хотя мы наблюдаем некоторые отклонения от предыдущего результата, данные (помимо пикового потребления) в целом соответствуют нашему тесту Uncore power с Prime95. Infinity Fabric по-прежнему показывает потребление 55-60 Вт. В результате — вне-ядерное потребление в процентах от общей мощности начинается с 75% при двух потоках, доходит до 22% к моменту запуска 40 потоков.

Оверклокинг: 4,0 ГГц за 500 Вт

Кто сказал, что 250 Вт процессор не стоит разгонять? AMD гордится тем, что производит процессоры, каждый из которых продается с разблокированным множителем, а также использует в качестве термического интерфейса паяный материал.

Настало время покаяться. Времени для оверклокинга у нас было недостаточно. Этот процессор имеет базовую частоту 3,0 ГГц, турбо 4,2 ГГц. В кондиционируемом помещении с применением кулера 500 Вт Enermax Liqtech, нагрузив все ядра под POV-Ray, каждое ядро ​​работало на частоте 3150 МГц, а это очень далеко от частоты турбо. Первое, что я сделал, — установил полноядерный турбо на 4,2 ГГц, так же как и одноядерный. Это дало хороший прирост.

Тем не менее следующий этап моих экспериментов с разгоном удивил меня. Я установил множитель CPU на 40-x в BIOS для частоты 4,0 ГГц на всех ядрах, на все время. Я не регулировал напряжение, оставив авто-режим Чтобы сделать это мне даже пришлось отказаться от материнки ASUS. Послушайте, процессор безупречно выполнил наш тестовый пакет на 4.0 ГГц. Я был потрясен.

Все, что я сделал для этого разгона — это переключение с «auto» на «40». Тесты POV-Ray, которые потребляют больше энергии, работали успешно. Каждый тест из набора отработал. Хотя термальные показатели и были высоки (при максимальной загрузке), кулер легко справился с этим.

При полной нагрузке в тесте POV-Ray процессор показал потребление 500 Вт, кулер рассчитан на 500 Вт. В какой-то момент мы увидели скачок до 511 Вт, где 440 Вт было отведено для ядер (или 13,8 Вт на ядро) и 63 Вт для uncore (IF, IO, IMC), что соответствует 12,5% от полного потребления энергии. Если вы хотите, чтобы интеркулер тратил меньше потребляемой мощности, разгоните проц!

Ставили частоту 4,1 ГГц, и это, казалось, тоже работало, пока мы не нагрузили систему полностью. Как было сказано выше, при 4,2 ГГц получить рабочий результат не удалось, даже при увеличении напряжения. Для тех, кто хочет углубиться в разгон, жидкостное охлаждение может стать решением.

Производительность при 4,0 ГГц

Итак, если частота всех ядер составляет 3125 МГц, то оверклокинг до 4000 МГц должен дать 28-процентное увеличение производительности, верно? Вот результаты некоторых ключевых тестов нашего пакета.

Разгон 2990WX дал смешанные результаты. Он действительно хорошо сработал в некоторых тестах, по-прежнему отстает от 2950X в других благодаря двухмодульной архитектуре.

В этих тестах разгон дал действительно хороший результат: Blender показывает прирост пропускной способности на 19%, POV-Ray — на 19%, 3DPM — на 19%. В других тестах он уступает 2950X (Photoscan), по-прежнему отстает (загрузка приложения, WinRAR).

Разгон не исправит все проблемы с производительностью на 2990WX, но, безусловно, пойдет на пользу процессору.

Спасибо, что остаетесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

3 месяца бесплатно при оплате новых Dell R630 на срок от полугода — 2 х Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4х1TB HDD или 2х240GB SSD / 1Gbps 10 TB — от $99,33 месяц, только до конца августа, заказать можно тут.

Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 ТВ от $249 в Нидерландах и США! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

 
Источник

#amd, threadripper 2950x, threadripper 2990wx, процессоры

Читайте также