Новая статья: Обзор видеоадаптера AMD Radeon RX 480: полярный зверь

29.06.2016 Прокомментировать Просмотры: 55

Для начала мы бы хотели поговорить, что для AMD обозначает название Polaris. В прошлые годы компания избегала публичных терминов, позволяющих объединить различные GPU на основании общих архитектурных признаков. Хотя первые чипы, произведенные AMD по технологии 28 нм (линейка Radeon HD 7000) официально были выпущены под флагом Southern Islands, в выступлениях по поводу следующих новинок названия Sea Island, Pirate Islands и Volcanic Islands отошли на второй план, как будто производитель уже не хотел привлекать внимание к таким определениям.

Причины этого вполне понятны: хотя графические процессоры на архитектуре GCN во многом изменились и прогрессировали начиная с первых образцов, появившихся в 2011-2012 годах, AMD предпочла путь постепенных изменений, когда дополнения к архитектуре внедряются постепенно в одном GPU за другим. Вместо того, чтобы сразу обновить несколько продуктов в линейке (как это стремится делать NVIDIA), в эпоху 28 нм AMD выпускала по одному процессору в той позиции, где считала это необходимым, и наделяла его теми технологиями, которые были готовы к воплощению в кремнии на тот момент. В результате AMD получила разношерстную линейку дискретных ускорителей, в которую входят представители всех перечисленных «островов».

К счастью, пришествие Polaris делает ситуацию более понятной. Все чипы под этим наименованием представляют собой совершенно новую разработку и различаются только количественными характеристиками — числом вычислительных блоков и тактовой частотой. Предыдущее наименование — Arctic Islands — похоронено в недрах AMD, и впредь компания будет использовать звездные имена для обозначения архитектуры (из которых следующим итерациям принадлежат Vega и Navi).

Что касается собственно Polaris, то с помощью этой линейки AMD планирует освоить техпроцесс 14 нм FinFET, реализованный на производственных мощностях GlobalFoundries, и наполнить массовый и «производительный» сегменты рынка дискретных GPU, в то время как верхнюю позицию займет процессор на архитектуре Vega. Как известно, отличительной чертой последнего будет поддержка памяти HBM2, и судя по тому, сколько нововведений вобрали в себя чипы Polaris, на долю Vega вряд ли останется много изменений, помимо увеличения количества вычислительных блоков.

Согласно информации из официальных и неофициальных источников, подтвердить или опровергнуть наши предположения насчет Vega мы сможем в промежутке между октябрем текущего года и началом следующего, а пока AMD рада представить три новых продукта — Radeon RX 460, RX 470 и RX 480, — основанных на GPU Polaris 10 и Polaris 11. Теперь мы можем раскрыть спецификации двух младших карт и опубликовать полный обзор Radeon RX 480.

Radeon RX 460, RX 470 и RX 480: технические характеристики, цены

Хотя AMD не делала заявлений по поводу новой номенклатуры своих десктопных ускорителей, очевидно, что названия изменились. Больше не используются цифры для кодирования сегмента производительности, к которому принадлежит карта, (R7/R9), и среди представленных моделей нет ни одной с суффиксом. Хотя RX 470 и RX 480 построены на одном и том же чипе Polaris 10 и отличаются числом активных вычислительных блоков, производитель развел их с помощью модельного номера — иначе старшая модель получила бы суффикс X. Впрочем, Radeon RX 460 также, судя по всему, несет частично заблокированный GPU. Поэтому если AMD в будущем сочтет нужным выпустить видеокарту на полноценном Polaris 11 в 400-й линейке, более вероятно, что ее назовут RX 465, нежели, к примеру, RX 460X.

Кроме того, если учесть состав новой линейки, которая пока не содержит моделей высшего сегмента, удачно выглядит прошлое решение не включать видеокарты Fury в 300-ю линейку — в противном случае возникла бы ситуация, когда более производительные продукты имеют меньшие модельные номера, чем середнячки.

Поговорим о спецификациях трех новинок. Radeon RX 480 — единственная карта, о которой пока есть полная информация. Она основана на полностью функциональном процессоре Polaris 10, который содержит 36 Compute Units (CU) и обладает 256-битной шиной памяти. Эти параметры выдают в новинке наследника Radeon R9 380X, но большее количество вычислительных блоков, повышенные тактовые частоты и всестороння оптимизация архитектуры обеспечивают производительность на уровне 5800 TFLOPS (согласно официальным данным), что ненамного отличается от того, что может предложить Radeon R9 390X (5913,6 TFLOPS). Как и плоды предыдущей итерации архитектуры GCN, Polaris 10 выполняет расчеты двойной точности (FP64) на скорости 1/32 от FP32.

К слову, тактовые частоты GPU в RX 480, ограниченные планкой 1266 МГц, не настолько высоки, как можно было бы ожидать от чипа, произведенного по техпроцессу 14 нм FinFET. В конце концов, AMD утверждает, что переход с узла 28 нм на 14 нм увеличил удельную производительность в 1,7 раз, а оптимизации архитектуры довели соотношение до 2,8. Однако в данном случае неизбежно сравнение с GeForce GTX 1070, который при такой же мощности и обладая более крупным GPU достигает частот вплоть до 1683 МГц.

Производитель	AMD
Модель	Radeon HD 7970 GHz Edition	AMD Radeon R9 380X	Radeon R9 390	Radeon R9 390X	Radeon RX 470	Radeon RX 480
Графический процессор
Кодовое название	Tahiti XT2	Antigua XT (Tonga XT)	Grenada Pro (Hawaii Pro)	Grenada XT (Hawaii XT)	Polaris 11	Polaris 10
Микроархитектура	GCN 1.0	GCN 1.2	GCN 1.1	GCN 1.1	GCN 1.3	GCN 1.3
Техпроцесс, нм	28	28	28	28	14 FinFET	14 FinFET
Число транзисторов, млн	4313	5000	6200	6200	5700	5700
Тактовая частота, МГц: Base Clock / Boost Clock	1000/1050	970/—	1000/—	1050/—	НД	1120/1266
Число потоковых процессоров	2048	2048	2560	2816	2048	2304
Число текстурных блоков	128	128	160	176	128	144
Число ROP	32	32	64	64	32	32
Оперативная память
Разрядность шины, бит	384	256	512	512	256	256
Тип микросхем	GDDR5 SDRAM	GDDR5 SDRAM	GDDR5 SDRAM	GDDR5 SDRAM	GDDR5 SDRAM	GDDR5 SDRAM
Тактовая частота, МГц (пропускная способность, Мбит/с на контакт)	1500 (6000)	1425 (5700)	1500 (6000)	1500 (6000)	НД	2000 (8000)
Объем, Мбайт	3072	4096	8192	8192	4096	4096/8192
Шина ввода/вывода		PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x16
Производительность
Вычислительная мощность, FP32	4300	3973,1	5120	5913,6	>4000	5800
Производительность FP32/FP64	1/4	1/16	1/8	1/8	1/16	1/16
Пропускная способность оперативной памяти, Гбайт/с	288	182,4	384	384	НД	224
Вывод изображения
Интерфейсы (макс разрешение@частота кадров, Гц)	VGA, DL DVI, HDMI 1.4a, DisplayPort 1.2	VGA, DL DVI, HDMI 1.4a, DisplayPort 1.2	VGA, DL DVI, HDMI 1.4a, DisplayPort 1.2	VGA, DL DVI, HDMI 1.4a, DisplayPort 1.2	DL DVI, HDMI 2.0b, DisplayPort 1.3/1.4	DL DVI, HDMI 2.0b, DisplayPort 1.3/1.4
TDP, Вт	250	190	275	275	НД	150
Розничная цена на момент выпуска (рекомендованная для США, без налогов), $	500	229	329	429	НД	199/229

В качестве оперативной памяти RX 480 использует чипы GDDR5 с пропускной способностью 8 Гбит/с на контакт — это максимальная скорость, доступная сегодня для этого типа памяти, и большое подспорье для графических процессоров AMD, которые до этого момента никогда не переходили границу 6 Гбит/с в референсных продуктах. Впрочем, в этом пункте AMD сообщает кое-что мелким шрифтом: хотя референсные образцы RX 480, выпущенные AMD, комплектуются чипами 8 Гбит/с, партнерские карты имеют право опускаться вплоть до 7 Гбит/с.

Повышенная частота памяти все еще не может компенсировать уменьшенную до 256-бит ширину шины RAM в сравнении с предыдущими продуктами AMD, оснащенными 384- и 512-битными шинами памяти, но, как мы увидим далее, погрузившись в особенности архитектуры GCN нового поколения, разработчики приняли меры, чтобы компенсировать сравнительно низкую пропускную способность интерфейса за счет более эффективного использования последней.

Рекомендованная цена RX 480 для США составляет $199 за версию с 4 Гбайт RAM и 229 за версию с 8 Гбайт. Российские цены — 16 310 и 18 970 руб. соответственно.

Про модель RX 470 пока известен объем RAM (4 Гбайт), количество CU, которое позволяет рассчитать набор активных потоковых процессоров и текстурных блоков, и приблизительное быстродействие ускорителя, которое однозначно выше, чем у Radeon R9 380X, но ниже, чем у R9 390. 256-битная шина памяти осталась нетронутой, что приводит к цифрам 32 ROP. Ни энергопотребление, ни частоты, ни цену AMD пока не разглашает. Неизвестна и дата появления карт в продаже.

Что касается Radeon RX 460, то это, скорее всего, будет самая младшая из дискретных видеокарт Polaris, доступных в рознице. Известные спецификации ставят ее на один уровень с Radeon R7 260X, который в отличие от R7 360, комплектовался полнофункциональным чипом Bonaire. Ожидаемо более высокие частоты и оптимизации ядра, конечно, делают новинку быстрее предшественника, однако RX 460 сам основан на частично заблокированном GPU, в то время как полная версия ядра включает 1024 потоковых процессора и 64 текстурных блока.

Модель	Radeon R7 260X	Radeon R7 360	Radeon RX 460
Графический процессор
Кодовое название	Bonaire XTX	Tobago (Bonaire Pro)	Polaris 11
Микроархитектура	GCN 1.1	GCN 1.1	GCN 1.3
Техпроцесс, нм	28	28	14 FinFET
Число транзисторов, млн	2080	2080	НД
Тактовая частота, МГц: Base Clock / Boost Clock	1100/—	1050/—	НД
Число потоковых процессоров	896	768	896
Число текстурных блоков	56	48	56
Число ROP	16	16	16
Оперативная память
Разрядность шины, бит	128	128	128
Тип микросхем	GDDR5 SDRAM	GDDR5 SDRAM	GDDR5 SDRAM
Тактовая частота, МГц (пропускная способность, Мбит/с на контакт)	1625 (6500)	1625 (6500)	НД
Объем, Мбайт	2048	2048	2048
Шина ввода/вывода	PCI Express 3.0 x16	PCI Express 3.0 x16	PCI Express 3.0 x8
Производительность
Вычислительная мощность, FP32	1971,2	1612,8	>2000
Производительность FP32/FP64	1/16	1/16	НД
Пропускная способность оперативной памяти, Гбайт/с	104	104	НД
Вывод изображения
Интерфейсы (макс разрешение@частота кадров, Гц)	VGA, DL DVI, HDMI 1.4a, DisplayPort 1.2	VGA, DL DVI, HDMI 1.4a, DisplayPort 1.2	DL DVI, HDMI 2.0b, DisplayPort 1.3/1.4
TDP, Вт	115	100	НД
Розничная цена на момент выпуска (рекомендованная для США, без налогов), $	139	109	НД

Polaris 10 и Polaris 11

Теперь посмотрим на новые GPU более пристально. В целом, схема графических процессоров соответствует принципам, заложенным в чипе Tahiti и затем усовершенствованных в Tonga и Fiji. 64 шейдерных ALU и 4 текстурные модуля входят в Compute Unit, а групп последних (8 в Polaris 11 и 10 в Polaris 10) вместе с растеризатором и геометрическим процессором образуют наиболее крупный строительный блок GPU — Shader Engine.

Общий Front-end архитектуры составляют диспетчеры команд различного назначения (для шейдеров и вычислительной нагрузки) вместе с хранилищем Global Data Share, используемым для синхронизации работы последних. На выходе из GPU мы видим набор контроллеров памяти и большой кеш L2.

Внешнюю относительно логики GPU часть кристалла (uncore) составляют контроллер интерфейсов дисплея, блоки DMA и XDMA (используется для работы CrossFire), кодировщик/декодировщик видео и интерфейс шины PCI Express. Заметьте, что на схеме нет блока TrueAudio — для этой технологии отныне будут использоваться вычислительные ресурсы шейдерных ALU.

Архитектура GCN 4-го поколения

Процессоры Polaris представляют крупнейшее обновление архитектуры Graphics Core Next, вобравшее в себя изменения на всех стадиях графического и вычислительного конвейера GPU. Для тех читателей, которые не следили за эволюцией графики от AMD слишком внимательно, различие между Polaris и GCN 4-го поколения (в журналистской среде ходит цифровое обозначение GCN 1.3, но AMD предпочитает нумеровать итерации архитектуры отдельными поколениями) может показаться запутанным, но мы уточним, что Polaris, как и различные «острова» до этого обозначают семейства графических процессоров, а версия GCN указывает на особенности той логики, которая в микросхеме составляет собственно GPU.

Итак, вот какие свойства GCN 1.3 акцентирует AMD.

Начиная с front-end чипа, мы видим, что GCN 1.3 включает ни много ни мало, а семь планировщиков, распределяющих блоки инструкций (wavefronts в терминологии AMD, в то время как NVIDIA использует аналогичный термин warp) на исполнение в массиве Compute Units. Надо отметить, что современный вид этот раздел GPU принял еще в GCN 1.2 (Tonga и Fiji), и если AMD внесла сюда какие-либо изменения, то на блок-схеме их не заметить. Тем не менее, AMD справедливо привлекает внимание к планировщикам в Polaris сейчас.
Наличие независимых планировщиков для графики (GCP — Graphics Command Processor) и вычислений общего назначения (ACE — Asynchronous Compute Engine) начиная с первых образцов архитектуры GCN наделяет процессоры AMD возможностью выполнять шейдерные и вычислительные инструкции одновременно, а в GCN 1.2 вместо четырех из восьми блоков ACE разработчики ввели два блока HWS (Hardware Scheduler), каждый из которых функционально эквивалентен двум ACE, но также позволяет прерывать исполнение одного потока инструкций, выделяя время для более приоритетных задач. К слову, хотя HWS впервые фигурируют в описании Fiji, чип Tonga получил их раньше, что подтверждают ускорители FirePro на его основе, в которых впервые была реализована полностью аппаратная виртуализация GPU.

Аппаратные планировщики, которые AMD сохранила в кремнии, не последовав примеру NVIDIA (которая сделала обратное еще в архитектуре Kepler), требуют места на кристалле, но сейчас эта возможность, доселе мало востребованная в потребительском секторе, позволит чипам AMD засиять. Два главных тренда в игровой графике этого года — DirectX 12 и VR — делают упор на асинхронные вычисления.

Compute Unit в GCN 1.3 претерпел ряд изменений, связанных с предвыборкой и кешированием инструкций, обращениям к кешу L2, которые в совокупности повышают удельную производительность CU на 15%. Функциональное нововведение заключается в поддержке вычислений половинной точности (FP16), которые используются в программах компьютерного зрения и машинного обучения.

GCN 1.3 предоставляет прямой доступ к внутреннему набору инструкций (ISA) потоковых процессоров, за счет которого разработчики могут писать максимально «низкоуровневый» и быстрый код — в противоположность шейдерным языкам DirectX и OpenGL, абстрагированным от железа, на котором работает шейдерная программа. Функция на данный момент доступна в API DirectX 11, DX 12 и Vulkan.

Но если какой-то аспект GCN и требовал повышенного внимания со стороны инженеров AMD, то это производительность GPU в обработке геометрии, в особенности — при тесселяции высокой степени. Геометрические процессоры в GCN 1.3 способны на ранних этапах конвейера исключать полигоны нулевого размера либо полигоны, не имеющие пикселов в проекции, и получили кеш индексов, снижающий поглощение ресурсов при рендеринге мелкой дублирующейся геометрии.

Обсуждая спецификации Radeon RX 480, мы говорили, что хотя Polaris 10 обладает сравнительно небольшой пропускной способностью шины RAM для ядра данной вычислительной мощности, AMD компенсировала недостаток. И вот каким образом.

Кеш L2 удвоенного объема: с 512 Кбайт до 1 Мбайт в Bonnaire и Polaris 11 соответственно, с 1 Мбайт до 2 Мбайт в Tonga и Polaris 10. При благоприятном сценарии большой кеш позволяет достичь такой производительности обращений к данным, как если бы ПСП была увеличена на 40%.
Дельта-компрессия цвета с отношениями вплоть до 8:1. Эта методика уже была ранее в GCN 1.2 (Tonga и Fiji) и обеспечивает экономию ПСП еще в 40%.

Uncore в Polaris: кодек видео и вывод изображения

Мультмедийные функции чипов Polaris столь же соответствуют передовым стандартам, как и основная часть GPU. От Fiji новому поколению достался декодер стандарта H.265 (HEVC), способный обрабатывать поток разрешением 4К с частотой 60 Гц, а предельна частота для блока H.264 в 4К увеличена до 120 Гц. Кодировщик также приобрел совместимость со стандартом HEVC — вплоть до 60 Гц в режиме 4К (и 4К с частотой 30 Гц в формате H.264). Дополнительно в кодировщик были внесены оптимизации для быстрого кодирования в два прохода (что неизбежно для получения качественного результата).

В плане вывода изображения видеокарты Polaris совместимы с интерфейсами DisplayPort 1.3/1.4 (последний будут финализирован в будущем) и HDMI 2.0b. Это значит, что на данный момент Polaris может выводить сигнал с разрешением 5120×2880 с частотой 60 Гц посредством DisplayPort и 3840х2160 при 60 Гц через HDMI.

Конвейер дисплея поддерживает передачу цвета с глубиной 10 и 12 бит на канал и позволяет выполнять аппаратно коррекцию гамма-кривой и цветового охвата под спецификации устройства вывода изображения. Все это необходимо для совместимости с HDR-экранами — сейчас это телевизоры с интерфейсом HDMI 2.0b, а мониторы приобретут такую функциональность по завершению работ над стандартом DisplayPort 1.4.

14 нм FinFET и оптимизации энергопотребления

Как мы кратко упомянули выше, AMD увеличила производительность на ватт в 1,7 раз по сравнению с прошлой итерацией GCN за счет техпроцесса 14 нм FinFET и применения power gating и clock gating (отключения от питания и сброса частоты простаивающих вычислительных блоков).

Однако дополнительные функции управления питанием позволили повысить результат до 2,8.

Задача инженеров, работающих над каждым новым поколениям видеокарт — снизить избыточный компонент в напряжении питания GPU, который неизбежно присутствует для того, чтобы компенсировать ряд негативных факторов — вариацию в токе утечки между различными экземплярами микросхемы, не вполне предсказуемый температурный режим, старение кремния, несовершенство компьютерного БП и преобразователя напряжения на плате.

Polaris демонстрирует новый способ использования высокоскоростного канала телеметрии, передающего данные о температуре и напряжениях компонентов видеокарты ШИМ-контроллеру преобразователя напряжения, а затем — логике внутри GPU. Теперь GPU умеет мгновенно (с задержкой меньше 1 нс) сбрасывать частоту при падении питающего напряжения, вызванного скачком тока на самой видеокарте или внешними причинами. В свою очередь, обратный канал связи передает ШИМ-контроллеру текущую частоту GPU. В результате целевое напряжение на GPU удалось снизить на 5-10%.

Boot Time Calibration. При каждом запуске контроллер считывает данные с датчиков напряжения, дабы скорректировать вариации между экземплярами платы, установив минимально необходимый избыток напряжения.

Калибровка также выполняется с целью компенсировать старение кремния, поскольку со временем микросхема требует большего напряжения для стабильной работы.

Что касается схемотехники GPU, то инженеры AMD постарались максимизировать долю MBFF (Multi-bit flip-flop) — цепей, использующих общую тактующую схему для нескольких логических элементов, что в итоге привело к снижению мощности на 4-5%

Все меры, направленные на экономию ПСП в Polaris, снижающие частоту обращений к внешней памяти, благоприятно влияют и на энергопотребление интерфейса GDDR5.

AMD Radeon RX 480: конструкция

Radeon RX 480 мы изучим на примере референсного образца, произведенного AMD (хотя оригинальные версии карты уже подготовлены и, вероятнее всего, станут доступны в день запуска модели). Дизайн видеокарты выполнен в едином стиле с референсными версиями Radeon R9 Fury X и R9 Nano.

Довольно крупная система охлаждения с вентилятором радиального типа (турбинка) выходит за пределы площади печатной платы — непривычно компактной для GPU такой производительности, пусть даже с 256-битной шиной памяти. Тепло от графического процессора отводит простой алюминиевый радиатор, а чипы памяти прижаты к раме кулера через термопрокладки.

Плата

Микросхемы оперативной памяти на плате расположены с лицевой стороны. Восемь штук при общем объеме 8 Гбайт означает, что мы имеем дело не только с более скоростной, чем прежде, разновидностью GDDR5, но и более емкой — 8 Гбит на чип.

Что касается питания компонентов, то в референсном Radeon RX 480 используется шестифазная схема: 5 фаз для GPU и одна — для видеопамяти. Для дополнительного питания PCI Express плате хватает одного шестиконтактного разъема.

Следуя примеру видеокарт на процессоре Fiji, Radeon RX 480 не имеет выхода DVI и вместо этого оснащен тремя разъемами DisplayPort и одним HDMI.