Седьмого мая на мероприятии в Остине NVIDIA представила первый игровой видеоадаптер на базе GPU с архитектурой Pascal, который в то же время является первым GPU в массовой продаже, произведенным по норме 16 нм. На тот момент NVIDIA раскрыла только базовые характеристики нового флагмана и приблизительные оценки производительности в сравнении с топовыми продуктами предыдущего поколения. Сегодня истекает эмбарго на публикацию обзоров видеокарты, и мы рады поделиться с читателями как результатами нашего собственного тестирования, так и весьма подробной информацией о GeForce GTX 1080 и архитектуре Pascal в целом.
Введение: долгая дорога от 28 к 16 нм
Появление такого продукта по меркам компьютерной индустрии задержалось настолько, как вряд ли кто-либо мог предположить в то время, как с конвейера тайваньской фабрики TSMC сошли первые крупные микросхемы стандарта 28 нм, в свою очередь сменившие GPU с размером транзистора 40 нм.
Как известно, TSMC и GlobalFoundries рассматривались как подрядчики по производству графических процессоров по норме 20 нм, но GlobalFoundries в свое время отказалась от планов ввести в строй соответствующую линию, а конвейер 20 нм на TSMC рассчитан в первую очередь на компактные чипы с небольшим энергопотреблением и не обеспечивает экономически приемлемых параметров (по выходу годных кристаллов и току утечки) для процессоров, включающих несколько миллиардов транзисторов.
По слухам, NVIDIA планировала использовать стандарт 20 нм для производства GPU семейства Maxwell на определенном этапе, но в итоге данная линейка за все время своего существования производилась по норме 28 нм. Единственным исключением для Maxwell стала система на чипе Tegra X1, содержащая сравнительно компактное графическое ядро. AMD также официально заявляла, что инженеры компании успели поиграть с первыми образцами кремния стандарта 20 нм от TSMC, но ранее согласованные планы на массовое производство были свернуты – пусть даже ценой выплаты неустойки в 33 млн. долларов.
Сам по себе техпроцесс 20 нм не является принципиально ущербным с точки зрения производства крупных микросхем, как показывает пример других продуктов, выпущенных TSMC на данном узле: процессора SPARC M7, (включает свыше 10 млрд. транзисторов – больше, чем в каком-либо GPU на сегодняшний день) и FPGA-чипов Virtex (вплоть до 20 млрд. транзисторов). Но с экономической точки зрения обоим разработчикам дискретных GPU было целесообразно дождаться входа в строй производства по норме 14/16 нм с технологией FinFET, которая специально направлена на уменьшение токов утечки в полупроводниковых кристаллах.
TSMC применяет для новых GPU NVIDIA на базе архитектуры Pascal уже второе поколение данного техпроцесса – 16FF+ (FinFet Plus), которое по официальной информации характеризуется вдвое более высокой плотностью размещения транзисторов по сравнению с техпроцессом 28HPM (наиболее скоростным вариантом узла 28 нм на TSMC) и может обеспечить либо на 65% более высокие тактовые частоты, либо снижение мощности в размере 70%. Графическим процессорам все это сулит колоссальный рывок в их пользовательских характеристиках.
NVIDIA GP104 – первый игровой GPU на архитектуре Pascal
GeForce GTX 1080 – флагман «тысячной» серии игровых видеокарт NVIDIA – построен на базе GPU GP104 – второго по старшинству чипа в линейке Pascal. Хотя более крупный кристалл GP100 уже был представлен ранее в составе ускорителя вычислений Tesla P100, в потребительские продукты он придет намного позже (коль скоро первые партии Tesla P100 NVIDIA будет поставлять избранным организациям, а в OEM-каналах ускоритель появится в первом квартале 2017 года).
P104 в сравнении с P100 почти вдвое меньше по числу транзисторов и площади кристалла. Если же отталкиваться от линейки Maxwell, то новый чип занимает промежуточное положение между GM204, который NVIDIA использует в GeForce GTX 970/980, и GM200 (GeForce GTX 980 Ti и GTX 980 TITAN X) как по «физическим» параметрам кристалла, так и по количеству ядер CUDA и текстурных модулей.
Конфигурация back-end’а GP104 безошибочно определяет его позицию как последователя GM204, поскольку он также комплектуется 256-битной шиной памяти, разделенной между восемью контроллерами, и 64 блоками ROP.
С точки зрения компоновки вычислительных блоков GPU архитектура Pascal в реализации GP104 точно следует принципам, заложенным в Maxwell. Вся вычислительная логика сосредоточена в структурах под названием Graphics Processing Cluster (GPC) – их четыре в данном процессоре. Внутри GPC находится пять Stream Multiprocessors, каждый из которых включает 128 ядер CUDA, 8 текстурных модулей и секцию кэша L1, которая увеличена с 24 до 48 Кбайт сравнительно с Maxwell. Каждый GPC также включает единственный Polymorph Engine (Raster Engine на диаграмме), выполняющий первоначальные стадии рендеринга: определение граней полигонов, проекция и отсечение невидимых пикселов (здесь также есть специфические оптимизации, о которых будет рассказано ниже).
GeForce GTX 1080: технические характеристики, цена
Главное достижение техпроцесса 16 нм здесь выражается в тактовых частотах, которые выросли почти вдвое относительно GeForce GTX 980: базовая частота – 1607 МГц, Boost Clock – 1733 МГц (т.к. последняя является усредненной частотой в типичных приложениях, GTX 1080 способен кратковременно разгоняться до более высоких значений – нам предстоит выяснить на практике, насколько более высоких). Впрочем, NVIDIA сообщает, что столь серьезный прирост частот нельзя целиком отнести на счет прогрессивного техпроцесса, и создателям пришлось тщательно поработать над схемотехникой чипа с тем, чтобы какое-либо из «слабых» соединений не создавало бутылочное горлышко, ограничивающее общий частотный потенциал.
В итоге, пиковая производительность GTX 1080 в GFLOPS с одинарной точностью (FP32) существенно превышает таковую как у GTX 980 Ti, так и даже у GTX TITAN X. В играх сравнение GTX 1080 с TITAN X может оказаться даже более выгодным, так как последний в графических приложениях практически не имеет преимуществ над GTX 980 Ti, если не брать в расчет объем RAM в 12 Гбайт.
Расчеты двойной точности (FP64) процессор GP104 выполняет на скорости 1/32 от FP32 – в этом он наследует чипам второго и последующего эшелонов семейства Maxwell. Архитектура Pascal также может выполнять операции FP16 с удвоенной производительности относительно FP32, в то время как Maxwell выполняет их на такой же скорости
По энергопотреблению GeForce GTX 1080 относится к тому же классу, как и GeForce GTX 980 – 180 Вт. Опираясь на эти данные и заявленную производительность в TFLOPS для GTX 980 и GTX 1080, мы получаем прирост энергоэффективности Pascal в 63% по сравнению с Maxwell.
Объем RAM составляет 8 Гбайт типа GDDR5X – объем, который ранее был прерогативой видеокарт AMD на базе GPU Hawaii, обладающих 512-битной шиной памяти.
Как и Maxwell, GeForce GTX 1080 обладает наиболее широкой среди GPU на рынке поддержкой новых функций рендеринга в стандарте DirectX 12 (feature level 12_1).
Видеокарта поступает в продажу сегодня по рекомендованной цене $599 для рынка США (без налога на продажи). Более высокую цену ($699) получила версия GTX 1080 под названием Founder’s Edition, представляющая собой референсный образец, который выпускает сама NVIDIA. Данный факт уже вызвал определенное непонимание в массах, и в отдельном разделе статьи мы расскажем, почему NVIDIA поступила таким образом. Но сперва изучим более подробно архитектуру GeForce GTX 1080.
GDDR5X
Мы переходим к еще одной особенности GeForce GTX 1080, которая сделала эту модель первой в своем роде – поддержке памяти GDDR5X. В этом качестве GTX 1080 какое-то время будет единственным продуктом на рынке, поскольку уже известно, что GeForce GTX 1070 будет укомплектован стандартными чипами GDDR5. В сочетании с новыми алгоритмами компрессии цвета (об этом также чуть позже) высокая ПСП (пропускная способность памяти) позволит GP104 более эффективно распоряжаться имеющимися вычислительными ресурсами, чем это могли себе позволить продукты на базе чипов GM104 и GM200.
JEDEC выпустила финальные спецификации нового стандарта лишь в январе текущего года, а единственным производителем GDDR5X на данный момент является компания Micron. На 3DNews не было отдельного материала, посвященного этой технологии, поэтому мы кратко опишем те нововведения, которые приносит GDDR5X, в данном обзоре.
Протокол GDDR5X имеет много общего с GDDR5 (хотя электрически и физически те и другие чипы различаются) – в отличие от памяти HBM, которая представляет собой принципиально другой тип, что делает делает практически неосуществимым сосуществование с интерфейсом GDDR5(X) в одном GPU. По этой причине GDDR5X называется именно так, а не, к примеру, GDDR6.
Одно из ключевых различий между GDDR5X и GDDR5 состоит в возможности передачи четырех бит данных на одном цикле сигнала (QDR – Quad Data Rate) в противоположность двум битам (DDR – Double Data Rate), как это было во всех предшествующих модификациях памяти DDR SDRAM. Физические же частоты ядер памяти и интерфейса передачи данных располагаются приблизительно в том же диапазоне, что у чипов GDDR5.
А чтобы насытить данными возросшую пропускную способность чипов, в GDDR5X применяется увеличенная с 8n до 16n предвыборка данных (prefetch). При 32-битном интерфейсе отдельного чипа это означает, что контроллер за один цикл доступа к памяти выбирает уже не 32, а 64 байта данных. В итоге результирующая пропускная способность интерфейса достигает 10-14 Гбит/с на контакт при частоте CK (command clock) 1250-1750 МГц – именно эту частоту показывают утилиты для мониторинга и разгона видеокарт – такие, как GPU-Z. По крайней мере, сейчас в стандарт заложены такие показатели, но в будущем Micron планирует достигнуть чисел вплоть до 16 Гбит/с.
Следующее преимущество GDDR5X состоит в увеличенном объеме чипа – с 8 до 16 Гбит. GeForce GTX 1080 комплектуется восемью чипами по 8 Гбит, но в дальнейшем производители графических карт смогут удвоить объем RAM по мере появления более емких микросхем. Как и GDDR5, GDDR5X допускает использование двух чипов на одном 32-битном контроллере в так называемом clamshell mode, что в результате дает возможность адресовать 32 Гбайт памяти на 256-битной шине GP104. Кроме того, стандарт GDDR5X помимо равных степени двойки описывает объемы чипа в 6 и 12 Гбит, что позволит варьировать общий объем набортной памяти видеокарт более «дробно» – например, оснастить карту с 384-битной шиной RAM чипами на суммарные 9 Гбайт.
Вопреки ожиданиям, которые сопровождали первую информацию о GDDR5X, появившуюся в открытом доступе, энергопотребление нового типа памяти сравнимо с таковым у GDDR5 либо лишь немного превышает последнее. Чтобы компенсировать возросшую мощность на высоких значениях пропускной способности, создатели стандарта снизили питающее напряжение ядер с 1,5 В, стандартных для GDDR5, до 1,35 В. Кроме того, стандарт в качестве обязательной меры вводит управление частотой чипов в зависимости от показателей температурного датчика. Пока неизвестно, насколько новая память в действительности зависима от качества теплоотвода, но не исключено, что мы теперь чаще будем видеть на видеокартах системы охлаждения, обслуживающие не только GPU, но и чипы RAM, в то время как производители карт на базе GDDR5 в массе своей пренебрегают этой возможностью.
Может возникнуть впечатление, что переход с GDDR5 на GDDR5X был несложной задачей для NVIDIA в силу родства данных технологий. К тому же, GeForce GTX 1080 комплектуется памятью с наименьшей пропускной способностью, определенной стандартом – 10 Гбит/с на контакт. Однако практическая реализация нового интерфейса сопряжена с рядом инженерных трудностей. Передача данных на столь высоких частотах потребовала тщательной разработки топологии шины данных на плате с целью минимизировать наводки и затухание сигнала в проводниках.
Результирующая пропускная способность 256-битной шины в GeForce GTX 1080 составляет 320 Гбайт/с, что несущественно меньше скорости 336 Гбайт/с, которой характеризуется GeForce GTX 980 Ti (TITAN X) с его 384-битной шиной GDDR5 при 7 Гбит/с на контакт.
Улучшенная компрессия цвета
Архитектура Pascal привнесла новые алгоритмы дельта-компрессии цвета наряду с компрессией 2:1, которую используют предыдущие семейства GPU NVIDIA (которая также была сделана более эффективной в Pascal). В целом, смысл дельта-компрессии состоит в том, чтобы обнаружить группы соседних пикселов, слабо отличающихся по цвету, и кодировать их цвет в виде опорного (reference) значения и отступлений от последнего (собственно, дельта). В Pascal появился алгоритм 4:1, работающий на еще более тонких градиентах, а также комбинированный режим 8:1, позволяющий взять два блока, сжатых по схеме 4:1 и отобразить в виде опорного значения и дельты между ними – что в итоге обеспечивает восьмикратное сжатие данных.
В сравнении GeForce GTX 980 и GTX 1080 эти меры обеспечивают эффективное увеличение ПСП на 20% поверх 40%, которые принес новый тип памяти с итоговым результатом в 70%. На скриншотах ниже фиолетовой заливкой отмечены пикселы, подвергшиеся компрессии на GPU семейств Maxwell и Pascal.
Теперь мы закончили с описанием общих архитектурных особенностей GeForce GTX 1080 и переходим к более специфическим функциям. Помимо улучшенной производительности, которую обеспечила более прогрессивная производственная норма и новый тип памяти, Pascal принес массу нововведений, заслуживающих обстоятельного рассказа.
Simultaneous Multi-Projection
Выше мы отметили, что NVIDIA внесла определенные модификации в блок обработки геометрии GPU. SMP в Pascal представляет собой расширенный вариант данной функции, ранее внедренный в Maxwell. Предыдущие GPU NVIDIA могли одновременно проецировать геометрию сцены на перпендикулярные плоскости, составляющие куб, – это используется для формирования вокселов в технологии глобального освещения VGXI (более подробно об этом вы можете прочитать в обзоре GeForce GTX 1080).
Теперь PolyMorph Engine может создавать одновременно вплоть до 16 проекций (viewport’ов), размещенных произвольным образом, и сфокусированных на одной или двух точках, сдвинутых по горизонтальной оси относительно друг друга. Данные преобразования выполняются исключительно в «железе», и не вызывают снижения производительности как такового.
У этой технологии есть два вполне предсказуемых применения. Первое – это шлемы VR. За счет двух центров проекции Pascal может создавать стерео-изображение за один проход (впрочем, речь идет только о геометрии – GPU по-прежнему придется совершить вдвое больше работы, чтобы выполнить растеризацию текстур в двух кадрах).
Кроме того, SMP позволяет на уровне геометрии выполнять компенсацию искажения картинки, которую вносят линзы шлема. Для этого изображения для каждого глаза формируется четырьмя отдельными проекциями, которые затем склеиваются в плоскость с применением фильтра пост-обработки. Таким образом не только достигается геометрическая точность итогового изображения, но и снимается необходимость в обработке 1/3 пикселов, которые в противном случае все равно были бы потеряны при финальной коррекции стандартной плоской проекции под кривизну линз.
Единственная оптимизация для VR, которой обладал Maxwell, состояла в том, что периферические зоны изображения, которые компрессируются наиболее сильно для вывода через линзы, могли рендериться с пониженным разрешением, что давало экономию пропускной способности лишь на 10-15%.
Следующая область, в которой востребована функция SMP, – это мультимониторные конфигурации. Без SMP изображение на нескольких состыкованных дисплеях представляет собой плоскость с точки зрения GPU, и выглядит геометрически корректно при условии, что экраны перед зрителем выстроены в линию, но стыковка под углом уже не выглядит корректно – как если бы вы просто согнули в нескольких местах большую фотографию. Не говоря уже о том, что в любом случае зритель видит именно плоское изображение, а не окно в виртуальный мир: если повернуть голову к боковому экрану, объекты в нем останутся растянутыми, так как виртуальная камера по-прежнему смотрит в центральную точку.
С помощью SMP драйвер видеокарты может получить информацию о физическом расположении нескольких экранов с тем, чтобы проецировать изображение для каждого из них через собственный viewport, что в конечном счете функционально приближает мультимониторную сборку к полноценному «окну».
Переработанный интерфейс SLI
В то время как AMD в конфигурациях из нескольких GPU перешла на синхронизацию по шине PCI Express, NVIDIA по-прежнему использует в SLI отдельный интерфейс. Однако от публичного внимания ускользнул тот факт, что при достаточно высоких разрешениях экрана GPU NVIDIA также обмениваются частью данных посредством PCI Express. Это говорит о том, что в такой форме, которая была реализована в предшествующих архитектурах NVIDIA, SLI уже исчерпала лимит своей пропускной способности. Насколько нам известно, он составляет 1 Гбайт/с, чего уже недостаточно для обмена кадрами в разрешении 3840х2160 с частотой 60 Гц.
Но вместо того, чтобы полностью перейти на PCI Express, в Pascal переработали существующий интерфейс. Традиционно, видеокарта NVIDIA обладает двумя соединениями SLI, которые работают одновременно для связи GPU с его соседями в тройной или четверной конфигурации, но для передачи данных в двухпроцессорной связке используется только один канал. Использовать два канала в тандеме GPU – самый очевидный путь увеличения производительности, и в Pascal произошло именно это.
NVIDIA также выпустила специальный мостик, существующий в нескольких версиях различной длины, который обладает улучшенными физическими характеристиками для работы интерфейса на повышенной с предыдущих 400 МГц до 650 МГц частоте. Ранее выпущенные мостики также могут быть автоматически разогнаны при условии, что обеспечивают достаточно качественный сигнал. В частности, для этого годятся жесткие мостики с подсветкой, выпускаемые некоторыми производителями видеокарт. Впрочем, последние не имеют двойного разъема для соединения двух GPU, поэтому новый фирменный мостик остается единственным решением, рекомендованным для разрешений класса 5К и мультимониторных конфигураций.
Естественно, системы с тремя и четырьмя GPU не могут использовать двойное соединение. Более того, NVIDIA официально отказалась от поддержки SLI с более, чем двумя GPU в Pascal, поскольку масштабирование производительнсти в последних исторически было довольно ограниченным. Хотя для энтузиастов остается лазейка: на грядущей веб-страничке NVIDIA можно будет скачать файл Enthusiast Key и затем установить в прошивку каждой видеокарты, чтобы разблокировать данную функцию.
NVIDIA также прокомментировала ситуацию с поддержкой множественных GPU в DirectX 12. Существуют три режима: MDA (Multi Display Adapter) и LDA (Linked Display Adapter) в вариациях Implicit и Explicit. Режим MDA обеспечивает наибольшую гибкость за счет того, что приложение самостоятельно адресует отдельные GPU, которых может быть сколь угодно много, и даже с различными характеристиками и от различных производителей.
Режим LDA в целом предназначен для одинаковых или похожих GPU и позволяет, среди прочего, объединить оперативную память последних в общий пул (в то время как в DX11 драйвер отображает сборку SLI/CrossFire как одну видеокарту с объемом памяти, равным таковому у каждого из компонентов сборки). При этом, разумеется, данные, запрошенные из памяти соседнего GPU, передаются по сравнительно медленной шине PCI Express.
LDA Explicit также позволяет разработчику использовать любое количество графических процессоров, но, в отличие от MDA, здесь задействуются мостики SLI. В варианте Implicit синхронизацией GPU занимается драйвер видеокарты – таким образом SLI работала в эпоху, предшествующую DirectX 12.
Новые возможности вывода изображения
NVIDIA расширила возможности выделенного декодера, совместимого со стандартом HEVC (H.265), который впервые появился в GeForce GTX 960. Pascal теперь поддерживает декодирование видеопотока с глубиной цвета 10/12 бит на канал, а также появилась возможность кодирования в HEVC (также с 10-битным цветом).
Увеличенная глубина цвета используется для отображения более широкого цветового пространства по сравнению со стандартным sRGB, и расширенного динамического диапазона яркости (HDR) – на экранах ТВ, которые физически обладают такими характеристиками и поддерживают интерфейс HDMI 2.0b, впервые внедренный в GPU от NVIDIA. Компьютерные мониторы смогут принимать метаданные HDR по интерфейсу DisplayPort 1.4, который будет финализирован в будущем, но также уже поддерживается в Pascal.
Pascal готов к поддержке формата 8К: при использовании двух кабелей DP 1.3 достижимо разрешение вплоть до 7680×4320 при частоте 60 Гц.
Fast Sync
И еще одно нововведение, которое Pascal получил на уровне драйвера: еще один режим вертикальной синхронизации в дополнение к Adaptive Sync и G-Sync, которые NVIDIA представила ранее – Fast Sync. В сущности, этот режим ничем не отличается от тройной буферизации, которая доступна в API OpenGL, но отсутствует в DirectX. Мы когда-то писали о том, как это работает, в обзоре технологии G-Sync.
Вкратце, задача тройной буферизации в том, чтобы отделить процесс рендеринга новых кадров в конвейере GPU от сканирования изображения из кадрового буфера за счет того, что видеокарта может создавать новые кадры со сколь угодно высокой частотой, записывая их в два сменяющихся кадровых буфера. При этом содержимое самого последнего кадра с частотой, кратной частоте обновления экрана, копируется в третий буфер, откуда монитор может его забрать без разрывов картинки. Таким образом, кадр, который попадает на экран, в момент начала сканирования всегда содержит последнюю информацию, которую произвел GPU.
Тройная буферизация наиболее полезна для мониторов с частотой обновления экрана 50-60 Гц. При частотах 120-144 Гц, как мы уже писали в статье, посвященной G-Sync, включение вертикальной синхронизации уже, в принципе, увеличивает латентность несущественно, но Fast Sync уберет ее до минимума.
Если вы задаетесь вопросом, как Fast Sync соотносится с G-Sync (и ее аналогом Free Sync от AMD – но это чисто теоретический вопрос, т.к. NVIDIA поддерживает только свой вариант), то G-Sync снижает латентность в ситуации, когда GPU не успевает произвести новый кадр к моменту начала сканирования, а Fast Sync – напротив, снижает латентность, когда частота обновления кадров в конвейере рендеринга выше частоты обновления экрана. К тому же, эти технологии могут работать совместно.
GeForce GTX 1080 Founder’s Edition: конструкция
GeForce GTX 1080 Founder’s Edition: плата
Следующая страница →