Войти

3D-видео и мониторы

Nvidia Geforce GTX 980

Последователь Geforce GTX 680, обгоняющий даже GTX 780 Ti

Содержание

Представляем базовый детальный материал с исследованием Nvidia Geforce GTX 980 на основе референс-карты.

Справочные материалы

Объект исследования: Ускоритель трехмерной графики (видеокарта) Nvidia Geforce GTX 980 4096 МБ 256-битной GDDR5 PCI-E

Сведения о разработчике: Компания Nvidia Corporation (торговая марка Nvidia) основана в 1993 году в США. Штаб-квартира в Санта-Кларе (Калифорния). Разрабатывает графические процессоры, технологии. До 1999 года основной маркой была Riva (Riva 128/TNT/TNT2), с 1999 года и по настоящее время — Geforce. В 2000 году были приобретены активы 3dfx Interactive, после чего торговые марки 3dfx/Voodoo перешли к Nvidia. Своего производства нет. Общая численность сотрудников (включая региональные офисы) около 5000 человек.

Часть 1: Теория и архитектура

Уже довольно давно компания Nvidia не обновляла графическую архитектуру в своих топовых решениях. Модель Geforce GTX 680, выпущенная весной 2012 года, стала первой видеокартой с архитектурой Kepler, потом появились и более мощные решения GTX 780 (Ti) на базе более мощных GPU той же архитектуры, но еще в далеком 2012 году мы узнали из планов компании, что следующая архитектура Nvidia будет называться Maxwell. И в начале весны текущего года компания слегка удивила, выпустив не топовое решение на основе графического процессора новой архитектуры, а сравнительно слабое — на основе чипа GM107, предназначенного, скорее, для ноутбуков.

Выпуск такого первого чипа Maxwell объясняется сразу несколькими причинами. Во-первых, сейчас все большее значение приобретают мобильные устройства (ноутбуки, планшеты и т. п.), а эта архитектура стала для Nvidia первой, которая разрабатывалась изначально с учетом ее использования в том числе в мобильных чипах. В том числе поэтому основной целью Maxwell стало достижение максимальной энергоэффективности. Новая архитектура разрабатывалась с видением того, что портативные устройства стали важны как минимум не меньше настольных, а в мобильных чипах энергоэффективность стоит на первом месте.

К этому добавились и задержки в развитии технологических процессов на фабриках компании TSMC. Вполне возможно, что Maxwell изначально планировался к выпуску уже на техпроцессе 20 нм, но первые чипы пришлось выпустить по старым добрым нормам 28 нм. Всем компаниям-партнерам TSMC пришлось поменять свои планы и стараться добиться прогресса, используя те же 28 нм, то есть без значительного увеличения количества транзисторов и потребления ими энергии. На примере GM107 мы уже знаем, что в Maxwell смогли выжать из существующих возможностей очень многое, новая графическая архитектура компании Nvidia улучшила функциональность, производительность и энергоэффективность.

Хотя видеокарты предыдущей архитектуры Kepler также имеют неплохие производительность и энергоэффективность, но первый же GPU Maxwell показал, что можно добиться и большего. Первое поколение новой архитектуры получило несколько архитектурных изменений для увеличения производительности и энергоэффективности. Несмотря на довольно низкое потребление энергии видеокартами на основе GM107, высокая эффективность новой архитектуры позволила видеокарте модели Geforce GTX 750 Ti показывать неплохую производительность почти на уровне некогда бывшей топовой модели Geforce GTX 480. По сравнению с платами предыдущего поколения, новинка показала до двух раз лучшие показатели энергоэффективности, и это настраивает на позитив и в отношении более мощного чипа и решений на его основе, старшее из которых мы сегодня и рассмотрим.

Вышедшие сегодня модели видеокарт Geforce GTX 980 и GTX 970 основаны на новом чипе верхнего ценового диапазона (но шансы на еще более мощный GPU семейства Maxwell все же остаются) с наименованием GM204 — как видно из его названия, это уже второе поколение архитектуры, и графический процессор большей мощности, по сравнению с GM107. При потреблении энергии лишь в 145-165 Вт в зависимости от модели видеокарты, новинки должны обеспечивать производительность на уровне топовых решений на GPU прошлого поколения с куда большим потреблением энергии.

Но не одной высокой производительностью и эффективностью отличается графический процессор GM204. Кроме этого, в нем появились и новые возможности: улучшенные и совершенно новые методы полноэкранного сглаживания MFAA и DSR, специальная аппаратная поддержка для ускорения одного из самых многообещающих методов глобального освещения VXGI и т.д. Да и уже давно известные нам возможности вроде G-Sync никуда не исчезли.

Одной из самых важных задач при создании GM204 было обеспечение высокой производительности и качества рендеринга в самом высоком разрешении. Последнее важно, так как долгое время игроки на ПК были ограничены разрешением FullHD (1920x1080 пикселей), а теперь на рынок постепенно начинают выходить 4K-мониторы. Пока что они еще дороги, но уже есть несколько дешевых моделей, за которыми последуют и другие. Для того, чтобы подготовиться к возрастающим требованиям, GM204 был специально оптимизирован для обеспечения высочайшей производительности в таких условиях, а также получил поддержку новой версии HDMI 2.0.

Но и энергоэффективность в любом случае весьма важна, так как основным ограничителем скорости является предел по питанию GPU. И надо сказать, что Maxwell обеспечивает потрясающую энергоэффективность, по сравнению с Kepler, который для своего времени тоже был весьма неплох. При кратком сравнении Geforce GTX 680 и GTX 980, можно увидеть в среднем почти двукратный прирост в показателях количества кадров в секунду, получаемых на единицу потребляемой энергии.

В общем, новые модели Geforce GTX 980 и GTX 970 совершенно точно отлично подойдут для всех самых современных игр с любыми настройками качества и в любом разрешении, включая 2560x1600 и 4K, в том числе — с включенным полноэкранным сглаживанием. Впрочем, для самых требовательных игровых проектов и разрешения 4K может понадобиться уже две такие карты, работающие в режиме SLI.

Новые видеокарты могут стать отличным апгрейдом для пользователей устаревающих систем. Согласно статистике Steam Survey, 68% владельцев видеокарт Geforce из верхнего ценового диапазона имеют в составе своих систем модели Geforce GTX 600 и старше, вроде весьма популярных в свое время моделей GTX 680 и GTX 670. Так что для них возможность обновления на гораздо более мощные GTX 980 и GTX 970 вполне реальна, особенно если существует или вскоре появится необходимость в более высоких разрешениях.

Рассматриваемые сегодня новые модели видеокарт компании Nvidia, основаны на втором графическом процессоре архитектуры «Maxwell», которая в деталях схожа с предыдущей архитектурой «Kepler» и даже местами с «Fermi», а о них мы уже неоднократно рассказывали. Так что перед прочтением данного материала полезно ознакомиться с ранними статьями о различных моделях видеокарт компании Nvidia:

[12.03.14] Nvidia Geforce GTX 750 Ti — Maxwell начинает с малого... несмотря на Maxwell
[18.03.13] Nvidia Geforce Titan — новый однопроцессорный флагман 3D-графики игрового класса
[22.03.12] Nvidia Geforce GTX 680 — новый однопроцессорный лидер 3D-графики
[27.03.10] Nvidia Geforce GTX 480: архитектура нового графического процессора изнутри; как реализована поддержка DirectX 11

Рассмотрим подробные характеристики анонсированных сегодня видеоплат новой серии Geforce GTX 900, основанных на графическом процессоре GM204.

Графические ускорители серии Geforce GTX 900
Параметр	Значение
Кодовое имя чипа	«GM204»
Технология производства	28 нм
Количество транзисторов	5,2 млрд.
Площадь ядра	398 мм²
Архитектура	Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX	DirectX 12, в том числе шейдерной модели Shader Model 5.0
Шина памяти	256-битная, четыре независимых контроллера памяти шириной по 64 бита с поддержкой GDDR5-памяти
Частота графического процессора	1126(1216) МГц
Вычислительные блоки	16 потоковых мультипроцессоров, включающих 2048 скалярных ALU для расчетов с плавающей запятой одинарной и двойной точности в рамках стандарта IEEE 754-2008;
Блоки текстурирования	128 блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP)	4 широких блока ROP (64 пикселей) с поддержкой различных режимов сглаживания, в том числе при FP16- или FP32-формате буфера кадра. Каждый блок состоит из массива конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг
Поддержка мониторов	Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0 и DisplayPort 1.2

Спецификации референсной видеокарты Geforce GTX 980
Параметр	Значение
Частота ядра	1126(1216) МГц
Количество универсальных процессоров	2048
Количество текстурных блоков	128
Количество блоков блендинга	64
Эффективная частота памяти	7000 (4×1750) МГц
Тип памяти	GDDR5
Шина памяти	256 бит
Объем памяти	4 ГБ
Пропускная способность памяти	224 ГБ/с
Вычислительная производительность (FP32)	4,6 терафлопс
Теоретическая максимальная скорость закраски	72,1 гигапикселей/с
Теоретическая скорость выборки текстур	144,1 гигатекселей/с
Шина	PCI Express 3.0
Разъемы	Один разъем Dual Link DVI, один HDMI 2.0 и три DisplayPort 1.2
Энергопотребление	до 165 Вт
Дополнительное питание	Два 6-контактных разъема
Число слотов, занимаемых в системном корпусе	2
Рекомендуемая цена	$549 (США), 23990 руб (Россия)

Спецификации референсной видеокарты Geforce GTX 970
Параметр	Значение
Частота ядра	1050(1178) МГц
Количество универсальных процессоров	1664
Количество текстурных блоков	104
Количество блоков блендинга	64
Эффективная частота памяти	7000 (4×1750) МГц
Тип памяти	GDDR5
Шина памяти	256 бит
Объем памяти	4 ГБ
Пропускная способность памяти	224 ГБ/с
Вычислительная производительность (FP32)	4,0 терафлопс
Теоретическая максимальная скорость закраски	67,2 гигапикселей/с
Теоретическая скорость выборки текстур	109,2 гигатекселей/с
Шина	PCI Express 3.0
Разъемы	Один разъем Dual Link DVI, один HDMI 2.0 и три DisplayPort 1.2
Энергопотребление	до 145 Вт
Дополнительное питание	Два 6-контактных разъема
Число слотов, занимаемых в системном корпусе	2
Рекомендуемая цена	$329 (США), 14990 руб (Россия)

Новые модели видеокарт Geforce GTX 980 и GTX 970 получили вполне привычные имена для решений Nvidia. Единственное, что не совсем понятен пропуск серии GTX 800, но в мобильных решениях такие модели уже были, поэтому ее, наверное, и решили пропустить. Соответственно, в обновленной продуктовой линейке компании GTX 980 располагается на самом верху одночиповых игровых решений, а GTX 970 — на ступеньку ниже. Немудрено, что модели GTX 780 Ti, GTX 780 и GTX 770 с момента анонса новинок перестают выпускаться, так как в них просто не остается смысла (к эксклюзивным сериям типа Titan это не относится).

Рекомендованные цены на новинки составляют $549 и $329 для GTX 980 и GTX 970, соответственно. Можно было бы ожидать и меньших цен, так как и платы и GPU довольно простые, но, так как Nvidia любит зарабатывать сама и дает это делать партнерам, то они на это и нацелились, что вполне привычно для компании. Что касается решений конкурента — компании AMD — то новые Geforce имеют соперников из линейки Radeon в виде моделей R9 290X и R9 290, хотя по сложности и потреблению энергии видеочип GM204 и платы серии GTX 900 скорее близки к Tonga и R9 285, соответственно.

Две новые модели Nvidia сделаны на базе чипа GM204 и имеют 256-битную шину памяти, поэтому объем установленной на них видеопамяти теоретически мог быть равным 2 или 4 ГБ. В случае топовой модели было принято логичное решение по установке 4 ГБ памяти, и этот объем идеально подходит для современных топовых решений, которые работают в условиях сверхтребовательных 3D-приложений, максимальных настроек качества и самых высоких разрешений.

Референсные платы Geforce GTX 980 и GTX 970 имеют стандартную длину в 10,5 дюймов (267 мм), для дополнительного питания используются два 6-контактных разъема PCI-E. Плата дизайна Nvidia имеет три DisplayPort 1.2 разъема, один Dual Link DVI и порт HDMI 2.0. GM204 также стал первым графическим процессором с поддержкой вывода изображения по HDMI 2.0 — новая версия стандарта позволяет выводить полноценное 4K-разрешение с частотой обновления вплоть до 60 Гц.

Из-за активного распространения устройств вывода изображения с 4K-разрешением, в первый «большой» чип Maxwell была добавлена поддержка разрешений вплоть до 5K (5120x3200 пикселей при 60 Гц), и можно подключить до четырех дисплеев с разрешением 4K по Multi-Stream Transport (MST) — у Kepler была поддержка лишь двух таких дисплеев.

Уровень типичного энергопотребления у видеокарты Geforce GTX 980 составляет всего лишь 165 Вт, что значительно меньше даже 190 Вт у Radeon R9 285, не говоря уже о 275 Вт у ценовых конкурентов в лице Radeon R9 290(X). Для дополнительного снабжения энергией в Geforce GTX 980 и GTX 970 используется пара 6-контактных разъемов дополнительного питания.

Но набор портов вывода изображения и разъемов питания справедливы лишь для видеокарт референсного дизайна. Производители выпустят и собственные варианты Geforce GTX 980 и GTX 970, отличающиеся как дизайном плат и систем охлаждения, так и системами питания и работой на повышенных частотах. К слову, чтобы обеспечить стабильную работу в режиме разгона, для старшей модели серии внедрили специальную балансирующую схему питания, которая обеспечивает GPU питанием от трех источников: по шине PCI Express и по каждому из двух дополнительных 6-контактных разъемов.

В нормальных условиях GPU получает энергию со всех трех источников, но в режиме разгона может получиться так, что по одному из них потребуется больше питания, чем он способен выдать, что может вызвать проблемы со стабильностью работы. Балансирующая схема будет отбирать недостающую в таких случаях энергию от других источников. Эта возможность использовалась ранее на Geforce GTX 780 Ti и есть на GTX 980, но не на GTX 970 референсного дизайна, схема питания которой несколько проще.

Архитектура

Видеокарты семейства Geforce GTX 900 основаны на совершенно новом графическом процессоре GM204, который относится уже ко второму поколению Maxwell (в рамках первого был выпущен лишь один чип GM107). В процессе переноса архитектуры Kepler в мобильный чип Tegra K1, инженеры Nvidia научились тому, как можно снизить потребление энергии GPU и получить большую производительность из архитектуры при имеющихся ограничениях по потреблению, и этот опыт применили в Maxwell.

Инженеры компании проделали очень большую работу для увеличения эффективности всех внутренних блоков нового GPU. Большая энергоэффективность новой архитектуры достигается при помощи лучшей загрузки имеющихся вычислительных возможностей, в ней было сделано достаточно большое количество изменений, так что архитектуру вполне можно назвать абсолютно новой, хотя она явно схожа в некоторых деталях с предыдущими.

Как Fermi и Kepler, да и архитектурный первенец GM107, новый чип GM204 состоит из кластеров графической обработки Graphics Processing Cluster (GPC), которые содержат по несколько потоковых мультипроцессоров (в данном случае — SMM). Каждый кластер GPC содержит выделенный движок растеризации и по четыре мультипроцессора SMM. В свою очередь, каждый мультипроцессор состоит из 128 вычислительных блоков CUDA, блока обработки геометрии PolyMorph и восьми блоков текстурирования (TMU).

Модель Geforce GTX 980 является верхним представителем линейки, основанным на полноценном чипе GM204, содержащем четыре кластера GPC и 16 мультипроцессоров SMM. В целом это составляет 2048 потоковых процессоров CUDA и 128 блоков TMU. Geforce GTX 970 же содержит те же четыре GPC, но в которых отключены три из имеющихся шестнадцати мультипроцессоров. То есть, в итоге «урезанный» чип имеет 1664 потоковых процессора и 104 блока TMU. В будущем возможен выход и других моделей видеокарт Nvidia, основанных на этом же GPU, но с иным количеством активных исполнительных блоков.

Обе модели линейки Geforce GTX 900 имеют по четыре 64-битных контроллера памяти, что в сумме составляет 256-битную шину памяти. К каждому контроллеру памяти «привязаны» по 16 блоков ROP и 512 КБ кэш-памяти второго уровня, что в целом составляет 64 блока ROP и 2048 КБ кэша (сравните с 32 блоками ROP и 512 КБ кэша у аналогичного чипа GK104 предыдущего поколения — разница налицо).

В архитектуре Maxwell применяются абсолютно новые потоковые мультипроцессоры (Streaming Multiprocessor — SM), которые имеют как лучшую энергоэффективность, так и производительность по отношению к площади чипа. Несмотря на то, что дизайн мультипроцессоров SMX в Kepler и так был достаточно эффективным, при разработке нового GPU архитекторы увидели возможности для улучшения и серьезно модифицировали мультипроцессоры в Maxwell. В SMM были улучшены блоки управления и планирования, распределение загрузки между блоками, количество выдаваемых на исполнение инструкций за такт и многое другое.

Организация мультипроцессоров серьезно изменилась. Каждый мультипроцессор GM204 разделен еще на четыре отдельных логических вычислительных раздела, каждый из которых имеет свой буфер инструкций, планировщик варпов и состоит из 32 вычислительных ядер. В чипах архитектуры Kepler каждый мультипроцессор SMX содержит управляющую логику, которая распределяет и планирует работу и обмен данными для 192 вычислительных ядер, поэтому управляющий блок довольно сложен сам по себе. В архитектуре Maxwell было принято решение разделить мультипроцессор SMM на вычислительные блоки, каждый из которых содержит собственный блок управления, обслуживающий лишь 32 ядра и поэтому более простой.

Таким образом, проектировщики Maxwell добились разделения одной сложной задачи планирования и управления на несколько значительно более простых, а часть управляющей блоками работы при этом делается программно, при помощи компилятора. Разделение вычислительных блоков упростило общий дизайн и управляющую логику чипа, снизило задержки, площадь чипа и потребляемую им энергию.

Количество ALU на планировщик, кратное степени двойки, упрощает задачу, так как каждый из планировщиков варпов отправляет инструкции на исполнение выделенному набору ALU, равному размеру варпа (32). Каждый планировщик варпов также умеет выдавать по две инструкции, вроде отправки на исполнение математической операции в ALU и операции с памятью в блок load/store unit (LSU) за один такт — dual-issue. Впрочем, даже отправка одной команды достаточна для полной загрузки работой всех вычислительных ядер, в отличие от Kepler, где использование вычислительных ресурсов при одинарной точности вычислений было недостаточно эффективным из-за некоторых ограничений в блоках планирования.

Общими в SMM остались лишь текстурные модули и FP64-блоки, а FP32-блоки, блоки специальных инструкций (special function unit — SFU) и блоки загрузки-сохранения (load/store unit — LSU) выделены для каждого раздела. Такое решение хорошо с точки зрения эффективности, ведь общие ресурсы хороши только тогда, когда они загружены работой, а при ее (частичном) отсутствии они просто занимают место на чипе и потребляют энергию. Не говоря о том, что соединения между ними также дорого обходятся с точки зрения площади чипа и потребления, так как требуется дополнительная работа по планированию и координации работы всех блоков.

По сравнению с Kepler изменилась и организация подсистемы памяти и кэширования данных. SMM содержат по 96 КБ собственной общей памяти, а L1-кэш перенесен в общее пользование вместе с текстурным кэшем. В результате всех этих изменений, каждое CUDA-ядро в новом чипе примерно на 40% быстрее и вдвое энергоэффективнее, по сравнению с аналогом из Kepler. А более эффективное использование площади чипа привело к тому, что архитектура Maxwell позволила значительно увеличить количество потоковых ядер в GM204.

Если сравнить Geforce GTX 980 (GM204) и GTX 680 (GK104), то видно, что новинка имеет вдвое большее количество мультипроцессоров из-за нового их дизайна в рамках архитектуры Maxwell. А так как каждый из мультипроцессоров содержит собственные движки обработки геометрии PolyMorph, то GTX 980 также и вдвое быстрее обрабатывает геометрические данные.

Тесселяция является одной из самых важных особенностей DirectX 11 и геометрическая производительность будет играть важную роль в будущих игровых проектах, изначально предназначенных для консолей текущего поколения и современных ПК. В самых простых условиях новый GM204 обрабатывает геометрию вдвое быстрее, чем GK104, а в сложных его преимущество доходит до трехкратного:

А вот количество текстурных блоков осталось неизменным — у обоих чипов их по 128 в целом. Для Maxwell было выбрано количество TMU на мультипроцессор, равное 8 штукам. И лишь из-за повышенной частоты GPU, новинка по текстурной производительности на 12% быстрее своего предшественника — к слову, это самый слабый параметр нового GPU. Зато было удвоено количество блоков ROP: от 32 до 64 штук, что очень важно в условиях высоких разрешений и включенного полноэкранного сглаживания. Вместе с повышенной тактовой частотой, это привело к более чем удвоенной производительности соответствующих блоков: 72 гигапикселей/с против 32 гигапикселей/с.

Чтобы подкрепить возросшую мощь блоков ROP, была улучшена и подсистема хранения данных. Во-первых, частота GDDR5-памяти выросла более чем на 15%, во-вторых, GM204 имеет заметно большую по объему и более эффективную кэш-память, помогающую экономить полосу пропускания, и, в-третьих, Maxwell отличается новым методом сжатия данных в кадровом буфере, что дополнительно увеличивает эффективную ПСП.

При записи данных в память в GM204 используется новый метод сжатия данных без потерь, а при их чтении экономится полоса пропускания, что особенно важно при таком мощном GPU и лишь 256-битной шине. Новый движок сжатия может использовать несколько методов для разных данных. Каждый блок из 8x8 пикселей сначала исследуется на предмет возможности сжатия без потерь, если он содержит одноцветные блоки по 4x2 пикселя, тогда для таких блоков достигается степень сжатия 8:1. Затем проверяется возможность сжатия блоками 2x2 (степень сжатия 4:1) и так далее.

Такие методы весьма эффективны при использовании сглаживания, но есть и метод delta color compression, когда исследуется разница в цвете соседних пикселей, также позволяющая сжать данные, пусть и менее эффективно. Ну а если блок не может быть сжат вовсе, то данные записываются в память в обычном виде, но такое бывает в реальных сценах не так уж и часто.

Эффективность сжатия оценить непросто, но в среднем новый GPU позволяет заметно сэкономить ПСП, по сравнению с аналогичным Kepler. Разница между GPU старого и нового поколений по эффективности использования ПСП в среднем составляет 25% — примерно столько ПСП экономит GM204, по сравнению с GK104. Nvidia делает вывод об эффективной частоте памяти в 9.3 ГГц, по сравнению с 7 ГГц реальной. Хотя такое сравнение и не совсем корректно, но Maxwell действительно будет эффективнее использовать видеопамять, что важно при вдвое большем количестве блоков ROP и высоких разрешениях со сглаживанием.

Естественно, что GM204 поддерживает последнюю версию технологии динамического изменения тактовой частоты и напряжения GPU Boost, обеспечивающую максимально возможную 3D-производительность в определенных условиях (напряжение, температура, потребление) при сохранении минимального уровня частоты, который гарантируется при любых номинальных условиях.

Базовая тактовая частота для видеочипа Geforce GTX 980 равна 1126 МГц, а турбо-частота (средняя повышенная частота в нескольких играх и приложениях) достигла значения 1216 МГц — это максимальная частота для видеочипов Nvidia за все время. Турбо-частота, как обычно, является лишь усредненным значением для нескольких игр, используемых компанией Nvidia в своих тестах. В реальности она может изменяться, и может быть как выше, так и ниже.

Аппаратно-ускоренный расчет глобального освещения VXGI

Одним из важных нововведений второго поколения Maxwell можно считать аппаратное ускорение одного из самых многообещающих методов глобального освещения сцены (Global Illumination — GI). Реалистичное освещение является одной из важнейших задач компьютерной графики для достижения максимального фотореализма. Сложные модели и качественные текстуры давно научились делать, с анимацией справляются при захвате данных с людей (motion capture), а вот освещение в компьютерной графике реального времени до сих пор весьма далеко от реализма.

В реальном мире освещение объектов складывается из прямого освещения от источников света и непрямого — лучей, отраженных от других объектов. Без учета непрямого освещения объекты выглядят плоско и нереалистично. В давние времена, чтобы не было черных провалов при отсутствии непрямого освещения, придумали ambient-составляющую, которая просто добавляется к цвету объекта, но не добавляет ему объема (сверху — только прямое освещение, снизу — прямое и отраженное):

Полноценный расчет глобального освещения позволяет физически корректно просчитать освещение сцены, приблизиться к фотореалистичности и часто используется в кино и других системах 3D-графики, не требующих просчета в реальном времени. Увы, но процесс этот весьма трудозатратный и он оставался недостижимым для реального времени.

Некое подобие расчета глобального освещения уже давно используется в играх, вроде Ambient Occlusion (HDAO, HBAO и т.п.), но эти методы лишь поверхностно имитируют GI, используя лишь данные экранного буфера, а реальный расчет глобального освещения оставался слишком «дорогим». Имитация GI — это лучше, чем ничего, но только полноценная трассировка позволит добиться максимального реализма.

Еще в 2011 году Nvidia предложила один из алгоритмов расчета глобального освещения под названием Voxel Global Illumination (VXGI), использующего специальное 3D-представление сцены в виде вокселей для захвата информации об освещении в каждой точке сцены — эти данные затем трассируются для расчета эффекта отраженного света.

Трассировка сцены осуществляется конусами — роль лучей выполняют конические области. Не будем вдаваться в технические подробности слишком глубоко, все (немногочисленные) желающие могут ознакомиться с методом самостоятельно, но можно сказать, что он позволяет весьма реалистично рассчитать глобальное освещение сцены на GPU в реальном времени.

На иллюстрациях представлена отрисованная в реальном времени на Maxwell известная сцена высадки американских астронавтов на Луне, и она же, но уже в воксельном представлении. Хотя отличить рендер от фотографии можно, но все же выглядит он весьма неплохо, особенно для сцены, рассчитанной в реальном времени.

Оригинальный алгоритм основывался на вокселях, хранящихся в структуре октодерева (octree), и он вполне работоспособен, но имеет некоторые ограничения в виде неудобства работы GPU с ней — так как это нестандартная структура для графического процессора. К слову, схожий алгоритм использовался и в нашумевшей демонстрационной версии Elemental на движке Unreal Engine 4 компании Epic, но от него в итоге решили отказаться именно из-за крайне высокой ресурсоемкости.

И вот, после трех лет разработок, Nvidia представила улучшенный алгоритм VXGI, который можно ускорить на новых графических процессорах, начиная с Maxwell. Применение VXGI способно обеспечить лучшую производительность при расчете глобального освещения, а значит и его качество, ведь метод отлично масштабируется при помощи изменения плотности воксельной сетки, и на разных по мощности системах можно просто использовать разную точность GI-расчетов.

Geforce GTX 980 и GTX 970 являются первыми решениями, которые способны ускорить алгоритм VXGI, позволяющий добиться потрясающе реалистичного освещения. Метод работает на любых современных GPU без использования аппаратной поддержки, но делает это медленнее, а на GM204 и других последующих чипах архитектуры Maxwell, алгоритм ускоряется аппаратно. Для этого на этапе вокселизации сцены используется такая возможность, как мультипроецирование (multi-projection) — графический процессор Maxwell умеет одновременно проецировать геометрию на несколько проекций, что используется в алгоритме VXGI. Без мульипроецирования приходится повторять работу шесть раз подряд — для каждой грани вокселя отдельно.

Еще одна важная возможность, которая появится в Direct3D 12, это консервативная растеризация, которая также используется в процессе вокселизации (конвертации геометрии в воксели). Основным ее отличием от обычной растеризации является то, что в процессе отрисовываются не только те пиксели, в центр которых попала геометрия сцены, но все пиксели, в площадь которых попал даже маленький кусочек треугольника. Проще всего это понять по следующей иллюстрации:

Аппаратная поддержка консервативной растеризации также очень важна в фазе вокселизации, так как на этом этапе методики расчета глобального освещения нужно максимально точно оценить покрытие при переводе 3D-сцены из треугольников в воксели. В принципе, тут тоже можно обойтись программными методами, но они будут работать медленнее. А аппаратное ускорение VXGI на Maxwell работает весьма эффективно:

Разница в производительности неоптимизированного для Maxwell алгоритма и аппаратно-ускоренного метода на чипе GM204 превышает три раза. Иными словами, графический процессор GM204 способен обеспечить значительный прирост скорости рендеринга при использовании аппаратно-ускоренного метода VXGI при расчете глобального освещения. Трехкратный прирост скорости означает возможность применения расчета GI во многих сценах, что просто не было доступно ранее.

Поддержка VXGI уже есть в Unreal Engine 4. И так как продвижение новых возможностей компании Nvidia всегда было достаточно эффективным, можно не сомневаться, что вскоре она будет внедрена и в другие известные игровые движки, а затем появится и в будущих играх. Возможен даже выпуск ремейков игр прошлого с внедрением расчета освещения по методу VXGI — при помощи заинтересованных энтузиастов или игровых разработчиков.

Новые методы полноэкранного сглаживания

Изменения в чипе GM204 привели и к поддержке новых методов полноэкранного сглаживания. Nvidia решила придерживаться интересного подхода, улучшая качество картинки как в нетребовательных играх, вроде Dark Souls II, которые отрисовываются при высокой кадровой частоте, так и в проектах вроде Crysis 3 и Battlefield 4, которые не отличаются большим запасом по FPS.

Для первого типа игровых проектов была внедрена технология Dynamic Super Resolution (DSR), которая весьма схожа с распространенным (и весьма требовательным к производительности) методом полноэкранного сглаживания методом суперсэмплинга. По сути, сцена рендерится при более высоком разрешении (для FullHD это будет, к примеру, UltraHD), и затем масштабируется к разрешению экрана при помощи хитрого фильтра, усредняющего результат.

В итоге пользователь получает картинку с более высоким качеством, близким к UltraHD, но на FullHD-устройстве, более сглаженную и красивую. Это особенно заметно на сценах с большим количеством узких полупрозрачных объектов, вроде травы (слева — обычный MSAA, справа — с включенным DSR):

В чем отличие от привычного суперсэмплинга и зачем нужно было давать методу новое имя? Во-первых — маркетинг. Во-вторых — DSR все-таки использует более сложный фильтр Гаусса с 13 выборками, что позволяет заметно снизить количество артефактов алиасинга при приведении изображения от большего разрешения к меньшему, по сравнению с обычным суперсэмплингом.

Кроме этого, DSR удобно включать из панели Geforce Experience, при этом не нужно создавать «виртуальных» разрешений экрана, получая артефакты. Кстати, для тех, кому покажется, что DSR слишком сильно «замыливает» картинку, можно выбрать уровень «DSR-сглаживания» (DSR Smoothness), который по умолчанию установлен для фильтра Гаусса в 33%. Также можно задавать DSR-фактор для кратного увеличения разрешения рендеринга от 1.2x до 4.0x, а не довольствоваться выбранным за вас разрешением рендеринга.

Чтобы читателям было проще оценить вносимые при включении DSR изменения в качество картинки, предлагаем посмотреть на полноразмерные скриншоты из Assassin's Creed, с включенным сглаживанием методами FXAA и MSAA, а также совместно с DSR:

FXAA	FXAA+DSR

MSAA	MSAA+DSR

Налицо — явное улучшение качества сглаживания, самая лучшая картинка получилась у MSAA+DSR, что понятно. Новый метод поддерживается и на других GPU компании, но именно на GM204 он будет работать эффективнее из-за большей производительности этого чипа в высоких разрешениях.

Итак, понятно, что DSR позволяет заметно улучшить качество итоговой картинки в нетребовательных играх, особенно при использовании мониторов с низким разрешением. Но что можно сделать в сверхтребовательных играх, производительности в которых категорически не хватает, особенно при использовании полноэкранного сглаживания?

Для таких проектов в Nvidia придумали новый метод сглаживания — Multi-Frame antialiasing (MFAA), позволяющий добиться большей производительности при сохранении высокого качества. Для этого потребовалось повысить гибкость методов выборки сэмплов, внедрив полностью программируемый мультисэмплинг, чтобы можно было добиться необходимого расположения выборок. До выхода графического процессора GM204 использовались фиксированные позиции для выборок, хранящиеся в ПЗУ, а теперь их можно перепрограммировать.

Поэтому Maxwell умеет располагать субпиксели как угодно. Используется сетка 16x16 в пределах пикселя, то есть существует 256 позиций, которые можно выбирать как угодно. С такими возможностями можно изменять позиции выборок хоть каждый кадр, чем в Nvidia и воспользовались для реализации MFAA.

Новый метод похож на наиболее распространенный сейчас MSAA, но позволяет получить лучшую производительность, так как MSAA не подходит для самых требовательных проектов с 4xMSAA в высоких разрешениях даже на мощных видеокартах из-за большого падения производительности при его включении.

MFAA же использует программируемые позиции MSAA-выборок, меняя их каждый кадр так, чтобы расположение выборок из соседних двух кадров соответствовало позициям выборок одного кадра при методе 4xMSAA, а затем смешивает их при помощи специального фильтра:

В результате получается изображение, практически идентичное для глаза тому, что мы видим с 4xMSAA, но на заметно более высокой производительности (по оценке Nvidia, разница по скорости в среднем составляет около 30%). Пока что этот метод не используется в играх и недоступен в текущей версии драйверов, но он появится там в ближайшем будущем и позволит получить качественную сглаженную картинку с приемлемой скоростью даже в требовательных проектах — ощутимо быстрее, чем с MSAA:

Вполне естественно, что графический процессор GM204 поддерживает и технологию G-Sync. Это — одна из базовых технологий компании, которая призвана обеспечивать плавный игровой процесс, без рывков и задержек, что дает больший комфорт при игре.

Кроме этого, G-Sync будет полезна и при включенной функции DSR, которая не только улучшает качество картинки, но и снижает производительность. А в этом случае применение G-Sync будет весьма полезным, так как повысит плавность видеоряда. Мы уже неоднократно писали об этой технологии в теоретических материалах, а детальное изучение на практике планируем сделать в материале по модели Geforce GTX 970, который выйдет несколько позже.

Улучшенные возможности DirectX

Очень похоже, что GM204 стал первым графическим процессором с полной поддержкой всех возможностей DirectX 12, хотя об этом пока что нельзя сказать на 100% точно до выхода новой версии API. Но все необходимые возможности новым графическим процессором Nvidia поддерживаются. Следующая версия DirectX должна стать новой вехой в истории этого графического API. Главной его целью является возможность дать разработчикам большее управление всеми аппаратными особенностями GPU и CPU, но и новые возможности также добавятся.

Хотя драйвер Nvidia сам по себе неплохо справляется с управлением ресурсами в DirectX 11 приложениях, следующая версия этого графического API даст еще больше гибкости разработчикам игр, отдав часть задач в их руки. Так, что они смогут оптимизировать код игры так, как это нужно именно их игре или игровому движку, поэтому использующие DirectX 12 3D-приложения должны стать более эффективными.

Кроме этого, в новой версии появится как несколько новых возможностей, долгожданных для 3D-разработчиков, так и толком не используемая функциональность предыдущих версий. К примеру, еще в DirectX 11.2 появилась поддержка тайловых ресурсов (tiled resources), которые можно использовать для рендеринга теней при помощи карт теней разного разрешения (multi-resolution) вместо одного фиксированного.

Как видите, результат получается намного приятнее зубастых теней, привычных по текущим играм. Но почему просто не сделать карты теней выше разрешением? Тогда они займут в памяти много места и будут требовать больше ресурсов на обработку. С тайловыми ресурсами можно использовать высокое разрешение только для ближайших к камере участков, а на дальних — снижать разрешение без потери в качестве итоговой картинки. Также тайловые ресурсы можно использовать и в упомянутом выше алгоритме VXGI — для снижения количества памяти, необходимого для хранения вокселей.

Еще одной поддерживаемой Maxwell возможностью является Raster Ordered View, которая появится в DirectX 12 и которая дает контроль над порядком операций пиксельного шейдера. Это позволит использовать, к примеру, алгоритмы для рендеринга полупрозрачных поверхностей, не требующие предварительной сортировки. Или можно будет использовать какие-то более хитрые возможности для смешивания значений пикселей (blending) при отложенном затенении (deffered shading) или других алгоритмах.

Новый графический процессор Nvidia поддерживает все вышеперечисленные особенности DirectX 12, равно как и все возможности предыдущих версий этого API. Чтобы внедрить все новые возможности, методы и алгоритмы, в том числе входящие в GameWorks, компания Nvidia совместно работает с создателями игровых проектов. Мы уже писали ранее, что над GameWorks работают более 300 инженеров компании, обеспечивающих обновление и внедрение новых графических функций в современные игры. Nvidia не просто обеспечивает разработчиков игр SDK, утилитами и технологиями, но и помогает внедрить их в игровой код при помощи своих специалистов.

К примеру, из ожидаемых игр с применением технологий Nvidia можно выделить следующие проекты:

Assasin's Creed: Unity — в игре используется имитация глобального освещения HBAO+, сглаживание методом TXAA, размытые тени PCSS и тесселяция
Batman: Arkham Knight — продвинутые физические эффекты PhysX, в том числе турбулентность, объемное освещение, FaceWorks (все же помнят демонстрацию человеческого лица Ira?), эффекты дождя и мокрых поверхностей
Borderlands: The Pre-Sequel — эффекты частиц PhysX
Far Cry 4 — HBAO+, PCSS, TXAA, объемные лучи света God Rays, имитация шерсти
Project CARS — частицы и турбулентность PhysX, некоторые эффекты DirectX 11
Strife — частицы PhysX, имитация волос HairWorks
The Crew — HBAO+, TXAA
The Witcher 3: Wild Hunt — HairWorks, HBAO+, эффекты PhysX, в том числе разрушения, имитация тканей
Warface — частицы и турбулентность PhysX
War Thunder — имитация водной поверхности WaveWorks, разрушения PhysX

Оценка производительности

В этой части материала мы лишь предварительно оцениваем производительность нового решения Geforce GTX 980, исходя из теоретических данных и тестирования, проведенного самой компанией Nvidia. Модели Geforce GTX 980 и GTX 970 основаны на одинаковом GPU с разным количеством активных исполнительных блоков, и оценивать производительность мы будем по старшему решению.

Geforce GTX 980 основан на новом GPU архитектуры Maxwell, которая оптимизирована для лучшей энергоэффективности. По сравнению с GTX 680 на базе близкого по духу чипа GK104, новый GTX 980 имеет на треть больше вычислительных ядер и более высокие тактовые частоты, но при этом потребляет на 30 Вт меньше энергии в среднем!

Судя по теоретическим цифрам, Geforce GTX 980 должна опережать и GTX 680 и GTX 780, имея больше видеопамяти, лучшую математическую производительность и филлрейт. При этом новинка потребляет заметно меньше энергии, что приводит к вдвое лучшему показателю энергоэффективности — потрясающий результат!

Дизайн графического процессора Maxwell хоть и основан на предыдущих разработках Kepler, но чип полностью перепроектирован, и вычислительные ядра используются чаще и эффективнее. Кроме этого, была вчетверо увеличена кэш-память второго уровня, и GM204 имеет 2 мегабайта L2-кэша, который позволяет снизить количество обращений к основной памяти, что также экономит энергию и улучшает производительность.

Кстати, о внешней памяти. Geforce GTX 980 имеет 4 ГБ GDDR5-памяти, работающей на эффективной частоте в 7 ГГц, что дает полосу пропускания в 224 ГБ/с. В сочетании с новым методом сжатия информации кадрового буфера, это также улучшает показатели производительности. Более того, это позволило вдвое увеличить количество блоков ROP (с 32 до 64), и по показателю скорости заполнения Geforce GTX 980 более чем вдвое быстрее GTX 680, да и все остальные решения Nvidia также опережает.

В общем, наши предварительные ожидания от Geforce GTX 980 довольно высоки. Давайте посмотрим на усредненные результаты тестов в играх, проведенные самой компанией Nvidia:

Даже без учета нового метода полноэкранного сглаживания MFAA, который дает качество MSAA при большей производительности, новинка быстрее чем Geforce GTX 680 более чем в полтора раза при низких и средних разрешениях, и более чем вдвое превосходит старую модель в самом высоком разрешении при включенном сглаживании (правда, частота кадров при этом, скорее всего, становится слишком низкой для комфортной игры). В любом случае, это очень неплохой прирост для чипа, произведенного по тому же техпроцессу.

Geforce GTX 970 же, в свою очередь, основана на том же GPU, и поддерживает ровно те же технологии, что и старшее решение: MFAA, DSR, VXGI и др., но урезан по производительности. Так, в видеочипе остались активными лишь 13 блоков SMM и 1664 вычислительных ядер CUDA и 104 блока TMU. Естественно, что и частота работы GPU в этом варианте понижена до 1050 МГц базовой и 1178 МГц турбо-частоты. А вот подсистему памяти не тронули вовсе. Никаких урезаний тут нет, модель снабжена теми же 4 ГБ GDDR5-памяти, работающими на частоте в 7 ГГц по 256-битной шине.

Понятно, что снижение производительности сказывается и на потреблении энергии. GTX 970 требует еще меньше энергии, чем старшая модель — всего лишь 145 Вт. При этом мощности видеокарты вполне достаточно даже для сверхсовременных и будущих игр, работающих в самых высоких разрешениях, а ведь GTX 970 будет стоить заметно меньше старшей модели. Кроме этого, партнеры компании Nvidia предложат и фабрично разогнанные варианты этой модели. Что весьма важно, так как при достижении не таких уж далеких 1400 МГц, новинка может поспорить с лучшей одночиповой платой конкурента.

Но сравниваем мы ее пока что на номинальных частотах и лишь с Geforce GTX 670:

По сравнению с Geforce GTX 670, которая является одной из самых популярных топовых видеокарт в современных ПК-системах, новая модель этого же уровня обеспечивает приличный прирост производительности около полутора раз, а в сверхвысоких разрешениях и того больше. А уж если учитывать новый алгоритм полноэкранного сглаживания MFAA, то она и вовсе минимум вдвое лучше, если верить графикам Nvidia.

Конкурентом для Geforce GTX 970 компания видит AMD Radeon R9 290. В среднем, по их собственным данным, новинка калифорнийцев на 5-10% быстрее соперника. Впрочем, у нас еще будут собственные игровые тесты Geforce GTX 980 в третьей части статьи и соответствующие выводы, исходя из производительности в играх. А модель Geforce GTX 970 мы исследуем несколько позже, уже в отдельном материале.

Выводы по теоретической части

С архитектурной точки зрения, топовый GPU второго поколения архитектуры Maxwell весьма сильно изменен, по сравнению с Kepler. В новую архитектуру внесены значительные модификации, направленные на улучшение функциональности и повышение энергоэффективности. Архитектура была полностью переработана, хотя и имеет корни Kepler. Пусть это и не революционный чип, но он взял все лучшее от прошлых архитектур и получил дополнительные модификации, практически лишившие его слабых мест.

Количество блоков ROP было удвоено, геометрия теперь рассчитывается более чем вдвое быстрее, а новые методы сглаживания вместе с более эффективным сжатием содержимого буфера кадра приносят заметно улучшенную производительность в условиях высоких разрешений. Эти методы сглаживания позволяют или улучшить качество картинки при избытке производительности (DSR) или повысить производительность при сохранении того же качества (MFAA). Пока что даже не говорим о полной поддержке возможностей DirectX 12, так как эта версия графического API еще не вышла.

А уж аппаратная поддержка ускорения одного из самых эффективных алгоритмов глобального освещения VXGI и вовсе может серьезно изменить качество освещения в будущих играх, приблизив нас к фотореалистичности. До сих пор все аналогичные методы были или недостаточно качественными, или на них не хватало производительности — как у аналогичного метода из ранних версий Unreal Engine 4, не имеющего аппаратной поддержки. VXGI же ускоряется на новых графических процессорах компании Nvidia, и Geforce GTX 980 — первая видеокарта, способная в реальном времени рассчитывать GI в приличном качестве и с приемлемой скоростью.

И с вычислительной точки зрения изменения в архитектуре есть. По CUDA-возможностям новое решение не уступает чипу GK110, поддерживает такие техники как динамический параллелизм и HyperQ. Также увеличилось и количество одновременно исполняемых команд, количество доступных регистров на поток, были серьезно модифицированы блоки планировщиков, появилась отдельная общая память в мультипроцессорах SMM и т.д. и т.п.

В итоге, по общей эффективности новое решение намного лучше предыдущих, и это касается как энергетической эффективности, так и плотности размещения транзисторов на чипе и вычислительной эффективности. При помощи глубокой модернизации блоков предыдущих архитектур и прочих нововведений, Nvidia добилась удвоения показателя соотношения производительности к потреблению энергии, и это очень важно в наше время, когда энергоэффективность является главным параметром для любых устройств.

При разработке архитектуры Maxwell и графического процессора GM204 инженеры Nvidia нашли множество возможностей по увеличению производительности в рамках уже давно освоенной технологии производства с нормами 28 нм. Улучшение энергоэффективности в Maxwell позволило добиться значительно лучшего соотношения производительности и потребления, по сравнению с предыдущими моделями на чипах архитектуры Kepler.

Для этого был серьезно изменен дизайн мультипроцессоров SMM в составе нового графического процессора. В мультипроцессорах были выделены четыре вычислительных раздела, имеющие собственные выделенные блоки планирования и управления, также были изменены и планировщики в самих мультипроцессорах и связи между всеми блоками. Все эти изменения позволили обеспечить более эффективное использование возможностей аппаратных блоков чипа, что и повысило его энергоэффективность.

Чтобы повысить эффективность работы с видеопамятью, шина которой всего лишь 256-битная, был значительно увеличен объем кэш-памяти второго уровня, которая обеспечивает дополнительную буферизацию различных данных и снижает требования к ПСП, что позволяет обеспечить высокую итоговую производительность при сравнительно узкой шине видеопамяти. С этой же целью был внедрен новый метод сжатия данных кадрового буфера, который дает еще на 25% увеличенную эффективную ПСП.

В итоге, топовая модель Geforce GTX 980 на базе чипа GM204 выглядит лучшей по энергоэффективности в своем классе. Похоже, что самой впечатляющей характеристикой новинки будет соотношение производительности и энергопотребления. При производительности видеоплаты на базе GM204, близкой к лучшим моделям на GK110, Geforce GTX 980 потребляет всего лишь 165 Вт энергии, что значительно меньше 250 Вт у Geforce GTX 780 (Ti), с которыми она готова поспорить по скорости. Не говоря уже о конкурирующей с новинкой AMD Radeon R9 290X, которая имеет еще большее энергопотребление. Так что по энергоэффективности модель Geforce GTX 980 абсолютно точно является лучшей топовой видеокартой. Хотя чип GM204 произведен по тому же 28 нм техпроцессу, что и предыдущие чипы, его производительность и эффективность должна удивить нас в практических частях статьи.

Что касается соотношения производительности и площади разных чипов, то тут можно сравнить новое решение Nvidia с недавно вышедшим чипом конкурента — Tonga. GM204 имеет площадь чипа в 398 мм² при сложности в 5.2 млрд. транзисторов, а Tonga имеет площадь 359 мм² при сложности в 5.0 млрд. транзисторов. При этом, оба чипа включают близкое количество потоковых процессоров и текстурных модулей, и оба имеют 256-битную шину. Цифры довольно близкие, решение Nvidia имеет вдвое больше блоков ROP и должно быть заметно быстрее, так как конкурирует с Radeon R9 290X, а вовсе не с R9 285. И главное — цифра среднего потребления энергии при этом отличается совсем в другую сторону: 165 Вт у GTX 980 и 190 Вт у R9 285!

В общем, с точки зрения сочетания производительности, энергопотребления и тепловыделения у Geforce GTX 980 есть явное преимущество перед конкурентами из стана AMD. А вот цены на новинки Nvidia могли бы быть пониже, так как их конкурент обычно предлагает весьма неплохое соотношение цены и производительности, даже серьезно проигрывая по энергоэффективности. Рекомендованная цена на Geforce GTX 980 составляет $549, поэтому конкурентом для нее будет Radeon R9 290X, хотя по сложности печатная плата и чип GM204, скорее, близки к Radeon R9 285 и Tonga соответственно.

В общем, несмотря на преимущество в энергоэффективности, Nvidia в очередной раз выставила такую цену на свои новинки, чтобы заработать больше денег, а не вытеснить соперника с рынка. Себестоимость новых плат серии Geforce GTX 900 должна быть значительно ниже, чем у конкурирующих с ними Radeon R9 290(X), поэтому и прибыли должно получиться больше. А пользователям остается радоваться энергоэффективности и низкому потреблению энергии, но не низкой цене. Впрочем, не нужно забывать и то, что Nvidia нужно еще отбить затраты на разработку Maxwell...

В любом случае Geforce GTX 980 является отличным вариантом для обновления видеоподсистемы тех пользователей, которые не успели приобрести топовые модели линейки Geforce GTX 700. Все владельцы Geforce GTX 680 и ниже легко почувствуют прирост производительности и функциональности при смене видеокарты на GTX 980. И все это — при меньшем энергопотреблении и на том же техпроцессе 28 нм!

На этом теоретическая часть материала закончена, в следующей части статьи мы исследуем скорость рендеринга новой видеокарты Nvidia Geforce GTX 980 на практике в синтетических тестах, сравнив ее скорость с производительностью конкурентов у AMD и предшественников у Nvidia.

Nvidia Geforce GTX 980 — Часть 2: особенности карты и синтетические тесты →

Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты	Конкуренты
GTX 980 — $495 (на 01.06.16)	R9 290X — $431(33)
GTX 980 — $495 (на 01.06.16)	R9 290 — $551(2)
GTX 980 — $495 (на 01.06.16)	GTX 780 Ti — $518(11)
GTX 980 — $495 (на 01.06.16)	GTX 780 — $515 (на 01.06.16)

Благодарим компанию Nvidia Russia
и лично Ирину Шеховцову
за предоставленную на тестирование видеокарту

2 блока питания Corsair CMPSU-1200AXEU для тестового стенда предоставлены компанией Corsair	Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair	Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair	Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair
Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт	Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek	Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI	Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek

19 сентября 2014 Г.

Алексей Берилло

Андрей Воробьев

�� Nvidia Geforce GTX 980. �� 1: ��

Nvidia Geforce GTX 980

�� Geforce GTX 680, �� GTX 780 Ti

��

�� Nvidia Geforce GTX 980 �� -��.

��

�� : �� (��) Nvidia Geforce GTX 980 4096 �� 256-�� GDDR5 PCI-E

�� : �� Nvidia Corporation (�� Nvidia) �� 1993 �� . ��-�� -�� (��). �� , ��. �� 1999 �� Riva (Riva 128/TNT/TNT2), � 1999 �� — Geforce. � 2000 �� 3dfx Interactive, �� 3dfx/Voodoo �� Nvidia. �� . �� (�� ) �� 5000 ��.

�� 1: ��

�� Nvidia �� . �� Geforce GTX 680, �� 2012 ��, �� Kepler, �� GTX 780 (Ti) �� GPU �� , �� 2012 �� , �� Nvidia �� Maxwell. � � �� , �� , � �� — �� GM107, ��, ��, �� .

�� Maxwell �� . ��-��, �� (��, �� . �.), � �� Nvidia ��, �� . � �� Maxwell �� . �� , �� , � � �� .

� �� TSMC. �� , �� Maxwell �� 20 ��, �� 28 ��. �� -�� TSMC �� , �� 28 ��, �� . �� GM107 �� , �� Maxwell �� , �� Nvidia �� , �� .

�� Kepler �� , �� GPU Maxwell ��, �� . �� . �� GM107, �� Geforce GTX 750 Ti �� Geforce GTX 480. �� , �� , � �� , �� .

�� Geforce GTX 980 � GTX 970 �� (�� GPU �� Maxwell �� ) � �� GM204 — �� , �� , � �� , �� GM107. �� 145-165 �� , �� GPU �� .

�� GM204. �� , � �� : �� MFAA � DSR, �� VXGI � �.�. �� G-Sync �� .

�� GM204 �� . �� , �� FullHD (1920x1080 ��), � �� 4K-��. �� , �� , �� . �� , �� , GM204 �� , � �� HDMI 2.0.

�� , �� GPU. � �� , �� Maxwell �� , �� Kepler, �� . �� Geforce GTX 680 � GTX 980, �� , �� .

� ��, �� Geforce GTX 980 � GTX 970 �� , �� 2560x1600 � 4K, � �� — � �� . ��, �� 4K �� , �� SLI.

�� . �� Steam Survey, 68% �� Geforce �� Geforce GTX 600 � ��, �� GTX 680 � GTX 670. �� GTX 980 � GTX 970 �� , �� .

�� Nvidia, �� «Maxwell», �� «Kepler» � �� «Fermi», � � �� . �� Nvidia:

[12.03.14] Nvidia Geforce GTX 750 Ti — Maxwell �� ... �� Maxwell
[18.03.13] Nvidia Geforce Titan — �� 3D-��
[22.03.12] Nvidia Geforce GTX 680 — �� 3D-��
[27.03.10] Nvidia Geforce GTX 480: �� ; �� DirectX 11

�� Geforce GTX 900, �� GM204.

�� Geforce GTX 900
��	��
��	«GM204»
��	28 ��
��	5,2 ��.
��	398 ��²
��	��, � �� : ��, �� .
�� DirectX	DirectX 12, � �� Shader Model 5.0
��	256-��, �� 64 �� GDDR5-��
��	1126(1216) ��
��	16 �� , �� 2048 �� ALU �� IEEE 754-2008;
��	128 �� FP16- � FP32-��
�� (ROP)	4 �� ROP (64 ��) � �� , � �� FP16- �� FP32-�� . �� ALU � �� Z, MSAA, ��
��	�� , �� Dual Link DVI, HDMI 2.0 � DisplayPort 1.2

�� Geforce GTX 980
��	��
��	1126(1216) ��
��	2048
��	128
��	64
��	7000 (4×1750) ��
��	GDDR5
��	256 ��
��	4 ��
��	224 ��/�
�� (FP32)	4,6 ��
��	72,1 ��/�
��	144,1 ��/�
��	PCI Express 3.0
��	�� Dual Link DVI, �� HDMI 2.0 � �� DisplayPort 1.2
��	�� 165 ��
��	�� 6-��
�� , ��	2
��	$549 (��), 23990 �� (��)

�� Geforce GTX 970
��	��
��	1050(1178) ��
��	1664
��	104
��	64
��	7000 (4×1750) ��
��	GDDR5
��	256 ��
��	4 ��
��	224 ��/�
�� (FP32)	4,0 ��
��	67,2 ��/�
��	109,2 ��/�
��	PCI Express 3.0
��	�� Dual Link DVI, �� HDMI 2.0 � �� DisplayPort 1.2
��	�� 145 ��
��	�� 6-��
�� , ��	2
��	$329 (��), 14990 �� (��)

�� Geforce GTX 980 � GTX 970 �� Nvidia. ��, �� GTX 800, �� , �� , ��, � �� . ��, � �� GTX 980 �� , � GTX 970 — �� . ��, �� GTX 780 Ti, GTX 780 � GTX 770 � �� , �� (� �� Titan �� ).

�� $549 � $329 �� GTX 980 � GTX 970, ��. �� , �� GPU �� , ��, �� Nvidia �� , �� , �� . �� — �� AMD — �� Geforce �� Radeon � �� R9 290X � R9 290, �� GM204 � �� GTX 900 �� Tonga � R9 285, ��.

�� Nvidia �� GM204 � �� 256-�� , �� 2 �� 4 ��. � �� 4 �� , � �� , �� 3D-��, �� .

�� Geforce GTX 980 � GTX 970 �� 10,5 �� (267 ��), �� 6-�� PCI-E. �� Nvidia �� DisplayPort 1.2 ��, �� Dual Link DVI � �� HDMI 2.0. GM204 �� HDMI 2.0 — �� 4K-�� 60 ��.

��-�� 4K-��, � �� «��» �� Maxwell �� 5K (5120x3200 �� 60 ��), � �� 4K �� Multi-Stream Transport (MST) — � Kepler �� .

�� Geforce GTX 980 �� 165 ��, �� 190 �� Radeon R9 285, �� 275 �� Radeon R9 290(X). �� Geforce GTX 980 � GTX 970 �� 6-�� .

�� . �� Geforce GTX 980 � GTX 970, �� , �� . � ��, �� , �� , �� GPU �� : �� PCI Express � �� 6-�� .

� �� GPU �� , �� , �� , �� , �� . �� . �� Geforce GTX 780 Ti � �� GTX 980, �� GTX 970 �� , �� .

��

�� Geforce GTX 900 �� GM204, �� Maxwell (� �� GM107). � �� Kepler � �� Tegra K1, �� Nvidia �� , �� GPU � �� , � �� Maxwell.

�� GPU. �� , � �� , �� , �� .

�� Fermi � Kepler, �� GM107, �� GM204 �� Graphics Processing Cluster (GPC), �� (� �� — SMM). �� GPC �� SMM. � �� , �� 128 �� CUDA, �� PolyMorph � �� (TMU).

�� Geforce GTX 980 �� , �� GM204, �� GPC � 16 �� SMM. � �� 2048 �� CUDA � 128 �� TMU. Geforce GTX 970 �� GPC, �� . �� , � �� «��» �� 1664 �� 104 �� TMU. � �� Nvidia, �� GPU, �� .

�� Geforce GTX 900 �� 64-�� , �� 256-�� . � �� «��» �� 16 �� ROP � 512 �� -�� , �� 64 �� ROP � 2048 �� (�� 32 �� ROP � 512 �� GK104 �� — �� ).

� �� Maxwell �� (Streaming Multiprocessor — SM), �� , �� . �� , �� SMX � Kepler � �� , �� GPU �� Maxwell. � SMM �� , �� , �� .

�� . �� GM204 �� , �� , �� 32 �� . � �� Kepler �� SMX �� , �� 192 �� , �� . � �� Maxwell �� SMM �� , �� , �� 32 �� .

�� , �� Maxwell �� , � �� , �� . �� , �� , �� .

�� ALU �� , �� , �� , �� ALU, �� (32). �� , �� ALU � �� load/store unit (LSU) �� — dual-issue. ��, �� , � �� Kepler, �� -�� .

�� SMM �� FP64-��, � FP32-��, �� (special function unit — SFU) � �� -�� (load/store unit — LSU) �� . �� , �� , �� , � �� (��) �� . �� , �� , �� .

�� Kepler �� . SMM �� 96 �� , � L1-�� . � �� , �� CUDA-�� 40% �� , �� Kepler. � �� , �� Maxwell �� GM204.

�� Geforce GTX 980 (GM204) � GTX 680 (GK104), �� , �� -�� Maxwell. � �� PolyMorph, �� GTX 980 �� .

�� DirectX 11 � �� , �� . � �� GM204 �� , �� GK104, � � �� :

� �� — � �� 128 � ��. �� Maxwell �� TMU �� , �� 8 ��. � �� -�� GPU, �� 12% �� — � ��, �� GPU. �� ROP: �� 32 �� 64 ��, �� . �� , �� : 72 ��/� �� 32 ��/�.

�� ROP, �� . ��-��, �� GDDR5-�� 15%, ��-��, GM204 �� -��, �� , �, �-��, Maxwell �� , �� .

�� GM204 �� , � �� , �� GPU � �� 256-�� . �� . �� 8x8 �� , �� 4x2 ��, �� 8:1. �� 2x2 (�� 4:1) � �� .

�� , �� delta color compression, �� , �� , �� . �� , �� , �� .

�� , �� GPU �� , �� Kepler. �� GPU �� 25% — �� GM204, �� GK104. Nvidia �� 9.3 ��, �� 7 �� . �� , �� Maxwell �� , �� ROP � �� .

��, �� GM204 �� GPU Boost, �� 3D-�� (��, ��, ��) �� , �� .

�� Geforce GTX 980 �� 1126 ��, � ��-�� (�� ) �� 1216 �� — �� Nvidia �� . ��-��, �� , �� , �� Nvidia � �� . � �� , � �� , �� .

��-�� VXGI

�� Maxwell �� (Global Illumination — GI). �� . �� , � �� (motion capture), � �� .

� �� — ��, �� . �� . � �� , �� , �� ambient-��, �� , �� (�� — �� , �� — �� ):

�� , �� 3D-��, �� . ��, �� .

�� , �� Ambient Occlusion (HDAO, HBAO � �.�.), �� GI, �� , � �� «��». �� GI — �� , �� , �� .

�� 2011 �� Nvidia �� Voxel Global Illumination (VXGI), �� 3D-�� — �� .

�� — �� . �� , �� (��) �� , �� , �� GPU � �� .

�� Maxwell �� , � �� , �� . �� , �� , �� , �� .

�� , �� (octree), � �� , �� GPU � �� — �� . � ��, �� Elemental �� Unreal Engine 4 �� Epic, �� -�� .

� ��, �� , Nvidia �� VXGI, �� , �� Maxwell. �� VXGI �� , � �� , �� , � �� GI-��.

Geforce GTX 980 � GTX 970 �� , �� VXGI, �� . �� GPU �� , �� , � �� GM204 � �� Maxwell, �� . �� , �� (multi-projection) — �� Maxwell �� , �� VXGI. �� — �� .

�� , �� Direct3D 12, �� �� , �� (�� ). �� , �� , � �� , �� , � �� . �� :

�� , �� 3D-�� . � ��, �� , �� . � �� VXGI �� Maxwell �� :

�� Maxwell �� -�� GM204 �� . �� , �� GM204 �� -�� VXGI �� . �� GI �� , �� .

�� VXGI �� Unreal Engine 4. � �� Nvidia �� , �� , �� , � �� . �� VXGI — �� .

��

�� GM204 �� . Nvidia �� , �� , �� Dark Souls II, �� , �� Crysis 3 � Battlefield 4, �� FPS.

�� Dynamic Super Resolution (DSR), �� (� �� ) �� . �� , �� (�� FullHD �� , � ��, UltraHD), � �� , �� .

� �� , �� UltraHD, �� FullHD-��, �� . �� , �� (�� — �� MSAA, �� — � �� DSR):

� �� ? ��-�� — ��. ��-�� — DSR ��-�� 13 ��, �� , �� .

�� , DSR �� Geforce Experience, �� «��» �� , �� . ��, �� , �� , �� DSR �� «��» ��, �� «DSR-��» (DSR Smoothness), �� 33%. �� DSR-�� 1.2x �� 4.0x, � �� .

�� DSR �� , �� Assassin's Creed, � �� FXAA � MSAA, � �� DSR:

FXAA	FXAA+DSR

MSAA	MSAA+DSR

�� — �� , �� MSAA+DSR, �� . �� GPU ��, �� GM204 �� -�� .

��, ��, �� DSR �� , �� . �� , �� , �� ?

�� Nvidia �� — Multi-Frame antialiasing (MFAA), �� . �� , �� , �� . �� GM204 �� , �� , � �� .

�� Maxwell �� . �� 16x16 � �� , �� 256 ��, �� . � �� , �� Nvidia � �� MFAA.

�� MSAA, �� , �� MSAA �� 4xMSAA � �� -�� .

MFAA �� MSAA-��, �� , �� 4xMSAA, � �� :

� �� , �� , �� 4xMSAA, �� (�� Nvidia, �� 30%). �� , �� — �� , �� MSAA:

�� , �� GM204 �� G-Sync. �� — �� , �� , �� , �� .

�� , G-Sync �� DSR, �� , �� . � � �� G-Sync �� , �� . �� , � �� Geforce GTX 970, �� .

�� DirectX

�� , �� GM204 �� DirectX 12, �� 100% �� API. �� Nvidia ��. �� DirectX �� API. �� GPU � CPU, �� .

�� Nvidia �� DirectX 11 ��, �� API �� , �� . ��, �� , �� , �� DirectX 12 3D-�� .

�� , � �� , �� 3D-��, �� . � ��, �� DirectX 11.2 �� (tiled resources), �� (multi-resolution) �� .

�� , �� , �� . �� ? �� . � �� , � �� — �� . �� VXGI — �� , �� .

�� Maxwell �� Raster Ordered View, �� DirectX 12 � �� . �� , � ��, �� , �� . �� -�� (blending) �� (deffered shading) �� .

�� Nvidia �� DirectX 12, �� API. �� , �� , � �� GameWorks, �� Nvidia �� . �� , �� GameWorks �� 300 �� , �� . Nvidia �� SDK, �� , �� .

� ��, �� Nvidia �� :

Assasin's Creed: Unity — � �� HBAO+, �� TXAA, �� PCSS � ��
Batman: Arkham Knight — �� PhysX, � �� , �� , FaceWorks (�� Ira?), ��
Borderlands: The Pre-Sequel — �� PhysX
Far Cry 4 — HBAO+, PCSS, TXAA, �� God Rays, ��
Project CARS — �� PhysX, �� DirectX 11
Strife — �� PhysX, �� HairWorks
The Crew — HBAO+, TXAA
The Witcher 3: Wild Hunt — HairWorks, HBAO+, �� PhysX, � �� , ��
Warface — �� PhysX
War Thunder — �� WaveWorks, �� PhysX

��

� �� Geforce GTX 980, �� , �� Nvidia. �� Geforce GTX 980 � GTX 970 �� GPU � �� , � �� .

Geforce GTX 980 �� GPU �� Maxwell, �� . �� GTX 680 �� GK104, �� GTX 980 �� , �� 30 �� !

�� , Geforce GTX 980 �� GTX 680 � GTX 780, �� , �� . �� , �� — �� !

�� Maxwell �� Kepler, �� , � �� . �� , �� -�� , � GM204 �� 2 �� L2-��, �� , �� .

��, � �� . Geforce GTX 980 �� 4 �� GDDR5-��, �� 7 ��, �� 224 ��/�. � �� , �� . �� , �� ROP (� 32 �� 64), � �� Geforce GTX 980 �� GTX 680, �� Nvidia �� .

� ��, �� Geforce GTX 980 �� . �� , �� Nvidia:

�� MFAA, �� MSAA �� , �� Geforce GTX 680 �� , � �� (��, �� , �� , �� ). � �� , �� , �� .

Geforce GTX 970 ��, � �� , �� GPU, � �� , �� : MFAA, DSR, VXGI � ��., �� . ��, � �� 13 �� SMM � 1664 �� CUDA � 104 �� TMU. ��, �� GPU � �� 1050 �� 1178 �� -��. � �� . �� , �� 4 �� GDDR5-��, �� 7 �� 256-�� .

��, �� . GTX 970 �� , �� — �� 145 ��. �� , �� , � �� GTX 970 �� . �� , �� Nvidia �� . �� , �� 1400 ��, �� .

�� Geforce GTX 670:

�� Geforce GTX 670, �� -��, �� , � � �� . � �� MFAA, �� , �� Nvidia.

�� Geforce GTX 970 �� AMD Radeon R9 290. � ��, �� , �� 5-10% �� . ��, � �� Geforce GTX 980 � �� , �� . � �� Geforce GTX 970 �� , �� .

��

� �� , �� GPU �� Maxwell �� , �� Kepler. � �� , �� . �� , �� Kepler. �� , �� , �� .

�� ROP �� , �� , � �� . �� (DSR) �� (MFAA). �� DirectX 12, �� API �� .

� �� VXGI � �� , �� . �� , �� — �� Unreal Engine 4, �� . VXGI �� Nvidia, � Geforce GTX 980 — �� , �� GI � �� .

� � �� . �� CUDA-�� GK110, �� HyperQ. �� , �� , �� , �� SMM � �.�. � �.�.

� ��, �� , � �� , �� . �� , Nvidia �� , � �� , �� .

�� Maxwell � �� GM204 �� Nvidia �� 28 ��. �� Maxwell �� , �� Kepler.

�� SMM � �� . � �� , �� , �� . �� , �� .

�� , �� 256-��, �� -�� , �� , �� . � �� , �� 25% �� .

� ��, �� Geforce GTX 980 �� GM204 �� . ��, �� . �� GM204, �� GK110, Geforce GTX 980 �� 165 �� , �� 250 �� Geforce GTX 780 (Ti), � �� . �� AMD Radeon R9 290X, �� . �� Geforce GTX 980 �� . �� GM204 �� 28 �� , �� , �� .

�� , �� Nvidia � �� — Tonga. GM204 �� 398 ��² �� 5.2 ��. ��, � Tonga �� 359 ��² �� 5.0 ��. ��. �� , �� , � �� 256-�� . �� , �� Nvidia �� ROP � �� , �� Radeon R9 290X, � �� R9 285. � �� — �� : 165 �� GTX 980 � 190 �� R9 285!

� ��, � �� , �� Geforce GTX 980 �� AMD. � �� Nvidia �� , �� , �� . �� Geforce GTX 980 �� $549, �� Radeon R9 290X, �� GM204, ��, �� Radeon R9 285 � Tonga ��.

� ��, �� , Nvidia � �� , �� , � �� . �� Geforce GTX 900 �� , �� Radeon R9 290(X), �� . � �� , �� . ��, �� , �� Nvidia �� Maxwell...

� �� Geforce GTX 980 �� , �� Geforce GTX 700. �� Geforce GTX 680 � �� GTX 980. � �� — �� 28 ��!

�� , � �� Nvidia Geforce GTX 980 �� , �� AMD � �� Nvidia.

Nvidia Geforce GTX 980 — �� 2: �� →

�� �� �� (�� ) � �� :
��	��
GTX 980 —	R9 290X —
GTX 980 —	R9 290 —
GTX 980 —	GTX 780 Ti —
GTX 980 —	GTX 780 —

�� Nvidia Russia
� �� �� 
��

2 �� Corsair CMPSU-1200AXEU �� Corsair	�� Corsair Obsidian 800D Full Tower �� Corsair	�� Corsair Vengeance CMZ16GX3M4X1600C9 �� Corsair	Corsair Hydro SeriesT H100i CPU Cooler �� Corsair
�� Dell UltraSharp U3011 �� ��	�� Asus Sabertooth X79 �� Asustek	�� MSI X79A-GD45(8D) �� MSI	�� Seagate Barracuda 7200.14 3 �� Seagate