Nvidia Geforce GTX 780:
описание видеокарт и результаты синтетических тестов
Содержание
- Часть 1 — Теория и архитектура
- Часть 2 — Практическое знакомство
- Часть 3 — Результаты игровых тестов (производительность)
В этой части мы изучим видеокарту, а также познакомимся с результатами синтетических тестов. В нашей лаборатории побывала эталонная карта Nvidia.
Платы
Nvidia Geforce GTX 780 3072 МБ 384-битной GDDR5 PCI-E | |
---|---|
Карта имеет 3072 МБ памяти GDDR5 SDRAM,
размещенной в 12 микросхемах на лицевой стороне PCB.
Микросхемы памяти Samsung (GDDR5). Микросхемы расчитаны на максимальную частоту работы в 1500 (6000) МГц. |
Сравнение с эталонным дизайном, вид спереди | |
---|---|
Nvidia Geforce GTX 780 3072 МБ 384-битной GDDR5 PCI-E | Reference card Nvidia Geforce GTX Titan |
Сравнение с эталонным дизайном, вид сзади | |
---|---|
Nvidia Geforce GTX 780 3072 МБ 384-битной GDDR5 PCI-E | Reference card Nvidia Geforce GTX Titan |
Очевидно, что при таких не очень существенных отличиях от старшего брата GTX Titan плата будет базироваться на PCB от обозначенного ускорителя. Существует две версии PCB для Titan, собственно они отличаются очень незначительно, по сути только некоторыми элементами силового блока (разные процессоры управления), и на обеих этих версиях могут базироваться и GTX 780.
Напомним, что размеры карты Titan/GTX 780 не выходят за рамки принятых стандартов для топовых ускорителей: 270×100 мм. Да и занимает ускоритель традиционные 2 слота (хотя, по идее, трехслотовые ускорители должны уже стать стандартом для топовых продуктов). Система питания имеет 6 фаз для ядра и 2 фазы для микросхем памяти.
Ускоритель имеет набор гнезд вывода: 2 DVI (один из которых Single-Link и совместим с выводом на VGA) и по одному DisplayPort и HDMI (второе гнездо DVI обладает возможностью через адаптер передавать сигнал на HDMI, поэтому суммарно можно подключить 2 приемника с HDMI). Напомним, что ускорители Nvidia достаточно давно обладают собственными звуковыми кодеками, поэтому передача на HDMI-монитор будет полноценной, со звуком. Также уместно напомнить, что возможность одновременного вывода картинки максимально на 4 монитора (каждый до разрешения Full HD), реализована и тут. Как раз в случае GTX 780/Titan она наиболее полно востребована, учитывая мощность и возможности данных ускорителей.
Максимальные разрешения и частоты:
- 240 Гц — максимальная частота обновления;
- 2048×1536@85 Гц — по аналоговому интерфейсу;
- 2560×1600@60 Гц — по цифровому интерфейсу (для DVI-гнезд с Dual-Link/HDMI).
Что касается возможностей по ускорению декодирования видео — в 2007 году мы проводили такое исследование, с ним можно ознакомиться здесь.
Карта требует дополнительного питания, причем двумя разъемами: один с шестью контактами, второй — с восемью.
О системе охлаждения.
Мы провели исследование температурного режима с помощью новой версии утилиты EVGA PrecisionX (автор А. Николайчук AKA Unwinder) и получили следующие результаты.
Nvidia Geforce GTX 780 3072 МБ 384-битной GDDR5 PCI-E | |
---|---|
После 6 часов прогона карты под максимальной игровой нагрузкой максимальная температура ядра составила 84 градусов, что для топового ускорителя является приемлемым результатом. Таким образом, СО получилась весьма эффективной. Хоть и шумноватой.
Комплектация. Reference-карты всегда поставляются без комплектов, поэтому этот пункт мы пропустим.
Установка и драйверы
Конфигурация тестового стенда:
- Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
- 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
- СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
- СО Intel Thermal Solution RTS2011LC;
- системная плата Asus Sabertooth X79 на чипсете Intel X79;
- системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
- оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
- жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
- жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
- 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
- 2 блока питания Corsair CMPSU-1200AXEU (1200 Вт);
- корпус Corsair Obsidian 800D Full-Tower.
- операционная система Windows 7 64-битная; DirectX 11;
- монитор Dell UltraSharp U3011 (30″);
- драйверы AMD версии Catalyst 13.5beta; Nvidia версии 320.18 (для GTX 780), 320.14 (для остальных карт).
VSync отключен.
Синтетические тесты
Используемые нами пакеты синтетических тестов можно скачать здесь:
- D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org.
- D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0, ссылка.
- RightMark3D 2.0 с кратким описанием: под Vista без SP1, под Vista c SP1.
Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.
В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационной программой Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010).
Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная как Island11.
Синтетические тесты проводились на следующих видеокартах:
- Geforce GTX 780 со стандартными параметрами (далее GTX 780)
- Geforce GTX Titan со стандартными параметрами (далее GTX Titan)
- Geforce GTX 690 со стандартными параметрами (далее GTX 690)
- Geforce GTX 680 со стандартными параметрами (далее GTX 680)
- Radeon HD 7990 со стандартными параметрами (далее HD 7990)
- Radeon HD 7970 со стандартными параметрами (далее HD 7970)
Для сравнения результатов новой модели видеокарты Geforce GTX 780 именно эти решения были выбраны по следующим причинам. Geforce GTX 680 является прямой предшественницей новинки из предыдущего семейства, и будет интересно посмотреть, насколько увеличилась производительность новой модели по сравнению с ней. GTX Titan является самой близкой по скорости видеокартой, основанной на базе такого же графического процессора GK110, ну а двухчиповая GTX 690 интересна просто как видеокарта Nvidia с максимальной производительностью.
От конкурирующей компании AMD были выбраны две видеоплаты, ни одна из которых не является прямым соперником для представленной сегодня GTX 780. Референсный двухчиповый вариант на базе двух чипов Tahiti будет олицетворять более дорогую двухчиповую видеокарту с максимальной скоростью, а Radeon HD 7970 до сих пор является наиболее мощным одночиповым решением компании, хотя эта модель явно менее производительная и имеет цену ниже, чем у новой видеокарты Nvidia.
Direct3D 9: тесты Pixel Shaders
Тесты текстурирования и заполнения (филлрейта) из пакета 3DMark Vantage мы рассмотрим чуть позже, а первая группа пиксельных шейдеров, которую мы используем, включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх, и она очень проста для современных видеочипов.
Мы много раз писали, что эти тесты очень просты для современных GPU, скорость мощных решений в них почти всегда упирается в разные ограничения, и со следующего поколения GPU мы уберём такие тесты, так как они способны показать далеко не все возможности современных видеочипов и интересны лишь с точки зрения устаревших игровых приложений. Производительность современных видеокарт в этих тестах часто ограничена филлрейтом, но в случае самых мощных видеокарт почти все они показывают сравнимые результаты, немного выделяются только двухчиповые решения.
Новая модель видеокарты Nvidia в этом сравнении совсем немного отстала от аналога на базе GK110 (в трёх из пяти тестов уступила 8-9%), и даже от двухчиповой GTX 690 отставание невелико. Зато GTX 680 осталась позади. Ну а лидирует тут мощнейшая в сравнении плата на базе двух разогнанных чипов Tahiti, но она не входит в число конкурентов GTX 780, да и проблем у Crossfire-конфигураций с плавностью рендеринга хватает. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:
Тест Cook-Torrance более интенсивен вычислительно, и скорость в нём сильнее зависит от количества ALU и их частоты, но также и от скорости TMU. Этот тест исторически лучше подходит для графических решений компании AMD, хотя новые платы Geforce на базе архитектуры Kepler в нём показывают также довольно сильные результаты.
Первая плата новой линейки Geforce GTX 700 снова оказалась быстрее предшествующей GTX 680 и лишь 10-12% уступила мощнейшей GTX Titan, как и должно быть, исходя из теории. Что в тесте освещения, больше зависящем от скорости ALU, что в тесте Water, скорость в котором больше зависит от текстурирования, мы видим примерно одно и то же — так как скорость текстурирования и математических расчётов упала примерно на 12%. Хорошо, что и одночипового конкурента новинка обошла, хоть и уступив лидирующей в обоих тестах двухчиповой модели AMD.
Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0
Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:
- Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье «Современная терминология 3D-графики».
- Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.
Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:
Это универсальные тесты, производительность в которых зависит и от скорости блоков ALU, и от скорости текстурирования, также в них важен общий баланс чипа и эффективность исполнения вычислительных программ. Прошлые наши исследования показывают, что в этих конкретных задачах архитектура AMD смотрится несколько лучше графической архитектуры Nvidia.
В одном из тестов второй GPU у Radeon HD 7990 явно не работал — проблемы AFR есть и в синтетике. В тесте «Frozen Glass» скорость больше зависит от математической производительности, но Radeon HD 7970 оказывается быстрее новинки Nvidia, так как все Geforce во что-то явно упираются. Тот же Titan показывает результат чуть выше одночиповой GTX 680 — явная странность.
Во втором тесте «Parallax Mapping» новая видеокарта Nvidia показала производительность на уровне Radeon HD 7970 от конкурента и даже оказалась чуть быстрее GTX Titan, что можно объяснить разве что разницей в филлрейте (скорости блоков ROP). Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям:
В этих условиях положение плат на чипах производства Nvidia несколько улучшилось, и Geforce GTX 780 теперь в худшем из тестов стала ближе к одночиповой плате AMD, а во втором даже обгоняет. Двухчиповые платы от AMD и Nvidia тут оказались далеко впереди, особенно Radeon, даже с учётом явных проблем с масштабируемостью. Анонсированная видеокарта Nvidia в этих задачах работает сравнительно неплохо, но это всего лишь позволило ей догнать Radeon HD 7970.
Но всё это давно устаревшие задачи, с упором в текстурирование и филлрейт. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров, но уже версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Они наиболее показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны и включают большое количество ветвлений:
- Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье «Современная терминология 3D-графики».
- Fur — процедурный шейдер, визуализирующий мех.
Вот эти тесты уже практически не ограничены производительностью текстурных выборок или филлрейтом и больше всего зависят от эффективности исполнения сложного шейдерного кода. В самых тяжёлых DX9-тестах из первой версии пакета RightMark видеокарты производства Nvidia в предыдущие годы были сильнее, но в последних архитектурах решения AMD сильно ускорились, особенно после доводки драйверов.
Новинка компании Nvidia выступила неплохо по сравнению с предшественницей на базе одного чипа среднего класса (GK104), хотя и уступила двухчиповому варианту (впрочем, лидером всё же стала плата на двух Tahiti, которая значительно быстрее всех). Что касается сравнения с Titan, тот тут всё точно по теории — новинка проигрывает 12% в обоих тестах. Другими словами, ровно столько, сколько и должна.
Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)
Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.
Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.
Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.
Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.
В этом тесте производительность зависит от количества и эффективности блоков TMU, влияет и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает ещё и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раз ниже, чем при «Low».
В задачах процедурной визуализации меха с большим количеством текстурных выборок за пару поколений графических архитектур компания AMD сократила разницу с платами Nvidia, а с выпуском GCN и вовсе вырвалась вперёд. Давно уже именно платы Radeon являются лидерами таких сравнений, что говорит о высокой эффективности выполнения ими данных программ. Тем более что они не останавливали оптимизацию драйверов.
Если не брать в расчёт результат двухчиповой HD 7990, то даже Geforce GTX Titan лишь догнала одночиповую плату Radeon HD 7970. Рассматриваемая нами сегодня модель Nvidia по сравнению с другими Geforce показала неплохой результат, отстав от Titan ровно на 12%, что подтверждает версию об упоре в скорость TMU и/или ALU.
Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:
Ситуация похожа на ту, что мы видели на предыдущей диаграмме, но видеокарты Nvidia уступают своим соперникам от AMD ещё больше. Новинка Geforce GTX 780 всё так же отстаёт от Titan ровно настолько, насколько должна и с запасом опережает GTX 680. Что касается сравнения с платами на чипах AMD при включении суперсэмплинга, увеличивающего теоретическую нагрузку вчетверо, то тут всё печальнее — даже одночиповый Radeon HD 7970 далеко впереди, так как преимущество в подобных вычислениях явно у чипов компании AMD, предпочитающих попиксельные вычисления.
Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:
Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип ещё примерно в два раза — такой режим называется «High».
Диаграмма в целом похожа на предыдущую (также без включения SSAA), и Geforce GTX Titan идёт вровень с Radeon HD 7970. В целом, платы Nvidia в этом тесте справляются с работой всё так же хуже конкурирующих от AMD, и новая модель Geforce GTX 780 в обновленном D3D10-варианте теста без суперсэмплинга всё так показывает результат хуже, чем менее дорогая Radeon HD 7970, не говоря о двухчиповом варианте, который снова стал быстрейшим решением. Разница между GTX 780 и Titan сократилась до 9-10%. Посмотрим, что изменит включение суперсэмплинга.
Всё снова примерно так же, что и в «Fur» — при включении суперсэмплинга и самозатенения, задача получается ещё более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьёзное падение производительности. Разница между скоростными показателями протестированных видеокарт немного изменилась, включение суперсэмплинга сказывается меньше, чем в предыдущем случае — видеокарта Radeon HD 7970 не улучшила свои показатели относительно GTX 780, впрочем, всё равно оставшись впереди.
Графические решения Nvidia в наших D3D10-тестах пиксельных шейдеров работают менее эффективно, и двухчиповая плата на двух чипах Tahiti остаётся лидером. Героиня сегодняшнего обзора показывает скорость меньше, чем у Titan примерно настолько, насколько должна по теории. Titan же, в свою очередь, немного не дотягивается до HD 7970. Новая GTX 780 опережает только GTX 680. Посмотрим, что будет в чисто вычислительных задачах.
Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)
Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.
Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.
Результаты наших предельных математических тестов обычно примерно соответствуют разнице в частотах и количестве вычислительных блоков, но с влиянием разной эффективности их использования и с учётом оптимизации драйверов. К сожалению, в случае теста Mineral новая модель GTX 780 по каким-то причинам отстала от Titan больше, чем должна по теории — вместо 12% разницы у нас получилось 15%, что явно не оправдать одной лишь погрешностью измерений.
В остальном же, снова отметим, что архитектуры AMD в таких тестах ранее имели серьёзное преимущество перед конкурирующими видеокартами Nvidia, но в архитектуре Kepler компании Nvidia удалось увеличить число потоковых процессоров, и пиковая математическая производительность моделей Geforce, начиная с GTX 680, значительно возросла. Это мы и видим по результатам нашего первого математического теста, где рассматриваемая Geforce GTX 780 показала хороший результат, обогнав одночиповый аналог Radeon HD 7970. Впрочем, и сложность GPU у решения Nvidia гораздо выше.
Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:
А вот во втором математическом тесте мы видим иные относительные результаты, если сравнивать Titan и GTX 780 — разница между ними в этот раз получилась лишь 7%, что меньше теоретической. Но скорости Radeon HD 7970 в этом тесте всё равно оказалось достаточно, чтобы быть совсем близко к более сложному и дорогому решению от Nvidia. Сегодняшняя новинка Nvidia осталась впереди одночиповой платы AMD, но разница между ними стала меньше. Зато по сравнению с платой на GK104 новинка показала почти на треть большую производительность.
Direct3D 10: тесты геометрических шейдеров
В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.
Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.
Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:
Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для современных видеокарт не слишком сложная, и производительность в ней ограничена скоростью обработки геометрии и пропускной способностью памяти.
Разница между результатами видеокарт на чипах Nvidia и AMD (при одинаковом количестве GPU) обусловлена отличиями в геометрических конвейерах чипах этих компаний. Если в предыдущих тестах с пиксельными шейдерами платы AMD были заметно эффективнее и быстрее, то первый же тест геометрии показал, что в таких задачах платы Nvidia оказываются производительнее.
Сегодняшняя новинка Geforce GTX 780 имеет большое количество геометрических блоков — чуть меньше, чем в Titan, зато частота GPU у новинки выше, поэтому её отставание не превысило 5%. Впрочем, она легко справляется как со своей предшественницей GTX 680, так и с единственным одночиповым конкурентом — Radeon HD 7970 новая Geforce обходит с хорошим запасом. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:
При изменении нагрузки в этом тесте цифры слегка улучшились и для плат AMD, и для решений Nvidia. Видеокарты в первом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, а поэтому и все выводы остаются прежними. Новая модель Geforce GTX 780 всё так же почти не отстаёт от Titan и явно быстрее одночиповой видеоплаты из семейства Radeon HD 7000. Посмотрим далее — интересно, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.
«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.
Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy», — ещё и для их отрисовки. Иначе говоря, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер.
Все двухчиповые платы в этом тесте традиционно или не работают, или делают это очень плохо. Поэтому Radeon HD 7990 получил 0 баллов. Относительные результаты остальных решений в разных режимах примерно соответствуют изменению нагрузки: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть чуть менее чем в два раза медленней.
Скорость рендеринга в этом тесте ограничена в основном геометрической производительностью, но в случае сбалансированной загрузки геометрических шейдеров, все результаты близки. Geforce GTX 780 показала скорость на уровне Titan и лишь немного обошла предыдущую топовую плату первого семейства Kepler, да и конкурирующий Radeon HD 7970 где-то неподалёку. Эти цифры могут серьёзно измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в режимах «Balanced» и «Heavy».
Получилось как всегда — одночиповая плата AMD ухудшила результат, заметно уступив даже плате на базе чипа GK104, не говоря о топовой Titan. В этом тесте единственно важным параметром является скорость обработки геометрии, с которой дела у Nvidia обстоят заметно лучше, особенно что касается топовых решений. Несмотря на разное количество геометрических блоков, Geforce GTX 680, GTX 780 и Titan оказались довольно близки друг к другу по скорости рендеринга, а производительность плат на базе чипов GK110 отличается максимум на 10%.
Direct3D 10: скорость выборки текстур из вершинных шейдеров
В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.
Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:
Наши предыдущие исследования показали, что на результаты этого теста может влиять и скорость текстурирования и пропускная способность памяти (в лёгком режиме). Результаты некоторых видеокарт Nvidia бывают ограничены ещё чем-то, а двухчиповая плата от AMD получают очень приличный прирост от CrossFire.
Результаты обеих плат на чипе GK110 в лёгком режиме явно ограничены чем-то, зато в среднем и сложном режимах всё отлично. Хотя самой быстрой стала двухчиповая Radeon HD 7990, которая идёт у нас вне конкурса, а вот все остальные платы довольно близки друг к другу по скорости, кроме тяжёлого режима. Где первенствуют именно GTX Titan и сегодняшняя новинка — GTX 780, отставшая от старшей модели лишь на 5-10%. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:
Взаимное расположение карт на диаграмме мало изменилось — сравнительные результаты решений компании AMD в тяжёлых режимах заметно ухудшились, и теперь даже Radeon HD 7990 в тяжёлом режиме опережает новинку от Nvidia совсем чуть-чуть, ну а одночиповая плата Radeon HD 7970 заметно уступает им обеим. По сравнению с Geforce GTX Titan новинка показала себя на 11-13% медленнее, что примерно соответствует теории, по которой скорость текстурирования у GTX 780 ниже на 12%.
Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.
Результаты во втором тесте вершинного текстурирования «Waves» не похожи на те, что мы видели на предыдущих диаграммах, хотя общие тенденции схожие. По каким-то странным причинам показатели новых Geforce в лёгком режиме остаются довольно слабыми даже по сравнению с GTX 680, зато в тяжёлом режиме обе платы на GK110 более чем вдвое быстрее платы на базе чипа GK104. Скорость плат Radeon довольно неплохая, одночиповая HD 7970 оказалась быстрее GTX 680, хотя и немного отстала от представленной сегодня модели GTX 780. Рассмотрим второй вариант этого же теста:
С усложнением задачи скорость всех решений стала несколько ниже, и особенно заметно пострадали видеокарты Geforce в лёгких режимах. Это позволило Radeon HD 7970 приблизиться к GTX 780 в самых лёгких режимах. Результаты сегодняшней новинки снова оказались на 7-8% хуже, чем у GTX Titan, и почти вдвое выше, чем у GTX 680 — ожидаемый результат.
3DMark Vantage: тесты Feature
Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature-тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов новой видеокарты Nvidia в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.
Feature Test 1: Texture FillПервый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.
Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока, и сравнительные цифры моделей близки к соответствующим теоретическим параметрам. Топовая модель нового поколения Geforce GTX 700 отстала от GTX Titan на 13%, что примерно соответствует теоретической разнице по скорости текстурирования между ними, равной 12%. Новинка Nvidia заметно быстрее GTX 680 из предыдущего семейства и уступает по текстурированию только Titan (среди одночиповых плат).
Что касается сравнения скорости Geforce GTX 780 с решениями от конкурента, то и тут всё более-менее соответствует теории — новинка компании Nvidia по текстурной скорости с запасом обгоняет одночиповую плату (но с меньшей ценой) и уступает двухчиповой модели на таких же GPU. Для младшей модели на базе GK110 результат весьма неплохой, надо отметить.
Feature Test 2: Color FillВторая задача — тест скорости заполнения. В нём используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.
А вот в тесте производительности блоков ROP, увы, результат у анонсированной платы Nvidia получился явно слабее, даже Titan новинка уступила 14%, а должна бы по теории даже немного выигрывать! Причём, как мы ранее определили, цифры этого подтеста из 3DMark Vantage показывают производительность блоков ROP с учётом величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест иногда измеряет пропускную способность памяти, а не производительность ROP, но в нашем случае разница в скорости между GTX 780 и Titan не соответствует ни тому, ни другому, что довольно странно.
Что касается сравнения скорости Geforce GTX 780 с платами компании AMD, то представленная сегодня модель Nvidia показала лишь примерно такую же скорость заполнения сцены, что и одночиповый конкурент с меньшей ценой и сложностью чипа, а с двухчиповой Radeon HD 7990 побороться не получилось даже близко. Похоже, что у новинки есть какая-то проблема именно с этим тестом, так как ограничения общей производительности пропускной способностью видеопамяти и скоростью ROP быть не может.
Feature Test 3: Parallax Occlusion MappingОдин из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.
Тест отличается от проведённых нами ранее тем, что результаты в нём зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости тут важен верный баланс GPU, а также эффективность выполнения сложных шейдеров. В данном случае важнее математическая и текстурная производительность, поэтому в синтетике из 3DMark Vantage новая плата Geforce GTX 780 с запасом обогнала свою предшественницу — скорее всего, дело в теоретической разнице по скорости текстурирования.
А вот Radeon HD 7970 даже немного опередила новинку Nvidia, что довольно странно — вероятно, GPU производства AMD всё же остаются более эффективными в данном тесте. Понятно, что лучшей в сравнении снова стала модель на базе двух чипов Tahiti, ну а GTX 780 показала лишь приемлемый результат, так как в этом тесте решения Nvidia обычно уступают видеокартам на чипах AMD близких ценовых диапазонов.
Feature Test 4: GPU ClothЧетвёртый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.
Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, но основными факторами влияния является производительность обработки геометрии и эффективность выполнения геометрических шейдеров, поэтому и картину на диаграмме мы видим совершенно иную. Из-за значительного влияния геометрических блоков получается, что видеокарты производства Nvidia чувствуют себя в этом тестировании лучше конкурентов, обгоняя соответствующие платы Radeon. И только двухчиповая Radeon HD 7990 имеет достаточное преимущество, чтобы остаться впереди.
А что касается одночиповых моделей, то тут даже Geforce GTX 680 опережает топовую плату AMD в лице Radeon HD 7970. А уж рассматриваемая сегодня модель Geforce GTX 780 так и вовсе легко опережает плату соперника и почти равна по скорости GTX Titan, что вполне объяснимо, так как геометрическая производительность у них должна быть схожей. Это один из тех тестов, в которых видно преимущество решений Nvidia, имеющих распараллеленный геометрический конвейер.
Feature Test 5: GPU ParticlesТест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.
Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.
Рассмотрим второй геометрический тест из 3DMark Vantage. В этот раз Geforce GTX 780 снова оказалась быстрее GTX 680, но медленнее Titan, заметно опередив своего единственного одночипового конкурента AMD (напомним, что цены на эти платы разные, и конкуренция лишь номинальная).
Сравнивать скорость одночиповых плат с производительностью двухчипового соперника бессмысленно, два GPU от AMD позволяют плате Radeon HD 7990 стать лидером и в этом тесте. Хотя синтетические тесты имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, показывают, что платы Nvidia в них остаются лучшими и в целом опережают соперников в таких задачах.
Feature Test 6: Perlin NoiseПоследний feature-тест пакета Vantage является математически интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических расчётов.
В чисто математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим отличающееся распределение результатов, по сравнению с двумя аналогичными тестами из нашего тестового пакета. В этом случае производительность решений также не полностью соответствует теории и расходится с тем, что мы видели ранее в математических тестах из пакета RightMark 2.0.
Видеокарты Radeon компании AMD, созданные на базе чипов архитектуры GCN, всегда очень хорошо справляются с такими задачами и показывают лучшие результаты в случаях, когда выполняется сравнительно простая, но весьма интенсивная математика. Видеоплата Radeon HD 7970 тут показывает отличный результат, лишь немного отставая от новинки Geforce GTX 780, которая будет продаваться явно по большей цене.
Что касается сравнения с платами Nvidia, то рассматриваемая сегодня видеокарта GTX 780 показала скорость значительно выше, чем у GTX 680, и довольно близкую к производительности GTX Titan (отставание от неё составило лишь 11%, что близко к теоретическим 12%). Возросшая эффективность видеокарт на основе чипов архитектуры Kepler в этой задаче позволила GTX 780 успешно бороться с соответствующей платой Radeon, хотя и имеющей менее сложный GPU.
Direct3D 11: Вычислительные шейдеры
Чтобы протестировать новое решение компании Nvidia в задачах, использующих такие новые возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.
Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.
Это не самый удачный пример с вычислительными шейдерами, но разницу в производительности в одной конкретной задаче он показывает. Скорость расчётов в вычислительном и пиксельном шейдерах для всех плат давно одинаковая, это у видеокарт с GPU предыдущих архитектур были различия. Судя по нашим предыдущим тестам, результаты в задаче явно зависят не только от математической мощи и эффективности вычислений, но и от других факторов, вроде ПСП и производительности ROP.
Новая плата компании Nvidia в этом тесте оказалась лишь на 7% медленнее эксклюзивной модели GTX Titan. Понятно, что она также опережает и предыдущую одночиповую модель GTX 680, но не слишком сильно, что говорит об упоре в производительность ROP, скорее всего. Что касается сравнения с Radeon HD 7970, то новинка немного впереди, но совсем чуть-чуть.
Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нём показана расчётная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.
А вот в этом случае расклад совершенно иной. Мы снова видим, что у решений Nvidia есть явное преимущество в таких сложных расчётных задачах. И поэтому в этом тесте совершенно логично побеждает мощнейшая Geforce GTX Titan, а следом за ней идёт анонсированная сегодня вторая плата на GK110, и разница между ними соответствует теории — 11%.
Так что очень похоже на то, что в этом тесте упор именно в скорость исполнения математических вычислений, по крайней мере на платах Nvidia. Ну а Radeon HD 7970 в этой задаче остался на последнем месте, уступив и GTX 680. Переходим к тестам производительности в задачах тесселяции, которые традиционно должны показать одну из лучших сторон новой платы.
Direct3D 11: Производительность тесселяции
Вычислительные шейдеры очень важны, но ещё одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали её в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.
Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.
Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нём реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:
В тесте простого бампмаппинга платы упираются в ПСП, и результат новой видеокарты Nvidia примерно соответствует скорости Geforce GTX Titan и Radeon HD 7970. Новинка Nvidia опережает предшественницу и немного уступает Titan и HD 7970. Во втором подтесте с более сложными попиксельными расчётами всё намного интереснее! Сразу три платы показали почти идентичный результат: GTX 780, Titan и HD 7970. Хотя эффективность выполнения таких математических вычислений в пиксельных шейдерах у чипов архитектуры GCN выше, чем у Kepler, но так как GK110 сложнее Tahiti, то и результаты получились близкие. GTX 780 близка к Titan в этой задаче потому, что скорость также ограничена ПСП.
В самом интересном тесте с тесселяцией результат новинки весьма неплох — она показала такую же скорость, что и Titan. В данном тесте тесселяции разбиение треугольников весьма умеренное и скорость в нём совсем не упирается в производительность блоков обработки геометрии. Поэтому скорости обработки треугольников у платы компании AMD вполне хватает, чтобы показывать результаты, аналогичные тому, что мы видим у GTX 680. Ну а у GTX 780 и Titan скорость ещё выше.
Вторым тестом производительности тесселяции будет ещё один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.
В этом примере применяется более сложная геометрия, и сравнение геометрической мощи различных решений по этому тесту приносит другие выводы. Все представленные в материале современные решения хорошо справляются с лёгкой и средней геометрической нагрузкой, показывая высокую скорость, но в тяжёлых условиях графические процессоры Nvidia остаются заметно более производительными.
Так как анонсированная сегодня модель Geforce GTX 780 основана на чипе GK110, который имеет большое количество геометрических блоков (по сравнению с GK104 и, тем более, Tahiti), то именно новинка становится одной из лучших видеокарт во всех условиях, уступая только Titan. В сложных условиях скорость Radeon HD 7970 серьёзно падает, а у всех плат Nvidia остаётся сравнительно высокой. Но нас удивляет слишком большое отставание GTX 780 от Titan, которое невозможно ничем объяснить, кроме недостаточной оптимизацией драйвера именно для этого приложения: разницу в 20-30% невозможно оправдать чем-то иным.
Рассмотрим результаты ещё одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.
Тест Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. И в нём результаты выглядят ближе к тому, что должно быть в теории.
Мы протестировали данную программу при четырёх разных коэффициентах тесселяции (в данном случае настройка называется Dynamic Tessellation LOD). Если при самом первом коэффициенте разбиения треугольников, когда скорость не ограничена производительностью геометрических блоков, старшая одночиповая видеокарта компании AMD показывает достаточно высокий результат, даже лучше чем у Geforce GTX 680, то при увеличении геометрической работы платы компании Nvidia вырываются далеко вперёд, а производительность единственной Radeon заметно снижается.
А уж обе видеокарты на базе чипов GK110 в этом тесте чувствуют себя просто как рыба в воде! Новая плата Nvidia семейства Geforce GTX 700 во всех режимах показывает просто отличные результаты, в сложных условиях даже обгоняя Titan! Это и понятно, ведь у неё большая частота GPU, а разница в количестве движков PolyMorph не так уж велика. В общем, результат новинки в тестах тесселяции просто отличный, как и должно быть.
Выводы по синтетическим тестам
Результаты синтетических тестов топовой видеокарты Geforce GTX 780, основанной на мощнейшем графическом процессоре GK110 семейства Kepler, а также результаты других моделей видеокарт производства обоих производителей дискретных видеочипов показали, что новинка Nvidia является одной из самых мощных видеокарт в большинстве задач и из одночиповых видеокарт уступает разве что аналогичной плате с большей ценой — Geforce GTX Titan.
Судя по синтетическим тестам, превосходство новой модели в производительности перед Geforce GTX 680 в основном соответствует теории и было вполне ожидаемо, так как мы уже знаем производительность GTX Titan. За исключением редких задач, анонсированная сегодня модель отлично выступила и по сравнению с самой мощной моделью конкурента — Radeon HD 7970. Хотя, конечно, они и не являются прямыми конкурентами. Наш набор синтетических тестов показал, что по производительности Geforce GTX 780 лишь на 10% уступает модели Titan, и с учётом отсутствия проблем многочипового AFR-рендеринга и меньшей цены, многим энтузиастам можно посоветовать к приобретению именно эту видеокарту.
Это очень интересное предложение для тех энтузиастов, которые хотят играть при максимальных настройках и иметь один из мощнейших GPU, но не собираются платить огромную сумму денег за Geforce GTX Titan. Новая плата всё-таки стоит заметно дешевле, а разница между ними по скорости небольшая в большинстве случаев, а по функциональности только в объёме памяти (в играх вычисления с двойной точностью не применяются). В общем, в виде GTX 780 рынок получил ещё одно мощное топовое решение, и будет очень интересно проверить производительность новой модели в играх в следующей части статьи.
Nvidia Geforce GTX 780 — Часть 3: производительность в игровых тестах →
2 блока питания Corsair CMPSU-1200AXEU для
тестового стенда предоставлены
компанией Corsair |
Корпус Corsair Obsidian 800D-Full Tower для
тестового стенда предоставлен
компанией Corsair |
Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для
тестового стенда предоставлены
компанией Corsair |
Corsair Hydro SeriesT H100i CPU Cooler для
тестового стенда предоставлен
компанией Corsair |
Монитор Dell UltraSharp U3011 для
тестовых стендов предоставлен
компанией Юлмарт |
Системная плата Asus Sabertooth X79 для
тестового стенда предоставлена
компанией AsusTeK |
Системная плата MSI X79A-GD45(8D) для
тестового стенда предоставлена
компанией MSI |
Жесткий диск Seagate Barracuda 7200.14 3 ТБ для
тестового стенда предоставлен
компанией Seagate |
Накопитель SSD OCZ Octane 512 ГБ для
тестового стенда предоставлен
компанией OCZ Russia |
2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для
тестового стенда предоставлены
компанией Corsair |
Дополнительно |
|