СОДЕРЖАНИЕ
- Часть 1 Теория и архитектура
- Часть 2 Практическое знакомство
- Особенности видеокарт
- Конфигурация стенда, список тестовых инструментов
- Результаты синтетических тестов
- Результаты игровых тестов (производительность)
Nvidia Geforce GTX460: Часть 1: Теоретические сведения
В этой части, как обычно, мы изучим сами видеокарты, а также познакомимся с результатами синтетических тестов.
Nvidia Geforce GTX 460 768MB PCI-E AFOX Geforce GTX 460 768MB PCI-E EVGA Geforce GTX 460 768MB PCI-E | |
---|---|
Каждая карта имеет 768 МБ памяти GDDR5 SDRAM, размещенной в 6 микросхемах на лицевой сторонe PCB. Микросхемы памяти Samsung (GDDR5). Микросхемы расчитаны на максимальную частоту работы в 1000 (4000) МГц. |
Сравнение с эталонным дизайном, вид спереди | |
---|---|
Nvidia Geforce GTX 460 768MB PCI-E | Reference card Nvidia Geforce GTS 250 |
AFOX Geforce GTX 460 768MB PCI-E | |
EVGA Geforce GTX 460 768MB PCI-E | |
Сравнение с эталонным дизайном, вид сзади | |
---|---|
Nvidia Geforce GTX 460 768MB PCI-E | Reference card Nvidia Geforce GTS 250 |
AFOX Geforce GTX 460 768MB PCI-E | |
EVGA Geforce GTX 460 768MB PCI-E | |
Ну вот что сразу бросается в глаза, так то, что все три карты полностью идентичны. Это не просто копии эталонного дизайна, это по сути все три карты - референс, сделанные на сторонних заводах по заказу Nvidia. Так бывает всегда при первом выпуске даже карт низшего ценового уровня. Уже вскоре после выпуска первой партии партнеры Nvidia начинают самостоятельное производство подобных ускорителей.
Еще можно также с уверенностью сказать, что данная PCB - универсальна, и на ней разведена шина обмена с памятью 256 бит, просто не установлено 2 микросхемы памяти (в итоге 6 вместо 8), и таким путем получилась шина 192 бит и объем памяти 768 мегабайт. Если карту укомплектовать всеми 8-ю микросхемами памяти, то получится шина 256 бит и объем памяти 1024 мегабайт. Таким образом, будущие «более старшие» GTX 460 с 1GB памяти будут базироваться на той же PCB и скорее всего иметь ту же СО.
Здесь следует снова особо остановиться на названиях. Уже не один раз было, что Nvidia со своими наименованиями карт путала пользователей. Вспомнить хотя бы историю с 8800 GTX 320, 640 и 512 мегабайт, когда как последний вариант основан вообще на другом ядре и был на 15-20% быстрее первых двух. А название одно и то же. И в данном случае - когда бывали случаи карты имели разный объем памяти, и при этом базировались на одном ядре и имели одно и то же наименование. Это было понятно. Там производительность могла бы отличаться незначительно и только в тех играх, которым критичен объем локальной видеопамяти.
Однако если же уже и ПСП меняется, которая зависит от шины обмена с памятью, то в данном случае два вида GTX 460 могут весьма существенно отличаться по скорости. На наш взгляд называть карты с разной шиной памяти одним именем - это очень неразумное решение. Потому что в данном случае пользователь должен будет помнить что с 768 мегабайтами карта будет более слабее (ПСП меньше), а с 1024 мегабайтами более мощная.
Вернемся к картам.
Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также с серийными картами поставляются переходники DVI-to-HDMI (данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник, поскольку обладают собственным звуковым кодеком), поэтому проблем с такими мониторами также не должно быть. К тому же продукт уже оснащен один разъемом mini-HDMI (и к каждой серийной карте должен прилагаться переходник с mini-HDMI на HDMI. Следует напомнить, что комбинация из двух таких карт в режиме SLI позволяет выводить картинку игры сразу на ТРИ монитора, делая впечатления от игры более яркими, по аналогии с технологией AMD EyeFinity.
Максимальные разрешения и частоты:
- 240 Hz Max Refresh Rate
- 2048 x 1536 x 32bit x85Hz Max по аналоговому интерфейсу
- 2560 x 1600 @ 60Hz Max по цифровому интерфейсу (для DVI-гнезд с Dual-Link / HDMI)
По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.
Есть смысл сказать, что карта требуют дополнительного питания, причем двумя 6-pin разъемами.
Чип был получен на десятой неделе этого года, то есть в марте.
О системе охлаждения.
Мы провели исследование температурного режима с помощью утилиты EVGA Precision (автор А. Николайчук AKA Unwinder) и получили следующие результаты:
Nvidia Geforce GTX 460 768MB PCI-E
Как мы видим, максимальный нагрев всего лишь 71 градус (это после 5 часовой непрерывной работы в 3D). Это говорит и о том, что ядро в целом не такое горячее, как у старшего собрата, ну и об эффективной СО.
Комплектация.
Базовый комплект поставки должен включать в себя: руководство пользователя, диск с драйверами и утилитами. Несмотря на то, что у этих карт имеются два современных гнезда вывода, требуются адаптеры mini-HDMI-to-HDMI. Поскольку ТВ-выходов больше не ставят, потому соответствующие адаптеры не нужны. При этом адаптеры DVI-to-VGA могут еще пригодиться. Ниже мы покажем, что предлагается дополнительно.
Упаковка.
Установка и драйверы
Конфигурация тестового стенда:
- Компьютер на базе Intel Core I7 CPU 975 (Socket 1366)
- процессор Intel Core I7 CPU 975 (3340 MHz);
- системная плата Asus P6T Deluxe на чипсете Intel X58;
- оперативная память 6 GB DDR3 SDRAM Corsair 1600MHz;
- жесткий диск WD Caviar SE WD1600JD 160GB SATA;
- блок питания Tagan TG900-BZ 900W.
- операционная система Windows 7 32bit; DirectX 11;
- монитор Dell 3007WFP (30");
- драйверы ATI версии Catalyst 10.6; Nvidia версии 257.21 / 258.80.
VSync отключен.
Используемые нами пакеты синтетических тестов можно скачать здесь:
- D3D RightMark Beta 4 (1050) с описанием на сайте http://3d.rightmark.org.
- D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
- RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1.
Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.
Синтетические тесты проводились на следующих видеокартах:
- Geforce GTX 460 со стандартными параметрами, модель с 768 МБ видеопамяти (далее GTX 460)
- Geforce GTX 465 со стандартными параметрами (далее GTX 465)
- Geforce GTX 480 со стандартными параметрами (далее GTX 480)
- Radeon HD 5830 со стандартными параметрами (далее HD 5830)
- Radeon HD 5770 со стандартными параметрами (далее HD 5770)
Для сравнения результатов новой модели Geforce GTX 460 с 768 МБ памяти были выбраны эти видеокарты по следующим причинам: Radeon HD 5830 это самое близкое по цене решение конкурента, HD 5770 также основан на близком по позиционированию GPU от конкурирующей компании AMD, также с близкой к GTX 460 ценой. С решениями Nvidia даже ещё проще: Geforce GTX 480 наиболее производительная одночиповая карта на топовом GPU этого же поколения, а GTX 465 близкая по характеристикам карта на чипе GF100. По этим вариантам можно будет косвенно судить об изменениях в архитектуре GF104.
Direct3D 9: тесты Pixel Filling
В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:
Снова мы видим подтверждение того, что данный тест устарел, и видеокарты (как минимум, от Nvidia) показывают цифры, далёкие от теоретически возможных значений. Но мы их проверим далее, в тесте Vantage. Результаты данной синтетики сильно не дотягивают до пиковых значений, по ней получается, что GTX 460 выбирает до 32 текселей за один такт из 32-битных текстур при билинейной фильтрации в этом тесте, что значительно ниже теоретической цифры в 56 отфильтрованных текселей.
Естественно, из-за этого получается, что GTX 460 уступает всем остальным участникам теста, кроме GTX 465, при большом количестве накладываемых на пиксель текстур. А ведь по теории GTX 460 должен обладать более высокой чем у HD 5770 текстурной производительностью, почти догоняя GTX 480. В данном тесте мы этого не видим.
Интересна разница между GTX 460 и GTX 465. В случаях с небольшим количеством текстур, где больше сказывается ограничение по ПСП, выигрывает вариант на основе урезанного GF100, обладающий большей ПСП. Зато при 4-8 текстурах GTX 460 догоняет и даже опережает GTX 465. Впрочем, в этом тесте в любом случае явно не достигаются реально возможные показатели нового GPU. Смотрим эти же результаты в тесте филлрейта:
Второй синтетический тест показывает скорость заполнения, и в нём мы видим всё то же самое, но уже с учетом количества записанных в буфер кадра пикселей. Максимальный результат остаётся за решениями AMD, имеющими большее количество TMU и более эффективными по достижению высокого КПД в этом синтетическом тесте. Даже HD 5770 показывает скорость на уровне GTX 480! Расстраивает, что в случаях с 0-3 накладываемыми текстурами, рассматриваемое сегодня решение сильно уступает всем остальным. Понятно, что в таких режимах производительность ограничена ПСП, но ведь этот показатель у GTX 460 даже выше чем у HD 5770, так что дело явно не в нём.
Direct3D 9: тесты Pixel Shaders
Первая группа пиксельных шейдеров, которую мы рассматриваем, очень проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх.
Тесты весьма просты для современных GPU и показывают не все возможности современных видеочипов, но они для нас всё же интересны для оценки баланса между текстурными выборками и математическими вычислениями, особенно при внесении изменений в архитектуру GPU. Поэтому будет интересно сравнить поведение GF104 и GF100.
В этих тестах производительность ограничена по большей части скоростью текстурных модулей, но с учётом эффективности блоков и кэширования текстурных данных в реальных задачах. Проверяем, как сказались изменения в архитектуре GF104, по сравнению с GF100, на примере GTX 460 и GTX 465, обладающих близкими техническими характеристиками. Новая карта GTX 460 показывает результат выше, чем карта на основе топового GPU, в трёх простых тестах.
А вот в тестах освещения GTX 465 опережает новую видеокарту, что можно объяснить либо упором последней в эффективный филлрейт, либо разной эффективностью исполнительных блоков (возможно, текстурирование тут также недостаточно эффективно, как и в предыдущем тесте). Видеокарта на базе GF104 показывает результаты чуть ниже уровня Radeon HD 5770, не говоря о более мощном HD 5830. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:
И снова мы видим интересную разницу в результатах GTX 460 и GTX 465 в различных тестах. В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, и карты в нём обычно располагаются по скорости текстурирования, с поправкой на разную эффективность использования TMU. Как раз в этом тесте дела у GTX 460 идут очень неплохо, она опережает GTX 465 и HD 5770, почти догоняя GTX 480. Правда, решение AMD на основе чипа RV870 всё равно показывает максимальный результат.
А вот результаты второго теста отличаются, в нём GTX 460 снова проигрывает всем. Этот тест более интенсивен вычислительно, и всегда лучше подходил для архитектуры AMD, обладающей большим количеством блоков ALU, и современные решения AMD в нём хороши. Непонятно отставание GTX 460 от GTX 465, так как теоретически его математические возможности должны быть чуть более сильными. Видимо, эффективность использования ALU из-за повышения их числа на один мультипроцессор в этом тесте всё-таки снизилась.
Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0
Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:
- Parallax Mapping знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики.
- Frozen Glass сложная процедурная текстура замороженного стекла с управляемыми параметрами.
Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:
Это универсальные тесты, зависящие и от скорости блоков ALU и от скорости текстурирования, в них важен общий баланс чипа. Производительность видеокарт в тесте «Frozen Glass» схожа с той, что мы видели выше в «Cook-Torrance», и новая GTX 460 всё так же уступает GTX 465 на основе GF100. И оба решения компании AMD также оказались быстрее.
Во втором тесте «Parallax Mapping» результаты снова очень похожи на предыдущие. Впрочем, в этот раз HD 5830 уступил топовой карте Nvidia, что является не слишком большим утешением, так как решение на основе GF104 снова позади всех, и GTX 460 уступает GTX 465 снова примерно столько же, что и в прошлый раз.
Но не будем делать глобальные выводы раньше времени, и посмотрим, что получится дальше. Ведь игровые приложения обычно многограннее, чем синтетические, и не упираются явно в какой-то один параметр. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там GTX 460 просто обязан быть сильнее:
И действительно, положение GTX 460 немного улучшилось. Хотя эта видеокарта продолжает уступать и HD 5830 и HD 5770 (с текстурными выборками в нашей DX9 синтетике карты AMD справляются явно лучше), но хотя бы слабую по текстурированию GTX 465 она обходит, особенно в тесте Frozen Glass, больше зависящем от производительности TMU. Сегодняшний герой в лице GTX 460 выглядит лучше, подбираясь к гораздо более дорогой GTX 480, так как в этих тестах явно заметен упор производительности в скорость текстурных блоков, а и их количество у GF100 всё же недостаточное.
Всё это были устаревшие задачи, в основном с упором в текстурирование или филлрейт, не особенно сложные. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9 API, которые намного показательнее с точки зрения современных игр на ПК. Эти тесты отличаются тем, что сильнее нагружают и ALU, и текстурные модули, обе шейдерные программы сложные и длинные, включают большое количество ветвлений:
- Steep Parallax Mapping значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики.
- Fur процедурный шейдер, визуализирующий мех.
Если сравнивать с видеокартами AMD, то можно вздохнуть с облегчением с тестами пиксельных шейдеров версии 3.0 у решений Nvidia всё совсем неплохо! Оба PS 3.0 теста довольно сложные, почти не зависят от ПСП и текстурирования, и они чисто математические, но с большим количеством переходов и ветвлений, с которыми лучше справляется новая архитектура Nvidia.
В этих тестах GTX 460 показывает результат выше HD 5770 и примерно паритетный с HD 5830. К сожалению, в тесте продвинутого параллакс маппинга, новое решение Nvidia уступает своему собрату GTX 465. Не совсем понятно, что повлияло таким образом на результаты теста, то ли нехватка ПСП, то ли негативно сказались архитектурные изменения в новом графическом процессоре среднего уровня (увеличенное количество блоков ALU в каждом мультипроцессоре).
Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)
Во вторую версию RightMark3D вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.
Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.
Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» от 160 до 320 выборок из карты высот.
Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.
Производительность в этом тесте зависит и от количества и эффективности блоков TMU, и от филлрейта с ПСП, хоть и в меньшей степени. Результаты в «High» получаются примерно в полтора раза ниже, чем в «Low», как и должно быть по теории. В Direct3D 10 тестах процедурной визуализации меха с большим количеством текстурных выборок решения Nvidia всегда были сильны, но последняя архитектура AMD их догнала.
В результате, GTX 460 всё-таки отстаёт от GTX 465 и HD 5830, хотя и опережает HD 5770. Это говорит скорее о явном влиянии эффективного филлрейта и ПСП, по которым новое решение Nvidia немного отстаёт от всех, кроме HD 5770. Этим же объясняется и то, что GTX 480 оказалась далеко впереди. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсемплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:
Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, и в этот раз решения Nvidia немного сдают. А вот обе карты Radeon теперь выглядят немного сильнее, и HD 5830 даже конкурирует с GTX 480! А вот GTX 460 теперь уступает не только GTX 465, но и HD 5770. Влияния производительности ALU и эффективного выполнения ветвлений в этом тесте не отмечено.
Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсемплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсемплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:
Данный тест несколько интереснее с практической точки зрения, так как разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются во многих проектах, например, в играх Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».
Диаграмма во многом повторяет предыдущую (без SSAA), даже по абсолютным цифрам показаны близкие результаты. В обновленном D3D10 варианте теста без суперсэмплинга, GTX 460 справляется с поставленной задачей чуть лучше, чем конкурирующий по цене Radeon HD 5830, но всё так же отстаёт от своего старшего брата GTX 465, основанного на GF100. GTX 480 снова недосягаема, имея явное преимущество по всем теоретическим характеристикам, кроме текстурирования, разве что. Посмотрим, что изменит включение суперсэмплинга, он снова должен вызвать большее падение скорости на картах Nvidia.
При включении суперсэмплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростными показателями нескольких видеокарт изменилась, включение суперсэмплинга сказывается как и в предыдущем случае карты производства AMD явно улучшили свои показатели относительно решения Nvidia.
Теперь HD 5830 лишь немного не достаёт до GTX 480, а HD 5770 становится на уровень GTX 465. Новое решение Nvidia проигрывает и своему конкуренту HD 5770 и GTX 465. Надеемся, что в игровых тестах положение будет иным, и что GTX 460 покажет результат выше уровня HD 5770. Ну а пока сделаем вывод о том, что архитектурные изменения в новых GPU компании Nvidia не дают преимуществ в этих тестах.
Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)
Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.
Первый математический тест Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.
Чисто математические тесты должны быть интересны, так как графический процессор GF104 архитектурно всё же отличается от своего топового собрата GF100. В остальном, решения AMD в наших синтетических тестах явно быстрее, так как в вычислительно сложных задачах современная архитектура AMD имеет большое преимущество перед конкурирующими видеокартами Nvidia. Это положение подтверждается и в этот раз, разрыв между картами Nvidia и AMD весьма велик, лучшей в этом тесте является HD 5830, а HD 5770 почти догнала топовый GTX 480!
Но всё это было понятно заранее, нас должно больше интересовать сравнение GTX 460 с GTX 465. И тут всё примерно соответствует теории GTX 460 вычисляет чуть-чуть быстрее, по сравнению с младшим решением на базе GF100, хотя теоретическая разница немного всё же больше. Но в общем, все решения расположились примерно соответственно теоретическим показателям, и для Nvidia, и для AMD.
В наших прошлых исследованиях получалось, что данный тест не полностью зависит от скорости ALU, так что рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:
Но почти ничего не изменилось. Во втором тесте скорость рендеринга также ограничена почти исключительно производительностью шейдерных блоков, и разница между GTX 460 и GTX 465 стала чуть больше, но всё же слишком мала, теоретически должно быть не 2%, а 6%. Новое решение всё так же позади конкурентов в лице Radeon HD 5770 и уж тем более HD 5830, которое снова стало лидером, показав в этом тесте лучшую производительность.
Итог по предельным математическим вычислениям остаётся ровно тем же самым, что и последние несколько лет налицо явное преимущество решений компании AMD, которое не изменил выход линейки GTX 400. В пиковой математике даже решения AMD среднего уровня показывают результаты, близкие к топовым от Nvidia. И тут ничего не поделать, таковы архитектурные отличия. Что ж, переходим к результатам тестирования геометрических шейдеров уж там-то новое решение должно показать себя лучше.
Direct3D 10: тесты геометрических шейдеров
В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.
Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления в вершинном или геометрическом. Количество вычислений всегда одинаково.
Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:
Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не особенно сложная, производительность в целом ограничена не только скоростью обработки геометрии, но и пропускной способностью памяти в меньшей мере.
Топовый графический процессор показывает свою силу, Geforce GTX 480 во всех режимах заметно обгоняет все остальные видеокарты, а GTX 465, основанный на том же GF100, имея большее количество блоков обработки геометрии, показывает более высокую скорость, чем GTX 460. Который, в свою очередь, впереди обеих видеокарт Radeon, имеющих меньшую скорость обработки геометрии. Как и ожидалось, выполнение геометрических шейдеров и у GF104 осталось эффективным, хотя уже и не настолько, как у GF100. Посмотрим, изменится ли ситуация при переносе части вычислений в геометрический шейдер:
При изменении нагрузки в этом тесте, цифры для решений Nvidia почти не изменились, а вот обе Radeon немного подтянули результаты, и теперь уже HD 5830 показывает скорость совсем чуть-чуть выше, чем GTX 460. Карты Nvidia в этом тесте не замечают изменения параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, и показывают аналогичные предыдущей диаграмме результаты. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.
«Hyperlight» это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.
Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:
Относительные результаты в разных режимах снова соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть менее чем в два раза медленней.
В этом тесте скорость рендеринга для всех решений не так явно ограничена геометрической производительностью. Новый Geforce GTX 460 в этот раз лишь немного отстаёт от GTX 465, особенно в тяжёлом режиме. И всё так же превосходит скорость Radeon HD 5830 и HD 5770 во всех режимах (разница заметна больше в лёгких режимах). GTX 480 хоть и является лидером, но оторвался от более дешёвых видеокарт в этом случае не так уж сильно.
Цифры должны измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.
И вот теперь мы видим явную разницу между GF100 и GF104 по скорости исполнения геометрических шейдеров. Явно сказывается наличие лишь двух растеризаторов, а не четырёх, как у GF100. Возможности GF100 по обработке геометрии и скорости исполнения геометрических шейдеров явно примерно вдвое выше, чем у GF104.
Новое решение GTX 460 в этом тесте хоть и остаётся быстрее, чем Radeon HD 5830 и HD 5770, но лишь совсем немного. Сравните результаты на этой диаграмме и на предыдущей при увеличении нагрузки на геометрические блоки GF104 явно ведёт себя схоже с видеочипами компании AMD, а не с GF100. И всё именно потому, что количество геометрических блоков у него не очень велико. Та же GTX 465, обладая большим количеством растеризаторов, заметно ускорилась в этом тесте, в полтора раза обойдя GTX 460.
Вот и ещё одно потенциально слабое место в производительности обнаружено (по сравнению с GF100). Хотя, для решения среднего уровня это не так важно, так как исполнение геометрических шейдеров достаточно эффективно и на GF104. Лишь бы в тестах тесселяции не было слишком сильного снижения скорости рендеринга из-за меньшего количества блоков обработки геометрии в новом GPU.
Direct3D 10: скорость выборки текстур из вершинных шейдеров
В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» нет.
Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:
Предыдущие исследования показали, что на результаты этого теста влияет и скорость текстурирования и пропускная способность памяти. Разница между всеми решениями не такая уж большая, только GTX 480 показывает заметно отличающиеся результаты, опережая всех. GTX 460 и GTX 465 в лёгких режимах явно упираются во что-то неведомое, но в тяжёлых обе обгоняют конкурентов от AMD. Видимо, выборки из вершин картам Nvidia даются несколько легче. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:
Взаимное расположение карт на диаграмме изменилось лишь немного. Теперь во что-то неведомое в лёгком режиме упираются все решения компании Nvidia. Зато в тяжёлых режимах GTX 460 обгоняет конкурентов HD 5830 и HD 5770, но ещё сильнее отстаёт от GTX 465. Вероятно, сказывается меньшая пропускная способность видеопамяти, других вариантов нет.
Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.
Результаты в тесте «Waves» не похожи на те, что мы видели на предыдущих диаграммах. Теперь мы видим явное преимущество продукции AMD. В этом тесте GTX 460 показывает производительность выше, чем HD 5770, но до HD 5830 и GTX 465 не достаёт. Видимо, действительно, сказывается скорее ПСП, чем скорость текстурных выборок. Рассмотрим второй вариант этого же теста:
Изменения снова почти отсутствуют, хотя с ростом сложности условий относительные результаты графического процессора GF104 во втором тесте вершинных выборок стали несколько лучше. Теперь GTX 460 явно опережает HD 5770 и в тяжёлом режиме близка к HD 5830, всё же заметно отставая от последней в простых условиях.
Честно говоря, тесты вершинных выборок можно считать практически бесполезными, так как почти все видеокарты справляются с ними вполне неплохо, а производительность в этих тестах зависит скорее не от скорости TMU, а от других характеристик в частности, пропускной способности видеопамяти.
3DMark Vantage: Feature тесты
Мы снова решили включить в материал и синтетические тесты из пакета 3DMark Vantage. Пакет хоть уже и не новый, но его feature тесты обладают поддержкой D3D10 и интересны уже тем, что отличаются от наших. При анализе результатов нового решения Nvidia в этом пакете мы сможем сделать какие-то новые и полезные выводы, ускользнувшие от нас в тестах семейства RightMark. Особенно это касается теста скорости TMU. Feature Test 1: Texture Fill
Первый тест тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.
В тесте текстурной производительности из пакета Vantage, соотношение результатов получается совсем иное, чем в нашем. И как раз эти цифры больше похожи на истинное положение дел, судя по всему. В этих тестах карты Nvidia более эффективно используют имеющиеся текстурные блоки. И хотя GTX 480 продолжает отставать от HD 5830, но отрыв уже совсем невелик и близок к теоретическому.
Но нас больше интересует Geforce GTX 460, и эта новая видеокарта на базе GF104 показывает весьма хороший результат, отставая лишь от GTX 480 и HD 5830, снова в точном соответствии с теорией. И в паре GTX 460 с GTX 465 наблюдается точно такая разница, как должна быть, исходя из технических характеристик. Feature Test 2: Color Fill
Тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.
Показатели производительности в этом тесте соответствуют теоретическим цифрам филлрейта (производительности блоков ROP), без учёта влияния ПСП видеопамяти. Они не похожи на наши потому, что у нас используется целочисленный буфер с 8-бит на компоненту, а в тесте Vantage 16-бит с плавающей точкой. Цифры Vantage показывают именно производительность блоков ROP, а не величину пропускной способности памяти.
Результаты теста примерно соответствуют теоретическим цифрам, и зависят от количества блоков ROP и их частоты. А влияние ПСП почти отсутствует. GTX 460 показывает неплохой результат на уровне обоих конкурентов от компании AMD, имеющих чуть более низкую теоретическую скорость заполнения. А вот от GTX 465 новое решение отстаёт по той же причине даже урезанный GF100 обладает большей производительностью блоков ROP. Естественно, GTX 480 в этом тесте остаётся далеко впереди.
Feature Test 3: Parallax Occlusion Mapping
Один из самых интересных feature тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника), с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.
Тест отличается от других подобных тем, что результаты в нём зависят не исключительно от скорости математических вычислений или эффективности исполнения ветвлений или скорости текстурных выборок, а от всего понемногу. И для достижения высокой скорости важен правильный баланс блоков GPU и ПСП видеопамяти. Заметно влияет на скорость и эффективность выполнения ветвлений в шейдерах.
К сожалению, GTX 460 в этом тесте не смог показать свою силу и показал худший результат. Представленная сегодня видеоплата Nvidia, предназначенная для среднего ценового диапазона, отстаёт и от обоих конкурентов Radeon HD 5770 и HD 5830 и от GTX 465.
Сложно однозначно сказать, что больше всего влияет на результаты этого теста в данном случае. Возможно, виновата уменьшенная эффективность выполнения шейдерных программ с ветвлениями у GF104, а возможно более низкая пропускная способность видеопамяти. Остаётся надеяться, что в тестах физических симуляций GF104 сможет реабилитироваться, показав лучшие результаты. Заодно проверим и выводы об уменьшившейся эффективности выполнения ветвлений.
Feature Test 4: GPU Cloth
Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.
Похоже, что на скорость рендеринга в этом тесте снова влияет сложная смесь различных параметров. Вероятнее всего, общая скорость зависит от производительности обработки геометрии и исполнения геометрических шейдеров. И в этом тесте GTX 460 работает неплохо, немного отставая от GTX 465, что может быть вызвано или уменьшившейся ПСП или сниженной эффективностью выполнения сложных шейдеров.
GTX 460 в этом тесте явно имеет преимущество над конкурирующими решениями в виде Radeon HD 5830 и HD 5770. В общем, с выполнением геометрических шейдеров и скоростью обработки геометрии у GF104 явно всё в порядке. Хотя от GF100 он и отстаёт, но это вполне соответствует теоретическим характеристикам.
Feature Test 5: GPU Particles
Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.
Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующих частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.
Результаты этого теста очень похожи на те, что мы видели на прошлой диаграмме, но GTX 480 с полноценным GF100 показывает в этот раз значительно более высокий результат, по сравнению с остальными видеокартами. В синтетических тестах имитации тканей и частиц этого тестового пакета, когда используются геометрические шейдеры, новый чип GF104 показал себя неплохо. Он заметно опережает конкурирующие графические процессоры компании AMD и не слишком сильно отстаёт от младшего решения на основе топового чипа GF100, имеющего большее количество блоков обработки геометрии.
Feature Test 6: Perlin Noise
Последний feature тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise это стандартный алгоритм, часто используемый в процедурном текстурировании, он использует очень много математических расчётов.
Ну что тут можно сказать... Математический тест из пакета компании Futuremark показывает пиковую производительность видеочипов в предельных задачах. Показанная в нём производительность всех решений примерно соответствует тому, что должно получаться по теории, и полностью соответствует тому, что мы видели ранее в наших математических тестах из пакета RightMark 2.0.
В этом математическом тесте, Geforce GTX 460, основанный на новом чипе GF104, показывает результат на уровне GTX 465, что примерно соответствует теории (преимущество нового чипа должно быть чуть большим, чем получилось у нас). Наблюдается ровно такое же отставание от обеих видеокарт Radeon, а лидером сравнения является модель HD 5830, как и в предыдущих математических тестах.
Видеокарты AMD всегда выигрывают этот тест у конкурентов от компании Nvidia. Простая, но интенсивная математика выполняется на видеокартах Radeon значительно быстрее. Но в сложных вычислительных тестах, таких как физические расчёты, представленные выше, получается несколько иная картина, и новое решение Nvidia выглядит в них вполне неплохо.
Выводы по синтетическим тестам
По результатам проведённых нами синтетических тестов новой модели Nvidia Geforce GTX 460, основанной на графическом процессоре GF104, а также результатам других моделей видеокарт обоих производителей видеочипов, можно сделать вывод о том, что у Nvidia получилось неплохое решение среднего уровня, основанное на модифицированной графической архитектуре Nvidia, которая появилась с выходом GF100.
Новый GPU отличается улучшенными производительностью и возможностями, и две модели видеокарт (мы протестировали пока только младший вариант, с 768 МБ видеопамяти) на его основе могут стать весьма привлекательными решениями для среднего ценового диапазона. Чип отличается увеличенным количеством блоков обработки геометрии и их параллельной работой, что позволило улучшить производительность геометрической обработки.
В синтетических тестах геометрических шейдеров и физических расчётов (имитации тканей и частиц в пакете Vantage, где также используются геометрические шейдеры), новый чип Nvidia GF104 показал себя очень неплохо, как и в других вычислительных тестах со сложными программами с большим количеством ветвлений. Хотя первенство в хорошо распараллеленных несложных расчётных задачах RightMark и Vantage остаётся за решениями AMD.
Похоже, что некоторые изменения в архитектуре GF104, по сравнению с GF100, всё же привели и к падению эффективности исполнения некоторых шейдерных программ с ветвлениями. Хотя, это может быть связано и с недоработками компилятора, которые понадобились для изменённой архитектуры GF104, и в будущих версиях драйверов возможно увеличение его эффективности, что повысит и производительность в соответствующих приложениях.
Мы ожидаем, что неплохие результаты Geforce GTX 460 в синтетических тестах должны подтвердиться и в следующей части нашего материла. В ней вы ознакомитесь с тестами свежего решения компании Nvidia, основанного на новом GPU, в нашем обычном наборе современных игровых приложений.
Можно предположить, что в игровых тестах Geforce GTX 460 в целом будет несколько медленнее Geforce GTX 465, своего старшего собрата на основе урезанного чипа GF100. Но конкурирующий по цене Radeon HD 5830 от компании AMD должен немного отстать от нового решения Nvidia, так как скорость рендеринга в играх чаще зависит сразу от нескольких характеристик видеокарт, и довольно сильно зависит от филлрейта и текстурирования, с чем у GTX 460 всё очень неплохо. Слишком больших выигрышей быть не должно, но в играх, не ограниченных математическими расчётами, а также использующих тесселяцию, возможны отрывы от HD 5830 больше чем на 15-20%. Давайте проверим это предположение...
Nvidia Geforce GTX460 - Часть 3: Игровые тесты (производительность)
Блок питания для тестового стенда предоставлен компанией TAGAN | Корпус ThermalTake 8430 для тестового стенда предоставлен компанией 3LOGIC | Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia |