Nvidia Geforce GTS 450:


описание видеокарты и результаты синтетических тестов



СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce GTS 450: Часть 1: Теоретические сведения


В этой части, как обычно, мы изучим саму видеокарту, а также познакомимся с результатами синтетических тестов.



Nvidia Geforce GTS 450 1024MB PCI-E
  • GPU: Geforce GTS 450 (GF106)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 783/1566 MHz (номинал — 783/1566 МГц)
  • Частоты работы памяти (физическая (эффективная)): 900 (3600) MHz (номинал — 900 (3600) МГц)
  • Ширина шины обмена с памятью: 128bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 192
  • Число текстурных процессоров: 32 (BLF/TLF/ANIS)
  • Число ROPs: 16
  • Размеры: 200x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: зеленый
  • RAMDACs/TMDS: интегрированы в GPU
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), HDMI-mini
  • VIVO: нет
  • TV-out: нет
  • Поддержка многопроцессорной работы: SLI (Hardware)




Nvidia Geforce GTS 450 1024MB PCI-E
Карта имеет 1024 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах (по 4 на каждой сторонe PCB).

Микросхемы памяти Samsung (GDDR5). Микросхемы расчитаны на максимальную частоту работы в 1000 (4000) МГц.





Сравнение с эталонным дизайном, вид спереди
Nvidia Geforce GTS 450 1024MB PCI-E Reference card Nvidia Geforce GTS 250




Сравнение с эталонным дизайном, вид сзади
Nvidia Geforce GTS 450 1024MB PCI-E Reference card Nvidia Geforce GTS 250




Сравнение с GTS 250 напрашивается по логике вещей, ибо GF106 пришел на смену старому доброму и уже многолетнему G92. Карты явно отличаются, это связано как с разными шинами обмена с памятью, так и разными вольтажами (G92 исполнен по 55нм техпроцессу, а GF106 - 40нм). Потому и длины видеокарт разные.

Еще можно также с уверенностью сказать, что данная PCB у GTS 450 имеет задел на будущее, и на ней разведена шина обмена с памятью 192 бит, просто не установлено 2 микросхемы памяти (в итоге 8 вместо 12), и таким путем получилась шина 128 бит и объем памяти 1024 мегабайт. Если карту укомплектовать всеми 12-ю микросхемами памяти, то получится шина 192 бит и объем памяти 1536 (или 768) мегабайт. Таким образом, будущие решения типа GTS 455 будут базироваться на той же PCB, иметь тот же GPU (в котором просто будут включены все три контроллера памяти и иные блоки) и скорее всего иметь ту же СО.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также с серийными картами поставляются переходники DVI-to-HDMI (данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник, поскольку обладают собственным звуковым кодеком), поэтому проблем с такими мониторами также не должно быть. К тому же продукт уже оснащен один разъемом mini-HDMI (и к каждой серийной карте должен прилагаться переходник с mini-HDMI на HDMI. Следует напомнить, что новое решение позволяют создать комбинацию из двух таких карт в режиме SLI, и только именно из двух..

Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 x 1536 x 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 x 1600 @ 60Hz Max — по цифровому интерфейсу (для DVI-гнезд с Dual-Link / HDMI)

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

Есть смысл сказать, что карта требуют дополнительного питания, причем одним 6-pin разъемом.



Чип был получен на 28-й неделе этого года, то есть в июле. Кристалл, как мы видим, уже не защищен крышкой, а упакован в открытом виде.

О системе охлаждения.

Nvidia Geforce GTS 450 1024MB PCI-E

Система охлаждения полностью идентичная той, что мы видели у GTX 460. Несмотря на большие размеры, сам кулер невелик, а его вентилятор находится в центре (все устройство лишь несколько упрощено относительно GTX 460). И это именно вентилятор, а не цилиндрический вентилятор. Мы понимаем, что пластиковый корпус в виде привычного уже для нас «турбинного» типа - это лишь декорация.

Кулер охлаждает лишь ядро, микросхемы памяти без охлаждения. Вентилятор работает на малых оборотах, и потому в целом СО нешумная.






Мы провели исследование температурного режима с помощью утилиты EVGA Precision (автор А. Николайчук AKA Unwinder) и получили следующие результаты:



Nvidia Geforce GTS 450 1024MB PCI-E



Как мы видим, максимальный нагрев всего лишь 66 градусов (это после 7 часовой непрерывной работы в 3D). Это говорит и о том, что ядро в целом не горячее, ну и об эффективной СО.

Максимальное энрегопотребление карты под нагрузкой - 110Вт.

Комплектация. Учитывая, что референс-образцы никогда не имеют комплектаций, мы этот вопрос опустим.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core I7 CPU 975 (Socket 1366)
    • процессор Intel Core I7 CPU 975 (3340 MHz);
    • системная плата Asus P6T Deluxe на чипсете Intel X58;
    • оперативная память 6 GB DDR3 SDRAM Corsair 1600MHz;
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA;
    • блок питания Tagan TG900-BZ 900W.
  • операционная система Windows 7 64bit; DirectX 11;
  • монитор Dell 3007WFP (30");
  • драйверы ATI версии Catalyst 10.8; Nvidia версии 258.96 / 260.56.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте http://3d.rightmark.org.
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1.

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTS 450 со стандартными параметрами (далее GTS 450)
  • Geforce GTS 250 со стандартными параметрами (далее GTS 250)
  • Geforce GTX 460 со стандартными параметрами, модель с 768 МБ видеопамяти (далее GTX 460)
  • Radeon HD 5770 со стандартными параметрами (далее HD 5770)
  • Radeon HD 5750 со стандартными параметрами (далее HD 5750)

Для сравнения результатов новой модели Geforce GTS 450 с 128-битной шиной памяти были выбраны именно эти видеокарты по следующим причинам: Radeon HD 5770 и 5750 — это две самые близкие по цене и позиционированию видеокарты от конкурирующей компании AMD, они основаны на видеочипе с близкой сложностью (RV840 «Juniper»).

Следующие решения Nvidia для сравнения выбраны потому что: Geforce GTX 460 — более производительная видеокарта на схожем по архитектуре GPU этого же поколения, а GTS 250 — это близкая по характеристикам и позиционированию видеокарта, основанная на чипе предшествующего перед предыдущим поколением — G92. По сравнению с этими вариантами можно будет судить об отличиях от устаревшей архитектуры и наличию (или отсутствию) изменений в архитектуре GF106, по сравнению с GF104.

Direct3D 9: тесты Pixel Filling

В первом DX9 тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:

В очередной раз в этом тесте у нас получилась привычная картина. Видеокарты компании Nvidia показывают цифры, далёкие от теоретически возможных значений. Поэтому результаты данной синтетики можно сравнивать лишь в пределах решений одного производителя. По ним получается, что GTS 450 выбирает до 21 текселя за один такт из 32-битных текстур при билинейной фильтрации в этом тесте, что значительно ниже теоретической цифры в 32 отфильтрованных текселя.

В итоге получается, что GTS 450 уступает остальным участникам нашего теста, во всех условиях и без исключений. Впрочем, от своего предшественника GTS 250, новая карта отстала не так уж сильно. Согласно теории, Geforce GTS 450 и должен быть слабее всех, но, по крайней мере, показывать результат, примерно соответствующий уровню Radeon HD 5750. В данном тесте мы этого не видим, но проверим далее в синтетике из теста 3DMark Vantage.

Рассмотрим эти же результаты в тесте филлрейта:

Второй синтетический тест показывает скорость заполнения, и в нём мы видим всё то же самое, но уже с учетом количества записанных в буфер кадра пикселей. Максимальный результат остаётся за старшим решением AMD, имеющем большее количество TMU, тактовую частоту чипа и более эффективного по достижению высокого КПД в данном конкретном синтетическом тесте.

В режимах с 0-2 накладываемыми текстурами производительность ограничена ПСП, но видеокарты Radeon в нашем тесте показывают результаты более высокие, чего не должно быть в теории. Вышедший сегодня Geforce GTS 450 всё так же отстаёт от остальных решений, уступая видеокарте даже не предыдущего поколения.

Direct3D 9: тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, очень проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх.

Тесты весьма просты для современных GPU и показывают не все возможности современных видеочипов, но они для нас всё же интересны для оценки баланса между текстурными выборками и математическими вычислениями. Хотя результаты, скорее всего, покажут нам примерно то же, что мы видели в тестах текстурных выборок и филлрейта.

В этих тестах производительность ограничена по большей части скоростью текстурных модулей, но с учётом эффективности блоков и кэширования текстурных данных. Похоже, что изменений в архитектуре GF106, по сравнению с GF104, на примере GTS 450 и GTX 460, просто нет, а разница связана с количественными показателями. Представленная сегодня видеокарта Nvidia снова показала худший результат в данных простых тестах.

По паре GTS 250 и GTX 460 видно, что старая архитектура справляется с поставленными задачами лучше, так как их результаты весьма близки, а теоретически GTX 460 лучше во всём, кроме текстурирования и ПСП. Да и по эффективному филлрейту разница не очень велика. GTS 450 в этих тестах не может достичь даже уровня Radeon HD 5750, не говоря о более мощном HD 5770. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

А вот тут уже начинает влиять и большая эффективность текстурирования в новой архитектуре (кэширование) и в сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water», где используется зависимая выборка из текстур больших уровней вложенности, GTS 450 показывает результат на уровне GTS 250 и HD 5750. А вот старшее решение AMD на том же чипе держится впереди, почти догоняя GTX 460.

Результаты второго теста в этом разделе отличаются, и в нём GTS 450 снова проигрывает всем подряд, и предшественнику, и конкурентам. Тест более интенсивен вычислительно и всегда лучше подходил для архитектуры AMD, обладающей большим количеством блоков ALU, поэтому карты Radeon в нём весьма хороши. Не совсем понятно отставание GTS 450 от GTS 250, так как теоретически математические возможности нового GPU мощнее, чем у G92. Скорее всего, на результатах этого теста сказывается влияние меньшей пропускной способности памяти у GTS 450.

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики.
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это универсальные тесты, зависящие и от скорости блоков ALU и от скорости текстурирования, в них важен баланс всего чипа. Сравнительная картина производительности видеокарт в тесте «Frozen Glass» очень похожа на то, что мы видели выше в «Cook-Torrance», и новая GTS 450 всё так же сильно уступает другим решениям Nvidia, и оба решения компании AMD также оказались быстрее новинки.

Во втором тесте «Parallax Mapping» результаты снова очень похожи на предыдущие. И в этот раз GTS 450 уступает ещё больше. Но мы посмотрим, что получится дальше, ведь и GTX 460 в этих наших DX9 тестах отнюдь не блистал. Игровые приложения обычно многограннее, чем синтетические, и не упираются явно в какой-то один параметр. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, возможно, там новое решение будет несколько сильнее:

Но нет, положение GTS 450 ничуть не улучшилось. Новая видеокарта продолжает уступать всем вокруг: и HD 5750 с HD 5770 (с текстурными выборками в нашей DX9 синтетике карты AMD справляются явно лучше) и даже GTS 250. Возможно, тут сказывается недостаток ПСП, по которому карта также уступает всем остальным моделям, даже предшественнику на базе G92.

Однако все проведенные выше тесты уже несколько устарели, они упираются в основном в текстурирование или филлрейт, и не особенно сложны для современных GPU. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9 API, которые намного показательнее с точки зрения современных игр на ПК. Эти тесты отличаются тем, что сильнее нагружают и ALU, и текстурные модули, обе шейдерные программы сложные и длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики.
  • Fur — процедурный шейдер, визуализирующий мех.

А вот и более корректные результаты, соответствующие истинной производительности в современных приложениях. С тестами пиксельных шейдеров версии 3.0 у свежих решений Nvidia всё очень даже неплохо! Оба PS 3.0 теста довольно сложные, почти не зависят от ПСП и текстурирования, они в основном математические, но с большим количеством переходов и ветвлений, с которыми отлично справляется новая архитектура Nvidia.

В этих тестах рассматриваемый сегодня GTS 450 показывает результат явно выше HD 5750 и с переменным успехом соперничает и с HD 5770, обгоняя в одном тесте и уступая в другом. К сожалению, в тесте продвинутого параллакс маппинга, новое решение Nvidia всё же уступает Radeon HD 5770, имеющему большее количество потоковых процессоров в GPU. Зато с GTS 250 новая видеокарта расправилась просто шикарно, более чем вдвое обогнав её в PS3 тестах. Отличный результат!

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит и от количества и эффективности блоков TMU, и от филлрейта с ПСП, но в меньшей степени. Результаты в «High» получаются примерно в полтора раза ниже, чем в «Low», как и должно быть по теории. В Direct3D 10 тестах процедурной визуализации меха с большим количеством текстурных выборок решения Nvidia всегда были сильны, но последняя архитектура AMD их догнала.

И в результате, GTS 450 показывает производительность, близкую к тому, что мы получили от HD 5750, но старшая модель HD 5770 её всё же опережает. Похоже, что из-за больших эффективного филлрейта и ПСП предыдущее решение Nvidia на чипе G92 обгоняет новую видеокарту. При этом GTX 460 хоть и является номинальным победителем, но опережает HD 5770 и GTS 250 не так уж и сильно. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, и в этом случае абсолютно все решения Nvidia сдают свои позиции. Зато видеокарты Radeon теперь выглядят несколько сильнее, и HD 5750 опережает нашего сегодняшнего героя. Влияние производительности ALU и эффективного выполнения ветвлений в этом тесте если и есть, то очень небольшое.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Данный тест несколько интереснее с практической точки зрения, так как разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются во многих проектах, например, в играх Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Диаграмма во многом повторяет предыдущую (без SSAA), даже по абсолютным цифрам показаны близкие результаты. Но это относится только к GPU от Nvidia, решения же от AMD стали немного быстрее, чем в предыдущем тесте. И поэтому, в D3D10 варианте теста без включения суперсэмплинга, GTS 450 справляется с выполнением теста уже несколько хуже конкурирующего с ним по цене Radeon HD 5750, и ещё больше отстаёт от старшей модификации — HD 5770. GTX 460 снова в первых рядах, но её преимущество почти растаяло.

Посмотрим, что изменит включение суперсэмплинга, он снова должен вызвать большее падение скорости на картах Nvidia.

При включении суперсэмплинга и самозатенения задача получается значительно тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая заметное падение производительности. Разница между скоростными показателями нескольких видеокарт изменилась, включение суперсэмплинга сказывается как и в предыдущем случае — карты производства AMD явно улучшили свои показатели относительно решений Nvidia.

И теперь даже Radeon HD 5750 показывает скорость на уровне Geforce GTX 460, лишь немного не доставая до него в лёгком режиме, а HD 5770 становится победителем. Новое решение Nvidia проигрывает своим конкурентам от AMD и в этот раз, но зато показывает лучшую скорость по сравнению со сдавшим позиции GTS 250 — вот что значит старая архитектура, плохо справляющаяся со сложными современными задачами. Надеемся, что в игровых тестах положение GTS 450 улучшится, и эта плата будет показывать результаты на уровне между HD 5750 и HD 5770, как и должно быть по теории.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Чисто математические тесты нам интересны потому, что новый графический процессор GF106, на котором основана модель Geforce GTS 450, архитектурно отличается от своего предшественника на базе G92. Сравнение же с решениями AMD в наших синтетических тестах всегда показывает преимущество последних, так как в вычислительно интенсивных, но простых задачах современная архитектура AMD имеет большое преимущество перед конкурирующими видеокартами Nvidia. Вот и в этот раз положение подтвердилось — разрыв между картами Nvidia и AMD весьма велик, и GTS 450 отстаёт от HD 5770 и HD 5750, показывая почти вдвое меньшую производительность.

Это было понятно заранее, из технических характеристик, но почему GTS 450 уступил даже старому решению на чипе G92? Давайте разберёмся. У GF106 есть 192 процессоров, работающих на частоте 1566 МГц, а у G92 их 128, но работающих на 1836 МГц. Явное преимущество нового GPU на треть. И он всё же отстаёт. Видимо, эффективность использования всех ALU у нового чипа в этой конкретной задаче оказывается ниже, чем у старого. В остальном, решения расположились примерно соответственно теоретическим показателям.

Впрочем, в наших прошлых исследованиях уже получалось так, что данный тест не полностью зависит от скорости ALU, поэтому давайте обратим внимание на второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Налицо как раз то, что мы и подозревали — в этот раз GTS 450 показала себя несколько лучше, хотя новое решение всё так же осталось позади конкурентов в лице Radeon HD 5750 и HD 5770. Более мощная видеокарта от AMD снова стала лидером, показав в этом тесте лучшую производительность.

Скорость рендеринга в данном тесте ограничена почти исключительно производительностью шейдерных блоков, и разница между GTS 450 и GTS 250 стала уже в обратную сторону, хотя она всё же слишком мала — теоретически должно быть не 5%, а 28%. Скорее всего, это снова связано с недостатком ПСП, или с меньшей эффективностью вычислений на GF106 в данном тесте.

Итог по предельным математическим вычислениям остаётся неизменным последние несколько лет — явное преимущество решений компании AMD никуда не делось и его не изменил выход линейки Geforce 400. В пиковой математике решения AMD даже более низкого уровня показывают результаты, близкие к более сложным и дорогим GPU от Nvidia, и это связано с их архитектурными отличиями.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не особенно сложная, производительность в целом ограничена не только скоростью обработки геометрии, но и пропускной способностью памяти.

Забавно, но четыре видеокарты из пяти показали весьма близкие результаты, и только наиболее мощный графический процессор от Nvidia вырвался вперёд. Именно Geforce GTX 460 заметно обгоняет остальные видеокарты во всех режимах, а рассматриваемый сегодня GTS 450 показывает результат на уровне GTS 250 и чуть ниже, чем у конкурентов.

Видимо, сниженное количество блоков обработки геометрии в GF106 привело к тому, что карта на его основе показывает скорость, аналогичную решениям предыдущей архитектуры и не имеет преимуществ перед картами Radeon, теоретически имеющих меньшую скорость обработки геометрии. Выполнение геометрических шейдеров у GF106 не осталось настолько же эффективным, что и у GF100 или хотя бы GF104. Посмотрим, изменится ли ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте, цифры для решений Nvidia почти не изменились, а вот обе Radeon немного подтянули результаты, хотя и не достали до Geforce GTX 460. А GTS 450 показывает скорость совсем чуть-чуть выше, чем предшествующая ей уже устаревшая модель Geforce GTS 250.

Видеокарты Nvidia в этом тесте не реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, и показывают аналогичные предыдущей диаграмме результаты. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах снова соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть менее чем в два раза медленней.

В этом тесте мы видим точно такую же картину, что и в предыдущем: GTX 460 впереди (хотя она оторвалась от более дешёвых видеокарт не так уж сильно), а остальные видеокарты показывают близкие результаты. Новый Geforce GTS 450 совсем немного отстаёт от GTS 250 и чуть-чуть опережает оба решения AMD, особенно в тяжёлом режиме.

Цифры должны измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

Наконец-то мы видим явную разницу между GF1xx и G92 по скорости исполнения геометрических шейдеров. Возможности GF106 по обработке геометрии и скорости исполнения геометрических шейдеров почти вдвое выше, чем у G92. Явно сказывается применение чипа новой архитектуры, хотя от GTX 460 новое решение отстаёт, имея лишь один растеризатор, в отличие от двух.

Впрочем, GTX 460 не так уж и сильна в этом тесте, она быстрее, чем Radeon HD 5750 и HD 5770, но явно не в разы. При увеличении нагрузки на геометрические блоки GF106 ведёт себя не совсем так, как родственный видеочип GF104, и причина этой разницы в том, что количество блоков по обработке геометрии у него не очень велико. И та же GTX 460 заметно опережает новое решение нижнего-среднего ценового диапазона.

Итак, мы наглядно подтвердили потенциально слабое место в производительности GTS 450 — сравнительно низкая (по сравнению с GF104 и GF100, но не чипами AMD или старыми от Nvidia) скорость обработки геометрии наверняка скажется и в игровых тестах с использованием тесселяции. Хотя, для решения такого ценового диапазона это не очень важно, так как производительность будет ограничена и другими исполнительными блоками. Ну а в тестах тесселяции возможны не слишком сильные результаты из-за наличия всего одного растеризатора в анонсированном сегодня GPU.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Предыдущие исследования показали, что на результаты этого теста влияет и скорость текстурирования и пропускная способность памяти (в простых режимах). Разница между всеми решениями не такая уж большая, но некоторые исключения весьма интересны. GTX 460 показывает заметно отличающиеся результаты, в тяжёлых режимах опережая остальные решения.

GTS 450 в лёгких режимах явно упирается в ПСП, но в тяжёлом заметно опережает обоих конкурентов от компании AMD. Примерно то же самое можно сказать и по сравнению с GTS 250, в лёгких режимах новое решение немного проигрывает, с лихвой отыгрываясь в тяжёлом. Видимо, сами по себе выборки из вершинных шейдеров видеокартам Nvidia даются несколько лучше. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Расположение результатов на диаграмме изменилось совсем немного. Теперь во что-то (текстурирование? ПСП?) в лёгком режиме упираются оба решения компании Nvidia, основанные на архитектуре Fermi — они оба отстают от GTS 250. Зато в тяжёлых режимах GTX 460 и GTS 450 выглядят намного лучше, и новый GPU обгоняет конкурентов HD 5750 и HD 5770. Похоже, что в этих тестах новая архитектура Nvidia весьма хороша.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты в тесте «Waves» совсем не похожи на то, что мы видели на предыдущих двух диаграммах. Продукция компании AMD явно улучшила позиции, и в лёгком и среднем режимах обе карты опережают Geforce GTS 450. Новое решение Nvidia немного отстаёт, показывая немного производительность ниже, чем у GTS 250, и заметно ниже, чем у GTS 450. Вероятно, в этом тесте больше сказывается ПСП, чем скорость выборок. Рассмотрим второй вариант этого же теста:

Изменений, по сравнению с предыдущей диаграммой, практически нет, хотя с ростом сложности условий относительные результаты нового графического процессора GF106 во втором тесте вершинных выборок немного улучшились. Теперь Geforce GTS 450 опережает HD 5770 в тяжёлом режиме, отставая от конкурента в простых условиях. Но в целом, эти тесты не слишком показательны, так как они слишком сильно зависят от значения эффективного филлрейта.

3DMark Vantage: Feature тесты

В очередной раз мы решили включить в материал и синтетические тесты из пакета 3DMark Vantage. "Feature" тесты этого пакета обладают поддержкой D3D10 и интересны уже тем, что отличаются от наших. При анализе результатов нового решения Nvidia в этом пакете мы сможем сделать какие-то новые и полезные выводы, ускользнувшие от нас в тестах семейства RightMark. Особенно это касается теста скорости TMU и филлрейта, где наш собственный набор тестов показывает странные результаты.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

В тесте текстурной производительности из пакета 3DMark Vantage, соотношение результатов протестированных видеокарт получается совсем иное, по сравнению с RightMark. Эти цифры больше похожи на истинное положение дел и в этом тесте карты Nvidia более эффективно используют имеющиеся текстурные блоки, хотя и не так хорошо, как Radeon. И хотя GTS 450 продолжает отставать от HD 5750 и в этот раз, отрыв стал заметно меньше.

А вот что касается сравнения с предыдущей моделью Geforce GTS 250, то новая видеокарта на архитектуре Geforce 400 показала идентичный с ней результат. Видимо, эффективность текстурирования у новых GPU всё-таки заметно выше, так как теоретически у GTS 250 есть значительное преимущество, исходя из технических характеристик.

Feature Test 2: Color Fill

Это тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Показатели производительности в этом тесте получились не просто соответствующими теоретическим цифрам производительности блоков ROP или ПСП видеопамяти, а чем-то средним. Они не похожи на наши результаты потому, что у нас используется целочисленный буфер с 8-бит на компоненту, а в тесте 3DMark Vantage — 16-бит с плавающей точкой. И эти цифры ближе к соотношению производительности блоков ROP, а величина пропускной способности памяти хоть и влияет, но всё же меньше.

Результаты теста соответствуют теоретическим цифрам лишь приблизительно. GTS 450 снова показывает самую низкую производительность, что особенно хорошо видно на фоне обоих конкурентов от компании AMD, имеющих значительно большую пропускную способность памяти. Да и от GTS 250 новое решение отстаёт именно из-за меньшей ПСП а ведь теоретическая производительность подсистемы ROP у него выше. Ещё один синтетический тест упёрся в ПСП, поэтому нам кажется весьма интересным вариант с 192-битной шиной, если таковой всё же появится.

Feature Test 3: Parallax Occlusion Mapping

Пожалуй, это один из самых любопытных feature тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника), с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения.

Далее эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Этот тест отличается очень сложным для видеочипов пиксельным шейдером, содержащим многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.

Предыдущие исследования показали, что данный тест отличается от других подобных тем, что результаты в нём зависят не исключительно от скорости математических вычислений или эффективности исполнения ветвлений или скорости текстурных выборок, а от всего понемногу. И для достижения высокой скорости важен правильный баланс блоков GPU и ПСП видеопамяти. Заметно влияет на скорость и эффективность выполнения ветвлений в шейдерах.

К сожалению, как и все видеокарты Nvidia, Geforce GTS 450 в этом тесте особенно блеснуть не смог, снова показав худший результат. При этом, представленная сегодня видеоплата Nvidia, предназначенная для нижнего-среднего ценового диапазона, отстаёт и от своего предшественника Geforce GTS 250. И даже GTX 460 отстаёт от Radeon HD 5770.

Возможно, больше всего на результаты этого теста влияет сниженная эффективность выполнения шейдерных программ с ветвлениями у GF104 и GF106 (из-за архитектурных изменений, описанных ранее), и тест сильно зависит от скорости текстурирования, так как по остальным характеристикам таких результатов быть не должно. Что ж, возможно в тестах физических симуляций решения Nvidia смогут улучшить свои позиции...

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Похоже, что на скорость рендеринга в этом тесте снова влияет сложная смесь различных параметров: производительность обработки геометрии и исполнения геометрических шейдеров с ветвлениями. И в этом тесте новая модель Geforce GTS 450 работает неплохо, опережая и GTS 250 и обе модели от компании AMD.

В общем, с выполнением геометрических шейдеров и скоростью обработки геометрии и stream out у всех чипов Nvidia всё в порядке. Хотя опережение конкурентов от AMD не такое значительное, но оно всё же есть. Особенно хорошо тут смотрится GTX 460, имеющий больше блоков обработки геометрии.

Feature Test 5: GPU Particles

Это тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. В нём также используется вершинная симуляция, где каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующих частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.

Результаты этого теста похожи на те, что мы видели на прошлой диаграмме, только устаревший GTS 250 сильно отстал, по сравнению с GPU новых архитектур. Рассматриваемый сегодня GTS 450 показывает ещё более высокий результат, по сравнению с видеокартами семейства Radeon HD 5700 от AMD.

В синтетических тестах имитации тканей и частиц этого тестового пакета, где используются геометрические шейдеры, все чипы архитектуры Nvidia Fermi показали себя очень хорошо, опережая соответствующие конкурирующие графические процессоры компании AMD. А от старшего чипа GTX 460 новое решение отстаёт соответственно тактовым частотам и количеству исполнительных блоков.

Feature Test 6: Perlin Noise

Последний feature тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто используемый в процедурном текстурировании, он использует очень много математических расчётов.

Самый сложный математический тест из пакета компании Futuremark показывает пиковую производительность видеочипов в предельных вычислительных задачах со сравнительно простыми программами. Показанная в нём производительность всех решений примерно соответствует тому, что должно получаться по теории, и близка к тому, что мы видели ранее в наших математических тестах из пакета RightMark 2.0, хотя и не совпадает на 100%.

В этом математическом тесте, новый Geforce GTS 450, основанный на чипе GF106, показывает результат лучше, чем GTS 250 (в RightMark получалось несколько иначе, как вы помните), но хуже чем все остальные модели и от Nvidia и от AMD, как и должно получаться по теории. Отставание от обеих видеокарт Radeon вполне объяснимо, и лидером сравнения ожидаемо становится модель Radeon HD 5770, как и в предыдущих математических тестах.

Повторимся, что видеокарты AMD всегда выигрывают этот тест у конкурентов от компании Nvidia. Простая, но интенсивная математика выполняется на видеокартах Radeon значительно быстрее. Правда, во многих сложных вычислительных тестах, таких как физические расчёты симуляций частиц и тканей, представленные выше, новая архитектура решение Nvidia справляется лучше, и это относится в том числе и к Geforce GTS 450.

Выводы по синтетическим тестам

По результатам синтетических тестов новой модели Nvidia Geforce GTS 450, основанной на графическом процессоре GF106, а также результатам других моделей видеокарт обоих производителей видеочипов, можно сделать вывод о том, что у Nvidia получилось в целом неплохое решение среднего уровня, основанное на последней графической архитектуре компании, имеющее как сильные, так и слабые стороны.

Новый GPU отличается хорошей производительностью и возможностями в своём классе, и видеокарта Geforce GTS 450, основанная на нём, может стать неплохим выбором для покупателей, обративших внимание на нижний-средний ценовой диапазон порядка $100-$150. Как и другие чипы семейства, новый GPU отличается серьёзными модификациями в графическом конвейере, но ограничения по сложности GPU не позволили включить в его состав большое количество блоков обработки геометрии, и поэтому явных улучшений в производительности геометрической обработки, по сравнению с решениями конкурентов, нами практически не было отмечено.

А вот в синтетических тестах геометрических шейдеров и физических расчётов (имитации тканей и частиц в пакете Vantage, где также используются геометрические шейдеры), новый чип показал довольно сильные результаты, как и в других вычислительных тестах со сложными программами с большим количеством ветвлений. Зато он не может конкурировать с решениями AMD в интенсивных вычислительных задачах с несложными алгоритмами, а также немного проигрывает им по скорости текстурирования.

Подводя итоги, и имея в качестве основы результаты синтетических тестов, мы можем предположить, что в игровых тестах видеокарта Geforce GTS 450 должна показать результаты несколько лучше, чем одна из конкурирующих моделей от AMD — Radeon HD 5750, но всё же может оказаться медленнее, чем близкий по цене и вышедший уже довольно давно Radeon HD 5770.

Ведь скорость рендеринга в играх зависит сразу от нескольких характеристик, и особенно от филлрейта и текстурирования, а по этим параметрам GTS 450 может сравниться разве что с HD 5750, но не старшей моделью компании AMD. И даже в DirectX 11 приложениях, активно использующих тесселяцию, больших отрывов от конкурентов вряд ли можно ожидать, так как чип GF106 имеет лишь один растеризатор и четыре движка PolyMorph, чего явно недостаточно для доминирования в таких условиях.

В следующей части статьи вы познакомитесь с игровыми и околоигровыми тестами нового решения от компании Nvidia, основанного на графическом процессоре GF106, где Geforce GTS 450 сразится с конкурентами в нашем наборе современных игровых приложений.



Nvidia Geforce GTS 450 - Часть 3: Игровые тесты (производительность)





Блок питания для тестового стенда предоставлен компанией TAGAN

Корпус ThermalTake 8430 для тестового стенда предоставлен компанией 3LOGIC

Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia








Дополнительно

Nvidia Geforce GTS 450: описание видеокарты и результаты синтетических тестов

Nvidia Geforce GTS 450:

описание видеокарты и результаты синтетических тестов



СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce GTS 450: Часть 1: Теоретические сведения


В этой части, как обычно, мы изучим саму видеокарту, а также познакомимся с результатами синтетических тестов.



Nvidia Geforce GTS 450 1024MB PCI-E
  • GPU: Geforce GTS 450 (GF106)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 783/1566 MHz (номинал — 783/1566 МГц)
  • Частоты работы памяти (физическая (эффективная)): 900 (3600) MHz (номинал — 900 (3600) МГц)
  • Ширина шины обмена с памятью: 128bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 192
  • Число текстурных процессоров: 32 (BLF/TLF/ANIS)
  • Число ROPs: 16
  • Размеры: 200x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: зеленый
  • RAMDACs/TMDS: интегрированы в GPU
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), HDMI-mini
  • VIVO: нет
  • TV-out: нет
  • Поддержка многопроцессорной работы: SLI (Hardware)




Nvidia Geforce GTS 450 1024MB PCI-E
Карта имеет 1024 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах (по 4 на каждой сторонe PCB).

Микросхемы памяти Samsung (GDDR5). Микросхемы расчитаны на максимальную частоту работы в 1000 (4000) МГц.





Сравнение с эталонным дизайном, вид спереди
Nvidia Geforce GTS 450 1024MB PCI-E Reference card Nvidia Geforce GTS 250




Сравнение с эталонным дизайном, вид сзади
Nvidia Geforce GTS 450 1024MB PCI-E Reference card Nvidia Geforce GTS 250




Сравнение с GTS 250 напрашивается по логике вещей, ибо GF106 пришел на смену старому доброму и уже многолетнему G92. Карты явно отличаются, это связано как с разными шинами обмена с памятью, так и разными вольтажами (G92 исполнен по 55нм техпроцессу, а GF106 - 40нм). Потому и длины видеокарт разные.

Еще можно также с уверенностью сказать, что данная PCB у GTS 450 имеет задел на будущее, и на ней разведена шина обмена с памятью 192 бит, просто не установлено 2 микросхемы памяти (в итоге 8 вместо 12), и таким путем получилась шина 128 бит и объем памяти 1024 мегабайт. Если карту укомплектовать всеми 12-ю микросхемами памяти, то получится шина 192 бит и объем памяти 1536 (или 768) мегабайт. Таким образом, будущие решения типа GTS 455 будут базироваться на той же PCB, иметь тот же GPU (в котором просто будут включены все три контроллера памяти и иные блоки) и скорее всего иметь ту же СО.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также с серийными картами поставляются переходники DVI-to-HDMI (данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник, поскольку обладают собственным звуковым кодеком), поэтому проблем с такими мониторами также не должно быть. К тому же продукт уже оснащен один разъемом mini-HDMI (и к каждой серийной карте должен прилагаться переходник с mini-HDMI на HDMI. Следует напомнить, что новое решение позволяют создать комбинацию из двух таких карт в режиме SLI, и только именно из двух..

Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 x 1536 x 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 x 1600 @ 60Hz Max — по цифровому интерфейсу (для DVI-гнезд с Dual-Link / HDMI)

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

Есть смысл сказать, что карта требуют дополнительного питания, причем одним 6-pin разъемом.



Чип был получен на 28-й неделе этого года, то есть в июле. Кристалл, как мы видим, уже не защищен крышкой, а упакован в открытом виде.

О системе охлаждения.

Nvidia Geforce GTS 450 1024MB PCI-E

Система охлаждения полностью идентичная той, что мы видели у GTX 460. Несмотря на большие размеры, сам кулер невелик, а его вентилятор находится в центре (все устройство лишь несколько упрощено относительно GTX 460). И это именно вентилятор, а не цилиндрический вентилятор. Мы понимаем, что пластиковый корпус в виде привычного уже для нас «турбинного» типа - это лишь декорация.

Кулер охлаждает лишь ядро, микросхемы памяти без охлаждения. Вентилятор работает на малых оборотах, и потому в целом СО нешумная.






Мы провели исследование температурного режима с помощью утилиты EVGA Precision (автор А. Николайчук AKA Unwinder) и получили следующие результаты:



Nvidia Geforce GTS 450 1024MB PCI-E



Как мы видим, максимальный нагрев всего лишь 66 градусов (это после 7 часовой непрерывной работы в 3D). Это говорит и о том, что ядро в целом не горячее, ну и об эффективной СО.

Максимальное энрегопотребление карты под нагрузкой - 110Вт.

Комплектация. Учитывая, что референс-образцы никогда не имеют комплектаций, мы этот вопрос опустим.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core I7 CPU 975 (Socket 1366)
    • процессор Intel Core I7 CPU 975 (3340 MHz);
    • системная плата Asus P6T Deluxe на чипсете Intel X58;
    • оперативная память 6 GB DDR3 SDRAM Corsair 1600MHz;
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA;
    • блок питания Tagan TG900-BZ 900W.
  • операционная система Windows 7 64bit; DirectX 11;
  • монитор Dell 3007WFP (30");
  • драйверы ATI версии Catalyst 10.8; Nvidia версии 258.96 / 260.56.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте http://3d.rightmark.org.
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1.

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTS 450 со стандартными параметрами (далее GTS 450)
  • Geforce GTS 250 со стандартными параметрами (далее GTS 250)
  • Geforce GTX 460 со стандартными параметрами, модель с 768 МБ видеопамяти (далее GTX 460)
  • Radeon HD 5770 со стандартными параметрами (далее HD 5770)
  • Radeon HD 5750 со стандартными параметрами (далее HD 5750)

Для сравнения результатов новой модели Geforce GTS 450 с 128-битной шиной памяти были выбраны именно эти видеокарты по следующим причинам: Radeon HD 5770 и 5750 — это две самые близкие по цене и позиционированию видеокарты от конкурирующей компании AMD, они основаны на видеочипе с близкой сложностью (RV840 «Juniper»).

Следующие решения Nvidia для сравнения выбраны потому что: Geforce GTX 460 — более производительная видеокарта на схожем по архитектуре GPU этого же поколения, а GTS 250 — это близкая по характеристикам и позиционированию видеокарта, основанная на чипе предшествующего перед предыдущим поколением — G92. По сравнению с этими вариантами можно будет судить об отличиях от устаревшей архитектуры и наличию (или отсутствию) изменений в архитектуре GF106, по сравнению с GF104.

Direct3D 9: тесты Pixel Filling

В первом DX9 тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:

В очередной раз в этом тесте у нас получилась привычная картина. Видеокарты компании Nvidia показывают цифры, далёкие от теоретически возможных значений. Поэтому результаты данной синтетики можно сравнивать лишь в пределах решений одного производителя. По ним получается, что GTS 450 выбирает до 21 текселя за один такт из 32-битных текстур при билинейной фильтрации в этом тесте, что значительно ниже теоретической цифры в 32 отфильтрованных текселя.

В итоге получается, что GTS 450 уступает остальным участникам нашего теста, во всех условиях и без исключений. Впрочем, от своего предшественника GTS 250, новая карта отстала не так уж сильно. Согласно теории, Geforce GTS 450 и должен быть слабее всех, но, по крайней мере, показывать результат, примерно соответствующий уровню Radeon HD 5750. В данном тесте мы этого не видим, но проверим далее в синтетике из теста 3DMark Vantage.

Рассмотрим эти же результаты в тесте филлрейта:

Второй синтетический тест показывает скорость заполнения, и в нём мы видим всё то же самое, но уже с учетом количества записанных в буфер кадра пикселей. Максимальный результат остаётся за старшим решением AMD, имеющем большее количество TMU, тактовую частоту чипа и более эффективного по достижению высокого КПД в данном конкретном синтетическом тесте.

В режимах с 0-2 накладываемыми текстурами производительность ограничена ПСП, но видеокарты Radeon в нашем тесте показывают результаты более высокие, чего не должно быть в теории. Вышедший сегодня Geforce GTS 450 всё так же отстаёт от остальных решений, уступая видеокарте даже не предыдущего поколения.

Direct3D 9: тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, очень проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх.

Тесты весьма просты для современных GPU и показывают не все возможности современных видеочипов, но они для нас всё же интересны для оценки баланса между текстурными выборками и математическими вычислениями. Хотя результаты, скорее всего, покажут нам примерно то же, что мы видели в тестах текстурных выборок и филлрейта.

В этих тестах производительность ограничена по большей части скоростью текстурных модулей, но с учётом эффективности блоков и кэширования текстурных данных. Похоже, что изменений в архитектуре GF106, по сравнению с GF104, на примере GTS 450 и GTX 460, просто нет, а разница связана с количественными показателями. Представленная сегодня видеокарта Nvidia снова показала худший результат в данных простых тестах.

По паре GTS 250 и GTX 460 видно, что старая архитектура справляется с поставленными задачами лучше, так как их результаты весьма близки, а теоретически GTX 460 лучше во всём, кроме текстурирования и ПСП. Да и по эффективному филлрейту разница не очень велика. GTS 450 в этих тестах не может достичь даже уровня Radeon HD 5750, не говоря о более мощном HD 5770. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

А вот тут уже начинает влиять и большая эффективность текстурирования в новой архитектуре (кэширование) и в сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water», где используется зависимая выборка из текстур больших уровней вложенности, GTS 450 показывает результат на уровне GTS 250 и HD 5750. А вот старшее решение AMD на том же чипе держится впереди, почти догоняя GTX 460.

Результаты второго теста в этом разделе отличаются, и в нём GTS 450 снова проигрывает всем подряд, и предшественнику, и конкурентам. Тест более интенсивен вычислительно и всегда лучше подходил для архитектуры AMD, обладающей большим количеством блоков ALU, поэтому карты Radeon в нём весьма хороши. Не совсем понятно отставание GTS 450 от GTS 250, так как теоретически математические возможности нового GPU мощнее, чем у G92. Скорее всего, на результатах этого теста сказывается влияние меньшей пропускной способности памяти у GTS 450.

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики.
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это универсальные тесты, зависящие и от скорости блоков ALU и от скорости текстурирования, в них важен баланс всего чипа. Сравнительная картина производительности видеокарт в тесте «Frozen Glass» очень похожа на то, что мы видели выше в «Cook-Torrance», и новая GTS 450 всё так же сильно уступает другим решениям Nvidia, и оба решения компании AMD также оказались быстрее новинки.

Во втором тесте «Parallax Mapping» результаты снова очень похожи на предыдущие. И в этот раз GTS 450 уступает ещё больше. Но мы посмотрим, что получится дальше, ведь и GTX 460 в этих наших DX9 тестах отнюдь не блистал. Игровые приложения обычно многограннее, чем синтетические, и не упираются явно в какой-то один параметр. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, возможно, там новое решение будет несколько сильнее:

Но нет, положение GTS 450 ничуть не улучшилось. Новая видеокарта продолжает уступать всем вокруг: и HD 5750 с HD 5770 (с текстурными выборками в нашей DX9 синтетике карты AMD справляются явно лучше) и даже GTS 250. Возможно, тут сказывается недостаток ПСП, по которому карта также уступает всем остальным моделям, даже предшественнику на базе G92.

Однако все проведенные выше тесты уже несколько устарели, они упираются в основном в текстурирование или филлрейт, и не особенно сложны для современных GPU. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9 API, которые намного показательнее с точки зрения современных игр на ПК. Эти тесты отличаются тем, что сильнее нагружают и ALU, и текстурные модули, обе шейдерные программы сложные и длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики.
  • Fur — процедурный шейдер, визуализирующий мех.

А вот и более корректные результаты, соответствующие истинной производительности в современных приложениях. С тестами пиксельных шейдеров версии 3.0 у свежих решений Nvidia всё очень даже неплохо! Оба PS 3.0 теста довольно сложные, почти не зависят от ПСП и текстурирования, они в основном математические, но с большим количеством переходов и ветвлений, с которыми отлично справляется новая архитектура Nvidia.

В этих тестах рассматриваемый сегодня GTS 450 показывает результат явно выше HD 5750 и с переменным успехом соперничает и с HD 5770, обгоняя в одном тесте и уступая в другом. К сожалению, в тесте продвинутого параллакс маппинга, новое решение Nvidia всё же уступает Radeon HD 5770, имеющему большее количество потоковых процессоров в GPU. Зато с GTS 250 новая видеокарта расправилась просто шикарно, более чем вдвое обогнав её в PS3 тестах. Отличный результат!

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит и от количества и эффективности блоков TMU, и от филлрейта с ПСП, но в меньшей степени. Результаты в «High» получаются примерно в полтора раза ниже, чем в «Low», как и должно быть по теории. В Direct3D 10 тестах процедурной визуализации меха с большим количеством текстурных выборок решения Nvidia всегда были сильны, но последняя архитектура AMD их догнала.

И в результате, GTS 450 показывает производительность, близкую к тому, что мы получили от HD 5750, но старшая модель HD 5770 её всё же опережает. Похоже, что из-за больших эффективного филлрейта и ПСП предыдущее решение Nvidia на чипе G92 обгоняет новую видеокарту. При этом GTX 460 хоть и является номинальным победителем, но опережает HD 5770 и GTS 250 не так уж и сильно. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, и в этом случае абсолютно все решения Nvidia сдают свои позиции. Зато видеокарты Radeon теперь выглядят несколько сильнее, и HD 5750 опережает нашего сегодняшнего героя. Влияние производительности ALU и эффективного выполнения ветвлений в этом тесте если и есть, то очень небольшое.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Данный тест несколько интереснее с практической точки зрения, так как разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются во многих проектах, например, в играх Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Диаграмма во многом повторяет предыдущую (без SSAA), даже по абсолютным цифрам показаны близкие результаты. Но это относится только к GPU от Nvidia, решения же от AMD стали немного быстрее, чем в предыдущем тесте. И поэтому, в D3D10 варианте теста без включения суперсэмплинга, GTS 450 справляется с выполнением теста уже несколько хуже конкурирующего с ним по цене Radeon HD 5750, и ещё больше отстаёт от старшей модификации — HD 5770. GTX 460 снова в первых рядах, но её преимущество почти растаяло.

Посмотрим, что изменит включение суперсэмплинга, он снова должен вызвать большее падение скорости на картах Nvidia.

При включении суперсэмплинга и самозатенения задача получается значительно тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая заметное падение производительности. Разница между скоростными показателями нескольких видеокарт изменилась, включение суперсэмплинга сказывается как и в предыдущем случае — карты производства AMD явно улучшили свои показатели относительно решений Nvidia.

И теперь даже Radeon HD 5750 показывает скорость на уровне Geforce GTX 460, лишь немного не доставая до него в лёгком режиме, а HD 5770 становится победителем. Новое решение Nvidia проигрывает своим конкурентам от AMD и в этот раз, но зато показывает лучшую скорость по сравнению со сдавшим позиции GTS 250 — вот что значит старая архитектура, плохо справляющаяся со сложными современными задачами. Надеемся, что в игровых тестах положение GTS 450 улучшится, и эта плата будет показывать результаты на уровне между HD 5750 и HD 5770, как и должно быть по теории.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Чисто математические тесты нам интересны потому, что новый графический процессор GF106, на котором основана модель Geforce GTS 450, архитектурно отличается от своего предшественника на базе G92. Сравнение же с решениями AMD в наших синтетических тестах всегда показывает преимущество последних, так как в вычислительно интенсивных, но простых задачах современная архитектура AMD имеет большое преимущество перед конкурирующими видеокартами Nvidia. Вот и в этот раз положение подтвердилось — разрыв между картами Nvidia и AMD весьма велик, и GTS 450 отстаёт от HD 5770 и HD 5750, показывая почти вдвое меньшую производительность.

Это было понятно заранее, из технических характеристик, но почему GTS 450 уступил даже старому решению на чипе G92? Давайте разберёмся. У GF106 есть 192 процессоров, работающих на частоте 1566 МГц, а у G92 их 128, но работающих на 1836 МГц. Явное преимущество нового GPU на треть. И он всё же отстаёт. Видимо, эффективность использования всех ALU у нового чипа в этой конкретной задаче оказывается ниже, чем у старого. В остальном, решения расположились примерно соответственно теоретическим показателям.

Впрочем, в наших прошлых исследованиях уже получалось так, что данный тест не полностью зависит от скорости ALU, поэтому давайте обратим внимание на второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Налицо как раз то, что мы и подозревали — в этот раз GTS 450 показала себя несколько лучше, хотя новое решение всё так же осталось позади конкурентов в лице Radeon HD 5750 и HD 5770. Более мощная видеокарта от AMD снова стала лидером, показав в этом тесте лучшую производительность.

Скорость рендеринга в данном тесте ограничена почти исключительно производительностью шейдерных блоков, и разница между GTS 450 и GTS 250 стала уже в обратную сторону, хотя она всё же слишком мала — теоретически должно быть не 5%, а 28%. Скорее всего, это снова связано с недостатком ПСП, или с меньшей эффективностью вычислений на GF106 в данном тесте.

Итог по предельным математическим вычислениям остаётся неизменным последние несколько лет — явное преимущество решений компании AMD никуда не делось и его не изменил выход линейки Geforce 400. В пиковой математике решения AMD даже более низкого уровня показывают результаты, близкие к более сложным и дорогим GPU от Nvidia, и это связано с их архитектурными отличиями.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не особенно сложная, производительность в целом ограничена не только скоростью обработки геометрии, но и пропускной способностью памяти.

Забавно, но четыре видеокарты из пяти показали весьма близкие результаты, и только наиболее мощный графический процессор от Nvidia вырвался вперёд. Именно Geforce GTX 460 заметно обгоняет остальные видеокарты во всех режимах, а рассматриваемый сегодня GTS 450 показывает результат на уровне GTS 250 и чуть ниже, чем у конкурентов.

Видимо, сниженное количество блоков обработки геометрии в GF106 привело к тому, что карта на его основе показывает скорость, аналогичную решениям предыдущей архитектуры и не имеет преимуществ перед картами Radeon, теоретически имеющих меньшую скорость обработки геометрии. Выполнение геометрических шейдеров у GF106 не осталось настолько же эффективным, что и у GF100 или хотя бы GF104. Посмотрим, изменится ли ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте, цифры для решений Nvidia почти не изменились, а вот обе Radeon немного подтянули результаты, хотя и не достали до Geforce GTX 460. А GTS 450 показывает скорость совсем чуть-чуть выше, чем предшествующая ей уже устаревшая модель Geforce GTS 250.

Видеокарты Nvidia в этом тесте не реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, и показывают аналогичные предыдущей диаграмме результаты. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах снова соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть менее чем в два раза медленней.

В этом тесте мы видим точно такую же картину, что и в предыдущем: GTX 460 впереди (хотя она оторвалась от более дешёвых видеокарт не так уж сильно), а остальные видеокарты показывают близкие результаты. Новый Geforce GTS 450 совсем немного отстаёт от GTS 250 и чуть-чуть опережает оба решения AMD, особенно в тяжёлом режиме.

Цифры должны измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

Наконец-то мы видим явную разницу между GF1xx и G92 по скорости исполнения геометрических шейдеров. Возможности GF106 по обработке геометрии и скорости исполнения геометрических шейдеров почти вдвое выше, чем у G92. Явно сказывается применение чипа новой архитектуры, хотя от GTX 460 новое решение отстаёт, имея лишь один растеризатор, в отличие от двух.

Впрочем, GTX 460 не так уж и сильна в этом тесте, она быстрее, чем Radeon HD 5750 и HD 5770, но явно не в разы. При увеличении нагрузки на геометрические блоки GF106 ведёт себя не совсем так, как родственный видеочип GF104, и причина этой разницы в том, что количество блоков по обработке геометрии у него не очень велико. И та же GTX 460 заметно опережает новое решение нижнего-среднего ценового диапазона.

Итак, мы наглядно подтвердили потенциально слабое место в производительности GTS 450 — сравнительно низкая (по сравнению с GF104 и GF100, но не чипами AMD или старыми от Nvidia) скорость обработки геометрии наверняка скажется и в игровых тестах с использованием тесселяции. Хотя, для решения такого ценового диапазона это не очень важно, так как производительность будет ограничена и другими исполнительными блоками. Ну а в тестах тесселяции возможны не слишком сильные результаты из-за наличия всего одного растеризатора в анонсированном сегодня GPU.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Предыдущие исследования показали, что на результаты этого теста влияет и скорость текстурирования и пропускная способность памяти (в простых режимах). Разница между всеми решениями не такая уж большая, но некоторые исключения весьма интересны. GTX 460 показывает заметно отличающиеся результаты, в тяжёлых режимах опережая остальные решения.

GTS 450 в лёгких режимах явно упирается в ПСП, но в тяжёлом заметно опережает обоих конкурентов от компании AMD. Примерно то же самое можно сказать и по сравнению с GTS 250, в лёгких режимах новое решение немного проигрывает, с лихвой отыгрываясь в тяжёлом. Видимо, сами по себе выборки из вершинных шейдеров видеокартам Nvidia даются несколько лучше. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Расположение результатов на диаграмме изменилось совсем немного. Теперь во что-то (текстурирование? ПСП?) в лёгком режиме упираются оба решения компании Nvidia, основанные на архитектуре Fermi — они оба отстают от GTS 250. Зато в тяжёлых режимах GTX 460 и GTS 450 выглядят намного лучше, и новый GPU обгоняет конкурентов HD 5750 и HD 5770. Похоже, что в этих тестах новая архитектура Nvidia весьма хороша.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты в тесте «Waves» совсем не похожи на то, что мы видели на предыдущих двух диаграммах. Продукция компании AMD явно улучшила позиции, и в лёгком и среднем режимах обе карты опережают Geforce GTS 450. Новое решение Nvidia немного отстаёт, показывая немного производительность ниже, чем у GTS 250, и заметно ниже, чем у GTS 450. Вероятно, в этом тесте больше сказывается ПСП, чем скорость выборок. Рассмотрим второй вариант этого же теста:

Изменений, по сравнению с предыдущей диаграммой, практически нет, хотя с ростом сложности условий относительные результаты нового графического процессора GF106 во втором тесте вершинных выборок немного улучшились. Теперь Geforce GTS 450 опережает HD 5770 в тяжёлом режиме, отставая от конкурента в простых условиях. Но в целом, эти тесты не слишком показательны, так как они слишком сильно зависят от значения эффективного филлрейта.

3DMark Vantage: Feature тесты

В очередной раз мы решили включить в материал и синтетические тесты из пакета 3DMark Vantage. "Feature" тесты этого пакета обладают поддержкой D3D10 и интересны уже тем, что отличаются от наших. При анализе результатов нового решения Nvidia в этом пакете мы сможем сделать какие-то новые и полезные выводы, ускользнувшие от нас в тестах семейства RightMark. Особенно это касается теста скорости TMU и филлрейта, где наш собственный набор тестов показывает странные результаты.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

В тесте текстурной производительности из пакета 3DMark Vantage, соотношение результатов протестированных видеокарт получается совсем иное, по сравнению с RightMark. Эти цифры больше похожи на истинное положение дел и в этом тесте карты Nvidia более эффективно используют имеющиеся текстурные блоки, хотя и не так хорошо, как Radeon. И хотя GTS 450 продолжает отставать от HD 5750 и в этот раз, отрыв стал заметно меньше.

А вот что касается сравнения с предыдущей моделью Geforce GTS 250, то новая видеокарта на архитектуре Geforce 400 показала идентичный с ней результат. Видимо, эффективность текстурирования у новых GPU всё-таки заметно выше, так как теоретически у GTS 250 есть значительное преимущество, исходя из технических характеристик.

Feature Test 2: Color Fill

Это тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Показатели производительности в этом тесте получились не просто соответствующими теоретическим цифрам производительности блоков ROP или ПСП видеопамяти, а чем-то средним. Они не похожи на наши результаты потому, что у нас используется целочисленный буфер с 8-бит на компоненту, а в тесте 3DMark Vantage — 16-бит с плавающей точкой. И эти цифры ближе к соотношению производительности блоков ROP, а величина пропускной способности памяти хоть и влияет, но всё же меньше.

Результаты теста соответствуют теоретическим цифрам лишь приблизительно. GTS 450 снова показывает самую низкую производительность, что особенно хорошо видно на фоне обоих конкурентов от компании AMD, имеющих значительно большую пропускную способность памяти. Да и от GTS 250 новое решение отстаёт именно из-за меньшей ПСП а ведь теоретическая производительность подсистемы ROP у него выше. Ещё один синтетический тест упёрся в ПСП, поэтому нам кажется весьма интересным вариант с 192-битной шиной, если таковой всё же появится.

Feature Test 3: Parallax Occlusion Mapping

Пожалуй, это один из самых любопытных feature тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника), с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения.

Далее эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Этот тест отличается очень сложным для видеочипов пиксельным шейдером, содержащим многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.

Предыдущие исследования показали, что данный тест отличается от других подобных тем, что результаты в нём зависят не исключительно от скорости математических вычислений или эффективности исполнения ветвлений или скорости текстурных выборок, а от всего понемногу. И для достижения высокой скорости важен правильный баланс блоков GPU и ПСП видеопамяти. Заметно влияет на скорость и эффективность выполнения ветвлений в шейдерах.

К сожалению, как и все видеокарты Nvidia, Geforce GTS 450 в этом тесте особенно блеснуть не смог, снова показав худший результат. При этом, представленная сегодня видеоплата Nvidia, предназначенная для нижнего-среднего ценового диапазона, отстаёт и от своего предшественника Geforce GTS 250. И даже GTX 460 отстаёт от Radeon HD 5770.

Возможно, больше всего на результаты этого теста влияет сниженная эффективность выполнения шейдерных программ с ветвлениями у GF104 и GF106 (из-за архитектурных изменений, описанных ранее), и тест сильно зависит от скорости текстурирования, так как по остальным характеристикам таких результатов быть не должно. Что ж, возможно в тестах физических симуляций решения Nvidia смогут улучшить свои позиции...

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Похоже, что на скорость рендеринга в этом тесте снова влияет сложная смесь различных параметров: производительность обработки геометрии и исполнения геометрических шейдеров с ветвлениями. И в этом тесте новая модель Geforce GTS 450 работает неплохо, опережая и GTS 250 и обе модели от компании AMD.

В общем, с выполнением геометрических шейдеров и скоростью обработки геометрии и stream out у всех чипов Nvidia всё в порядке. Хотя опережение конкурентов от AMD не такое значительное, но оно всё же есть. Особенно хорошо тут смотрится GTX 460, имеющий больше блоков обработки геометрии.

Feature Test 5: GPU Particles

Это тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. В нём также используется вершинная симуляция, где каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующих частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.

Результаты этого теста похожи на те, что мы видели на прошлой диаграмме, только устаревший GTS 250 сильно отстал, по сравнению с GPU новых архитектур. Рассматриваемый сегодня GTS 450 показывает ещё более высокий результат, по сравнению с видеокартами семейства Radeon HD 5700 от AMD.

В синтетических тестах имитации тканей и частиц этого тестового пакета, где используются геометрические шейдеры, все чипы архитектуры Nvidia Fermi показали себя очень хорошо, опережая соответствующие конкурирующие графические процессоры компании AMD. А от старшего чипа GTX 460 новое решение отстаёт соответственно тактовым частотам и количеству исполнительных блоков.

Feature Test 6: Perlin Noise

Последний feature тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто используемый в процедурном текстурировании, он использует очень много математических расчётов.

Самый сложный математический тест из пакета компании Futuremark показывает пиковую производительность видеочипов в предельных вычислительных задачах со сравнительно простыми программами. Показанная в нём производительность всех решений примерно соответствует тому, что должно получаться по теории, и близка к тому, что мы видели ранее в наших математических тестах из пакета RightMark 2.0, хотя и не совпадает на 100%.

В этом математическом тесте, новый Geforce GTS 450, основанный на чипе GF106, показывает результат лучше, чем GTS 250 (в RightMark получалось несколько иначе, как вы помните), но хуже чем все остальные модели и от Nvidia и от AMD, как и должно получаться по теории. Отставание от обеих видеокарт Radeon вполне объяснимо, и лидером сравнения ожидаемо становится модель Radeon HD 5770, как и в предыдущих математических тестах.

Повторимся, что видеокарты AMD всегда выигрывают этот тест у конкурентов от компании Nvidia. Простая, но интенсивная математика выполняется на видеокартах Radeon значительно быстрее. Правда, во многих сложных вычислительных тестах, таких как физические расчёты симуляций частиц и тканей, представленные выше, новая архитектура решение Nvidia справляется лучше, и это относится в том числе и к Geforce GTS 450.

Выводы по синтетическим тестам

По результатам синтетических тестов новой модели Nvidia Geforce GTS 450, основанной на графическом процессоре GF106, а также результатам других моделей видеокарт обоих производителей видеочипов, можно сделать вывод о том, что у Nvidia получилось в целом неплохое решение среднего уровня, основанное на последней графической архитектуре компании, имеющее как сильные, так и слабые стороны.

Новый GPU отличается хорошей производительностью и возможностями в своём классе, и видеокарта Geforce GTS 450, основанная на нём, может стать неплохим выбором для покупателей, обративших внимание на нижний-средний ценовой диапазон порядка $100-$150. Как и другие чипы семейства, новый GPU отличается серьёзными модификациями в графическом конвейере, но ограничения по сложности GPU не позволили включить в его состав большое количество блоков обработки геометрии, и поэтому явных улучшений в производительности геометрической обработки, по сравнению с решениями конкурентов, нами практически не было отмечено.

А вот в синтетических тестах геометрических шейдеров и физических расчётов (имитации тканей и частиц в пакете Vantage, где также используются геометрические шейдеры), новый чип показал довольно сильные результаты, как и в других вычислительных тестах со сложными программами с большим количеством ветвлений. Зато он не может конкурировать с решениями AMD в интенсивных вычислительных задачах с несложными алгоритмами, а также немного проигрывает им по скорости текстурирования.

Подводя итоги, и имея в качестве основы результаты синтетических тестов, мы можем предположить, что в игровых тестах видеокарта Geforce GTS 450 должна показать результаты несколько лучше, чем одна из конкурирующих моделей от AMD — Radeon HD 5750, но всё же может оказаться медленнее, чем близкий по цене и вышедший уже довольно давно Radeon HD 5770.

Ведь скорость рендеринга в играх зависит сразу от нескольких характеристик, и особенно от филлрейта и текстурирования, а по этим параметрам GTS 450 может сравниться разве что с HD 5750, но не старшей моделью компании AMD. И даже в DirectX 11 приложениях, активно использующих тесселяцию, больших отрывов от конкурентов вряд ли можно ожидать, так как чип GF106 имеет лишь один растеризатор и четыре движка PolyMorph, чего явно недостаточно для доминирования в таких условиях.

В следующей части статьи вы познакомитесь с игровыми и околоигровыми тестами нового решения от компании Nvidia, основанного на графическом процессоре GF106, где Geforce GTS 450 сразится с конкурентами в нашем наборе современных игровых приложений.



Nvidia Geforce GTS 450 - Часть 3: Игровые тесты (производительность)





Блок питания для тестового стенда предоставлен компанией TAGAN

Корпус ThermalTake 8430 для тестового стенда предоставлен компанией 3LOGIC

Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia