128 калифорнийских стрелков в новых мундирах в виде Nvidia Geforce 9800 GTX

BFG Geforce 9800 GTX 512MB PCI-E, MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512), Zotac Geforce 9800 GTX 512MB PCI-E




СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce 9800 GTX (G92): Часть 1: Теоретические сведения


Мы протестировали 3 видеокарты на базе Geforce 9800 GTX производства BFG, MSI и Zotac. Все ускорители имеют номинальные частоты работы. Карты — референс-платы, купленные партнерами у Nvidia, и произведенные на заводах Flextronics и PC Partner по заказу калифорнийского чип-мейкера.

Платы



BFG Geforce 9800 GTX 512MB PCI-E
  • GPU: Geforce 9800 GTX (G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 675/1688 MHz (номинал — 675/1688 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1100 (2200) MHz (номинал — 1100 (2200) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 128
  • Число текстурных процессоров: 64 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)
  • GPU: Geforce 9800 GTX (G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 675/1688 MHz (номинал — 675/1688 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1100 (2200) MHz (номинал — 1100 (2200) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 128
  • Число текстурных процессоров: 64 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).
Zotac Geforce 9800 GTX 512MB PCI-E
  • GPU: Geforce 9800 GTX (G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 675/1688 MHz (номинал — 675/1688 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1100 (2200) MHz (номинал — 1100 (2200) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 128
  • Число текстурных процессоров: 64 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).


BFG Geforce 9800 GTX 512MB PCI-E
Zotac Geforce 9800 GTX 512MB PCI-E
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)
Каждая карта имеет 512 МБ памяти GDDR3 SDRAM, размещенной в 8 микросхемах на лицевой стороне PCB

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 0,8 ns, что соответствует частоте работы 1250 (2500) МГц.



Сравнение с эталонным дизайном, вид спереди
Zotac Geforce 9800 GTX 512MB PCI-E Reference card Nvidia Geforce 8800 GTS 512
BFG Geforce 9800 GTX 512MB PCI-E
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)


Сравнение с эталонным дизайном, вид сзади
Zotac Geforce 9800 GTX 512MB PCI-E Reference card Nvidia Geforce 8800 GTS 512
BFG Geforce 9800 GTX 512MB PCI-E
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)


Итак, читатели прекрасно видят, что при весьма скромных отличиях от 8800 GTS 512, карты 9800GTX приобрели очень длинную PCB, которая вернула нас в эпоху 8800 GTX/Ultra. Но в последнем случае это еще как-то было оправдано 384-битной шиной, а также очень сложной схемой питания (потребление было очень велико). Однако теперь мы видим, что при наличии всего лишь уже ставшей стандартом 256-битной шины карта стала такой же длинной. Причем не совсем понятно: что потребовало так радикально менять схему питания, ради которой пришлось отдать приличную площадь на текстолите, когда, повторяю, ядро то же самое, и отличия от 8800 GTS 512 незначительные. Только лишь установка чуть более быстрой памяти? Или поддержка 3-way SLI? Вряд ли.

По-моему, инженерам просто нечего делать (единственная причина приходит в голову: что упростили сложность самой PCB, и слоев стало меньше)… Тем не менее пользователям надо снова думать о просторных корпусах, куда такая карта сможет встать.

О кулере поговорим ниже.

Видеокарты этой серии оснащены гнездом для подключения звукового потока с аудио-карты для передачи его затем на HDMI (с помощью переходника DVI-to-HDMI), то есть сама видеокарта не оснащена аудио-кодеком, но осуществляет прием сигнала от внешней звуковой карты. Поэтому, если кому эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был аудио-шнурок для этих целей.

У всех карт имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуются специальные адаптеры-переходники, поставляемые вместе с картой. Более подробно о ТВ-выходе можно почитать здесь.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (все DVI-гнезда с Dual-Link)

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос, с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

Напомним, что карты этих серий требуют дополнительное питание (ДВА РАЗЪЕМА!), поэтому с каждой платой поставляются переходники с молекс на 6-пиновый разъем, хотя уже все современные БП имеют такие «хвосты».

Теперь о системе охлаждения (СО). Все карты имеют референс-кулер, поэтому рассмотрим его на примере карты от Zotac.

Zotac Geforce 9800 GTX 512MB PCI-E Reference cooler Geforce 8800 GTS


Как мы видим, СО представляет собой традиционный длинный закрытый радиатор, через который цилиндрический вентилятор прогоняет воздух. Выходит уже нагретый воздух за пределы корпуса компьютера, что есть хорошо.

Я сравнил две СО: ранее выпущенную вместе с 8800 GTS 512, и новую, поставляемую с 9800 GTX. Отличия по сути лишь в длине радиатора. Турбина работает на малых оборотах, и потому СО бесшумная.

Мы провели исследование температурного режима с помощью утилиты RivaTuner (автор А.Николайчук AKA Unwinder) и получили следующие результаты:

Geforce 9800 GTX 512MB PCI-E

Хорошо видим, как все карты, имеющие эталоанную СО, прекрасно справляются со своей работой, и нигде температура не подходит близко к критическим значениям.

Ниже представлен сам чип — G92 Geforce 9800 GTX. Ревизия А2, от иных G92 отличается нумерацией 420.



Теперь насчет комплектов поставки.

Все карты в базовом номинальном комплекте имеют руководство пользователя, диск с драйверами и утилитами, разветвитель внешнего питания, переходник-адаптер DVI-to-VGA, DVI-to-HMDI адаптер и адаптер компонентного вывода (TV-out). Ниже мы покажем, что предлагается каждым вендором дополнительно.



BFG Geforce 9800 GTX 512MB PCI-E
Производитель почему-то не положил в комплект адаптер HDMI, хотя переходников DVI-to-VGA два (сегодня уже странно себе представить, что кому-то потребуется подключать два CRT монитора к новой видеокарте). Как обычно, единого руководства пользователя в комплекте нет, а есть куча листовок и ненужных никому бумажек. А также нет аудио-шнурка для вывода сигнала со звуковой карты на HDMI. Видимо, в американской компании считают, что HDMI никому не нужно сейчас.
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)
Этот комплект полностью соответствует базовому набору, имеется также и аудио-шнурок.
Zotac Geforce 9800 GTX 512MB PCI-E
Аналогично. Плюс имеется игра Lost в качестве подарка.


Упаковки.

BFG Geforce 9800 GTX 512MB PCI-E

Уже традиционный черный бокс небольших размеров, из которого комплект кабелей и адаптеров просто высыпается, если его открыть. Карта сама хорошо упакована, запрятана в коробку-самоделку. В компании учли критику предыдущих выпусков, и теперь мы видим обновленный дизайн коробки, который уже четок и понятен, а также приятно это видеть.

MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)

Компания традиционно придерживается «сумчатой» формы упаковки, которая представляет собой супер, внутри которого бокс из белого картона. Весь комплект находится внизу коробки под картой, когда как сама плата — в упаковке из пенополиуретана, поэтому сохранность в процессе перевозки гарантируется. Сам дизайн упаковки очень приятный, яркий и привлекательный.

Zotac Geforce 9800 GTX 512MB PCI-E

Мы видим уже традиционные оранжевые тона упаковки от Zotac. Жаль, что снова ушли от темы драконов, а также перестали делать упаковку с окном, через которое видно карту. Сама коробка из толстого картона, комплект разложен по отсекам, а сама карта в коробочке из пенополиуретана, что очень хорошо для транспортировки.



Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 MHz);
    • системная плата Gigabyte GA-X38-DQ6 на чипсете Intel X38;
    • оперативная память 2 GB DDR2 SDRAM Corsair 1142MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
    • блок питания Tagan 1100-U95 (1100W).
  • операционная система Windows XP SP2; DirectX 9.0c;
  • операционная система Windows Vista 32bit; DirectX 10.0;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 8.3; Nvidia версии 174.74.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: ссылка

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Nvidia Geforce 9800 GTX со стандартными параметрами (далее GF9800GTX)
  • Nvidia Geforce 8800 Ultra со стандартными параметрами (далее GF8800U)
  • Nvidia Geforce 8800 GTS 512MB со стандартными параметрами (далее GF8800GTS 512)
  • RADEON HD 3870 со стандартными параметрами (далее HD3870)

Для сравнения результатов Geforce 9800 GTX были выбраны именно эти модели видеокарт по следующим причинам: с Geforce 8800 GTS 512MB её будет интересно сравнить, как с практически идентичной видеокартой с близкими тактовыми частотами, со старой моделью Geforce 8800 Ultra сравниваем для того, чтобы посмотреть влияние пропускной способности на нашу синтетику, ну и чтобы понять в очередной раз, что дают небольшие архитектурные изменения. С RADEON HD 3870 сравнение интересно потому, что это быстрейшее одночиповое решение от AMD.

Хотя, предполагаем, что исследование производительности в синтетических тестах не покажет ничего особенного, ведь с архитектурной точки зрения ничего не изменилось, это всё тот же G92 с иными рабочими частотами. Продолжаем ожидать появления новых архитектур.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



Не у всех видеокарт получаются значения, близкие к теоретическому максимуму. Чаще результаты синтетики не дотягивают до теории, ближе всего к ним подбираются видеокарты на основе G80 и RV670, они не добирают лишь 10-12%. А вот для видеокарт Nvidia, отличающихся улучшенными TMU, в нашем старом тесте теоретический максимум не достигается даже близко. G92 в нашем тесте выбирает более 32 текселей за один такт из 32-битных текстур при билинейной фильтрации, хотя теоретически способен на большее.

В случае с малым количеством текстур на пиксель, Geforce 9800 GTX проигрывает Geforce 8800 Ultra, а с одной текстурой и вообще близок к RADEON HD 3870, в таких случаях все карты ограничены пропускной способностью видеопамяти. Дальше способности блоков ROP раскрываются сильнее, и в более тяжелых условиях самая быстрая видеокарта на основе G92 показывает результат более чем в два раза лучше, чем HD 3870. Посмотрим на результаты в тесте филлрейта:



Второй синтетический тест измеряет скорость заполнения, и в нём мы видим ту же самую ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. Хорошо видно, что в случаях с 0 и 1 накладываемыми текстурами производительность ограничена ПСП, а также количеством и рабочей частотой блоков ROP. Всё так же, как и в предыдущем тесте — в ситуациях с большим количеством текстур на пиксель, Geforce 9800 GTX очень много выигрывает у конкурента от AMD и заметно опережает даже Geforce 8800 Ultra, начиная с трёх текстур на пиксель. А вот в случае 1 и 2 текстур уже у последней есть серьёзное преимущество в ПСП и филлрейте.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим пару предельных геометрических тестов, и первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:



Так как все чипы основаны на унифицированных архитектурах, их универсальные исполнительные блоки в этом тесте заняты только геометрической работой, и решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Результаты в очередной раз подтверждают то, что чипы AMD быстрее обрабатывают геометрию, по сравнению с чипами Nvidia. Разница между Geforce 9800 GTX и RADEON HD 3870 пока что невелика, но даже в такой простой задаче решение AMD быстрее. Эффективность выполнения теста в разных режимах у G80 и RV670 примерно одинакова, пиковая производительность в FFP, VS 1.1 и VS 2.0 отличается не сильно. А вот у всех представителей архитектуры G9x режим FFP оказался заметно быстрее.

Мы убрали из рассмотрения промежуточные тесты на скорость обработки геометрии с одним источником освещения, и сразу же переходим к рассмотрению самой сложной геометрической задачи с тремя источниками света, включающей статические и динамические переходы:



Вот теперь разница видна лучше, разрыв между скоростью решений AMD и Nvidia увеличился. RADEON HD 3870 опережает все остальные решения, и даже в нашей самой сложной геометрической задаче его возможности не раскрыты полностью, результаты в разных режимах практически равны. Отмечаем, что на трёх смешанных источниках света наличие оптимизированной эмуляции FFP у G92 стало ещё заметнее.

Geforce 9800 GTX показывает результаты лучшие, чем Geforce 8800 Ultra, что объяснимо возросшей тактовой частотой GPU, как и должно быть, исходя из теории. Разница с Geforce 8800 GTS тоже соответствует теоретической. В целом, все решения неплохо проявляют себя в тестах, и способны использовать все свои универсальные потоковые процессоры для решения геометрических задач. В реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Эти тесты слишком просты для современных архитектур и не показывают их истинную силу. В простых тестах производительность ограничена скоростью текстурных выборок и филлрейтом, что хорошо видно по слабым результатам RADEON HD 3870, который во всех тестах отстал от всех представителей Nvidia, где-то больше, а где-то меньше. Явно сказывается сравнительно малое количество TMU у чипа AMD, ведь даже в более сложных PS 2.0 тестах, таких, как Phong с тремя источниками света, решение AMD продолжает оставаться позади.

Geforce 9800 GTX показывает отличные результаты на уровне Geforce 8800 Ultra, немного проигрывая той в задачах, где скорость ограничивается филлрейтом, и выигрывая в других. Geforce 8800 GTS слегка отстаёт от обоих. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:



В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, поэтому единственный RADEON очень сильно отстаёт от решений на основе G92 и G80, показывая результат в 2.5-3 раза хуже. Ну а рассматриваемая сегодня видеокарта является лидером, она опередила своих сородичей, как и ожидалось, исходя из теории.

Второй тест, более интенсивный вычислительно, явно лучше подходит для архитектуры R6xx с большим числом вычислительных блоков, в нём решение AMD вплотную подтягивается к результату Geforce 8800 Ultra, но обе карты на базе G92 продолжают выигрывать у него. В состязании Geforce 9800 GTX и 8800 Ultra, новая видеокарта Nvidia выигрывает у старой, хотя разница невелика — всего 5%. По сравнению с предшествующей Geforce 8800 GTS 512MB разница совпадает с теоретическими 3%.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



Ситуация между видеокартами в тесте «Frozen Glass» схожа с той, что получилась в предыдущем блоке тестов в тесте «Water». Несмотря на то, что это математические тесты, зависящие от частоты шейдерных блоков, Geforce 9800 GTX немного отстаёт от 8800 Ultra. Видимо, производительность ограничена не только математикой и скоростью текстурных выборок, но и филлрейтом. RADEON HD 3870 в этом тесте отстаёт от остальных более чем в два раза.

Зато во втором тесте «Parallax Mapping» решение AMD заметно сильнее, хоть и снова позади карт Nvidia. Несмотря на улучшенные блоки TMU в G92 (а для параллакс маппинга нужна дополнительная текстурная выборка), Geforce 8800 Ultra продолжает опережать и Geforce 8800 GTS и Geforce 9800 GTX, но уже совсем чуть-чуть. Рассмотрим эти тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там видеокарты на основе G92 должны показать более высокие результаты:



Положение немного изменилось, производительность в тесте ещё больше упирается в скорость текстурных блоков, и новый вариант на основе G92 значительно опережает RADEON HD 3870 в обоих тестах, в 2-2.5 раза. В этот раз сдалась и Geforce 8800 Ultra, Geforce 9800 GTX хоть и совсем чуть-чуть, но всё же обгоняет её. На всех решениях варианты шейдеров с большим количеством математических вычислений работают быстрее, чем их «текстурные» варианты.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



В этих тестах нагрузка на видеокарты очень велика, и только такие мощные чипы справляются с ней при сохранении приемлемой производительности. Хотя решения AMD обеспечивают эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений, Geforce 9800 GTX опережает карту на базе RV670 более чем в два раза в обоих тестах, что можно объяснить ускоренными билинейными текстурными выборками в архитектуре G9x и большей эффективностью использования имеющихся ресурсов (скалярная и суперскалярная архитектуры). Разница с Geforce 8800 GTS 512MB невелика, даже меньше теоретической, а вот Geforce 8800 Ultra был повержен в очередной раз, уже на 9% и 17% для двух тестов, соответственно.

Не забываем, что при анализе результатов подобных синтетических тестов нужно учитывать, что в реальных приложениях картина может быть несколько иной, если там будет использоваться трилинейная и/или анизотропная фильтрация текстур.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Все результаты в «High» получились примерно в полтора раза ниже, чем в «Low», но интересно, что у Geforce 8800 Ultra разница больше. Видимо, в Low сказывается влияние филлрейта и большей ПСП. Direct3D 10 тесты процедурной визуализации меха с большим количеством текстурных выборок в очередной раз показывают огромное преимущество решений Nvidia над AMD.

И теперь мы точно можем сказать, что производительность в этом тесте зависит не только от количества и скорости блоков TMU, но и от филлрейта и ПСП. Сравнение результатов Geforce 9800 GTX и 8800 Ultra явственно показывает на это, разница велика, особенно в режиме Low. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, но на видеокартах Nvidia скорость снижается сильнее, чем на AMD, за счет чего отрыв между ними сокращается, и HD 3870 немного подтягивается вверх. Но это её не спасает, преимущество карт Nvidia подавляющее. В остальном, с увеличением сложности шейдера и нагрузки на видеочип, разница между Geforce 9800 GTX и Geforce 8800 Ultra сокращается, то есть на общую скорость филлрейт и ПСП влияет уже меньше, но быстрейшая из G80 до сих пор впереди.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Этот тест интереснее с практической точки зрения, разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в последних релизах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Хотя решения AMD ранее были традиционно сильны в Direct3D 9 тестах parallax mapping, в обновленном D3D10 варианте без суперсэмплинга они не могут справиться с нашей задачей на уровне лучших видеокарт Geforce. Кроме того, включение самозатенения вызывает на продукции AMD большее падение производительности, по сравнению с разницей для решений Nvidia.

Рассматриваемый нами сегодня Geforce 9800 GTX снова не смог опередить Geforce 8800 Ultra, хотя в High режиме приблизился к ней, а разница с Geforce 8800 GTS 512MB очень мала, её практически нет. Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал большее падение скорости на картах Nvidia…

Ну вот, при включении суперсэмплинга и самозатенения задача получается действительно тяжелой и расчётной, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростью разных видеокарт уже не та, что раньше. Хотя включение суперсэмплинга сказывается как и в предыдущем случае — карта производства AMD значительно улучшает свои показатели относительно решений Nvidia, но HD 3870 продолжает отставать от всех Geforce более чем в два раза. Что касается сравнения Geforce 9800 GTX с давним топом на основе G80, в этот раз он наконец-то обогнал Geforce 8800 Ultra, но только в наиболее тяжёлом режиме. Разница между двумя вариантами на основе чипа G92 слишком мала, чтобы принимать её всерьёз, производительность решений очень близкая, что и должно быть исходя из теории.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Ранее мы не раз отмечали при анализе результатов наших Direct3D 9 синтетических тестов, что в вычислительно сложных задачах современная архитектура AMD показывает себя зачастую лучше конкурирующей от Nvidia. Но время идёт, и ситуация меняется, модификации в G92 действительно помогли улучшить производительность. Вот и в данном тесте в соперничестве RADEON HD 3870 и любого из Geforce, решение AMD проигрывает, хоть и не так много.

Производительность у Geforce 9800 GTX наибольшая, она слегка обгоняет как «старую» Geforce 8800 Ultra, так и «новую» Geforce 8800 GTS 512MB. Всё соответствует теоретическим значениям по количеству и тактовой частоте универсальных шейдерных блоков. Также на результаты слегка влияет и пропускная способность памяти (от которой зависит и филлрейт), ведь Geforce 8800 Ultra очень близок к Geforce 8800 GTS, хотя теоретически разница должна быть больше…

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В тестовых сравнениях 2007 года видеокарты AMD проваливали этот тест, показывая очень низкие результаты, но с выхода RADEON HD 3870 X2 ошибка была исправлена, и результат решений AMD наконец-то стал подобающим теории. И вот теперь RADEON HD 3870 в этом тесте показывает скорость даже выше, чем у всех Geforce 8800 и 9800.

Что касается относительной производительности видеоплат Nvidia, в данном случае скорость рендеринга явно ограничена производительностью шейдерных блоков, Geforce 8800 GTS 512MB опережает Geforce 8800 Ultra, а Geforce 9800 GTX их обоих, и результат полностью соответствует теоретической производительности универсальных блоков ALU, то есть, соотношению частоты и количества исполнительных блоков.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Итак, соотношение скоростей при разной геометрической сложности сцен примерно одинаковое. Производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт несложная и, как показали предыдущие исследования, ограничения скорости мощностью шейдерных ALU в тесте не явное, задача ограничена и мощностью ALU, и ПСП и филлрейтом (в меньшей степени). Разница между двумя решениями на основе G92 очень невелика, и оба опережают Geforce 8800 Ultra. Ну а конкурирующая видеокарта от AMD показывает почти в два раза меньшую скорость в этом тесте. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится.

Разница невелика, существенных изменений не произошло. Все видеокарты Nvidia показывают почти те же результаты при изменении параметра GS load, отвечающем за перенос части вычислений в геометрический шейдер. Единственная разница состоит в некотором увеличении результатов на AMD RADEON HD 3870, в этот раз она отстаёт уже меньше. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. Производительность Geforce 9800 GTX и в этот раз немного выше, чем у старого топового варианта Geforce 8800 Ultra, и разница увеличивается при возрастании нагрузки. А карта AMD снова проигрывает всем решениям Nvidia при любой геометрической сложности. Причём, разница даже больше, чем в предыдущем тесте, уже более двух раз.

В целом, наблюдается то же самое, что и в предыдущем тесте, но цифры могут измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

И вот, впервые в геометрических тестах, соотношение скоростей меняется довольно сильно. Получается, что чип AMD выполняет более сложные геометрические шейдеры несколько эффективнее чипов Nvidia. Но разница уже совсем маленькая, похоже, что Nvidia исправила некоторые недостатки в драйверах, и теперь Geforce 9800 GTX в этих условиях не только опережает Geforce 8800 Ultra почти на 10%, но и практически догоняет старший вариант карты AMD на основе чипа RV670 в самых тяжелых условиях. А ведь ранее отставание было значительно больше…

Что касается сравнения результатов в разных режимах, тут всё как всегда, в конкурентной борьбе видеоплате AMD не помогает и то, что при переходе от использования «instancing» к геометрическому шейдеру при выводе, видеокарты Nvidia очень сильно теряют в производительности. И у всех карт Geforce на основе чипов G92 и G80 скорость в «Balanced» режиме получается выше, чем в «Heavy» у RADEON HD 3870. При этом, получаемая в разных режимах картинка не отличается визуально.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Интересно, что сравнительные результаты в разных режимах довольно сильно отличаются. Судя по предыдущим исследованиям, на результаты этого теста сильно влияет в том числе и пропускная способность памяти, и чем проще режим, тем большее влияние на скорость она оказывает. Это хорошо заметно по сравнительным результатам Geforce 9800 GTX и Geforce 8800 Ultra, если в простом режиме вторая выигрывает за явным преимуществом в ПСП, в среднем результаты сближаются, а в самом сложном они уже почти равны. Между Geforce 8800 GTS и 9800 GTX разница соответствует теории, а RADEON HD 3870 отстаёт от них чуть ли не вдвое. Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась не слишком сильно, в лёгких режимах продолжает выигрывать 8800 Ultra, а в сложном 9800 GTX уже выходит вперёд. Geforce 8800 GTS отстаёт от них почти столько же, что и в предыдущем случае, а карта производства AMD не изменила ни своей позиции, ни отставания. Как и в прошлый раз, по мере усложнения задачи, результаты карт уплотняются.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

А вот тест «Waves» благосклоннее к продукции AMD, единственная протестированная модель семейства RADEON HD 3800 смотрится очень неплохо, опережая решения на G92 в лёгких режимах и немного уступая в тяжёлом. Похоже, что в этом тесте скорость зависит не столько от мощности TMU, сколько от ПСП и филлрейта, так как обе карты на основе G92 проигрывают решению предыдущего поколения — Geforce 8800 Ultra. И чем тяжелее задача по текстурным выборкам, тем ближе их результаты. Любопытно, что Geforce 8800 GTS 512MB в этот раз даже немного выигрывает у сменяющей её Geforce 9800 GTX во всех режимах. Вероятно, что-то не так с оптимизацией в драйверах, ибо теорией это не оправдать. Рассмотрим второй вариант этого же теста:

Ситуация снова почти без изменений, хотя с увеличением сложности теста результат RADEON HD 3870 стал ещё лучше, по сравнению с картами Nvidia, последние потеряли в скорости больше, чем она. Все остальные выводы также остаются в силе — во всех режимах скорость ограничивается ПСП, в лёгком сильнее, а в тяжёлых большую роль начинают играть блоки TMU, поэтому Geforce 9800 GTX почти догоняет Geforce 8800 GTS. Но не догоняет RADEON HD 3870, который занял почётное второе место вслед за Ultra. Положение плат AMD заметно улучшилось в тестах VTF в последнее время, ранее мы отмечали, что решения Nvidia лучше справляются с тестами текстурных выборок из вершинных шейдеров, теперь ситуация исправлена.

Выводы по синтетическим тестам

На основе результатов синтетических тестов Geforce 9800 GTX и других моделей видеокарт обоих основных производителей видеочипов, мы убедились в том, что новое решение Nvidia получилось мощным, но оно не очень сильно отличается по производительности от Geforce 8800 GTS 512MB, которую скоро, скорее всего, и заменит на рынке. В синтетических тестах новая модель часто опережает топовую видеокарту прошлого поколения — Geforce 8800 Ultra, и почти всегда впереди конкурента от компании AMD — RADEON HD 3870. Высокоэффективная архитектура, достаточно большое количество блоков ALU, TMU и ROP, а также высокие рабочие частоты позволяют рассмотренному чипу показывать отличные результаты во всех наших синтетических тестах.

На это повлияла и улучшенная по сравнению с G8x архитектура G9x, которая отличается высокой вычислительной производительностью, важной для современных и будущих приложений с большим количеством сложных шейдеров всех типов. По сравнению с предыдущей G8x, в архитектуру G9x внесены изменения в блоки TMU и ROP, текстурные модули в определенных условиях умеют выбирать вдвое больше данных, а блоки ROP оснащены новой технологией компрессии, увеличивающей эффективность использования видеопамяти.

Видеокарта хорошо сбалансирована, обладает достаточным количеством всех исполнительных блоков, и её единственным потенциальным недостатком является меньшее количество локальной видеопамяти, более узкая ширина шины памяти (вместе с меньшим количеством блоков ROP) и, следовательно, её меньшая пропускная способность. Именно этого не хватает в некоторых тестах, чтобы показывать результаты выше, чем у модели Geforce 8800 Ultra. Но рассматриваемое сегодня решение не позиционируется на её замену, и отличается более низкой ценой, и поэтому показываемой ей производительности будет вполне достаточно для успешной конкуренции в своём ценовом диапазоне.

В следующей части статьи мы рассмотрим тесты нового решения Nvidia в современных игровых приложениях, которые должны примерно соответствовать выводам, сделанным при анализе результатов синтетических тестов, с поправкой на большее влияние филлрейта и ПСП. Игровые результаты должны быть интереснее синтетических, скорость рендеринга в играх почти всегда сильнее зависит от скорости текстурирования и филлрейта, чем от мощности ALU и блоков обработки геометрии.



Nvidia Geforce 9800 GTX (G92) — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно

128 калифорнийских стрелков в новых мундирах в виде Nvidia Geforce 9800 GTX (от BFG, MSI, Zotac)

128 калифорнийских стрелков в новых мундирах в виде Nvidia Geforce 9800 GTX

BFG Geforce 9800 GTX 512MB PCI-E, MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512), Zotac Geforce 9800 GTX 512MB PCI-E



СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce 9800 GTX (G92): Часть 1: Теоретические сведения


Мы протестировали 3 видеокарты на базе Geforce 9800 GTX производства BFG, MSI и Zotac. Все ускорители имеют номинальные частоты работы. Карты — референс-платы, купленные партнерами у Nvidia, и произведенные на заводах Flextronics и PC Partner по заказу калифорнийского чип-мейкера.

Платы



BFG Geforce 9800 GTX 512MB PCI-E
  • GPU: Geforce 9800 GTX (G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 675/1688 MHz (номинал — 675/1688 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1100 (2200) MHz (номинал — 1100 (2200) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 128
  • Число текстурных процессоров: 64 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)
  • GPU: Geforce 9800 GTX (G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 675/1688 MHz (номинал — 675/1688 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1100 (2200) MHz (номинал — 1100 (2200) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 128
  • Число текстурных процессоров: 64 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).
Zotac Geforce 9800 GTX 512MB PCI-E
  • GPU: Geforce 9800 GTX (G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 675/1688 MHz (номинал — 675/1688 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1100 (2200) MHz (номинал — 1100 (2200) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 128
  • Число текстурных процессоров: 64 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).


BFG Geforce 9800 GTX 512MB PCI-E
Zotac Geforce 9800 GTX 512MB PCI-E
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)
Каждая карта имеет 512 МБ памяти GDDR3 SDRAM, размещенной в 8 микросхемах на лицевой стороне PCB

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 0,8 ns, что соответствует частоте работы 1250 (2500) МГц.



Сравнение с эталонным дизайном, вид спереди
Zotac Geforce 9800 GTX 512MB PCI-E Reference card Nvidia Geforce 8800 GTS 512
BFG Geforce 9800 GTX 512MB PCI-E
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)


Сравнение с эталонным дизайном, вид сзади
Zotac Geforce 9800 GTX 512MB PCI-E Reference card Nvidia Geforce 8800 GTS 512
BFG Geforce 9800 GTX 512MB PCI-E
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)


Итак, читатели прекрасно видят, что при весьма скромных отличиях от 8800 GTS 512, карты 9800GTX приобрели очень длинную PCB, которая вернула нас в эпоху 8800 GTX/Ultra. Но в последнем случае это еще как-то было оправдано 384-битной шиной, а также очень сложной схемой питания (потребление было очень велико). Однако теперь мы видим, что при наличии всего лишь уже ставшей стандартом 256-битной шины карта стала такой же длинной. Причем не совсем понятно: что потребовало так радикально менять схему питания, ради которой пришлось отдать приличную площадь на текстолите, когда, повторяю, ядро то же самое, и отличия от 8800 GTS 512 незначительные. Только лишь установка чуть более быстрой памяти? Или поддержка 3-way SLI? Вряд ли.

По-моему, инженерам просто нечего делать (единственная причина приходит в голову: что упростили сложность самой PCB, и слоев стало меньше)… Тем не менее пользователям надо снова думать о просторных корпусах, куда такая карта сможет встать.

О кулере поговорим ниже.

Видеокарты этой серии оснащены гнездом для подключения звукового потока с аудио-карты для передачи его затем на HDMI (с помощью переходника DVI-to-HDMI), то есть сама видеокарта не оснащена аудио-кодеком, но осуществляет прием сигнала от внешней звуковой карты. Поэтому, если кому эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был аудио-шнурок для этих целей.

У всех карт имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуются специальные адаптеры-переходники, поставляемые вместе с картой. Более подробно о ТВ-выходе можно почитать здесь.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (все DVI-гнезда с Dual-Link)

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос, с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

Напомним, что карты этих серий требуют дополнительное питание (ДВА РАЗЪЕМА!), поэтому с каждой платой поставляются переходники с молекс на 6-пиновый разъем, хотя уже все современные БП имеют такие «хвосты».

Теперь о системе охлаждения (СО). Все карты имеют референс-кулер, поэтому рассмотрим его на примере карты от Zotac.

Zotac Geforce 9800 GTX 512MB PCI-E Reference cooler Geforce 8800 GTS


Как мы видим, СО представляет собой традиционный длинный закрытый радиатор, через который цилиндрический вентилятор прогоняет воздух. Выходит уже нагретый воздух за пределы корпуса компьютера, что есть хорошо.

Я сравнил две СО: ранее выпущенную вместе с 8800 GTS 512, и новую, поставляемую с 9800 GTX. Отличия по сути лишь в длине радиатора. Турбина работает на малых оборотах, и потому СО бесшумная.

Мы провели исследование температурного режима с помощью утилиты RivaTuner (автор А.Николайчук AKA Unwinder) и получили следующие результаты:

Geforce 9800 GTX 512MB PCI-E

Хорошо видим, как все карты, имеющие эталоанную СО, прекрасно справляются со своей работой, и нигде температура не подходит близко к критическим значениям.

Ниже представлен сам чип — G92 Geforce 9800 GTX. Ревизия А2, от иных G92 отличается нумерацией 420.



Теперь насчет комплектов поставки.

Все карты в базовом номинальном комплекте имеют руководство пользователя, диск с драйверами и утилитами, разветвитель внешнего питания, переходник-адаптер DVI-to-VGA, DVI-to-HMDI адаптер и адаптер компонентного вывода (TV-out). Ниже мы покажем, что предлагается каждым вендором дополнительно.



BFG Geforce 9800 GTX 512MB PCI-E
Производитель почему-то не положил в комплект адаптер HDMI, хотя переходников DVI-to-VGA два (сегодня уже странно себе представить, что кому-то потребуется подключать два CRT монитора к новой видеокарте). Как обычно, единого руководства пользователя в комплекте нет, а есть куча листовок и ненужных никому бумажек. А также нет аудио-шнурка для вывода сигнала со звуковой карты на HDMI. Видимо, в американской компании считают, что HDMI никому не нужно сейчас.
MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)
Этот комплект полностью соответствует базовому набору, имеется также и аудио-шнурок.
Zotac Geforce 9800 GTX 512MB PCI-E
Аналогично. Плюс имеется игра Lost в качестве подарка.


Упаковки.

BFG Geforce 9800 GTX 512MB PCI-E

Уже традиционный черный бокс небольших размеров, из которого комплект кабелей и адаптеров просто высыпается, если его открыть. Карта сама хорошо упакована, запрятана в коробку-самоделку. В компании учли критику предыдущих выпусков, и теперь мы видим обновленный дизайн коробки, который уже четок и понятен, а также приятно это видеть.

MSI Geforce 9800 GTX 512MB PCI-E (N9800GTX-T2D512)

Компания традиционно придерживается «сумчатой» формы упаковки, которая представляет собой супер, внутри которого бокс из белого картона. Весь комплект находится внизу коробки под картой, когда как сама плата — в упаковке из пенополиуретана, поэтому сохранность в процессе перевозки гарантируется. Сам дизайн упаковки очень приятный, яркий и привлекательный.

Zotac Geforce 9800 GTX 512MB PCI-E

Мы видим уже традиционные оранжевые тона упаковки от Zotac. Жаль, что снова ушли от темы драконов, а также перестали делать упаковку с окном, через которое видно карту. Сама коробка из толстого картона, комплект разложен по отсекам, а сама карта в коробочке из пенополиуретана, что очень хорошо для транспортировки.



Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 MHz);
    • системная плата Gigabyte GA-X38-DQ6 на чипсете Intel X38;
    • оперативная память 2 GB DDR2 SDRAM Corsair 1142MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
    • блок питания Tagan 1100-U95 (1100W).
  • операционная система Windows XP SP2; DirectX 9.0c;
  • операционная система Windows Vista 32bit; DirectX 10.0;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 8.3; Nvidia версии 174.74.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: ссылка

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Nvidia Geforce 9800 GTX со стандартными параметрами (далее GF9800GTX)
  • Nvidia Geforce 8800 Ultra со стандартными параметрами (далее GF8800U)
  • Nvidia Geforce 8800 GTS 512MB со стандартными параметрами (далее GF8800GTS 512)
  • RADEON HD 3870 со стандартными параметрами (далее HD3870)

Для сравнения результатов Geforce 9800 GTX были выбраны именно эти модели видеокарт по следующим причинам: с Geforce 8800 GTS 512MB её будет интересно сравнить, как с практически идентичной видеокартой с близкими тактовыми частотами, со старой моделью Geforce 8800 Ultra сравниваем для того, чтобы посмотреть влияние пропускной способности на нашу синтетику, ну и чтобы понять в очередной раз, что дают небольшие архитектурные изменения. С RADEON HD 3870 сравнение интересно потому, что это быстрейшее одночиповое решение от AMD.

Хотя, предполагаем, что исследование производительности в синтетических тестах не покажет ничего особенного, ведь с архитектурной точки зрения ничего не изменилось, это всё тот же G92 с иными рабочими частотами. Продолжаем ожидать появления новых архитектур.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



Не у всех видеокарт получаются значения, близкие к теоретическому максимуму. Чаще результаты синтетики не дотягивают до теории, ближе всего к ним подбираются видеокарты на основе G80 и RV670, они не добирают лишь 10-12%. А вот для видеокарт Nvidia, отличающихся улучшенными TMU, в нашем старом тесте теоретический максимум не достигается даже близко. G92 в нашем тесте выбирает более 32 текселей за один такт из 32-битных текстур при билинейной фильтрации, хотя теоретически способен на большее.

В случае с малым количеством текстур на пиксель, Geforce 9800 GTX проигрывает Geforce 8800 Ultra, а с одной текстурой и вообще близок к RADEON HD 3870, в таких случаях все карты ограничены пропускной способностью видеопамяти. Дальше способности блоков ROP раскрываются сильнее, и в более тяжелых условиях самая быстрая видеокарта на основе G92 показывает результат более чем в два раза лучше, чем HD 3870. Посмотрим на результаты в тесте филлрейта:



Второй синтетический тест измеряет скорость заполнения, и в нём мы видим ту же самую ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. Хорошо видно, что в случаях с 0 и 1 накладываемыми текстурами производительность ограничена ПСП, а также количеством и рабочей частотой блоков ROP. Всё так же, как и в предыдущем тесте — в ситуациях с большим количеством текстур на пиксель, Geforce 9800 GTX очень много выигрывает у конкурента от AMD и заметно опережает даже Geforce 8800 Ultra, начиная с трёх текстур на пиксель. А вот в случае 1 и 2 текстур уже у последней есть серьёзное преимущество в ПСП и филлрейте.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим пару предельных геометрических тестов, и первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:



Так как все чипы основаны на унифицированных архитектурах, их универсальные исполнительные блоки в этом тесте заняты только геометрической работой, и решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Результаты в очередной раз подтверждают то, что чипы AMD быстрее обрабатывают геометрию, по сравнению с чипами Nvidia. Разница между Geforce 9800 GTX и RADEON HD 3870 пока что невелика, но даже в такой простой задаче решение AMD быстрее. Эффективность выполнения теста в разных режимах у G80 и RV670 примерно одинакова, пиковая производительность в FFP, VS 1.1 и VS 2.0 отличается не сильно. А вот у всех представителей архитектуры G9x режим FFP оказался заметно быстрее.

Мы убрали из рассмотрения промежуточные тесты на скорость обработки геометрии с одним источником освещения, и сразу же переходим к рассмотрению самой сложной геометрической задачи с тремя источниками света, включающей статические и динамические переходы:



Вот теперь разница видна лучше, разрыв между скоростью решений AMD и Nvidia увеличился. RADEON HD 3870 опережает все остальные решения, и даже в нашей самой сложной геометрической задаче его возможности не раскрыты полностью, результаты в разных режимах практически равны. Отмечаем, что на трёх смешанных источниках света наличие оптимизированной эмуляции FFP у G92 стало ещё заметнее.

Geforce 9800 GTX показывает результаты лучшие, чем Geforce 8800 Ultra, что объяснимо возросшей тактовой частотой GPU, как и должно быть, исходя из теории. Разница с Geforce 8800 GTS тоже соответствует теоретической. В целом, все решения неплохо проявляют себя в тестах, и способны использовать все свои универсальные потоковые процессоры для решения геометрических задач. В реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Эти тесты слишком просты для современных архитектур и не показывают их истинную силу. В простых тестах производительность ограничена скоростью текстурных выборок и филлрейтом, что хорошо видно по слабым результатам RADEON HD 3870, который во всех тестах отстал от всех представителей Nvidia, где-то больше, а где-то меньше. Явно сказывается сравнительно малое количество TMU у чипа AMD, ведь даже в более сложных PS 2.0 тестах, таких, как Phong с тремя источниками света, решение AMD продолжает оставаться позади.

Geforce 9800 GTX показывает отличные результаты на уровне Geforce 8800 Ultra, немного проигрывая той в задачах, где скорость ограничивается филлрейтом, и выигрывая в других. Geforce 8800 GTS слегка отстаёт от обоих. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:



В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, поэтому единственный RADEON очень сильно отстаёт от решений на основе G92 и G80, показывая результат в 2.5-3 раза хуже. Ну а рассматриваемая сегодня видеокарта является лидером, она опередила своих сородичей, как и ожидалось, исходя из теории.

Второй тест, более интенсивный вычислительно, явно лучше подходит для архитектуры R6xx с большим числом вычислительных блоков, в нём решение AMD вплотную подтягивается к результату Geforce 8800 Ultra, но обе карты на базе G92 продолжают выигрывать у него. В состязании Geforce 9800 GTX и 8800 Ultra, новая видеокарта Nvidia выигрывает у старой, хотя разница невелика — всего 5%. По сравнению с предшествующей Geforce 8800 GTS 512MB разница совпадает с теоретическими 3%.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



Ситуация между видеокартами в тесте «Frozen Glass» схожа с той, что получилась в предыдущем блоке тестов в тесте «Water». Несмотря на то, что это математические тесты, зависящие от частоты шейдерных блоков, Geforce 9800 GTX немного отстаёт от 8800 Ultra. Видимо, производительность ограничена не только математикой и скоростью текстурных выборок, но и филлрейтом. RADEON HD 3870 в этом тесте отстаёт от остальных более чем в два раза.

Зато во втором тесте «Parallax Mapping» решение AMD заметно сильнее, хоть и снова позади карт Nvidia. Несмотря на улучшенные блоки TMU в G92 (а для параллакс маппинга нужна дополнительная текстурная выборка), Geforce 8800 Ultra продолжает опережать и Geforce 8800 GTS и Geforce 9800 GTX, но уже совсем чуть-чуть. Рассмотрим эти тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там видеокарты на основе G92 должны показать более высокие результаты:



Положение немного изменилось, производительность в тесте ещё больше упирается в скорость текстурных блоков, и новый вариант на основе G92 значительно опережает RADEON HD 3870 в обоих тестах, в 2-2.5 раза. В этот раз сдалась и Geforce 8800 Ultra, Geforce 9800 GTX хоть и совсем чуть-чуть, но всё же обгоняет её. На всех решениях варианты шейдеров с большим количеством математических вычислений работают быстрее, чем их «текстурные» варианты.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



В этих тестах нагрузка на видеокарты очень велика, и только такие мощные чипы справляются с ней при сохранении приемлемой производительности. Хотя решения AMD обеспечивают эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений, Geforce 9800 GTX опережает карту на базе RV670 более чем в два раза в обоих тестах, что можно объяснить ускоренными билинейными текстурными выборками в архитектуре G9x и большей эффективностью использования имеющихся ресурсов (скалярная и суперскалярная архитектуры). Разница с Geforce 8800 GTS 512MB невелика, даже меньше теоретической, а вот Geforce 8800 Ultra был повержен в очередной раз, уже на 9% и 17% для двух тестов, соответственно.

Не забываем, что при анализе результатов подобных синтетических тестов нужно учитывать, что в реальных приложениях картина может быть несколько иной, если там будет использоваться трилинейная и/или анизотропная фильтрация текстур.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Все результаты в «High» получились примерно в полтора раза ниже, чем в «Low», но интересно, что у Geforce 8800 Ultra разница больше. Видимо, в Low сказывается влияние филлрейта и большей ПСП. Direct3D 10 тесты процедурной визуализации меха с большим количеством текстурных выборок в очередной раз показывают огромное преимущество решений Nvidia над AMD.

И теперь мы точно можем сказать, что производительность в этом тесте зависит не только от количества и скорости блоков TMU, но и от филлрейта и ПСП. Сравнение результатов Geforce 9800 GTX и 8800 Ultra явственно показывает на это, разница велика, особенно в режиме Low. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, но на видеокартах Nvidia скорость снижается сильнее, чем на AMD, за счет чего отрыв между ними сокращается, и HD 3870 немного подтягивается вверх. Но это её не спасает, преимущество карт Nvidia подавляющее. В остальном, с увеличением сложности шейдера и нагрузки на видеочип, разница между Geforce 9800 GTX и Geforce 8800 Ultra сокращается, то есть на общую скорость филлрейт и ПСП влияет уже меньше, но быстрейшая из G80 до сих пор впереди.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Этот тест интереснее с практической точки зрения, разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в последних релизах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Хотя решения AMD ранее были традиционно сильны в Direct3D 9 тестах parallax mapping, в обновленном D3D10 варианте без суперсэмплинга они не могут справиться с нашей задачей на уровне лучших видеокарт Geforce. Кроме того, включение самозатенения вызывает на продукции AMD большее падение производительности, по сравнению с разницей для решений Nvidia.

Рассматриваемый нами сегодня Geforce 9800 GTX снова не смог опередить Geforce 8800 Ultra, хотя в High режиме приблизился к ней, а разница с Geforce 8800 GTS 512MB очень мала, её практически нет. Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал большее падение скорости на картах Nvidia…

Ну вот, при включении суперсэмплинга и самозатенения задача получается действительно тяжелой и расчётной, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростью разных видеокарт уже не та, что раньше. Хотя включение суперсэмплинга сказывается как и в предыдущем случае — карта производства AMD значительно улучшает свои показатели относительно решений Nvidia, но HD 3870 продолжает отставать от всех Geforce более чем в два раза. Что касается сравнения Geforce 9800 GTX с давним топом на основе G80, в этот раз он наконец-то обогнал Geforce 8800 Ultra, но только в наиболее тяжёлом режиме. Разница между двумя вариантами на основе чипа G92 слишком мала, чтобы принимать её всерьёз, производительность решений очень близкая, что и должно быть исходя из теории.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Ранее мы не раз отмечали при анализе результатов наших Direct3D 9 синтетических тестов, что в вычислительно сложных задачах современная архитектура AMD показывает себя зачастую лучше конкурирующей от Nvidia. Но время идёт, и ситуация меняется, модификации в G92 действительно помогли улучшить производительность. Вот и в данном тесте в соперничестве RADEON HD 3870 и любого из Geforce, решение AMD проигрывает, хоть и не так много.

Производительность у Geforce 9800 GTX наибольшая, она слегка обгоняет как «старую» Geforce 8800 Ultra, так и «новую» Geforce 8800 GTS 512MB. Всё соответствует теоретическим значениям по количеству и тактовой частоте универсальных шейдерных блоков. Также на результаты слегка влияет и пропускная способность памяти (от которой зависит и филлрейт), ведь Geforce 8800 Ultra очень близок к Geforce 8800 GTS, хотя теоретически разница должна быть больше…

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В тестовых сравнениях 2007 года видеокарты AMD проваливали этот тест, показывая очень низкие результаты, но с выхода RADEON HD 3870 X2 ошибка была исправлена, и результат решений AMD наконец-то стал подобающим теории. И вот теперь RADEON HD 3870 в этом тесте показывает скорость даже выше, чем у всех Geforce 8800 и 9800.

Что касается относительной производительности видеоплат Nvidia, в данном случае скорость рендеринга явно ограничена производительностью шейдерных блоков, Geforce 8800 GTS 512MB опережает Geforce 8800 Ultra, а Geforce 9800 GTX их обоих, и результат полностью соответствует теоретической производительности универсальных блоков ALU, то есть, соотношению частоты и количества исполнительных блоков.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Итак, соотношение скоростей при разной геометрической сложности сцен примерно одинаковое. Производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт несложная и, как показали предыдущие исследования, ограничения скорости мощностью шейдерных ALU в тесте не явное, задача ограничена и мощностью ALU, и ПСП и филлрейтом (в меньшей степени). Разница между двумя решениями на основе G92 очень невелика, и оба опережают Geforce 8800 Ultra. Ну а конкурирующая видеокарта от AMD показывает почти в два раза меньшую скорость в этом тесте. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится.

Разница невелика, существенных изменений не произошло. Все видеокарты Nvidia показывают почти те же результаты при изменении параметра GS load, отвечающем за перенос части вычислений в геометрический шейдер. Единственная разница состоит в некотором увеличении результатов на AMD RADEON HD 3870, в этот раз она отстаёт уже меньше. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. Производительность Geforce 9800 GTX и в этот раз немного выше, чем у старого топового варианта Geforce 8800 Ultra, и разница увеличивается при возрастании нагрузки. А карта AMD снова проигрывает всем решениям Nvidia при любой геометрической сложности. Причём, разница даже больше, чем в предыдущем тесте, уже более двух раз.

В целом, наблюдается то же самое, что и в предыдущем тесте, но цифры могут измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

И вот, впервые в геометрических тестах, соотношение скоростей меняется довольно сильно. Получается, что чип AMD выполняет более сложные геометрические шейдеры несколько эффективнее чипов Nvidia. Но разница уже совсем маленькая, похоже, что Nvidia исправила некоторые недостатки в драйверах, и теперь Geforce 9800 GTX в этих условиях не только опережает Geforce 8800 Ultra почти на 10%, но и практически догоняет старший вариант карты AMD на основе чипа RV670 в самых тяжелых условиях. А ведь ранее отставание было значительно больше…

Что касается сравнения результатов в разных режимах, тут всё как всегда, в конкурентной борьбе видеоплате AMD не помогает и то, что при переходе от использования «instancing» к геометрическому шейдеру при выводе, видеокарты Nvidia очень сильно теряют в производительности. И у всех карт Geforce на основе чипов G92 и G80 скорость в «Balanced» режиме получается выше, чем в «Heavy» у RADEON HD 3870. При этом, получаемая в разных режимах картинка не отличается визуально.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Интересно, что сравнительные результаты в разных режимах довольно сильно отличаются. Судя по предыдущим исследованиям, на результаты этого теста сильно влияет в том числе и пропускная способность памяти, и чем проще режим, тем большее влияние на скорость она оказывает. Это хорошо заметно по сравнительным результатам Geforce 9800 GTX и Geforce 8800 Ultra, если в простом режиме вторая выигрывает за явным преимуществом в ПСП, в среднем результаты сближаются, а в самом сложном они уже почти равны. Между Geforce 8800 GTS и 9800 GTX разница соответствует теории, а RADEON HD 3870 отстаёт от них чуть ли не вдвое. Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась не слишком сильно, в лёгких режимах продолжает выигрывать 8800 Ultra, а в сложном 9800 GTX уже выходит вперёд. Geforce 8800 GTS отстаёт от них почти столько же, что и в предыдущем случае, а карта производства AMD не изменила ни своей позиции, ни отставания. Как и в прошлый раз, по мере усложнения задачи, результаты карт уплотняются.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

А вот тест «Waves» благосклоннее к продукции AMD, единственная протестированная модель семейства RADEON HD 3800 смотрится очень неплохо, опережая решения на G92 в лёгких режимах и немного уступая в тяжёлом. Похоже, что в этом тесте скорость зависит не столько от мощности TMU, сколько от ПСП и филлрейта, так как обе карты на основе G92 проигрывают решению предыдущего поколения — Geforce 8800 Ultra. И чем тяжелее задача по текстурным выборкам, тем ближе их результаты. Любопытно, что Geforce 8800 GTS 512MB в этот раз даже немного выигрывает у сменяющей её Geforce 9800 GTX во всех режимах. Вероятно, что-то не так с оптимизацией в драйверах, ибо теорией это не оправдать. Рассмотрим второй вариант этого же теста:

Ситуация снова почти без изменений, хотя с увеличением сложности теста результат RADEON HD 3870 стал ещё лучше, по сравнению с картами Nvidia, последние потеряли в скорости больше, чем она. Все остальные выводы также остаются в силе — во всех режимах скорость ограничивается ПСП, в лёгком сильнее, а в тяжёлых большую роль начинают играть блоки TMU, поэтому Geforce 9800 GTX почти догоняет Geforce 8800 GTS. Но не догоняет RADEON HD 3870, который занял почётное второе место вслед за Ultra. Положение плат AMD заметно улучшилось в тестах VTF в последнее время, ранее мы отмечали, что решения Nvidia лучше справляются с тестами текстурных выборок из вершинных шейдеров, теперь ситуация исправлена.

Выводы по синтетическим тестам

На основе результатов синтетических тестов Geforce 9800 GTX и других моделей видеокарт обоих основных производителей видеочипов, мы убедились в том, что новое решение Nvidia получилось мощным, но оно не очень сильно отличается по производительности от Geforce 8800 GTS 512MB, которую скоро, скорее всего, и заменит на рынке. В синтетических тестах новая модель часто опережает топовую видеокарту прошлого поколения — Geforce 8800 Ultra, и почти всегда впереди конкурента от компании AMD — RADEON HD 3870. Высокоэффективная архитектура, достаточно большое количество блоков ALU, TMU и ROP, а также высокие рабочие частоты позволяют рассмотренному чипу показывать отличные результаты во всех наших синтетических тестах.

На это повлияла и улучшенная по сравнению с G8x архитектура G9x, которая отличается высокой вычислительной производительностью, важной для современных и будущих приложений с большим количеством сложных шейдеров всех типов. По сравнению с предыдущей G8x, в архитектуру G9x внесены изменения в блоки TMU и ROP, текстурные модули в определенных условиях умеют выбирать вдвое больше данных, а блоки ROP оснащены новой технологией компрессии, увеличивающей эффективность использования видеопамяти.

Видеокарта хорошо сбалансирована, обладает достаточным количеством всех исполнительных блоков, и её единственным потенциальным недостатком является меньшее количество локальной видеопамяти, более узкая ширина шины памяти (вместе с меньшим количеством блоков ROP) и, следовательно, её меньшая пропускная способность. Именно этого не хватает в некоторых тестах, чтобы показывать результаты выше, чем у модели Geforce 8800 Ultra. Но рассматриваемое сегодня решение не позиционируется на её замену, и отличается более низкой ценой, и поэтому показываемой ей производительности будет вполне достаточно для успешной конкуренции в своём ценовом диапазоне.

В следующей части статьи мы рассмотрим тесты нового решения Nvidia в современных игровых приложениях, которые должны примерно соответствовать выводам, сделанным при анализе результатов синтетических тестов, с поправкой на большее влияние филлрейта и ПСП. Игровые результаты должны быть интереснее синтетических, скорость рендеринга в играх почти всегда сильнее зависит от скорости текстурирования и филлрейта, чем от мощности ALU и блоков обработки геометрии.



Nvidia Geforce 9800 GTX (G92) — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia