(М.Амстердам)
Весна уже здесь. Метнув лучик своего взгляда, на секунду показалась она из-за угла часовых стрелок, запахом жизни пронеслась мимо нас и вновь была припорошена снежком. Но мы то знаем, что она рядом, ждет своего часа, свернувшись в пружину, готовится выскочить, раскидав во все стороны фейерверк зеленых листьев, осветить землю солнцем, подарить нам новую любовь. А может быть и не одну… Кто знает, каким еще словом можно охарактеризовать чувства человека, питаемые им по отношению к только что приобретенному графическому ускорителю последнего поколения? Как же еще можно потратить столько денег, если не по любви… Представляем NVIDIA GeForce3
Предоставим нашим читателям возможность самим спокойно и вдумчиво прочитать пресс-релизы уважаемой компании NVIDIA, представители которой, кстати, посетили недавно нашу гостеприимную столицу. Мы же обратим свой взгляд на "технические" параметры, скрывающиеся за лозунгами Light-speed Memory Architecture и nfiniteFX engine. Итак:
Спецификации GPU GeForce3
- технологический процесс производства: 0.15 мкм
- число транзисторов: 57 миллионов
- частота графического ядра: 200 МГц
- число пиксельных конвейеров рендеринга: четыре
- число текстурных блоков на каждом конвейере рендеринга: два
- возможность наложения до четырех текстур на один пиксель за один проход (требуется два такта, если число комбинируемых текстур больше двух)
- интерфейс памяти: 128 бит
- поддерживаемые типы памяти: DDR SDRAM/SGRAM
- на момент выхода карты на базе GeForce3 будут оснащаться 3.8 нс памятью, работающей на частоте 230 (460) МГц
- пиковая пропускная способность шины памяти (230 МГц DDR): 7 Гб/с
- поддерживаемый объем локальной видеопамяти: до 128 Мб (большинство первых карт будут иметь 64 Мб)
- RAMDAC: 350 МГц
- максимальное разрешение: 2048x1536@75Hz
- интегрированный в чип TMDS трансмиттер позволяет подключать мониторы по цифровому интерфейсу (DVI), разрешение до 1600x1200 включительно
- интерфейс внешней шины: полная поддержка AGP x2/x4 (включая SBA, DME и Fast Writes) и PCI 2.2 (включая Bus mastering).
- Аппаратный T&L с производительностью эквивалентной 76 миллиардам операций с плавающей точкой в секунду.
- полная аппаратная поддержка всех возможностей MS DirectX 8.0 и OpenGL 1.2
- полностью поддерживаются аппаратные вершинные шейдеры (VertexShaders) DX8, версия 1.1
- полностью поддерживаются аппаратные пиксельные шейдеры (PixelShaders) DX8, версия 1.1
- имеется поддержка объемных текстур
- имеется поддержка кубических карт среды (Cube environment mapping)
- поддерживается проективные текстуры (projective textures)
- имеется поддержка аппаратной тесселяции гладких поверхностей — прямоугольных и треугольных патчей (RT Patches)
- аппаратная поддержка рельефного текстурирования следующих типов: Embosing, Dot Product3 и EMBM
- имеется поддержка S3TC и всех пяти DXTC методов компрессии текстур
- имеется поддержка отсечения примитивов по произвольно заданным плоскостям
- имеется поддержка FSAA на основе различных методик мультисэмплинга (MSAA)
- аппаратные средства для экономии полосы пропускания видеопамяти: поддержка сжатого формата буфера глубины (compressed Z) и раннего определения видимости точек (HSR на базе early Z test)
- поддерживаются текстуры с размером вплоть до 4096x4096 @ 32 bit
Нетрудно заметить, что в финальной спецификации практически ничего не изменилось (читайте наш "Анализ функциональных возможностей GPU NV20"). Уточнения коснулись точного числа транзисторов и параметров памяти, которой будут оснащаться карты на основе GeForce3. Желающим более подробно узнать о программируемых графическом и геометрическом конвейерах GeForce3 (пиксельные и вершинные шейдеры) рекомендуем прочитать "DX8 FAQ" и "Анализ функциональных возможностей GPU NV20".
Мы же непринужденно обсудим различные аспекты реализации новых технологий в GeForce3 и дадим обширный и подробный анализ производительности, а также рассмотрим, как изменяется производительность при использовании различных технологических новшеств. Для проведения анализа мы воспользуемся набором специальных синтетических тестов и, разумеется, реальных приложений.
Фильтрация и fillrate
Как мы уже знаем, чип имеет два текстурных блока на каждом из четырех пиксельных конвейеров (как и GeForce2 GTS/Ultra). Есть и отличие — реализована возможность накопления результатов работы текстурных блоков: можно комбинировать до 4-х текстур за один проход. В случае использования трилинейной или анизотропной фильтрации задействуются одновременно два блока, уменьшается число текстур, комбинируемых одновременно (пример: одна трилинейная и две билинейных текстуры). Даже с учетом того, что современные игры строят сцену в 2-4 прохода, используя при этом, как минимум, по 2 текстуры, причин для паники нет. Да, нас ожидает заметное падение производительности, особенно при использовании 32-х точечной анизотропной фильтрации, но положение спасает тот факт, что в реальных приложениях лишь одна основная текстура фильтруется с такими потерями. Карты освещения и отражения, текстуры детализации и прочее не требуют даже трилинейной фильтрации. Итак, включая анизотропную фильтрацию, мы должны быть морально готовы к падению скорости на проценты (при наихудшем раскладе вдвое), но никак не больше. Далее мы подробно исследуем вопросы скорости и качества анизотропии на конкретных приложениях, а пока давайте посмотрим на различные вариации комбинированных фильтраций, которые можно получить на различных чипах за один проход:
Методы фильтрации | GeForce3 | RADEON | GeForce2 |
---|---|---|---|
1 билинейная текстура | 1 такт (800) | 1 такт (366) | 1 такт |
2 билинейные текстуры | 1 такт (800) | 1 такт (366) | 1 такт |
3 билинейные текстуры | 1 такт (800) | 1 такт (366) | - |
4 билинейные текстуры | 2 такта (400) | - | - |
1 трилинейная | 1 такт (800) | 1 такт (366) | 1 такт |
1 трилинейная + 1 билинейная | 2 такта (400) | 1 такт (366) | - |
1 трилинейная + 2 билинейных | 2 такта (400) | - | - |
1 анизотропная (8 точек) | 1 такт (800) | - | 1 такт |
1 анизотропная (16 точек) | 2 такта (400) | 2 такта (183) | - |
1 анизотропная (24 точки) | - | 2 такта (183) | - |
1 анизотропная (32 точки) | 4 такта | - | - |
1 анизотропная (8 точек) + 1 билинейная | 2 такта (400) | - | - |
1 анизотропная (8 точек) + 2 билинейных | 2 такта (400) | - | - |
1 анизотропная (16 точек) + 1 билинейная | 3 такта (266) | 2 такта (183) | - |
1 анизотропная (16 точек) + 2 билинейных | 3 такта (266) | - | - |
* В скобках указаны теоретические значения пиксельного fillrate.
Полноэкранное сглаживание
Пришло время уделить особое внимание технологиям полноэкранного сглаживания (FSAA), ведь именно с появлением GeForce3 у них есть все шансы стать повсеместно применяемыми. В отличие от предыдущих чипов, где мы имели дело с суперсэмплингом (SS FSAA или SSAA), GeForce3 обладает возможностью проводить полноэкранное сглаживание на основе мультисэмплинга (MS FSAA или MSAA). Этот метод существенно экономит текстурный fillrate — используя одно вычисленное значение цвета для всех пикселов сглаживаемого блока (как правило, 1x2 или 2x2). Приведем схему (слева), иллюстрирующую различные методы полноэкранного сглаживания.
Серым и голубым цветом обозначены два соседних полигона. Мы наблюдаем за тем, что происходит на их границе. Именно границы, порождающие пресловутую ступенчатость, требуют сглаживания больше всего. Цифрами обозначены различные вычисляемые значения цвета. Если на полигоне цифра встречается несколько раз — мы имеем дело с мультисэмплингом, и вычисленное значение цвета записывается сразу в несколько позиций. GeForce3 способен записать одно значение в 1, 2 или 4 результирующих точки буфера кадра. Черными линиями выделен блок сглаживания, в пределах которого записываются одинаковые значения для мультисэмплинга и различные для суперсэмплинга. Жирным выделена область, используемая для формирования результирующего цвета точки выводимой на экран монитора. Отметим, что эта область не обязательно совпадает с одним блоком сглаживания, она может заходить и на территорию соседних, для обозначения этого указывается число точек, используемых в формировании окончательного значения (например, 5 или 9 tap). Таким образом, мы реализуем некий постфильтр, сглаживающий также и все изображение целиком.
Не следует думать, что мультисэмплинг совершенно "бесплатен" с точки зрения производительности. Во-первых, необходима постобработка, превращающая буфер, рассчитанный с избыточным разрешением, в результирующее изображение. Во-вторых, увеличение (в 2 или 4 раза) размера исходного буфера существенно нагружает шину памяти. В-третьих, на краях полигонов мы все же вынуждены рассчитывать несколько значений цвета для каждого блока сглаживания, следовательно, чем больше мелких полигонов, тем выше потери производительности. Но, как бы там ни было, подобный подход (на реальных приложениях) получает преимущество в сравнении c методами SSAA, что мы и покажем на практике, но чуть позже. Кроме того, запатентованный NVIDIA метод 1x2 MSAA метод с подозрительным названием Quincunx позволяет получить близкое к 2x2 SSAA качество сглаживания, при существенно более низком падении производительности.
Кэширование и сбалансированность
Огромное количество транзисторов в GeForce3 не пропало даром. Результаты тестов показывают, что архитектура чипа существенно лучше сбалансирована, нежели предыдущие творения NVIDIA. Чип уже не упирается "чуть что" в пропускную полосу памяти. Инженеры NVIDIA говорят, что множество кэшей (для значений текстур, буфера кадра, глубины и геометрических данных) и специальная "кроссбар" архитектура (позволяющая оптимизировать доступ различных блоков чипа к выбираемым из памяти или получаемым от процессора данным, а также к результатам работы предыдущих блоков) помогают GeForce3 не тратить впустую ни единого такта на реальных задачах. Чип использует свой потенциал почти на 100%. Мы проверим это заявление на практике и посмотрим, на что были потрачены миллионы транзисторов и десятки человеко-лет разработки.
Нет сомнений, что хорошо сбалансированный чип ровно проявит себя в любых задачах, в то время как излишняя мощь, таящаяся лишь в отдельных блоках — пустая трата денег покупателя. Эта скрытая мощь вряд ли будет высвобождена в большинстве реальных применений. Именно поэтому не имело никакого смысла дальше увеличивать число конвейеров и/или текстурных блоков. Что же было сделано вместо этого?
Но сначала скинем покров тайны и представим миру долгожданные карты на базе GeForce3! Карты, установка и драйверы
Расскажем о тех видеокартах, которые мы успели исследовать в нашей лаборатории. Отметим сразу, что эти образцы, по заявлениям производителей, на 99% соответствуют серийными картам (возможно, слегка будет изменена разводка PCB и чипы памяти будут иметь радиаторы охлаждения), которые вскоре поступят в продажу.
ASUS AGP-V8200
Карта имеет AGP x2/x4 интерфейс, 64 Мб DDR SDRAM памяти, размещенной в 8-ми микросхемах на лицевой стороне PCB.
Микросхемы памяти произведены компанией Elite Semiconductor Memory Technology (марки EliteMT и ESMT принадлежит этой фирме) и имеют время выборки 4 ns, т.е. чипы памяти рассчитаны на рабочую частоту 250 (500) МГц. На самом деле память функционирует на частоте 230 (460) МГц. Аналогичная ситуация наблюдается и у карт, основанных на GeForce2 Ultra, где частота памяти снижена с целью повышения стабильности работы.
Отметим, что данный сэмпл карты от ASUS более ранний, нежели все остальные, рассмотренные нами в этом обзоре. Именно поэтому на этой карте установлена 4 ns память, тогда как на всех остальных картах используется память с временем выборки 3.8 ns. На модулях памяти у всех рассматриваемых карт нет радиаторов охлаждения, а у серийных карт радиаторы на чипах памяти будут.
Представленная плата выполнена точно по эталонному дизайну, и все серийные карты будут иметь такой же вид. Тем не менее, не исключены некоторые изменения в разводке у серийных плат.
На графическом процессоре установлен обычный кулер, которого в свое время было совершенно достаточно для охлаждения GPU GeForce2 GTS. Имели место слухи, что GeForce3 очень сильно греется, но это неверно. Несмотря на колоссальное количество транзисторов в чипе, новый технологический процесс 0.15 мкм с семислойным дизайном позволил создать процессор с довольно низким энергопотреблением и тепловыделением. Если взглянуть на фотографию корпуса GPU (справа), то видно, что он все еще маркирован кодовым названием "NV20".
Отметим еще одну особенность нового дизайна PCB карт на базе GeForce3 — он предусматривает два способа монтажа TV-out: как непосредственно на самой PCB, так и посредством дочерней платы с TV-out (такой способ мы уже видели у карт на базе GeForce2). Дизайн PCB карт на GeForce3 предусматривает наличие DVI-I интерфейса (на данной видеокарте есть только разводка, а самого разъема DVI нет). Интересно отметить, что разработчики поменяли местами гнезда VGA и DVI, перенеся первое наверх PCB.
Поскольку мы рассматриваем опытные образцы карт, то речь о комплекте поставки Retail вариантов не идет. Тем не менее, вы можете посмотреть на дизайн коробки (справа), в которой будут поставляться видеокарты ASUS AGP-V8200 Pure. Дизайнеры ASUSTeK решили полностью перейти на абстрактные изображения, символизирующие новые веяния в 3D графике.
Разгон
При наличии дополнительного охлаждения данный экземпляр карты стабильно работал при частотах ядра и памяти 220/255(510) МГц соответственно. Забегая вперед, скажу, что это самый низкий результат разгона из всех рассмотренных в данном обзоре видеокарт.
ASUS AGP-V8200 Deluxe
Карта имеет AGP x2/x4 интерфейс, 64 Мб DDR SDRAM памяти, размещенной в 8-ми микросхемах на лицевой стороне PCB.
Микросхемы памяти производства компании Elite Semiconductor Memory Technology имеют время выборки 3.8 ns и рассчитаны на рабочую частоту 263(526) МГц. Несмотря на рекордно низкое время выборки в 3.8 ns, память функционирует на частоте 230 (460) МГц, что сделано с целью повысить стабильность работы карты в целом. Охлаждающие радиаторы на модулях памяти отсутствуют.
Карта AGP-V8200 Deluxe полностью спроектирована инженерами ASUSTeK с целью реализовать поддержку традиционных для серии Deluxe функций, таких как прием и оцифровка видеопотоков, вывод изображения на телевизор и работа со стерео-очками. Подчеркну еще раз, что мы рассматриваем сэмпл - опытный образец, поэтому у серийных видеокарт могут быть некоторые отличия.
ТВ-функции и стерео-режим мы не рассматриваем в данном материале, поскольку пока еще нет соответствующего программного обеспечения от ASUSTeK.
На графическом процессоре установлен уже ставший привычным активный кулер, но более эффективный, нежели у карты серии Pure, рассмотренной выше. Я еще раз подчеркну, что несмотря на огромное число транзисторов, графический процессор греется очень умеренно.
Несмотря на то, что мы рассматриваем лишь сэмплы карт на GeForce3, у нас есть возможность продемонстрировать дизайн коробки (справа), в которой будут поставляться видеокарты ASUS AGP-V8200 Deluxe.
Разгон
При наличии дополнительного охлаждения у данного экземпляра карты мы добились стабильной работы ядра и памяти на нештатных частотах 225 и 260(520) МГц соответственно. Это самый высокий результат разгона среди всех рассмотренных в данном обзоре карт.
Leadtek WinFast GeForce3
Карта имеет AGP x2/x4 интерфейс, 64 Мб DDR SDRAM памяти, размещенной в 8-ми микросхемах на лицевой стороне PCB.
Микросхемы памяти EliteMT 3.8 ns рассчитаны на рабочую частоту 263(526) МГц.
Как и положено по спецификациям, память функционирует на частоте 230 (460) МГц. Охлаждающие радиаторы на модулях памяти отсутствуют, но на серийно выпускаемых картах они будут.
Как и в случае ASUS AGP-V8200, представленная плата выполнена точно по эталонному дизайну от NVIDIA, и все серийные карты будут иметь почти такой же вид. Интересно отметить, что начиная с выпуска видеокарты на базе GeForce2 Ultra, компания Leadtek отказалась от традиционного для нее лимонно-желтого цвета PCB и остановилась на темно-зеленом оттенке.
Видеокарта Leadtek WinFast GeForce3 оснащена полным набором дополнительных функций, таких как TV-out (причем, он смонтирован на самой PCB, а не на дочерней карте) и DVI-интерфейс для подключения цифровых мониторов. Обращаю внимание на то, что новый дизайн предусматривает смещение VGA-гнезда в верхнюю часть PCB, а DVI, наоборот, в нижнюю.
И еще, несмотря на то, что у GeForce3 нет второго RAMDAC или второго CRTC, у него есть интегрированный TDMS передатчик, что позволяет выводить изображение как через цифровой, так и через аналоговый интерфейс. Кроме того, аналоговый сигнал с RAMDAC дублирован и на аналоговые выходы DVI-I разъема. Если подключить к DVI-I разъему переходник DVI-to-VGA (которыми комплектуются некоторые видеокарты), мы увидим копию картинки, выдаваемой на VGA монитор. Это сделано для возможности подключения аналоговых мониторов, имеющих только DVI-I коннектор. Этот факт наводит на мысли о перспективе окончательного вымирания VGA разъемов.
На графическом процессоре установлен традиционный для Leadtek огромный радиатор с вентилятором, который обеспечивает эффективное охлаждение.
Несмотря на то, что в нашей лаборатории побывал лишь сэмпл карты Leadtek WinFast GeForce3, мы можем продемонстрировать дизайн коробки (справа), в которой будут поставляться эти видеокарты.
Разгон
При наличии дополнительного охлаждения для данного экземпляра карты мы добились стабильной работы графического ядра и видеопамяти на частотах 220 и 255(510) МГц соответственно. Это средний результат разгона среди всех рассмотренных нами карт.
Gigabyte GA-GF3000D
Карта имеет AGP x2/x4 интерфейс, 64 Мб DDR SDRAM памяти, размещенной в 8-ми микросхемах на лицевой стороне PCB.
Микросхемы памяти от компании Elite Semiconductor Memory Technology имеют время выборки 3.8 ns и рассчитаны на рабочую частоту 263(526) МГц.
Как и положено по спецификациям для карт на базе GeForce3 от NVIDIA, память функционирует на частоте 230 (460) МГц с целью повышения стабильности при работе. Охлаждающие радиаторы на модулях памяти отсутствуют, но на серийно выпускаемых картах они будут установлены.
Видно, что по дизайну GA-GF3000D практически не отличается от предыдущей карты, т.е. карта от Gigabyte выполнена эталонному дизайну от NVIDIA. Впрочем, почти все серийные карты на базе GeForce3 будут производиться именно по эталонному дизайну. Зато карты от Gigabyte всегда можно будет узнать по ярко-лазурному цвету PCB, что является визитной карточкой этой уважаемой компании.
Видеокарта Gigabyte GA-GF3000D оснащена полным набором функций: TV-out (на этот раз TV-out смонтирован на дочерней карте) и DVI-интерфейс для подключения цифровых мониторов.
Если найти переходник DVI-to-VGA, то видеокарта GA-GF3000D будет способна выводить через гнездо DVI на дополнительный монитор копию картинки как на основном мониторе. При этом нет никаких опций в настройках драйверов и нельзя менять даже разрешение на втором мониторе, ибо он лишь копирует данные, выводимые на первый.
На графическом процессоре установлены очень эффективные радиатор и вентилятор.
Мы рассматриваем опытный образец GA-GF3000D, который поставляется без специального Retail комплекта поставки, однако вы можете оценить дизайн коробки (справа), в которой будут поставляться серийные видеокарты от Gigabyte.
Разгон
При использовании дополнительного охлаждения данный экземпляр карты стабильно работал при нештатных частотах графического ядра и памяти 225/255(510) МГц соответственно. Это средний результат разгона среди всех рассмотренных нами в данном обзоре видеокарт. Впрочем, опыт тестирования ранних экземпляров карт на базе GeForce2 говорит о том, что графическое ядро на серийных картах разгоняется лучше. Ниже мы покажем на практике, насколько эффективен разгон карт на базе GeForce3.
Установка и драйверы
Перед рассмотрением работы программного обеспечения и результатов тестирования следует ознакомить читателя с конфигурацией тестового стенда:
- процессор Intel Pentium III 1000 MHz:
- системная плата Chaintech 6OJV (i815);
- оперативная память 256 MB PC133;
- жесткий диск IBM DPTA 20GB;
- операционная система Windows 98 SE;
На стенде использовались мониторы ViewSonic P810 (21") и ViewSonic P817 (21").
Относительно полноценной поддержкой нового графического процессора обладают пока только драйверы версии 10.50 (бета). Сразу после релиза драйверов для GeForce3 мы проведем их анализ. Более подробно обо всех тонкостях драйверов для GeForce3 читатель сможет узнать из предстоящего выпуска 3DGiТогов. Сейчас я лишь отмечу, что некоторая "сырость" текущей версии драйверов имеет место.
Тестирование проводилось при отключенном VSync, а для сравнительного анализа были использованы видеокарты ATI RADEON 64MB (Retail-поставка, частоты 183/183 МГц) и Leadtek WinFast GeForce2 Ultra.
Ввиду того, что все четыре видеокарты на базе GeForce3, исследуемые в рамках данного обзора, показали полностью идентичную производительность, в дальнейшем мы будем использовать в наших тестах результаты только одной из карт, абстрактно обозначая как NVIDIA GeForce3.