ATI RADEON 9000

Часть 1: RADEON 9000 Pro 64MB


Установка и драйверы

Рассмотрим конфигурацию тестового стенда, на котором проводились испытания карт:

  • Компьютер на базе Athlon XP:
    • процессор AMD Athlon XP 2000+;
    • системная плата Soltek 75DRV5 (VIA KT333);
    • оперативная память 512 MB DDR SDRAM PC2700;
    • жесткий диск Fujitsu 20GB;
    • операционная система Windows XP.

На стенде использовались мониторы ViewSonic P810 (21") и ViewSonic P817 (21").

При тестировании применялись драйверы от ATI Catalyst версии 6.118. VSync отключен.

Для сравнительного анализа приведены результаты уже знакомых читателям видеокарт:

  • Leadtek WinFast A170T (GeForce4 MX 440, 270/200 (400) МГц, 64 МБ);
  • ATI RADEON 7500 (290/230 (460) МГц, 64 МБ);
  • ATI RADEON 8500LE (250/250 (500) МГц, 64 МБ);.

Настройки драйверов

Как уже известно, настройки драйвера Catalyst существенно отличаются от ранее привычных читателям панелей:

При тестировании наша цель — показ работы карты при максимально возможном качестве (без активизации дополнительных функций, таких, как анизотропия), поэтому все настройки выставляются соответствующим образом. Замечу, что в Direct3D условие максимальной детализации текстур идет по умолчанию.

Результаты тестов

2D-графика

Я сразу скажу, что мы тестировали опытный образец, поэтому оценка качества 2D будет очень и очень условной. В целом замечу, что нарекания в высоких разрешениях были, в частности, в 1280х1024 при 100Гц замыливание уже очевидно.

Однако добавлю, что оценка 2D-качества есть вещь субъективная. Подобные платы будут выпускать много фирм, поэтому качество будет зависеть от конкретного экземпляра, а также от связки карта-монитор, которые могут по-прежнему играть огромную роль, прежде всего, качество монитора и кабеля.

3D-графика, MS DirectX 8.1 SDK — предельные тесты

Для тестирования различных предельных характеристик чипов мы использовали модифицированные (для большего удобства и контроля) примеры из последней версии DirectX SDK (8.1, релиз). Без лишних преамбул перейдем к уже хорошо знакомым нашим постоянным читателям тестам:

Optimized Mesh

Этот тест призван выяснить практический предел пропускной способности ускорителя по треугольникам. Для этого используется несколько одновременно выводимых в небольшом окне моделей, каждая из которых состоит из 50 тысяч треугольников. Текстурирование отсутствует. Размеры моделей минимальны — каждый треугольник не превышает одного пиксела. Хочется сразу отметить, что результат этого теста, разумеется, останется недостижим для реальных приложений, где размеры треугольников значительны, присутствуют текстуры и освещение. Приведем результаты этого теста для трех методов отрисовки — оптимизированной для оптимальной скорости вывода (в том числе, с учетом размера внутреннего кэша вершин на чипе) модели — Optimized, неоптимизированной исходной модели — Unoptimized и той же неоптимизированной модели, выводимой в виде одного Triangle Strip — Strip:

В случае полностью оптимизированной модели, когда влияние подсистемы памяти минимально, мы видим, что у RADEON 9000 более слабый Hardware T&L блок, и это сказывается на результатах данного теста не лучшим образом. Когда используется 1 Strip, то в этом типе представления моделей (который достаточно популярен в играх) RADEON 9000 практически идет вровень с 8500, отсюда вывод, что геометрические кэши очереди RV250 сделаны столь же добротно, а вот кеш с произвольным доступом слабее (меньше), чем у RADEON 8500. Что ж, не забываем, что это бюджетная версия чипа, и, в первую очередь, имеет смысл экономить транзисторы кэша, которых в любом чипе очень много.

Производительность блока вершинного шейдера

Этот тест позволяет определить предельную производительность блока вершинных шейдеров. Выполняется достаточно сложный шейдер, вычисляющий как видовые преобразования, так и геометрические функции. Тест проводится в минимальном разрешении, дабы минимизировать влияние закраски:

Как мы видим, при работе по вершинным шейдерам (в отличие от предыдущего теста) производительность эквивалентна RADEON 8500. Это уже радует. Кроме того, давайте обратим внимание на высокий результат в режиме программной эмуляции. Он говорит только об одном — механизм передачи геометрических данных от процессора к ускорителю (традиционно более слабое место у ATI по сравнению с NVIDIA) был существенно улучшен. Видимо, наконец-то должным образом поддержана технология FastWrites или близкая ей по смыслу.

Вершинный матричный блендинг

Эта возможность T&L используется для правдоподобной анимации и скиннинга моделей. Мы протестировали блендинг с использованием двух матриц как в жестком "аппаратном" варианте, так и с использованием вершинного шейдера, выполняющего ту же функцию. Кроме того, мы, как обычно, "подстраховались" результатами, полученными в режиме программной эмуляции T&L:

На сей раз сохраняется печальная тенденция, связанная со всеми вопросами работы HW T&L. Вновь результат заметно ниже предшественников.

EMBM рельеф

В этом тесте мы измеряем производительность, а точнее, ее падение, возникающее при использовании наложения карт отражения (Environment) и рельефа на основе карт отражения (EMBM — Environment Bump). Для тестирования использовалось разрешение 1280*1024 — т.к. именно в нем различия между картами и разными режимами текстурирования выражены наиболее резко:

Мы видим, что объект исследования EMBM исполняет даже чуть лучше, чем это делает RADEON 8500, с остальным ситуация практически равновесная.

Производительность пиксельных шейдеров

Мы вновь использовали модифицированный пример MFCPixelShader, измерив производительность карт в высоком разрешении при выполнении 5 различных по сложности шейдеров, для билинейно фильтрованных текстур:

Налицо заметное преимущество пиксельных конвейеров нового чипа при исполнении пиксельных шейдеров, причем оно несколько выше разницы частот — пиксельный конвейер явно был оптимизирован. При этом, преимущество растет с ростом сложности шейдера — видимо, число исполняющих блоков для стадий было все же увеличено.

Итак, подведем первый промежуточный итог. Несмотря на урезанное вдвое число текстурных блоков и почти вдвое менее производительный на задачах старого фиксированного T&L геометрический блок, бюджетный чип показывает прекрасные результаты именно в новых, использующих шейдеры, приложениях. Вкупе с невысокой ценой это может стать существенным преимуществом для выбирающего покупателя, видимо, ATI достаточно верно подошла к вопросу "на чем следует экономить, а на чем не следует", отдав предпочтение современным и будущим приложениям.

3D-графика, 3DMark2001 SE — синтетические тесты

Подчеркну, что все замеры по всем 3D-тестам проводились в 32-битной глубине цвета.

Скорость закраски

Как видим, при использовании одной текстуры (Single Texturing) сказываются одноканальный контроллер памяти и меньшие кэши. А вот при мультитекстурировании очевидно наличие только одного текстурного блока на конвейер. Падение производительности относительно RADEON 8500 не вдвое, а почти вдвое вызвано сохраненным умением накапливать по 6 текстур за проход. Однако теперь уже жертвовать придется 5-ю тактами, а не двумя, как в RADEON 8500.

Сцена с большим количеством полигонов

На этом тесте особое внимание следует уделить минимальному разрешению — именно там зависимость от закраски практически нивелируется:

И снова перед нами явно более слабый блок HW T&L у RADEON 9000. Мы видим, что он ослаблен почти в 2 раза по сравнению с RADEON 8500. Впрочем, мы уже выше пришли к выводу, что это вполне логично из-за компромисса между поддержкой старого блока T&L и нового — на шейдерах. Но даже в этом случае производительность подблока освещенности выше, чем у RADEON 7500.

Рельефное текстурирование

Посмотрим на результаты синтетической EMBM сцены:

Преимущество у RADEON 9000 вызвано не только более высокой тактовой частотой, но и оптимизацией работы с EMBM у нового процессора. А теперь DP3 рельеф:

Ну а тут все как и ожидалось — при схожей конфигурации конвейерной структуры результаты почти идентичны.

Вершинные шейдеры

Мы видим, что вершинные шейдеры исполняются медленнее, чем у RADEON 8500, но не настолько, чтобы говорить о двукратном падении. По всей видимости, конструкторы сознательно сэкономили на эмуляции T&L, которая и на RADEON 8500 выполнялась с привлечением некоторых специфических средств, а теперь просто переложена на плечи обычного вершинного шейдера. Как мы увидим дальше, производительность исполнения типичных шейдеров приложений (извне) пострадала не так сильно.

Пиксельный шейдер

А тут RADEON 9000 обогнал соперника в лице RADEON 8500, правда, в пределах разницы в частотах ядер. А вообще, тут все неплохо: уменьшенное число текстурников компенсируется в сложной задаче пиксельных шейдеров увеличенной частотой чипа. К тому же, тут RV250 напрочь убивает GeForce4 MX, ведь последняя не умеет вообще работать с пиксельными шейдерами.

Картина очень похожая, а отставание RADEON 9000 уже связано с более сложной сценой и мультитекстурированием, расплата за которое у него более высокая.

Спрайты

Этот тест зависит в первую очередь от геометрической производительности, а во вторую — от умения закрашивать спрайты оптимизированным методом. Второе — в наличии, а вот первое хромает и здорово — отставание почти двукратное (как мы уже выяснили из теста на геометрию). В итоге полуторакратное падение по сравнению с RADEON 8500. Однако посмотрите на результаты RADEON 7500, эмулирующего спрайты двумя треугольниками, и вы согласитесь, что прогресс не так уж и плох.

Итак, подведем еще один промежуточный итог. Который, впрочем, почти не отличается от вывода, который мы сделали, рассмотрев предельные тесты из SDK. Мы видим более слабый классический блок HW T&L, но зато сильно продвинутый новый блок шейдеров, прежде всего, пиксельных. По мере выхода игр, все более активно использующих эти техники, преимущество у RADEON 9000 будет расти. Правда, чип имеет не 8, а всего лишь 4 текстурных блока, что сказывается на общей производительности, но, согласитесь, что для карты ценой около $100, это простительно.





Дополнительно

Обзор ATI RADEON 9000 Pro 64MB

ATI RADEON 9000

Часть 1: RADEON 9000 Pro 64MB

Установка и драйверы

Рассмотрим конфигурацию тестового стенда, на котором проводились испытания карт:

  • Компьютер на базе Athlon XP:
    • процессор AMD Athlon XP 2000+;
    • системная плата Soltek 75DRV5 (VIA KT333);
    • оперативная память 512 MB DDR SDRAM PC2700;
    • жесткий диск Fujitsu 20GB;
    • операционная система Windows XP.

На стенде использовались мониторы ViewSonic P810 (21") и ViewSonic P817 (21").

При тестировании применялись драйверы от ATI Catalyst версии 6.118. VSync отключен.

Для сравнительного анализа приведены результаты уже знакомых читателям видеокарт:

  • Leadtek WinFast A170T (GeForce4 MX 440, 270/200 (400) МГц, 64 МБ);
  • ATI RADEON 7500 (290/230 (460) МГц, 64 МБ);
  • ATI RADEON 8500LE (250/250 (500) МГц, 64 МБ);.

Настройки драйверов

Как уже известно, настройки драйвера Catalyst существенно отличаются от ранее привычных читателям панелей:

При тестировании наша цель — показ работы карты при максимально возможном качестве (без активизации дополнительных функций, таких, как анизотропия), поэтому все настройки выставляются соответствующим образом. Замечу, что в Direct3D условие максимальной детализации текстур идет по умолчанию.

Результаты тестов

2D-графика

Я сразу скажу, что мы тестировали опытный образец, поэтому оценка качества 2D будет очень и очень условной. В целом замечу, что нарекания в высоких разрешениях были, в частности, в 1280х1024 при 100Гц замыливание уже очевидно.

Однако добавлю, что оценка 2D-качества есть вещь субъективная. Подобные платы будут выпускать много фирм, поэтому качество будет зависеть от конкретного экземпляра, а также от связки карта-монитор, которые могут по-прежнему играть огромную роль, прежде всего, качество монитора и кабеля.

3D-графика, MS DirectX 8.1 SDK — предельные тесты

Для тестирования различных предельных характеристик чипов мы использовали модифицированные (для большего удобства и контроля) примеры из последней версии DirectX SDK (8.1, релиз). Без лишних преамбул перейдем к уже хорошо знакомым нашим постоянным читателям тестам:

Optimized Mesh

Этот тест призван выяснить практический предел пропускной способности ускорителя по треугольникам. Для этого используется несколько одновременно выводимых в небольшом окне моделей, каждая из которых состоит из 50 тысяч треугольников. Текстурирование отсутствует. Размеры моделей минимальны — каждый треугольник не превышает одного пиксела. Хочется сразу отметить, что результат этого теста, разумеется, останется недостижим для реальных приложений, где размеры треугольников значительны, присутствуют текстуры и освещение. Приведем результаты этого теста для трех методов отрисовки — оптимизированной для оптимальной скорости вывода (в том числе, с учетом размера внутреннего кэша вершин на чипе) модели — Optimized, неоптимизированной исходной модели — Unoptimized и той же неоптимизированной модели, выводимой в виде одного Triangle Strip — Strip:

В случае полностью оптимизированной модели, когда влияние подсистемы памяти минимально, мы видим, что у RADEON 9000 более слабый Hardware T&L блок, и это сказывается на результатах данного теста не лучшим образом. Когда используется 1 Strip, то в этом типе представления моделей (который достаточно популярен в играх) RADEON 9000 практически идет вровень с 8500, отсюда вывод, что геометрические кэши очереди RV250 сделаны столь же добротно, а вот кеш с произвольным доступом слабее (меньше), чем у RADEON 8500. Что ж, не забываем, что это бюджетная версия чипа, и, в первую очередь, имеет смысл экономить транзисторы кэша, которых в любом чипе очень много.

Производительность блока вершинного шейдера

Этот тест позволяет определить предельную производительность блока вершинных шейдеров. Выполняется достаточно сложный шейдер, вычисляющий как видовые преобразования, так и геометрические функции. Тест проводится в минимальном разрешении, дабы минимизировать влияние закраски:

Как мы видим, при работе по вершинным шейдерам (в отличие от предыдущего теста) производительность эквивалентна RADEON 8500. Это уже радует. Кроме того, давайте обратим внимание на высокий результат в режиме программной эмуляции. Он говорит только об одном — механизм передачи геометрических данных от процессора к ускорителю (традиционно более слабое место у ATI по сравнению с NVIDIA) был существенно улучшен. Видимо, наконец-то должным образом поддержана технология FastWrites или близкая ей по смыслу.

Вершинный матричный блендинг

Эта возможность T&L используется для правдоподобной анимации и скиннинга моделей. Мы протестировали блендинг с использованием двух матриц как в жестком "аппаратном" варианте, так и с использованием вершинного шейдера, выполняющего ту же функцию. Кроме того, мы, как обычно, "подстраховались" результатами, полученными в режиме программной эмуляции T&L:

На сей раз сохраняется печальная тенденция, связанная со всеми вопросами работы HW T&L. Вновь результат заметно ниже предшественников.

EMBM рельеф

В этом тесте мы измеряем производительность, а точнее, ее падение, возникающее при использовании наложения карт отражения (Environment) и рельефа на основе карт отражения (EMBM — Environment Bump). Для тестирования использовалось разрешение 1280*1024 — т.к. именно в нем различия между картами и разными режимами текстурирования выражены наиболее резко:

Мы видим, что объект исследования EMBM исполняет даже чуть лучше, чем это делает RADEON 8500, с остальным ситуация практически равновесная.

Производительность пиксельных шейдеров

Мы вновь использовали модифицированный пример MFCPixelShader, измерив производительность карт в высоком разрешении при выполнении 5 различных по сложности шейдеров, для билинейно фильтрованных текстур:

Налицо заметное преимущество пиксельных конвейеров нового чипа при исполнении пиксельных шейдеров, причем оно несколько выше разницы частот — пиксельный конвейер явно был оптимизирован. При этом, преимущество растет с ростом сложности шейдера — видимо, число исполняющих блоков для стадий было все же увеличено.

Итак, подведем первый промежуточный итог. Несмотря на урезанное вдвое число текстурных блоков и почти вдвое менее производительный на задачах старого фиксированного T&L геометрический блок, бюджетный чип показывает прекрасные результаты именно в новых, использующих шейдеры, приложениях. Вкупе с невысокой ценой это может стать существенным преимуществом для выбирающего покупателя, видимо, ATI достаточно верно подошла к вопросу "на чем следует экономить, а на чем не следует", отдав предпочтение современным и будущим приложениям.

3D-графика, 3DMark2001 SE — синтетические тесты

Подчеркну, что все замеры по всем 3D-тестам проводились в 32-битной глубине цвета.

Скорость закраски

Как видим, при использовании одной текстуры (Single Texturing) сказываются одноканальный контроллер памяти и меньшие кэши. А вот при мультитекстурировании очевидно наличие только одного текстурного блока на конвейер. Падение производительности относительно RADEON 8500 не вдвое, а почти вдвое вызвано сохраненным умением накапливать по 6 текстур за проход. Однако теперь уже жертвовать придется 5-ю тактами, а не двумя, как в RADEON 8500.

Сцена с большим количеством полигонов

На этом тесте особое внимание следует уделить минимальному разрешению — именно там зависимость от закраски практически нивелируется:

И снова перед нами явно более слабый блок HW T&L у RADEON 9000. Мы видим, что он ослаблен почти в 2 раза по сравнению с RADEON 8500. Впрочем, мы уже выше пришли к выводу, что это вполне логично из-за компромисса между поддержкой старого блока T&L и нового — на шейдерах. Но даже в этом случае производительность подблока освещенности выше, чем у RADEON 7500.

Рельефное текстурирование

Посмотрим на результаты синтетической EMBM сцены:

Преимущество у RADEON 9000 вызвано не только более высокой тактовой частотой, но и оптимизацией работы с EMBM у нового процессора. А теперь DP3 рельеф:

Ну а тут все как и ожидалось — при схожей конфигурации конвейерной структуры результаты почти идентичны.

Вершинные шейдеры

Мы видим, что вершинные шейдеры исполняются медленнее, чем у RADEON 8500, но не настолько, чтобы говорить о двукратном падении. По всей видимости, конструкторы сознательно сэкономили на эмуляции T&L, которая и на RADEON 8500 выполнялась с привлечением некоторых специфических средств, а теперь просто переложена на плечи обычного вершинного шейдера. Как мы увидим дальше, производительность исполнения типичных шейдеров приложений (извне) пострадала не так сильно.

Пиксельный шейдер

А тут RADEON 9000 обогнал соперника в лице RADEON 8500, правда, в пределах разницы в частотах ядер. А вообще, тут все неплохо: уменьшенное число текстурников компенсируется в сложной задаче пиксельных шейдеров увеличенной частотой чипа. К тому же, тут RV250 напрочь убивает GeForce4 MX, ведь последняя не умеет вообще работать с пиксельными шейдерами.

Картина очень похожая, а отставание RADEON 9000 уже связано с более сложной сценой и мультитекстурированием, расплата за которое у него более высокая.

Спрайты

Этот тест зависит в первую очередь от геометрической производительности, а во вторую — от умения закрашивать спрайты оптимизированным методом. Второе — в наличии, а вот первое хромает и здорово — отставание почти двукратное (как мы уже выяснили из теста на геометрию). В итоге полуторакратное падение по сравнению с RADEON 8500. Однако посмотрите на результаты RADEON 7500, эмулирующего спрайты двумя треугольниками, и вы согласитесь, что прогресс не так уж и плох.

Итак, подведем еще один промежуточный итог. Который, впрочем, почти не отличается от вывода, который мы сделали, рассмотрев предельные тесты из SDK. Мы видим более слабый классический блок HW T&L, но зато сильно продвинутый новый блок шейдеров, прежде всего, пиксельных. По мере выхода игр, все более активно использующих эти техники, преимущество у RADEON 9000 будет расти. Правда, чип имеет не 8, а всего лишь 4 текстурных блока, что сказывается на общей производительности, но, согласитесь, что для карты ценой около $100, это простительно.