![](../images/empty.gif)
СОДЕРЖАНИЕ
- Часть 1 — Теория и архитектура
- Часть 2 — Практическое знакомство
- Особенности видеокарт
- Конфигурация стенда, список тестовых инструментов
- Результаты синтетических тестов
- Результаты игровых тестов (производительность)
Нежданно-негаданно… Nvidia вдруг нанесла потрясающий контрудар в области самых мощных 3D-решений игрового класса. И эта же область является предметом престижа и популярности того или иного производителя графических процессоров. Впрочем, это все же не было столь нежданна-негаданно. Слухи о том, что Nvidia намеревается заменить GTX 480 на что-то более производительное, ходили давно. Компания не может смириться с тем, что все же двухпроцессорный гигант от AMD Radeon HD 5970 является самым быстрым игровым ускорителем. Были слухи и о выпуске двупроцессорной карты на базе двух GTX 460, и о том, что GTX 480 вернут в исходное состояние, то бишь не станут больше урезать процессры и иные блоки, да и поднимут частоты. Последняя информация как раз и оказалась ближе всего к истине.
Действительно, GTX 580 олицетворяет собой уже полноценно реализованную архитектуру Fermi, о которой мы уже рассказывали, включая 512 процессоров CUDA (или же потоковых процессоров — кому как нравится). В GTX 480 они были урезаны до 480, как и были урезаны иные блоки. Впрочем, чего вперед забегать, предоставляем слово Алексею Берилло, который традиционно уже расскажет обо всех нюансах нового графического процессора.
Часть 1: Теория и архитектура
![](../images/empty.gif)
Не дожидаясь выхода на рынок новых топовых решений конкурента, компания Nvidia решила нанести упреждающий удар, выпустив переработанный GPU на основе улучшенной архитектуры Fermi. Очень похоже, что новый GPU был практически готов к выпуску уже какое-то время, а Nvidia просто выжидала удобный момент для его анонса. Ведь быстрейшая одночиповая видеокарта и так у Nvidia, и конкурировать со своими же решениями нет никакого смысла.
Но когда стало понятно, что AMD вскоре выпустит более мощный GPU, чем их предыдущий топ, то и резона придерживать GF110 (а именно такое кодовое имя получил новый чип) не осталось, нужно было показать свою силу, да и планы конкурента слегка нарушить. И вот сегодня, спустя более чем полгода после выхода на рынок Geforce GTX 480, основанном на графическом процессоре GF100, первом из семейства Fermi, выходит новое решение компании — Geforce GTX 580.
Nvidia называет Geforce GTX 580 «быстрейшим DX11-решением», и так оно и есть на самом деле, если говорить об одночиповых видеокартах, так как двухчиповый конкурент Radeon HD 5970 всё же иногда будет опережать GTX 580 даже в играх DirectX 11.
Итак, Geforce GTX 580 — это продолжатель дела GTX 480, только более производительный и эффективный, обладающий меньшим энергопотреблением и менее шумным кулером. Новый GPU был спроектирован с упором на большую энергоэффективность, и все архитектурные изменения направлены на повышение производительности при меньшем потреблении. Хотя назвать чип ревизией GF100 нельзя, так как в GF110 есть и некоторые аппаратные изменения.
Основные отличия нового графического процессора заключаются в том, что он имеет большее количество активных (включенных при производстве) исполнительных блоков, таких как потоковые процессоры и блоки тесселяции, а также — в увеличенных тактовых частотах GPU при меньшем энергопотреблении и менее шумном кулере.
Но не обошлось и без небольших архитектурных изменений, связанных с текстурированием и алгоритмами отбрасывания невидимых поверхностей z-cull, повышающими производительность нового GPU, даже при равной с GF100 частоте. В целом, новый чип можно назвать изданием вторым, исправленным и дополненным. «Правильным» топовым Fermi, со всеми рабочими исполнительными блоками.
Каким образом Nvidia смогла довольно серьёзно улучшить свой топовый продукт? Во-первых, к осени текущего года производство по 40-нанометровому техпроцессу у TSMC уже более-менее наладилось, и проблем с выходом годных чипов, способных к работе на высокой частоте, стало меньше. Во-вторых, весьма серьёзно повлияла и полная переработка нового GPU с целью оптимизации энергопотребления и возможности работы на более высоких частотах, с чем были некоторые проблемы у GF100.
Теоретическая часть статьи по описанию архитектуры снова не будет большой, так как GF110 (GTX 580) во многом повторяет GF100 (GTX 470 и GTX 480), а некоторые архитектурные модификации напоминают GF104 (GTX 460), и отличия наблюдаются лишь количественные. А уж большинство технических данных вычислительной архитектуры «Fermi» было раскрыто нами ещё в январе. И перед прочтением этого материала, полезно убедиться в том, что специальный обзор архитектуры GF100 и обзор Geforce GTX 470 и GTX 480 были внимательнейше прочитаны.
Также небесполезно будет ознакомиться и с остальными материалами по архитектурам компании Nvidia, начиная с Geforce 8800 GTX:
- [12.07.10] Nvidia Geforce GTX 460: распространение новой архитектуры GF1xx на средний ценовой диапазон
- [27.03.10] Nvidia Geforce GTX 480 — архитектура нового графического процессора изнутри; как реализована поддержка DirectX 11
- [17.06.08] Nvidia Geforce GTX 280 — 240 калифорнийских стрелков: смогут ли одолеть предыдущее войско в виде 9800 GX2?
- [29.10.07] Nvidia Geforce 8800 GT (G92) — уже 112 быстрых калифорнийских стрелков…
- [08.11.06] Nvidia Geforce 8800 GTX (G80) — новый монстр в 3D-графике и первый DX10-ускоритель
Итак, со всеми архитектурами видеочипов Nvidia читатели уже хорошо знакомы, поэтому рассмотрим подробные характеристики нового графического процессора этой компании и новой модели видеокарт Geforce GTX 580, основанной на GF110.
Графический ускоритель серии Geforce GTX 580
- Кодовое имя чипа GF110;
- Технология производства 40 нм;
- Около 3 миллиардов транзисторов (примерно столько же, что и у GF100);
- Унифицированная архитектура с массивом процессоров для потоковой обработки различных видов данных: вершин, пикселей и др.;
- Аппаратная поддержка DirectX 11 API, в том числе шейдерной модели Shader Model 5.0, геометрических (geometry) и вычислительных (compute) шейдеров, а также тесселяции;
- 384-битная шина памяти, шесть независимых контроллеров шириной по 64 бита каждый, с поддержкой памяти GDDR5;
- Частота ядра 772 МГц;
- Удвоенная частота ALU 1544 МГц;
- 16 потоковых мультипроцессоров, включающих 512 скалярных ALU для расчётов с плавающей точкой (поддержка вычислений в целочисленном формате, с плавающей запятой, с FP32- и FP64-точностью в рамках стандарта IEEE 754-2008);
- 64 блока текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов;
- 6 широких блоков ROP (48 пикселей) с поддержкой режимов антиалиасинга до 32 выборок на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Каждый блок состоит из массива конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг;
- Запись результатов до 8 буферов кадра одновременно (MRT);
- Интегрированная поддержка RAMDAC, двух портов Dual Link DVI, а также HDMI и DisplayPort.
Спецификации референсной видеокарты Geforce GTX 580
- Частота ядра 772 МГц;
- Частота универсальных процессоров 1544 МГц;
- Количество универсальных процессоров 512;
- Количество текстурных блоков — 64, блоков блендинга — 48;
- Эффективная частота памяти 4008 (1002×4) МГц;
- Тип памяти GDDR5, 384-битная шина памяти;
- Объем памяти 1536 МБ;
- Пропускная способность памяти 192,4 ГБ/с;
- Теоретическая максимальная скорость закраски 37,1 гигапикселей в секунду;
- Теоретическая скорость выборки текстур 49,4 гигатекселей в секунду;
- Два разъема Dual Link DVI-I, один Mini HDMI, поддерживается вывод в разрешениях до 2560×1600;
- Двойной SLI-разъем;
- Шина PCI Express 2.0;
- Поддержка HDCP, HDMI, DisplayPort;
- Энергопотребление до 244 Вт (один 6-штырьковый и один 8-штырьковый разъёмы);
- Двухслотовое исполнение;
- Рекомендуемая цена для американского рынка $499 (для России — 17999 руб).
Новый графический процессор GF110 и видеокарта Geforce GTX 580 на его основе призваны со временем полностью заместить GTX 480 на базе GF100. Новый GPU также выполнен по 40-нанометровым технологическим нормам, как и предшествующий топовый видеочип. Ранние слухи присваивают ему наименование GF100B, что из-за немногочисленных модификаций вполне похоже на правду, но всё же чипу дали новый индекс — GF110.
Принцип наименования видеокарт Nvidia вроде бы не изменился, но свежему топу зачем-то дали цифру нового поколения — GTX 580. Другими словами, судя по индексу, это должна быть тоже топовая карта, но уже нового поколения. Хотя, на наш взгляд, намного логичнее было бы название GTX 485 (по аналогии с GTX 285), ведь в GF110 нет никаких радикальных архитектурных изменений. Хотя это действительно полностью переработанный чип, но по сравнению с GF100 функциональных изменений в нём явно недостаточно для отнесения к новому поколению. Впрочем, наименование видеокарт — всегда штука маркетинговая, на реальные технические характеристики не влияющая.
На основе чипа GF110 пока что выпущена только одна модель видеокарты — Geforce GTX 580, которая в будущем должна вытеснить GTX 480. Ожидаемой многими GTX 570 пока что не анонсировано, но оно и понятно — ведь нужно распродавать ещё и остатки GTX 470 и GTX 480. Предположительная рыночная цена новой модели видеокарты для североамериканских магазинов равна $499 (без учёта налогов), что является вполне предсказуемой и логичной цифрой.
Как и её предшественница GTX 480, новая модель имеет 384-битную шину памяти и соответствующий объём видеопамяти, равный 1536 МБ. Значение это единственно возможное, по сути, так как 768 МБ — это слишком мало, а 3 ГБ — уже чересчур много. Даже с учётом того, что от конкурентов ожидается выход топовой модели с 2 ГБ памяти, смысла в 3-гигабайтном варианте будет не очень много, так как полутора гигабайт должно хватать во всех режимах, и повышенная себестоимость 3 ГБ быстрой памяти просто не будет оправдана.
Архитектура графического процессора GF110
Для увеличения эффективности GPU в терминах отношения производительности и потребления, чип GF110 был полностью переработан инженерами. Каждый блок GPU был модифицирован в той или иной мере для того, чтобы снизить утечки и оптимизировать чип целиком. Естественно, что Nvidia не будет называть конкретных изменений, но в компании утверждают, что большая часть транзисторов данного GPU подверглась переработке.
В GF110 используются точно такие же потоковые мультипроцессоры (Streaming Multiprocessor) с тем же количеством вычислительных ядер (CUDA cores) в каждом, что и в GF100. Архитектурно новый чип, используемый в Geforce GTX 580, не очень сильно отличается от GF100, на котором основана модель GTX 480. Этот новый GPU использует ровно ту же конфигурацию мультипроцессоров, что и GF100, он состоит из кластеров графической обработки (Graphics Processing Clusters), каждый из которых содержит несколько потоковых мультипроцессоров (Streaming Multiprocessors), которые, в свою очередь, имеют в своём составе по несколько потоковых процессоров.
GF110 содержит четыре кластера GPC, шестнадцать мультипроцессоров SM и шесть 64-битных контроллеров памяти, соединённых с кэш-памятью второго уровня и имеющих по восемь блоков ROP в каждом. Итого, в состав чипа входит 512 потоковых процессоров, собранных в 16 мультипроцессоров по 32 штук в каждом. В отличие от GF100, в выпущенной на данный момент модели GTX 580 их количество не занижено искусственно, как это сделано в GTX 480, и все мультипроцессоры активны.
Подсистема памяти осталась без изменений. Каждый мультипроцессор в GF110 имеет 64 килобайта начиповой памяти, которая может быть сконфигурирована в двух разных вариантах: 48 килобайт общей памяти и 16 килобайт кэш-памяти L1 или наоборот — 16 КБ общей памяти и 48 КБ кэша. Кроме этого, GF110 имеет 768 КБ унифицированной кэш-памяти второго уровня, которая обслуживает все запросы по загрузке и сохранению данных, а также текстурные выборки.
Но есть в GF110 и небольшие архитектурные изменения. Изначально в интернете появились слухи о том, что в GF110 будет удвоено количество текстурных модулей, но это не соответствует истине — в чипе их ровно столько же (64 TMU). Но есть один показатель производительности, связанный с обработкой текстур, который действительно вырос вдвое. И те читатели, которые следили за модификациями архитектуры Fermi в GF104, вероятно уже догадались, о чём пойдёт речь. Как и предшествующий чип среднего ценового диапазона, GF110 умеет обрабатывать (включая билинейную фильтрацию) текстурные данные всех форматов вплоть до FP16 на полной скорости, без потери тактов.
Напомним, что GF100 не умеет этого, и теоретический темп по обработке FP16-текстур, часто используемых в современных 3D-играх, у первого Fermi чипа вдвое ниже, чем у GF104 и GF110. Это архитектурное улучшение способно помочь увеличить производительность рендеринга во многих приложениях, использующих подобные внеэкранные буферы (например, для HDR-рендеринга). Данная модификация объясняет и ранние слухи о 128 TMU в GF110. Видимо, удвоенную скорость обработки данных FP16 кто-то принял за удвоенное количество текстурных модулей.
Но это ещё не всё, есть и второе архитектурное отличие GF110 от GF100, хотя и несколько меньшее по значению и влиянию — в новом GPU была увеличена эффективность алгоритма z-cull, для чего были введены новые форматы тайлов. Это изменение может помочь увеличить производительность в некоторых случаях, и мы проверим это в синтетических тестах.
В целом, одни только архитектурные изменения в GF110 привели к росту производительности рендеринга примерно на 5—10%, согласно внутренним тестам компании Nvidia, а в некоторых приложениях (DiRT 2, 3DMark Vantage) — до 15%.
Нельзя не отметить и увеличение количества активных исполнительных блоков по сравнению с GF100, к тому же — работающих на более высокой частоте при меньшем потреблении энергии! Это добавляет ещё 10—15% производительности, и в итоге у GTX 580 получается средний прирост производительности рендеринга в реальных приложениях около 20%, по отношению к GTX 480. Это очень неплохой итоговый результат с учётом малого количества архитектурных изменений. Впрочем, мы его ещё проверим в практических разделах нашего материала.
Тесселяция, тесселяция, тесселяция…
Как давно известно, одним из основных архитектурных преимуществ семейства Fermi, и нового топового решения Geforce GTX 580 в частности, является весьма высокая производительность тесселяции — пожалуй, самого важного нововведения DirectX 11. Архитектура распараллеленной обработки геометрии, применяемая во всех современных решениях Nvidia, очень эффективна при тесселяции с высокими уровнями разбиения примитивов, когда треугольников становится очень много. Это и понятно, ведь примитивы обрабатываются одновременно 16-ю движками PolyMorph, в отличие от одного (пусть и более мощного) блока у лучших чипов конкурента на данный момент.
Мы уже писали о том, что компания AMD критикует слишком мелкие треугольники в некоторых бенчмарках (Heaven, HAWX 2), считая тесселяцию такого уровня неэффективной. Это в какой-то мере верно, но лишь для предыдущих архитектур, в которых геометрический конвейер выполнен в традиционном стиле, с возможностью обработки лишь одного треугольника за такт.
В случае же архитектуры Fermi, и особенно — топовых чипов вроде GF110, такая тесселяция выполняется вполне эффективно, что мы и видим в соответствующих тестах производительности. Сетовать же на слишком мелкие треугольники вообще довольно странно, достаточно посмотреть на то, к чему стремится 3D-графика реального времени — на современные рендеренные мультфильмы, например. И уж там-то этих треугольников ещё на порядки больше.
Понятно, что для игр пока что такое качество недостижимо, но индустрия явно идёт в этом направлении. И весьма вероятно, что и GPU в следующем поколении игровых консолей будут обладать возможностями по обработке геометрии, близкими к тем, что умеет Fermi, и это — правильный путь, хотя он и может казаться несколько преждевременным. Но всегда кому-то приходится быть первым, и в случае с тесселяцией пионером, как ни странно (вспоминая многочисленные поколения тесселяторов у AMD), оказалась компания Nvidia.
Для демонстрации возможностей своих видеочипов Nvidia выпустила две специальные демопрограммы: Endless City и Alien vs. Triangles. Они отличаются прогрессивным использованием тесселяции с высоким уровнем разбиения и показывают всю геометрическую мощь решений компании. Так, в Endless City обрабатывается до 600 млн. треугольников в секунду!
В этой демке рендерится одна из наиболее сложных геометрических сцен из отрисовывающихся в реальном времени. Причём здания в этом городе процедурно генерируются на GPU, составляясь из набора заранее сконструированных объектов.
Тесселяция обеспечивает невиданную ранее детализацию на близких к камере объектах, а дальние объекты разбиваются на меньшее количество примитивов (адаптивная тесселяция). В демке используются трёхмерные карты смещения, в отличие от обычных карт высот, а для освещения сцены используется около 500000 источников света и применяется алгоритм имитации глобального освещения screen-space ambient occlusion.
Вторая демонстрационная программа с применением тесселяции называется Alien vs. Triangles. Тесселяция в ней используется для добавления геометрических деталей к фигуре инопланетного персонажа, для чего применяется сразу несколько различных карт смещений. Самая главная отличительная особенность демки заключается в использовании тесселяции для имитации реалистичных повреждений.
В демке используется сразу три различные карты смещения для персонажа (Normal, Spike и Fungus). Ещё четыре карты смещения используются в качестве карт повреждений, и при попадании в инопланетянина из бластера они процедурно модифицируются в реальном времени для имитации повреждений.
Но разве только в демонстрационных программах можно увидеть активное применение тесселяции? Кроме уже давно известных игр, вроде DiRT 2 и Metro 2033, можно отметить и недавно вышедшую демонстрационную версию игры HAWX 2, в которой также применяется довольно агрессивная тесселяция при рендеринге поверхности земли.
Как хорошо видно, применяется адаптивная тесселяция ландшафта. Причём средний размер треугольника, по данным Nvidia, в этой игре не превышает 18 пикселей. Это можно назвать средним значением и уж точно не слишком снижающим эффективность современных DX11-видеочипов. Будет интересно посмотреть на сравнение производительности различных решений в этом бенчмарке, когда (и если) мы введём его в свой набор тестов.
Остальные изменения
Нововведения в новой модели Geforce GTX 580 не ограничиваются лишь 3D-функциями чипа. Несмотря на то, что разница между указанным компанией Nvidia потреблением для GTX 480 и GTX 580 составляет лишь 6 Вт (250 и 244 Вт, соответственно), замеры в реальных условиях дают несколько большую цифру — 20—30 Вт разницы. В пользу GTX 580, естественно. Другими словами, при потенциальном увеличении производительности на 20% (это мы проверим в следующих разделах материала) GTX 580 потребляет энергии где-то на 10% меньше.
Пониженное энергопотребление и модифицированный кулер, работающий более эффективно, должны привести к снижению шума. Новая система охлаждения использует технологию испарительной камеры, известную по оригинальным системам охлаждения некоторых производителей. Медная испарительная камера отбирает тепло у GPU, которое затем рассеивается при помощи большого двухслотового радиатора. В конструкции применяется вентилятор цилиндрического типа, он засасывает прохладный воздух изнутри корпуса и выбрасывает нагретый наружу.
Что также немаловажно, заявлено применение вентилятора с уменьшенной вибрацией и шумом, а новые алгоритмы управления частотой вращения «смягчают» раскрутку вентилятора при работе GPU с большой нагрузкой. По измерениям самой Nvidia, новый кулер Geforce GTX 580 тише чем даже система охлаждения у GTX 285, не говоря уж про довольно шумную GTX 480.
Были внесены некоторые изменения и в систему мониторинга питания и нагрева. Если ранее видеокарты защищались от выхода из строя исключительно при помощи недопущения работы GPU при превышении критической температуры, то теперь проводится наблюдение и за энергопотреблением всей системы.
Новые элементы аппаратного мониторинга наблюдают за силой тока и напряжением на 12-вольтных линиях питания (PCI-E, 8- и 6-штырьковые дополнительные разъемы). Драйвер опрашивает значения этих параметров и может снизить тактовую частоту GPU при условии запущенных требовательных тестов стабильности, вроде Furmark и OCCT, если уровень питания превышает максимально возможный.
Это ограничение справедливо только в случае таких заранее предопределённых в драйвере приложений, но не в играх. На сегодняшний день ограничение работает исключительно в случае запуска приложения Furmark и при превышении возможностей линий питания. В таком случае драйвер вдвое понизит рабочие тактовые частоты GPU.
Теоретические выводы
Очевидно, что GF110 — это улучшенный и переработанный GF100, «правильный Fermi», так сказать. Новый GPU верхнего ценового диапазона выгодно отличается от предшественника по нескольким параметрам: было увеличено количество активных исполнительных блоков, повышены рабочие частоты, внесены некоторые архитектурные изменения в текстурные модули и z-cull. Но главное — энергопотребление и тепловыделение при всём этом даже снижены. Итак, основные претензии, имеющиеся к GTX 480, теперь сняты.
Все преимущества новой графической архитектуры Fermi в GF110 остались, и это особенно видно по изменениям в графическом конвейере с параллельной обработкой геометрии. Она весьма полезна для современных DX11-приложений, использующих много геометрии и тесселяцию. Причём это становится уже заметно и по играм с соответствующей поддержкой, число которых растёт.
Нужно отметить и архитектурные изменения в GF110, по сравнению с GF100. Увеличенная вдвое скорость текстурных выборок формата FP16 с билинейной фильтрацией вместе с улучшениями в алгоритмах отбрасывания невидимых поверхностей способны принести несколько важных процентов прироста в скорости рендеринга. А совершенно новый кулер и возможности мониторинга позитивно сказываются на потребительских качествах новой видеокарты Nvidia.
Конечно же, не стоит забывать и про такие важные технологии, имеющиеся у Nvidia, как CUDA, PhysX и 3D Vision. Поддержка всех перечисленных технологий есть в том числе и у рассмотренной GTX 580, понятное дело, просто никаких изменений в этом плане не произошло.
В целом, Geforce GTX 580 является отличной заменой для GTX 480. Понятно, что без смены техпроцесса на более тонкий было сложно рассчитывать на многократные ускорения, но +20% к производительности предыдущего топа, произведенного на базе того же техпроцесса (мы ещё проверим эту цифру далее) — это весьма неплохо! Особенно учитывая сниженные потребности в энергии и меньшие тепловыделение и шумность системы охлаждения.
Как обычно, в первой части материала мы с вами познакомились лишь с теоретическими особенностями нового чипа, а также с единственной моделью видеокарты на его основе. А следующая часть статьи будет посвящена практической части исследования в синтетических тестах, в которой мы сравним производительность нового решения Geforce GTX 580 со скоростью предшествующего топового решения компании, а также быстрейших на данный момент конкурирующих видеокарт компании AMD.
Nvidia Geforce GTX 580 — Часть 2: видеоплаты и синтетические тесты