Содержание
- Часть 1 — Теория и архитектура
- Часть 2 — Практическое знакомство
- Часть 3 — Результаты игровых тестов (производительность)
Nvidia уже который раз называет свою новую архитектуру 3D-ускорителя фамилией всемирно известного математика или физика. Случай с Максвеллом не исключение. Джеймс Клерк Максвелл — выдающийся британский математик и физик XIX века, заложивший основы современной классической электродинамики (уравнения Максвелла). Также он ввел в физику понятия тока смещения и электромагнитного поля, получил ряд следствий из своей теории (предсказание электромагнитных волн, электромагнитная природа света, давление света и другие). Он один из основателей кинетической теории газов (установил распределение молекул газа по скоростям) и т. д.
Однако если присмотреться к английскому сложному слову «maxwell», то его можно интерпретировать и как «максимально хорошо», или, попросту, «отлично». Именно поэтому и родился у нас приведенный выше каламбур: «Maxwell начинает с малого… несмотря на Maxwell». Ведь этим словом Nvidia назвала свою новую архитектуру, которая выходит на рынок начиная с весьма слабого по производительности решения. Обычно представителем новой архитектуры воспринимается топовый, самый мощный GPU в серии, но Maxwell именно «начинает с малого…». Остальные решения на новой архитектуре, уже более мощные, мы увидим сильно позже: возможно, к концу 2014 года, а может быть, осенью. Все будет зависеть от успешности освоения нового техпроцесса 20 нм, а нынешний GTX 750 Ti (GM107) создан все еще по техпроцессу 28 нм.
Часть 1: Теория и архитектура
Около двух лет назад было представлено первое решение на базе архитектуры Kepler — модель Geforce GTX 680, в основе которой лежал графический процессор GK104. В том же 2012 году из планов компании мы узнали, что следующая архитектура Nvidia будет называться Maxwell. Кто бы тогда подумал, что все начнется с бюджетной модели? Наверное, подобный выпуск Maxwell объясняется сразу несколькими причинами, среди которых — большое значение новой архитектуры для компании Nvidia и ее будущих продуктов. Мы уже знаем, что эта архитектура стала для Nvidia первой, которая разрабатывалась изначально с учетом ее использования в том числе в мобильных чипах семейства Tegra. Вероятно в том числе поэтому главной целью Maxwell стало достижение максимальной энергоэффективности.
Nvidia чуть ли не впервые начала разработку не с топового видеочипа, как это было раньше, когда разрабатывался самый большой GPU, а уж затем на рынок выходили его младшие собратья. Теперь же весь мир повернулся в сторону мобильных устройств вроде смартфонов, планшетов и ультрабуков, а в них важнейшим параметром является энергоэффективность всего и вся. Похоже, что Maxwell разрабатывался именно с видением того, что портативные устройства стали если не важнее настольных, то не менее важными, и это — большое изменение подхода при разработке GPU для компании.
Конечно, такой подход может быть частично связан и с задержками в развитии очередного технологического процесса на фабриках компании TSMC. Вероятно, Maxwell изначально был рассчитан на техпроцесс 20 нм, но как минимум первый чип уже пришлось выпустить на старом добром (и уже изрядно поднадоевшем) техпроцессе 28 нм. Будут ли использовать этот же техпроцесс более мощные GPU компании или таки дождутся 20 нм — сие пока что до сих пор непонятно. Вероятно, всем компаниям, проектирующим микрочипы, приходится на ходу менять планы, раз у TSMC в очередной раз «не выходит каменный цветок».
Но как добиться прогресса на 28 нм, если наибольшие достижения всегда были связаны именно с более «тонкими» техпроцессами и соответствующим увеличением плотности транзисторов и снижением потребления ими энергии? В случае Maxwell решили выжимать из текущих возможностей все, что только получится, ведь опыт у компании уже богатый — один только перевод видеоядра Kepler на мобильную однокристальную систему Tegra чего стоит. Тем более что главным ограничителем производительности даже для топовых решений сейчас является не размер кристалла, а скорее его энергопотребление, которое можно снизить и другими методами, кроме перевода на более совершенный техпроцесс.
Получается, что потребление энергии стало важнейшим параметром, ограничивающим производительность и на настольных решениях и на мобильных, где жесткие ограничения были всегда. Тем более понятно желание Nvidia начать перевод линейки на новую архитектуру не с топового чипа, а с мобильно-десктопного, отличающегося низким потреблением энергии — там можно получить большую выгоду. А заодно и заинтересовать производителей компактных ноутбуков. Не секрет, что Nvidia разрабатывала GM107 с оглядкой на появление новых мобильных процессоров Intel, вместе с которыми первые Maxwell должны были появиться в компактных ноутбуках. В связи с этим надо учитывать, что это — лишь первое поколение архитектуры Maxwell, предназначенное для систем с малым потреблением энергии, а настоящие высокопроизводительные чипы будут основаны уже на втором поколении архитектуры и будут иметь как более высокую мощность, так и новые возможности.
Но уже по первому решению Maxwell видно, что графические процессоры компании Nvidia продолжают улучшать свою функциональность, производительность и эффективность, и каждое новое поколение графической архитектуры отличается возросшей мощностью и меньшим потреблением энергии. Новые модели видеокарт серии Geforce GTX 750 стали первыми, основанными на графическом процессоре — первенце архитектуры Maxwell. Этот чип стал пока что единственным выпущенным представителем первого поколения новой графической архитектуры, основным отличием которой является достижение максимальной энергоэффективности.
Видеокарты предыдущей архитектуры Kepler уже имели отличную производительность и энергоэффективность. С тех пор графические процессоры семейства Kepler были выпущены в виде целой линейки GPU, предназначенных для ПК и рабочих станций, а также для применения в составе суперкомпьютеров и серверов. Также архитектура Kepler была внедрена и в мобильные чипы компании, первой из которых стала однокристальная система Tegra K1 — один из самых мощных чипов для смартфонов, планшетов и автомобильных систем.
Каждая следующая архитектура обязана быть лучше предыдущей, и первое поколение архитектуры Maxwell получило несколько архитектурных изменений для увеличения производительности и энергоэффективности. Первый графический чип Maxwell получил наименование GM107, и он изначально предназначен для применения в системах, имеющих жесткие ограничения по потреблению энергии, таких как ноутбуки и ПК компактного форм-фактора (small form factor — SFF). Такие ПК часто используются в качестве домашних систем, и в качестве одного из примеров можно назвать инициативу Valve — Steam Machine.
Первые настольные видеокарты, основанные на базе графического процессора GM107, получили названия Geforce GTX 750 Ti и GTX 750. Несмотря на низкое потребление нового GPU, не превышающее 60 Вт, высокая эффективность новой архитектуры, по данным Nvidia, во многих играх позволила достичь уровня производительности топовой модели четырехлетней давности — Geforce GTX 480, потребляющей вчетверо больше энергии.
По данным компании, в современных играх при разрешении 1920×1080 (игровые настройки неизвестны), видеокарта модели Geforce GTX 750 Ti почти настолько же производительна, как и Geforce GTX 480. С такими-то показателями графический чип GM107 должен прекрасно подойти как для применения в мобильном секторе, так и для настольных ПК с низким уровнем потребления энергии. Новинки предназначены для тех нетребовательных игроков, кому хватает разрешения 1920×1080 и средних настроек в современных играх, и которые не готовы платить слишком много денег за видеокарту.
Многие не ждали этого обновления и появления новых графических архитектур до освоения техпроцесса 20 нм и появления новых графических API, вроде DirectX 12, который должен быть впервые показан на днях на грядущей конференции игровых разработчиков GDC 2014, но компания Nvidia решила выйти на рынок с парой новых моделей видеокарт, основанных на видеочипе новой архитектуры. Geforce GTX 750 Ti и GTX 750 обеспечат пользователей вычислительной мощностью, вполне достаточной для современных игр, по оценке Nvidia они обеспечивают на четверть большую производительность, по сравнению с аналогичными платами предыдущего поколения и показывают до двух раз лучшие показатели энергоэффективности.
Рассматриваемые сегодня новые модели видеокарт Nvidia являются первыми, основанными на графическом процессоре архитектуры «Maxwell», которая во многих деталях схожа с предыдущей архитектурой «Kepler», о которой мы уже неоднократно и подробно рассказывали. И перед прочтением этого материала полезно убедиться в том, что вы уже ознакомились с ранними статьями о различных моделях видеокарт компании Nvidia:
- [23.05.13] Nvidia Geforce GTX 780 — урезанная версия GTX Titan, ускоритель премиум-класса
- [18.03.13] Nvidia Geforce Titan — новый однопроцессорный флагман 3D-графики игрового класса
- [13.09.12] Nvidia Geforce GTX 660 — хороший добротный современный середнячок
- [10.05.12] Nvidia Geforce GTX 670 — 7/8 от однопроцессорного лидера GTX 670: много это или мало?
- [22.03.12] Nvidia Geforce GTX 680 — новый однопроцессорный лидер 3D-графики
Рассмотрим подробные характеристики выпущенных недавно видеокарт моделей Geforce GTX 750 Ti и GTX 750, основанных на новейшем графическом процессоре из бюджетного сегмента — GM107.
Графические ускорители серии Geforce GTX 750
- Кодовое имя чипа GM107;
- Технология производства 28 нм;
- 1,87 миллиардов транзисторов;
- Площадь ядра 148 мм²;
- Унифицированная архитектура с массивом процессоров для потоковой обработки различных видов данных: вершин, пикселей и др.;
- Аппаратная поддержка DirectX 11 API, в том числе шейдерной модели Shader Model 5.0, геометрических и вычислительных шейдеров, а также тесселяции;
- 128-битная шина памяти: два независимых контроллера шириной по 64 бита каждый, с поддержкой GDDR5 памяти;
- Базовая частота ядра 1020 МГц;
- Средняя турбо-частота ядра 1085 МГц;
- 5 (4 активных у GTX 750) мультипроцессоров, включающих 640 (512 активных у GTX 750) скалярных ALU для расчетов с плавающей запятой (поддержка вычислений в целочисленном формате, с плавающей запятой, с FP32 и FP64 точностью в рамках стандарта IEEE 754-2008);
- 40 (32 активных у GTX 750) блоков текстурной адресации и фильтрации с поддержкой FP16 и FP32 компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов;
- 2 широких блока ROP (16 пикселей) с поддержкой режимов антиалиасинга до 32 выборок на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг;
- Интегрированная поддержка портов Dual Link DVI, HDMI и DisplayPort.
- Интегрированная поддержка четырех мониторов, включая два порта Dual Link DVI, а также HDMI 1.4a и DisplayPort 1.2
- Поддержка шины PCI Express 3.0
Спецификации референсной видеокарты Geforce GTX 750 Ti
- Частота ядра 1020 (1085) МГц;
- Количество универсальных процессоров 640;
- Количество текстурных блоков — 40, блоков блендинга — 16;
- Эффективная частота памяти 5400 (1350×4) МГц;
- Тип памяти GDDR5, 128-битная шина памяти;
- Объем памяти 1 или 2 ГБ;
- Пропускная способность памяти 86,4 ГБ/с;
- Вычислительная производительность (FP32) 1,31 терафлопс;
- Теоретическая максимальная скорость закраски 16,3 гигапикселей в секунду;
- Теоретическая скорость выборки текстур 40,8 гигатекселей в секунду;
- Два разъема Dual Link DVI-I, один Mini-HDMI, один DisplayPort 1.2 (опционально);
- Шина PCI Express 3.0;
- Энергопотребление до 60 Вт;
- Дополнительное питание не требуется;
- Двухслотовое исполнение;
- Рекомендуемая цена для рынка США — $149 (для России — 5490 руб).
Спецификации референсной видеокарты Geforce GTX 750
- Частота ядра 1020 (1085) МГц;
- Количество универсальных процессоров 512;
- Количество текстурных блоков — 32, блоков блендинга — 16;
- Эффективная частота памяти 5000 (1250×4) МГц;
- Тип памяти GDDR5, 128-битная шина памяти;
- Объем памяти 1 ГБ;
- Пропускная способность памяти 80,0 ГБ/с;
- Вычислительная производительность (FP32) 1,04 терафлопс;
- Теоретическая максимальная скорость закраски 16,3 гигапикселей в секунду;
- Теоретическая скорость выборки текстур 32,6 гигатекселей в секунду;
- Два разъема Dual Link DVI-I, один Mini-HDMI, один DisplayPort 1.2 (опционально);
- Шина PCI Express 3.0;
- Энергопотребление до 55 Вт;
- Дополнительное питание не требуется;
- Двухслотовое исполнение;
- Рекомендуемая цена для рынка США — $119 (для России — 4490 руб).
Представленные модели видеокарт имеют традиционное наименование для семейства Nvidia Geforce GTX 700 и отличаются друг от друга наличием суффикса «Ti» у старшей. Geforce GTX 750 Ti и GTX 750 заменяют в линейке компании Nvidia выпущенную ранее Geforce GTX 650 Ti (в том числе Boost-вариант), а видеокарты GTX 660 и GTX 650 будут продолжать производиться и продаваться, как и ранее. Самыми близкими соперниками для новых моделей Nvidia серии GTX 750 являются видеокарты Radeon R7 260, 260X и 265, которые и стоят почти столько же, и по производительности где-то близко должны быть. Вполне возможно, что новинкам Nvidia придется разместиться по скорости и/или цене посередине между представленными моделями AMD и конкурировать сразу с несколькими, как это часто бывает.
Старшая модель будет продаваться в двух вариантах: с 1 и 2 гигабайтами видеопамяти. Естественно, что конфигурация с меньшим объемом не очень подойдет для пользователей, имеющих дисплеи с FullHD (1920×1080 и 1920×1200 пикселей) разрешением, а вот 2-гигабайтная модель вполне справится с таким разрешением, а никто и не будет ставить GTX 750 Ti в игровую систему с многомониторной конфигурацией или стереорендерингом. На сегодняшний день объем в 2 ГБ для бюджетных решений можно считать вполне достаточным, а вот 1 ГБ в некоторых условиях будет откровенно мало. Впрочем, в том числе за счет этого цена модели GTX 750 оказалась ощутимо ниже. А вот приоритетное использование 2 ГБ памяти в Geforce GTX 750 Ti вполне логично, однако, партнеры компании могут выпустить и чуть менее дорогие варианты карты с 1 ГБ памяти, если пользователям покажется ощутимой такая экономия «на спичках», но советовать их покупку мы точно не станем.
Печатные платы Geforce GTX 750 Ti и GTX 750 референсного дизайна очень компактны и имеют длину менее 15 см (5,75 дюймов), а типичное их энергопотребление составляет 60 и 55 Вт, соответственно, поэтому дополнительного питания новым решениям Nvidia попросту не требуется. Это делает их отлично подходящими для применения в ПК компактного размера новых форм-факторов, получивших популярность в последнее время. Для таких систем очень важны малый размер платы, низкое потребление энергии, небольшое тепловыделение и шумность системы охлаждения. И так как длина плат невелика, а уровень потребления менее 75 Вт, получаемых по PCI Express слоту, то данная видеокарта является идеальным вариантом для таких ПК. Из разъемов вывода изображения на референсном варианте установлены два выхода Dual Link DVI, один Mini-HDMI и опционально может быть установлен и DisplayPort 1.2 порт.
В дополнение к моделям Geforce GTX 750 Ti и GTX 750 с референсными частотами, большинство партнеров Nvidia также предлагают и разогнанные модели этих видеокарт с повышенными частотами и собственным дизайном плат, отличающимся от дизайна Nvidia. Это и неудивительно, ведь видеокарты на чипе GM107 имеют достаточно высокий потенциал для разгона, ограниченный скорее максимально возможным потреблением плат, ведь дополнительного питания они не получают. Тем не менее, разгонный потенциал у них неплохой, многие тестеры достигают частот для GPU порядка 1270-1300 МГц и даже выше.
Архитектурные изменения в Maxwell и GM107
Итак, видеокарты семейства Geforce GTX 750 основаны на совершенно новом графическом процессоре GM107. В самом по себе чипе архитектуры Maxwell первого поколения по сравнению с Kepler не слишком много новых возможностей, связанных с 3D-графикой, которые открыты и полезны прямо сейчас. Вполне естественно, что при выходе GPU новой архитектуры не из топового сегмента, компания-производитель рассказывает не обо всех архитектурных нововведениях. Кроме этого, в мобильном GM107 части задуманной в Maxwell функциональности просто нет, она появится лишь в будущих GPU более высокого уровня.
Первый же чип архитектуры Maxwell выглядит скорее эволюцией Kepler, который был эволюцией Fermi, и все они ограничены функциональностью DirectX 11. С графической точки зрения между первым Maxwell и Kepler нет разницы, GM107 остается Direct3D 11.0-совместимым чипом, поддерживающим базовую функциональность плюс почти все возможности Direct3D 11.1 и 11.2, но все же не все, поэтому называться D3D11.2-совместимым он все же не может, как и Kepler. Собственно, это не так уж важно, потому что разработчики могут пользоваться большинством возможностей D3D 11.2 и на Kepler/Maxwell.
Итак, с точки зрения графических возможностей API, в первом поколении Maxwell нет никаких изменений по сравнению с Kepler, вся функциональность осталась такой же. Зато в процессе переноса архитектуры Kepler из GPU, предназначенных для настольных ПК, серверов и суперкомпьютеров в мобильный чип Tegra K1, инженеры Nvidia поняли очень многое о том, как можно снизить потребление энергии GPU и получить большую производительность из архитектуры при имеющихся ограничениях по потреблению. И все, что они узнали в процессе проектирования Tegra, было внедрено в первый чип архитектуры Maxwell.
Хотя первый GPU архитектуры Maxwell не выглядит радикально новым на фоне Kepler по своим возможностям, внутри он очень сильно переработан. Инженеры Nvidia проделали очень большую работу для увеличения эффективности всех внутренних блоков Maxwell и GM107, в частности. Большая энергоэффективность новой архитектуры достигается при помощи лучшей загрузки имеющихся вычислительных возможностей. В Maxwell было сделано достаточно большое количество изменений, чтобы назваться полностью новой архитектурой, и это еще с учетом того, что пока далеко не все ее возможности раскрыты публично.
Но не только энергетическая эффективность важна, но и рациональное использование площади кристалла, ведь она сказывается на себестоимости продукта, а высокая плотность размещения транзисторов для Maxwell важна еще и потому, что количество функциональных блоков при том же энергопотреблении было увеличено и их нужно как-то разместить в чипе, не слишком повышая себестоимость. Забегая вперед, можно утверждать, что именно большая энергоэффективность и более «плотный» дизайн GPU дали возможность Nvidia достичь производительности уровня GK106 у графического процессора GM107 меньшей площади. Рассмотрим диаграмму нового чипа:
Полная версия графического процессора GM107 имеет в своем составе один кластер графической обработки Graphics Processing Cluster (GPC), который состоит из пяти мультипроцессоров SMM. Также он имеет два 64-битных контроллера памяти, дающих совместную 128-битную шину обмена данными с видеопамятью. На диаграмме указан полноценный чип, на котором основана модель Geforce GTX 750 Ti, а в случае GTX 750 отключена часть исполнительных блоков — полностью отключен один мультипроцессор SMM.
Как видите, с аппаратной точки зрения по диаграмме огромных изменений в архитектуре Maxwell нет. Как и в предыдущих чипах, в состав вычислительного кластера (Graphics Processing Cluster — GPC) входит несколько мультипроцессоров, каждый из которых содержит движки обработки геометрии Polymorph Engine и текстурные модули TMU. Блоки растеризации ROP относятся к кластеру GPC и они все так же «привязаны» к кэш-памяти второго уровня и 64-битным контроллерам памяти. Впрочем, Nvidia утверждает, что все связи между блоками были переработаны полностью, а потоки данных оптимизированы, что также снизило потребление энергии.
Одним из самых интересных изменений в архитектуре Maxwell стали абсолютно новые потоковые мультипроцессоры (Streaming Multiprocessor — SM), которые имеют как лучшую энергоэффективность, так и производительность по отношению к площади чипа. Даже несмотря на то, что дизайн мультипроцессоров SMX в Kepler и так был достаточно эффективным, при разработке нового GPU архитекторы увидели возможности для улучшения и серьезно модифицировали мультипроцессоры в Maxwell, дав им название SMM. Было улучшено многое, в том числе блоки управления и планирования, распределение загрузки между блоками, количество выдаваемых на исполнение инструкций за такт и многое другое. Оптимизированная архитектура Maxwell позволила увеличить количество мультипроцессоров в GM107 до пяти, по сравнению с двумя в GK107, при увеличении площади чипа лишь на четверть.
Организация мультипроцессоров изменилась очень серьезно. В то время как мультипроцессор SMX в Kepler является довольно большим блоком, в GM107 каждый мультипроцессор разделен еще на четыре отдельных логических вычислительных раздела, каждый из которых имеет свой буфер инструкций, планировщик варпов и состоит из 32 вычислительных ядер. Подход архитектуры Kepler с числом потоковых ядер, не кратным степени двойки, был упразднен, а такое разбиение SMM на вычислительные разделы схоже с тем, что было в Fermi (GF100), что еще раз подтверждает истину о том, что новое — это хорошо забытое старое. Разделение вычислительных блоков упростило общий дизайн и управляющую логику чипа, снизило задержки, площадь чипа и потребляемую им энергию.
В чипах Kepler, каждый мультипроцессор SMX содержит управляющую логику, которая распределяет и планирует работу и обмен данными для 192 вычислительных ядер, поэтому управляющий блок довольно сложен сам по себе. В архитектуре Maxwell было принято решение разделить мультипроцессор SMM на четыре вычислительных блока, каждый из которых содержит собственный блок управления, обслуживающий лишь 32 ядра и намного более простой. Таким образом проектировщики Maxwell добились разделения одной сложной задачи планирования и управления на несколько заметно более простых, а часть управляющей блоками работы при этом делается программно, при помощи компилятора.
Количество ALU на планировщик, кратное степени двойки, упрощает планирование, так как каждый из планировщиков варпов отправляет инструкции на исполнение выделенному набору ALU, равному размеру варпа (32). Каждый планировщик варпов также умеет выдавать по две инструкции, вроде отправки на исполнение математической операции в ALU и операции с памятью в блок load/store unit (LSU) за один такт — dual-issue. Впрочем, даже отправка одной команды достаточна для полной загрузки работой всех вычислительных ядер, в отличие от Kepler, где использование вычислительных ресурсов при одинарной точности вычислений было недостаточно эффективным из-за некоторых ограничений в блоках планирования.
Общими в SMM остались лишь текстурные модули и FP64-блоки, а FP32-блоки, блоки специальных инструкций (special function unit — SFU) и блоки загрузки-сохранения (load/store unit — LSU) выделены для каждого раздела. Такое решение хорошо с точки зрения эффективности, ведь общие ресурсы хороши только тогда, когда они загружены работой, а при ее (частичном) отсутствии они просто занимают место на чипе и потребляют энергию. Не говоря о том, что соединения между ними также дорого обходятся с точки зрения площади чипа и потребления, так как требуется дополнительная работа по планированию и координации работы всех блоков.
Хотя из-за перехода с общих ресурсов к выделенным новая архитектура Nvidia потеряла некоторые преимущества в производительности, но зато выиграла в потреблении и площади чипа. Более того, по данным Nvidia эффективность SMM такова, что один новый мультипроцессор с 128 вычислительными ядрами показывает 90% от производительности мультипроцессоров SMX с 192 ядрами при значительно меньшем размере.
Четыре вычислительных раздела в составе SMM попарно делят между собой по четыре текстурных модуля и текстурную кэш-память, равно как и кэш-память первого уровня (для вычислительных задач), скомбинированные в единый блок. А вот общая (shared) память объемом в 64 КБ на мультипроцессор выделена в отдельный блок, который делится между всеми четырьмя вычислительными блоками.
Самое важное, что новый дизайн мультипроцессоров обеспечил значительно меньший размер, занимаемый блоком на кристалле, при достижении около 90% производительности мультипроцессора архитектуры Kepler. А меньшая площадь мультипроцессора означает, что на тот же размер чипа можно поместить большее количество мультипроцессоров. Если сравнивать схожие по позиционированию чипы GK107 и GM107, то общее количество мультипроцессоров в GM107 равно пяти, в отличие от двух SM в Kepler. Если говорить о теоретической производительности, то это означает на четверть большую текстурную производительность, в 1,7 раз большее количество вычислительных ядер и примерно в 2,3 раза большую вычислительную производительность по оценке Nvidia.
Чтобы повысить производительность GM107 при сохранении той же шины памяти, что и у GK107, было сделано несколько изменений и в подсистеме памяти. Так как производительность GM107 близка к скорости GK106, а ширина шины у новинки меньше: 128-битная против 192-битной, то для обеспечения достаточной производительности подсистемы памяти Nvidia добавила большой объем кэш-памяти второго уровня. Хотя они могли разместить на ее месте еще больше исполнительных блоков, но тогда их было бы нечем «прокормить» — ведь ALU и TMU нуждаются в данных, которые нужно брать из видеопамяти. Похоже, что инженеры Nvidia нашли некий баланс между количеством исполнительных устройств и объемом L2-кэша.
Также была увеличена пропускная способность внутренних межчиповых связей, а чтобы возросшая требовательность к ПСП не ограничивала общую производительность, был значительно увеличен объем кэш-памяти второго уровня. Он вырос с 256 КБ в GK107 до 2048 КБ в GM107 — в 8 раз! С кэш-памятью большего объема потребуется меньше запросов к гораздо более медленной видеопамяти, что снижает как потребление энергии, так и улучшает общую 3D-производительность.
В дополнение к указанным выше улучшениям, инженеры компании Nvidia серьезно модифицировали каждый из блоков первого чипа Maxwell на уровне транзисторов, что также позволило повысить энергоэффективность. Все вместе это привело к тому, что GM107 имеет практически вдвое лучшую энергоэффективность по сравнению с аналогичными чипами Kepler, и это при использовании все того же техпроцесса 28 нм!
Неудивительно, что Geforce GTX 750 и GTX 750 Ti обеспечивают одни из лучших показателей производительности в своем классе при том, что они потребляют заметно меньше энергии, по сравнению с решениями конкурента и предыдущими поколениями плат компании Nvidia. Значительное упрощение аппаратных блоков GPU, более эффективное использование имеющихся ресурсов и глубокая модернизация привели к тому, что пиковая производительность на ядро выросла на 35% по сравнению с чипами архитектуры Kepler.
Большая эффективность означает меньшее потребление энергии, то есть лучшую энергоэффективность (соотношение производительности и потребления энергии) у первого чипа архитектуры Maxwell, и модель Geforce GTX 750 Ti по этому параметру вдвое лучше GTX 650 Ti и до четырех раз обгоняет по энергоэффективности модель GTX 550 Ti, основанную на видеочипе семейства Fermi и выпущенную четыре года назад. Иными словами, если верить цифрам Nvidia, то они дважды удвоили энергоэффективность своих недорогих решений за прошедшие четыре года. Но самое впечатляющее в том, что они смогли добиться двукратного прироста в эффективности без смены техпроцесса.
Модель Geforce GTX 750 Ti основана на полноценном видеочипе GM107, имеющем 640 вычислительных ядер, подсистема памяти состоит из двух 64-битных контроллеров памяти (всего 128 бит) объемом 1 или 2 гигабайта. Применяется GDDR5-память с эффективной частотой для микросхем памяти равной 5,4 ГГц. Младшая модель имеет 512 вычислительных ядра и 32 TMU, но 16 блоков ROP и 128-битная шина остались на месте. Ее отличие от старшей в подсистеме памяти в том, что она довольствуется 1 ГБ GDDR5-памяти с частотой в 5,0 ГГц.
Естественно, что GM107 поддерживает технологию динамического изменения тактовой частоты и напряжения GPU Boost 2.0, обеспечивающую максимально возможную 3D-производительность в определенных условиях (напряжение, температура, потребление) при сохранении минимального уровня частоты, который гарантируется при любых номинальных условиях. Базовая тактовая частота для видеочипа в моделях Geforce GTX 750 Ti и GTX 750 равна 1020 МГц, а турбо-частота (средняя повышенная частота в нескольких играх и приложениях) — 1085 МГц. Естественно, по природе своей турбо-частота в каждой игре и при разных условиях может отличаться, есть лишь некое среднее значение.
Обе платы семейства Geforce GTX 750 поддерживают и все остальные современные технологии компании Nvidia, известные еще по графическим решениям поколения Kepler и о которых мы ранее неоднократно писали: поддержка до четырех дисплеев, возможность одновременного стереорендеринга на несколько мониторов, поддержка полноэкранного сглаживания при помощи метода TXAA, технологии G-Sync, NVENC, ShadowPlay и другие. С точки зрения подключения дисплеев также нет ничего нового — есть привычная поддержка уже известных стандартов DisplayPort 1.2 и HDMI 1.4, так как более новых версий этих разъемов ждать еще слишком рано.
Улучшение вычислительных возможностей
Но это еще не все изменения в Maxwell, некоторые связаны именно с вычислительными возможностями. Судя по некоторым данным, сами вычислительные ядра (ALU) также были переработаны, исправлены проблемы, имеющиеся в Kepler, а также изменена длина конвейера исполнительных устройств — количество тактов на исполнение некоторых зависимых арифметических инструкций было снижено, по сравнению с Kepler, что также улучшает эффективность использования вычислительных блоков. Были серьезно ускорены и атомарные операции с памятью, которые теперь выполняются напрямую, в отличие от Fermi и Kepler, где эффективность таких операций в некоторых случаях была не слишком велика.
В целом, с точки зрения CUDA-программ, мультипроцессор SMM очень похож на SMX архитектуры Kepler, а ключевые улучшения ориентированы на повышение эффективности исполнения кода. Размер регистрового файла и максимальное количество запущенных варпов на SMM остались неизменными: 64k 32-битных регистров и 64 варпа, как и максимальное количество регистров на поток — 255. А вот максимальное количество активных блоков потоков (thread blocks) на мультипроцессор было удвоено до 32 штук, что улучшает эффективность использования вычислительных ресурсов для некоторых задач с маленькими блоками потоков.
Важным нововведением в мультипроцессорах Maxwell стало то, что они имеют по 64 КБ выделенной разделяемой (shared) памяти на мультипроцессор, в отличие от Fermi и Kepler, которые делят 64 КБ памяти между кэш-памятью первого уровня и разделяемой памятью. Каждый поток может использовать не больше 48 КБ и в Maxwell, но общее увеличение разделяемой памяти также ведет к улучшению эффективности использования ресурсов. Выделение shared-памяти в отдельный блок в Maxwell стало возможным из-за объединения функциональности кэш-памяти первого уровня и текстурного кэша в одном блоке. Их объединение, к слову, привело еще и к уменьшению занимаемой ими площади на кристалле. В общем, возможности и эффективность кэширования и использования локальной памяти в Maxwell заметно изменились, и это еще предстоит раскрыть с программной стороны.
Еще одна новая архитектурная возможность GM107 — поддержка динамического параллелизма. Она впервые появилась в топовом чипе GK110 и позволяет GPU создавать дополнительную работу для самого себя. Динамический параллелизм появился в CUDA 5.0 и позволяет потокам CUDA-программ запускать дополнительные кернелы (kernels) на том же GPU. Архитектура Maxwell принесла поддержку динамического параллелизма в бюджетный сегмент, даже в такой маленький и недорогой чип, как GM107, а чуть позже принесет и во всю линейку решений Nvidia.
Из того, что не вошло в официальные документы Nvidia об изменениях в Maxwell, можно особо выделить запланированное появление поддержки унифицированной (виртуальной) памяти — unified memory. Это — технология виртуального объединения оперативной и видеопамяти, когда CPU и GPU могут использовать общую память совместно, получая доступ к тем же самым данным, без необходимости предварительной их пересылки, что требуется сейчас. На данный момент, перед выполнением любых расчетных задач на GPU требуется сначала перенести необходимые данные из оперативной памяти CPU в локальную видеопамять, к которой имеет доступ GPU. А поддержка унифицированной памяти упростит задачу. Впрочем, речь лишь об упрощении для программиста, так как передача данных все равно будет происходить по все той же шине PCI Express, которая не отличается слишком высокой скоростью и будет узким местом во многих случаях. Тем не менее, определенные улучшения возможны, но лишь после того, как эта возможность будет поддержана разработчиками.
Для этого компания Nvidia уже выпустила новую версию CUDA 6 Release Candidate, которая должна облегчить задачу параллельного программирования. С учетом появления в продаже Geforce GTX 750 Ti, основанных на новой архитектуре Maxwell, разработчики ПО вероятно уже могут разрабатывать программное обеспечение, используя такую новую функциональность, как унифицированную память, описанную выше. Также, в состав CUDA 6 вошло улучшенное масштабирование многочиповых конфигураций и подменяемые библиотеки, которые способны автоматически ускорить ПО, использующее библиотеки BLAS и FFTW, заменяя привычные CPU-библиотеки их GPU-ускоренными версиями.
Nvidia ни слова не упоминает о производительности расчетов с двойной точностью на новом графическом процессоре, что легко объяснить тем, что чип с потреблением в 60 Вт предназначается для мобильных решений и компактных ПК. Но мы знаем, что эта скорость для GM107 составляет 1/32 от скорости расчетов с одинарной точностью — то есть возможность хоть и есть, но ее практическое применение ничем не оправдано.
Понятно, что Nvidia не особенно много рассказывает об улучшениях в GM107, если в будущем планируется выпуск куда более мощных и функциональных графических процессоров большей сложности. Предполагаем, что очень многое в Maxwell, особенно касающееся функциональности по работе с 3D-графикой, пока что осталось «за кадром», равно как и некоторые нововведения, связанные с вычислительными возможностями. Впрочем, совсем скоро начнется очередная конференция GTC 2014, на которой компания Nvidia вполне может раскрыть некоторые подробности о вычислительных возможностях Maxwell и о других новинках.
Ускорение кодирования и декодирования видеоданных
Одним из нововведений графических чипов семейства Kepler по сравнению с предыдущими поколениями Geforce, был аппаратный кодировщик видеоданных в формате H.264 — NVENC. Выделенный аппаратный блок для кодирования видеоданных принес значительное увеличение производительности кодирования и снижение энергозатрат на эту задачу. Одним из интересных применений NVENC стало внедрение функции записи игрового процесса ShadowPlay, не требующее особых ресурсов центрального процессора и получившее достаточно высокую популярность.
Для дальнейшего улучшения производительности кодирования данных, в первом чипе архитектуры Maxwell блок кодирования NVENC был улучшен и он теперь обеспечивает сжатие видеоданных в формате H.264 в 6-8 раз быстрее реального времени, что в полтора-два раза превосходит показатели Kepler. Увеличение производительности кодирования видео в семействе Maxwell в реальности пока что скажется не так уж сильно. На данный момент NVENC чаще всего используется в приложениях вроде ShadowPlay, где хватало и мощности этого блока предыдущего поколения. Ну разве что задержки при кодировании и влияние на общую производительность будет еще меньше. Большую пользу можно получить при перекодировании видео из формата в формат (если это кем-то до сих пор используется), ведь в таком случае перекодирование займет вдвое меньше времени.
Увеличение эффективности кодирования важно скорее для мобильной версии Maxwell, используемой в ноутбуках. Ведь новый блок NVENC отличается не только производительностью, но и меньшим потреблением энергии и при кодировании, так что ноутбук на основе GM107 в таких задачах должен проработать в автономном режиме еще дольше. Тем более это касается будущих смартфонно-планшетных решений с видеоядром архитектуры Maxwell, где низкое потребление в видеозадачах еще важнее.
Не только блок кодирования видеоданных получил усовершенствования в новом чипе, но и блок декодирования. Увы, блок декодирования в Maxwell не имеет поддержки полностью аппаратного декодирования формата H.265 (HEVC), на что многие надеялись. Nvidia планирует предложить лишь программно-аппаратную реализацию для декодирования этого нового видеоформата. Вероятно, они хотят задействовать вычислительные блоки GPU, как это было ранее с CUDA-ускоренным декодированием H.264. Впрочем, зато декодирование этого «старого» формата у нового чипа Nvidia ускорилось. Nvidia утверждает, что благодаря изменениям в блоке декодирования видеоданных, появлению локального кэша и увеличению эффективности обмена данными с памятью, декодирование H.264 видеопотока стало в 8-10 раз быстрее, при меньшем потреблении энергии.
Ну а из дополнительных новых возможностей Maxwell, связанных с декодированием видеоданных, можно отметить новое состояние питания графического процессора — GC5, предназначенное специально для случаев очень слабой загрузки GPU работой, вроде декодирования и проигрывания видеоданных. Режим питания GC5 обеспечивает сравнительно низкое потребление энергии в таких задачах по сравнению с графическими чипами предыдущих поколений и будет особенно полезен в ноутбуках и других мобильных устройствах.
Оценка производительности
В этой части материала мы предварительно оценим производительность новых решений, исходя из теоретических данных и тестирования, проведенного в Nvidia. Модели Geforce GTX 750 и GTX 750 Ti основаны на новом GPU с разным количеством активных исполнительных блоков, но оценивать производительность новинки, исходя из теории, проще по старшему решению. Судя по теоретическим цифрам, Geforce GTX 750 должна уступать своей старшей сестре примерно 10-15%, в зависимости от нагрузки на различные исполнительные блоки GPU или видеопамять (в случае, если 1 ГБ в младшей модели достаточно, конечно). Для начала рассмотрим пиковые теоретические показатели первого графического процессора архитектуры Maxwell по сравнению с аналогичным чипом поколения Kepler — GK107:
Если сравнивать GM107 с GK107 по топовым решениям, как это делает Nvidia, то хорошо видно, что у чипа архитектуры Maxwell аж на 60% выше математическая производительность за счет выросшего количества ALU, на 20% выросла скорость текстурных выборок и фильтрации. Зато пропускная способность видеопамяти повысилась лишь на 10% (86,4 ГБ/с против 80 ГБ/с), а производительность блоков ROP так и вовсе стала немного ниже, за счет меньшей базовой тактовой частоты и одинакового количества соответствующих блоков, что может сказаться в некоторых условиях.
Иными словами, GTX 750 Ti будет иметь явное преимущество в играх, которым важна высокая скорость текстурирования и математическая производительность (а это — большинство игр), а в случае, если упор будет в ПСП или блоки ROP, то преимущества почти не будет или новинка даже будет немного проигрывать своему предшественнику. Давайте сначала посмотрим, что получилось в тестах у самой Nvidia.
С какими из своих видеокарт сама Nvidia сравнивает новинку? Основываясь на последних данных базы Steam Hardware Survey, одной из самых популярных у пользователей является модель Geforce GTX 550 Ti, выпущенная несколько лет назад и достаточно распространенная. Естественно, что Nvidia удобно сравнить Geforce GTX 750 Ti с ней, ведь новинка обеспечивает более чем двукратный (+120% в среднем, по данным компании) прирост в производительности при почти вдвое меньшем потреблении энергии: 60 Вт против 116 Вт.
Далее, Nvidia уверяет, что Geforce GTX 750 Ti обеспечит компактные системы мощным видеоядром, достаточным для игры в разрешении 1920×1080. Это делает новинку и весьма удачным бюджетным вариантом для апгрейда видеоподсистемы для устаревших ПК, не имеющих возможности обеспечения дополнительного питания и обходящейся 300-ваттным БП. Также выпущенная недавно модель Geforce GTX 750 Ti должна отлично подходить для мультимедийных центров и домашних кинотеатров, имеющих жесткие ограничения по потреблению энергии.
Вероятно, именно поэтому они сравнивают свою новую видеокарту с интегрированной графикой Intel и собственной платой Geforce GT 640, основанной на аналогичном чипе GK107 предыдущего поколения. Посмотрим, что может дать энергоэффективная версия Maxwell в условиях современной игры, где важна мощность графического процессора — Call of Duty Ghosts. Разрешение равно 1920×1080, включено полноэкранное сглаживание уровня 4x и средние настройки качества, использовалась система на базе процессора Intel Core i5 «Haswell» со встроенным видеоядром Intel HD Graphics 4600:
Как видно на диаграмме, Geforce GTX 750 Ti показывает более чем пятикратный прирост производительности, по сравнению с интегрированным в CPU графическим ядром Intel в этой игре и более чем двукратное превосходство по отношению к модели на базе схожего по сложности и потреблению энергии чипа Nvidia предыдущего поколения. Посмотрим, что с производительностью новинки будет в одной из популярных и требовательных игр современности — Batman: Arkham Origins.
Те же самые решения сравнивались на той же системе в игре Batman: Arkham Origins при разрешении 1920×1080, также с использованием полноэкранного сглаживания уровня 4x и средних настройках качества. В этой игре новая модель Geforce GTX 750 Ti показала более чем 6-кратное превосходство над интегрированной графикой Intel и была на 140% быстрее предшественницы в лице Geforce GT 640, потребляющей даже чуть больше энергии. Так что можно точно сказать, что Geforce GTX 750 Ti — действительно очень неплохой вариант для включения в конфигурацию компактных систем с низким потреблением энергии. Даже при сравнительно невысокой цене решения, вместе с Geforce GTX 750 Ti компактные системы легко могут стать достаточно мощными даже для требовательных игр.
Но хватит сравнивать новинку со старой моделью прошлого поколения и интегрированной графикой, ведь на рынке противостоять новой модели будут совершенно другие решения. Nvidia уверяет, что даже при сравнении с ними все для новинки прекрасно и она является лучшей в своем классе. Вероятно, если сравнивать их по энергоэффективности, то так оно и будет, ведь по потреблению энергии GM107 действительно рекордсмен. А что с чистой производительностью, без оглядки на класс и потребление? Nvidia сравнивает новинку с Radeon R7 260X, которая действительно и является одним из ее главных конкурентов:
Все тесты проводились на системе с Intel Core i7-4770K, в разрешении 1920×1080 пикселей и при средних настройках. В таких условиях, по данным Nvidia, их Geforce GTX 750 Ti в большинстве современных игр действительно обеспечивает на 10-15% большую производительность, чем плата конкурента, даже без скидки на меньшее энергопотребление (не забываем, что эти данные — от заинтересованной стороны). Ну а если рассматривать соотношение скорости рендеринга и потребления энергии, то GTX 750 Ti абсолютно точно станет победителем, ведь Geforce GTX 750 Ti потребляет 60 Вт, а Radeon R7 260X — 115 Вт, что почти вдвое больше. Впрочем, зато плата Nvidia имеет более высокую цену, а у AMD есть еще одна новая модель — Radeon R7 265, а с ней Nvidia сравнить новинку не успела.
Рассмотрим и прикидки производительности Geforce GTX 750 — младшей модели на базе GM107. Эта плата предназначена для того же ценового диапазона, только располагается в линейке компании чуть ниже GTX 750 Ti. Из названия понятно, что она имеет сниженную производительность из-за частично отключенных исполнительных блоков. Так, активными в Geforce GTX 750 являются лишь 512 потоковых вычислительных ядер из 640 — то есть один из пяти его мультипроцессоров отключен. А вот частота GPU осталась на том же уровне: 1020 МГц базовой частоты и 1085 МГц средней турбо-частоты. Подсистема памяти младшей модели отличается от GTX 750 Ti тем, что она содержит лишь 1 ГБ памяти, работающей на частоте 5,0 ГГц.
Итак, с чем сравнивать Geforce GTX 750? Nvidia начинает со старенькой Geforce GTS 450 на базе GF106. Вполне естественно, что новая плата показывает трехкратное превосходство по производительности, а потребляет при этом лишь 55 Вт, в отличие от 106 Вт у старой модели позапрошлого архитектурного поколения. Но такое сравнение не слишком серьезно, поэтому переходим к уже виденному нами сравнению с интегрированным графическим ядром Intel и моделью архитектуры Kepler. Причем, сделаем это в одной из самых популярных онлайновых игр:
Сравнение в игре World of Tanks при разрешении 1920×1080 и высоких настройках показывает, что Geforce GTX 750 более чем вдвое быстрее предшественницы Geforce GT 640, и при этом потребляет заметно меньше энергии. Сравнение с Intel HD Graphics 4600 особого смысла не имеет, интегрированная графика по скорости рендеринга в этой игре уступает новинке более чем вчетверо. Неудивительно, что младшая модель, ровно как и Geforce GTX 750 Ti, отлично подойдет для компактных ПК, так как она имеет такой же размер платы и потребляет даже чуть меньше энергии. Сравним ее с парой отстающих еще в одной популярной игре — Elder Scrolls Skyrim.
Настройки рендеринга в Elder Scrolls Skyrim были такие: разрешение 1920×1080, средние игровые настройки качества, сглаживание отключено. Новая модель Geforce GTX 750 более чем в 8 раз быстрее интегрированного видеоядра Intel в этой игре и вдвое быстрее Geforce GT 640, основанной на чипе GK107 предыдущего поколения Kepler и имеющей чуть большее энергопотребление. Но снова — главным соперником новинки будет не GT 640, а Radeon R7 260, например. Посмотрим, справляется ли с конкурентом вторая новинка:
Эти тесты проводились на системе с процессором Intel Core i7-3960X в разрешении 1920×1080 пикселей при средних настройках качества. Но даже в этом случае получилось, что Geforce GTX 750 или на уровне конкурента или чуть быстрее его, и все это — при почти вдвое меньшем энергопотреблении: 55 Вт против 95 Вт у Radeon. И снова мы видим очень хорошие цифры по энергоэффективности, а вот цена на младшую плату семейства Geforce GTX 750 также кажется слегка завышенной. Впрочем, у нас еще будут собственные игровые тесты в третьей части статьи и соответствующие выводы, исходя из реальных розничных цен.
Рыночное позиционирование семейства Geforce GTX 750
Хотя графический процессор GM107 близок по характеристикам и позиционированию к GK107, имея те же 16 блоков ROP и 128-битную шину памяти, но из-за архитектурных улучшений в Maxwell, GM107 имеет заметно большее количество потоковых ядер. Видимо, поэтому новый GPU стал основой не только для модели Geforce GTX 750, но и для GTX 750 Ti. И эта серия расширяет и так уже довольно широкую линейку видеокарт Nvidia.
Geforce GTX 750 Ti недостаточно быстра для того, чтобы заменить Geforce GTX 660, но она намного быстрее обычной GTX 650 (не Ti), поэтому новинки замещают решения GTX 650 Ti, в том числе и модификацию Boost, выполненные на урезанных GK106. Таким образом Nvidia значительно снизила себестоимость данных продуктов, ведь новые платы серии GTX 750 обещают быть не хуже тех, которые они заменяют, при гораздо меньшей сложности GPU и печатных плат.
С одной стороны, потребление в 60 Вт и мощь на уровне GTX 650 Ti (Boost) делает линейку GTX 750 лучшими среди видеокарт с низким потреблением без необходимости подключения дополнительного питания. А во многих развивающихся странах именно такие решения и имеют рыночный успех, продаваясь очень массово. С другой, цена на GTX 750 Ti в $149 и $119 для модели GTX 750 означает, что эти модели не дают рынку никакого прироста в производительности за эти деньги, ведь они заменили линейку GTX 650 Ti аналогичной стоимости.
Конкурентами для новинок серии GTX 750 со стороны компании AMD являются видеокарты семейства Radeon R7: 260, 260X и недавний вариант — R7 265. С точки зрения соотношения производительности и цены, особенно с учетом недавнего снижения цен на продукцию AMD, у последних есть небольшое преимущество по этому параметру, а Nvidia в очередной раз выставила слегка завышенную цену на свои новинки, чтобы заработать для себя больше денег, и это — их полное право. Себестоимость новых плат значительно ниже, чем у тех же Radeon R7 26x, поэтому прибыль долго ждать себя не заставит. Бизнес есть бизнес.
Если смотреть на результаты тестов, то обе платы Nvidia показали очень хороший результат, если оглядываться на мизерное потребление ими энергии и не смотреть на установленную компанией цену. Да-да, именно цена и выбранное ценовое позиционирование не позволяют нам полностью и бесповоротно восторгаться решениями калифорнийской компании, которые технически весьма хороши. Проблема в том, что Geforce GTX 750 Ti по скорости вряд ли заметно превзойдет Geforce GTX 650 Ti (и тем более — Boost), при том, что она заменяет эту модель на рынке.
То есть пользователь должен довольствоваться тем, что его новая плата потребляет вдвое меньше энергии, а вот сэкономить у него вряд ли получится. А ведь раньше видеокарты новых поколений, меняющие первую цифру в индексе, всегда были производительнее предыдущей модели с теми же остальными цифрами: GTX 650 Ti превосходила по скорости GTX 550 Ti и т.п. В случае с нынешними новинками этого не получилось, и это нас слегка печалит и настораживает.
Выводы по теоретической части
С архитектурной точки зрения, новый GPU первого поколения архитектуры Maxwell хоть и является последователем Kepler, но с весьма значительными модификациями, направленными на повышение энергоэффективности и снижения себестоимости. К сожалению, функциональных изменений в первом поколении (это уточнение важно) Maxwell не произошло, и GM107 в этом смысле полностью идентичен чипам GK1xx. К примеру, полной поддержки Direct3D 11.1 и 11.2 в нем не появилось, хотя она могла бы быть полезной, с учетом распространения в ближайшем будущем мультиплатформенных игр, ведь все современные игровые консоли такую поддержку имеют.
Впрочем, это касается лишь графических возможностей (возможно также, что некоторые способности Maxwell в GM107 пока что не раскрыты за ненадобностью), а с вычислительной точки зрения некоторые изменения в архитектуре есть. По CUDA-возможностям новое бюджетное решение соответствует уровню топового GK110, оно поддерживает такие техники как динамический параллелизм и HyperQ. Кроме этого, увеличилось и количество одновременно исполняемых команд, количество доступных регистров на поток, были серьезно модифицированы блоки планировщиков, появилась отдельная общая память в мультипроцессорах SMM и т.д.
Да и в остальном на низком уровне изменений в Maxwell очень много уже сейчас, даже в сравнительно маломощном GM107. По общей эффективности новый чип намного лучше предыдущих, и это касается как энергетической эффективности, так и плотности размещения транзисторов на чипе и вычислительной эффективности. При помощи глубокой модернизации блоков предыдущих архитектур и других изменений, Nvidia добилась удвоения показателя соотношения производительности к потреблению энергии, и это достижение невозможно переоценить в век главенства энергоэффективности.
При все усложняющемся внедрении более совершенных техпроцессов на фабриках, производящих микрочипы, очень важным является умение выжимать все соки из имеющихся возможностей. И при разработке архитектуры Maxwell, а также графического процессора GM107 в частности, инженеры Nvidia сделали очень важное и полезное дело, найдя множество возможностей по увеличению производительности в рамках уже освоенных технологий производства. Простое увеличение количества функциональных блоков в таком случае бы не сработало, так как размер чипа и его энергопотребление стали бы слишком большими. А глобальные улучшения энергоэффективности к Maxwell позволили добиться значительно лучшего соотношения производительности и потребления в новом Geforce GTX 750 Ti.
Для того, чтобы повысить производительность при сокращении затрат энергии, был серьезно изменен дизайн мультипроцессоров SMM в составе нового графического процессора GM107. В мультипроцессорах были выделены четыре вычислительных раздела, имеющие собственные выделенные блоки планирования и управления, также были изменены и планировщики в самих мультипроцессорах и связи между всеми блоками. Все эти изменения в GPU позволили обеспечить более эффективное использование возможностей аппаратных блоков чипа, что повысило его энергоэффективность. Так, новая модель Geforce GTX 750 Ti обеспечивает более чем 1,7-кратную производительность чипа GK107 из предыдущего поколения, при даже чуть меньшем потреблении энергии в рамках 60 Вт!
Чтобы повысить эффективность работы с видеопамятью, шина которой осталась лишь 128-битной, был значительно увеличен объем кэш-памяти второго уровня (до 2 МБ, что в восемь раз больше, чем в GK107 и даже больше, чем в GK110!), которая обеспечивает дополнительную буферизацию различных данных: текстурных, атомарных операций и т. п. Большая кэш-память снижает требования к ПСП, что позволяет обеспечить высокую производительность при сравнительно узкой шине к видеопамяти.
В итоге, первое решение на базе графического чипа архитектуры Maxwell стало лучшим по энергоэффективности среди видеокарт Nvidia и вообще. Неудивительно, что самой впечатляющей характеристикой новинок является их энергопотребление. Все описанные в статье оптимизации в Maxwell привели к тому, что при производительности решения на базе GM107, близкой к лучшим моделям на GK106, Geforce GTX 750 Ti потребляет лишь 60 Вт (55 Вт для GTX 750), что значительно меньше, чем Geforce GTX 650 Ti, и даже чуть меньше, чем GTX 650 и GT 640! При этом Geforce GTX 750 Ti почти вдвое быстрее Geforce GTX 650 и втрое производительнее Geforce GT 640, что явно можно считать важной победой для Nvidia. Так что по энергоэффективности новинки абсолютно точно являются лучшими видеокартами на рынке.
Что касается соотношения производительности и площади чипов, то тут Nvidia тоже есть чем гордиться. Если GK107 имел площадь чипа в 118 мм² при сложности в 1,3 млрд. транзисторов, то GM107 имеет площадь 148 мм² при сложности в 1,87 млрд. транзисторов. По сути, Nvidia «упаковала» на 44% больше транзисторов в на 25% больший по площади GPU, то есть плотность размещения транзисторов была также значительно улучшена — за что можно благодарить описанные выше оптимизации.
Новые модели видеокарт Nvidia отлично подойдут для применения в домашних ПК, домашних кинотеатров и компактных ПК, требующих низкого энергопотребления и тепловыделения — для них производительность серии Geforce GTX 750 будет просто великолепной. То же самое можно сказать и про тех, кто хочет выполнить модернизацию своего ПК, но не имеет возможности установить мощную видеокарту, требующую дополнительного питания. Правда, цены на новинки Nvidia низкими назвать не получится, ведь конкурент предлагает лучшее соотношение цены и производительности, даже серьезно проигрывая по себестоимости и энергоэффективности.
После того, как мы рассмотрели теоретические и предварительные данные производительности нового решении Nvidia в подробностях, самое время перейти к практической части исследования в нашем наборе синтетических тестов, в которых мы сравним производительность новой видеокарты модели Geforce GTX 750 Ti (к сожалению, GTX 750 у нас еще нет) со скоростью различных моделей компаний Nvidia и AMD.
Nvidia Geforce GTX 750 Ti — Часть 2: видеоплаты и синтетические тесты →