Компания AMD успела уже перевести на архитектуру GCN не только дискретные GPU, но и графические ядра экономичных SoC Kabini и Temash, а вот в десктопных и ноутбучных процессорах вплоть до последнего времени применялась более старая разработка компании — VLIW4, дебютировавшая на рынке аж три года назад (и родственная еще более старой VLIW5). Изначально ожидалось, что внедрение GCN и в этот сегмент, вместе с новыми процессорными ядрами и техпроцессом 28 нм произойдет летом 2013 года, однако на практике APU линейки Richland оказались лишь косметической доработкой Trinity, а все нововведения отложились до семейства Kaveri. Которое, наконец-то, вышло в свет.
Новые APU — действительно новые. Шаг вперед оказался большим, нежели все предыдущие, несмотря на лишь незначительные изменения в процессорной части: все-таки смена Llano на Trinity была количественным, а не качественным обновлением. Просто потому, что концепция APU всех ранних поколений, несмотря на весь пафос названия, по сути предполагала под собой не более чем механическое объединение «дискретных» CPU и GPU под одной крышкой. Да, последний мог использоваться не только обычными потребителями, но и ускорять приложения общего назначения, однако, опять же, никакой заслуги интеграции в этом не было — GPGPU изначально развивалось благодаря дискретным решениям. Kaveri же — первое устройство с поддержкой HSA, что (хотя бы теоретически) позволяет перейти к «настоящим» гетерогенным вычислениям. В частности, теперь обе составляющих части APU работают с полным объемом оперативной памяти без необходимости копирования объектов из одной области в другую, да и некоторых других «рудиментов дискретности» можно будет избежать, что облегчает разработку программного обеспечения и увеличивает его производительность.
Но что из этого получится — покажет время: несложно догадаться, что полная утилизация возможностей новых APU требует соответствующей программной поддержки. Собственно, это до сих пор и тормозит внедрение гетерогенных вычислений в приложения массового назначения: во-первых, не все программы вообще можно ускорить переносом вычислений на GPU, а во-вторых, для этого переноса в любом случае приходится «перелопачивать» исходный код программ (а то и вовсе — менять алгоритмы). Впрочем, лиха беда начало — главное, что процесс использования OpenCL вообще хоть как-то «пошел». Если же приложение уже оптимизировано под такие возможности, дальнейшая его доработка является более простым мероприятием. Тем более что она может и не понадобиться — улучшенное графическое ядро в любом случае позволит получить более высокую производительность. Причем это касается не только вычислений — уж игры-то всегда реагируют на прогресс в области интегрированной графики положительно.
Насколько положительно? Вопрос сложный, так что вокруг него до появления новых процессоров было сломано немало копий. С одной стороны, количественно и качественно новое видеоядро в старших моделях Kaveri идентично Radeon HD 7750: те же 512 ГП архитектуры GCN; лишь тактовая частота на 10% ниже. А это очень даже серьезно — видеокарты на базе данного GPU позволяют поиграть даже в современные игры. Но, как уже было давно установлено, HD 7750 бывают разными: использование памяти типа DDR3 снижает производительность более чем в полтора раза, превращая быстрый чип в обычную посредственность. Более того: платам с медленной памятью такое количество графических процессоров просто не нужно: итоговая производительность определяется во многом ей, так что результаты HD 7750 и более простого HD 7730 практически равны. И вот тут-то сразу обнаруживается слабое место интегрированных решений — процессоры-то используют как раз двухканальную (т. е. те же 128 бит) DDR3, как и «упрощенные» дискретные видеокарты. Таким образом, рассчитывать на паритет с «полноценными» Radeon HD 7750 и даже HD 7730 (в новой линейке компании возродившейся в виде R7 250) не приходится даже в теории. Которую мы сегодня решили подвергнуть практической экспресс-проверке.
Конфигурация тестовых стендов
Radeon HD 8670D | Radeon HD 7750 DDR3 | Radeon HD 7750 GDDR5 | Radeon R7 | |
Количество графических процессоров | 384 | 512 | 512 | 512 |
Тактовая частота, МГц | 844 | 800 | 800 | 720 |
Количество текстурных процессоров | 24 | 32 | 32 | 32 |
Шина памяти, бит | 128 | 128 | 128 | 128 |
Максимальная частота памяти | 2133 | 1600 | 4500 | 2133 |
Технология пр-ва | 32 нм | 28 нм | 28 нм | 28 нм |
За базу было взято наше недавнее тестирование интегрированной и дискретной графики на платформе FM2. Собственно, сегодня нам из него потребуются три конфигурации: А10-6800К с интегрированным Radeon HD 8670D (предыдущий топ компании) и он же в паре с двумя версиями Radeon HD 7750, различающихся типами памяти. А сравнивать с ними мы будем, как несложно догадаться, A10-7850K. Для экономии времени мы не стали повторять тестирование дискретных видеокарт именно с этим процессором в системе, да и версии драйверов использовались разные (Catalyst 13.8b2 для референсных конфигураций и 14.1b3 для A10-7850K) — очевидно, что по степени влияния на итоговый результат оба названных фактора не идут ни в какое сравнение с собственно производительностью графической части, так что для получения качественной оценки ими можно и пренебречь.
Aliens vs. Predator
Как видим, прогресс сравнительно с предыдущим поколением есть, но крайне небольшой — сбылись худшие ожидания в плане зависимости результатов от скорости памяти. HD 7750 с DDR3 здесь был даже медленнее, чем Radeon HD 8670D по той же причине: частота видеопамяти немного ниже, нежели доступна интегрированным решениям.
Влияние видео продолжает ощущаться даже в режиме минимальных настроек, хотя он уже относительно «легок» для всех интегрированных графических ядер. Что любопытно, новый флагман отстал даже от старого — очень может быть, что сказалась разница в тактовой частоте интегрированных GPU, благо отставание практически пропорционально ей.
Batman: Arkham Asylum GOTY Edition
В отличие от предыдущей игры, здесь «хватает» и более слабых решений, нежели представители линейки А10, зато и разница между новым и старым флагманами оказалась еще меньшей.
...и это, заметим, было «виной» в первую очередь именно видеочасти (несмотря на все ее перспективные ГП), поскольку облегченный режим показывает примерное равенство трех конфигураций из четырех, т. е. производительность собственно CPU A10-6800K и A10-7850K равная. А вот видеоядро в первом процессоре не позволяло ему «выложиться по максимуму». Однако, очевидно, поводов для радости исправление этой ситуации не дает — графический движок UE3 с точки зрения современности очень легкий, так что играть в игры на нем даже на интегрированной графике можно уже в «нормальном» качестве. А в нем, как мы уже видели выше, разницы между медленными решениями (страшими интегрированными или дискретными GPU с DDR3) нет, но вот покупка «приличной» видеокарты продолжает оставаться оправданной.
Crysis: Warhead x64
В Batman играть можно было и раньше, и сейчас можно, а вот в Crysis — как нельзя было, так и осталось. Что сделать, чтоб стало можно? Купить Radeon HD 7750 с DDR5 или что-нибудь более быстрое :)
Ну а в легком режиме, как и ожидалось, все равны. Дискретные решения чуть быстрее за счет дискретности — графические ядра не мешают «процессорным», но не более того.
F1 2010
Превосходство над предыдущим флагманом выросло до 20%, и... ничего не изменилось: интегрированных решений по-прежнему чуть-чуть не хватает. Вот, хотя бы, Radeon HD 7730 с DDR5 позволяет перевалить за 30 FPS, а HD 7750 с тем же типом памяти безоговорочно обеспечит комфортный игровой процесс. В отличие от интегрированной графики — как видим, ее все еще маловато. Хотя игре скоро исполнится четыре года, да и разрешение мы используем не максимальное — в FHD все будет еще хуже.
Ну а в легком режиме поиграть можно и на современном Pentium, так что любого А10 тем более достаточно. Искать разницу между разными конфигурациями в таких условиях становится делом неблагодарным.
Far Cry 2
Производительность процессорной части в этой игре начинает иметь значение уже даже при использовании медленных графических решений, так что тут А10-7850К вообще умудрился проиграть всем остальным участникам. Самую малость, так что всех их можно считать примерно равными — за исключением HD 7750 DDR5, в очередной раз подтвердившего свой статус минимального универсального графического решения.
В легком режиме тенденция только усугубилась — кроме процессора ничто не важно, а производительность CPU-части в новом поколении APU не выросла (удельная — поднялась, но это было скомпенсировано снижением рабочих тактовых частот). Заметим, кстати, что абсолютные результаты в качественном и облегченном режимах уже отличаются очень слабо. И это будет справедливо и для других «старых» игр.
Metro 2033
Как мы уже установили самому современному из используемых нами игровому движку недостаточно той скорости текстурирования, которую способны обеспечить любые видеокарты со 128-разрядной шиной и DDR5 — чего уж говорить о более медленных решениях? Да — почти 30% прибавки в производительности это очень неплохо с одной стороны. С другой — оно ничего не решает. Задумываться о «качественных» режимах таких игр пользователям интегрированных и бюджетных дискретных решений придется еще очень нескоро.
Ну а если сбросить настройки качества на минимум, преимущества быстро испаряются — старый флагман для такого применения подходил не хуже. А какой-нибудь Athlon Х4 с младшей дискреткой — и подходил, и подходит лучше любого APU.
Сводные результаты
Попробуем оценить ситуацию в общем и целом, а также посмотреть не только на игры, для чего воспользуемся диаграммами со средними результатами по группе тестов/приложений (детально с полной методикой тестирования вы можете ознакомиться в отдельной статье). Результаты на диаграммах приведены в баллах, за 100 баллов (как и в большинстве статей) принята производительность Celeron G540 и Radeon HD 6450 512 МБ GDDR3. Тем, кто интересуется более подробной информацией, а также сравнением с другими системами, не вошедшими в данное тестирование, традиционно предлагается скачать таблицу в формате Microsoft Excel, в которой все результаты приведены как в преобразованном в баллы, так и в «натуральном» виде.
Итак, в среднем получилось «выжать» примерно 10%: с учетом сохранения платформы неплохо, а для практического использования — ничего. Что работало раньше — продолжает работать и сейчас. Что было недоступно — таковым и осталось. Увы, но основным сдерживающим фактором продолжает оставаться низкая скорость памяти. В результате нет ничего удивительного в том, что новый интегрированный Radeon R7 обгоняет новых и старых родственников работающих в паре с DDR3, но вот даже Radeon HD 7730 с DDR5 ему уже не по зубам. А имеющий такое же количество графических процессоров Radeon HD 7750 DDR5 в полтора раза быстрее. Что иногда приводит и к переходу количества в качество.
В «легком» режиме, как и ожидалось, никакого прорыва не произошло — он уже все-таки слишком «легкий» для старших интегрированных решений. Однако отметим, что даже в таких условиях «приличная» дискретная видеокарта все равно «прилично» быстрее. То есть если ориентироваться в первую очередь под игровое применение, то приобретение таковой остается практически безальтернативным, даже если не ориентироваться на наиболее «тяжелые» современные проекты (которые, в общем-то, в приемлемом качестве «не тянет» и недорогая дискретка, не говоря уже о любом интегрированном видео).
Что же касается не игровых, а «серьезных» приложений, то здесь, как и предполагалось, все вообще без изменений: мы уже не раз убеждались в том, что разные решения AMD обеспечивают примерно равный уровень производительности, так что и новое видеоядро исключением не стало. Что-либо отличное от привычного уровня могут продемонстрировать, разве что, профессиональные карты семейства FirePro, благодаря своим оптимизациям и другим драйверам.
OpenCL
Как уже было написано в начале статьи, максимальную выгоду использование Kaveri может принести в специально оптимизированных под преимущества HSA приложениях. С другой стороны, таковых придется еще подождать — разработчикам нужно освоить все эти потенциальные бенефиции, да и определенную инерцию рынка никто не отменял (большинство продуктов даже самой AMD эти технологии не поддерживают). А что в «обычных» программах с использованием GPGPU? Попробуем оценить при помощи одного из синтетических бенчмарков, которым пользуемся с середины прошлого года.
Что ж — а вот это уже очень серьезно! Причем хорошо видно, что сказалось не только увеличение количества исполнительных устройств, но и их качество. Действительно — на примере процессоров линейки Richland хорошо видно, что даже удвоение количества ГП (переход от А6 к А10) увеличивает производительность лишь в полтора раза, а ведь в А10-7850К их больше, чем в A10-5800K/6800K лишь на треть, но производительность при этом выросла в те же полтора раза. Так что можно предположить, что и младшие представители Kaveri, где GPU слабее, все равно превзойдут топовые Trinity/Richland, а не только «одноклассников». Да и в сравнении с продукцией основного и единственного конкурента новые APU выглядят выигрышно — к примеру, лучший процессор предыдущего поколения с HD Graphics 4000 отстает от A10-7850K вдвое, а новейшие настольные модели — в полтора раза, благо они-то уже почти догнали Richland. В мобильном сегменте, впрочем, положение дел может отличаться, благо там у Intel HDG 4600 является лишь средней, а не старшей модификацией GPU, однако можно быть уверенным в том, что, по крайней мере, новые продукты AMD не проиграют конкурентам.
А если сравнить с настольными видеокартами? Вспоминаем нашу статью, посвященную разными OpenCL-бенчмаркам, где участвовал и Basemark CL: Radeon HD 7970 набрал 344 балла, а более старый HD 6950 — 197 баллов. Как видим, сравнительно с топовыми решениями все равно порядок величин остается разным, но... Это дискретка за несколько сотен долларов. Тот же HD 6950 на момент анонса имел рекомендованную цену в $299 долларов и рассматривался три года назад как серьезный GPGPU-ускоритель. И ничего удивительного — в июле 2010 года, например, седьмое место в TOP500 суперкомпьютеров занял кластер с узлами, использующими пару старых Radeon HD 4870, по суммарной вычислительной мощности сравнимыми с одним HD 6950. Но ведь половина от HD 6950, согласно полученным нами результатам, это и Radeon R7 в A10-7850K. Да, конечно, сейчас уже на GPU такой производительности суперкомпьютеры не строят, однако использовать их не прекращают. Не говоря уже о персональных компьютерах, укомплектованных не старшими, а, скажем так, более «народными» моделями видеокарт, в т. ч. и мобильных. Таким образом, аппаратная «база», на которой можно получить прирост производительности от использования вычислений на GPU, расширяется уже и в сторону компьютеров, снабженных только интегрированной графикой, что должно заставить программистов перестать (наконец-то!) игнорировать этот способ оптимизации.
Итого
По результатам тестирования наши впечатления оказались двойственными. Если говорить о «привычном» использовании GPU, т. е. играх, с которыми пользователи сталкиваются уже давно, то здесь никакого качественного скачка не произошло. Собственно, как и предполагалось — «узким местом» является уже система памяти. Да, разумеется, остается такой вариант, как некоторый разгон ОЗУ, поскольку более производительные, нежели «официальные» модули DDR3-2133 в природе существуют, однако это проблемы не решает. Не только из-за высокой цены (с этим нередко можно справиться и разгоном), а просто потому, что такой экстенсивный способ может повысить производительность лишь на 10% или чуть больше, а таким GPU нужно уже не 2400 и даже не 2600 МГц, а минимум 4000. Чего не сможет обеспечить не только DDR3, но и перспективная DDR4 в ближайшую пару лет (с этим, как нам кажется, и связан отказ от поддержки DDR4, которой ранние слухи наделяли Kaveri). При этом старшие модели нового семейства к бюджетным продуктам не относятся, так что за аналогичную стоимости A10-7850K сумму можно приобрести какой-нибудь Athlon X4 750K и Radeon HD 7750 с DDR5, а то и HD 7770, что в играх обеспечит намного более высокую производительность при сравнимом уровне быстродействия и в «обычных» программах. Возникает, даже, крамольная мысль — а не с этим ли связано отсутствие в обновленной линейке компании аналога HD 7750? ;) Но он уже и не нужен: чуть позже анонса большинства моделей было заявлено о выходе Radeon R7 260 с рекомендованной ценой $109 и более высокими ТТХ, нежели у HD 7770, а чуть позднее и сам HD 7770 реинкарнировался (пока неофициально) с номером 250Х и ценой $99. В общем, во всех случаях, когда можно использовать дискретное видео, как видим, его и нужно использовать: будет не дороже, но быстрее. Таким образом, наилучшей сферой применения APU остаются системы, где дискретное видео использовать нельзя: ноутбуки, моноблоки, мини-ПК и т. п. Но оценивать перспективы в этом сегменте мы пока воздержимся — в него уже «не лезет» конкретно A10-7850K, а производительность более экономичных моделей (в первую очередь — A8-7600 с регулируемым теплопакетом 45/65 Вт или вообще ноутбучной линейки) нужно еще проверить на практике.
Что же касается применения интегрированного GPU Kaveri в неграфических вычислениях, то здесь, напротив, немало поводов для оптимизма. В основном благодаря росту производительности, причем даже без специальной оптимизации, что позволяет «убить» сразу двух зайцев. Во-первых, у разработчиков программного обеспечения остается все меньше поводов игнорировать тот же OpenCL там, где его можно использовать: ведь выигрыш даже в системах без дискретной графики может быть большим, чем ранее. Во-вторых, само по себе увеличение производительности полезно — ведь Intel тихой сапой подобрался уже к тому же уровню, на котором остановилось предыдущее поколение APU. Ну а новое позволяет достичь большего, т. е. при активном применении GPGPU APU AMD способны выйти на тот же или более высокий уровень быстродействия, что и лучшие из массовых процессоры Intel. Заметим, что на х86-коде, несмотря на все старания инженеров AMD паритета давно уже достичь не удается. Собственно, вполне возможно, что именно это побудило компанию отказаться пока от обновления «многомодульных» процессоров семейства FX — асимметричный ответ может оказаться более эффективным. Естественно, делая ставку на такой способ решения проблем с производительностью компания сильно рискует — слишком многое зависит от разработчиков программного обеспечения и их дальнейших действий. Однако и выигрыш (в случае успеха) может быть куда большим, чем любые достижения на поле совершенствования «классической» процессорной архитектуры. Тем более, если новые версии ПО будут не только использовать OpenCL, но и обзаведутся специальной оптимизацией под HSA.
И, в заключение, еще пара слов о значимости выхода в свет Kaveri. Как уже было написано в начале статьи, это знаковое событие, поскольку новая архитектура — это действительно APU на практике, а не только в виде заявлений. Ведь, повторимся, ранее речь шла в основном о механическом объединении «обычного» процессора с «обычным» видеочипом в одном кристалле. И даже контроллер памяти являлся общим лишь в плане конкурентного использования, но и CPU, и GPU работали со своими областями ОЗУ, так что для обмена данными между ними их приходилось копировать из одного места в другое. Более того — фактически степень интеграции компонентов в APU была более низкой, чем у процессоров Intel, где GPU быстро стал равноправной частью кристалла и получил доступ к общей кэш-памяти, например (а выход в свет Ivy Bridge почти два года назад быстро выбил из рук AMD и такой формальный козырь APU, как использование графических ядер в приложениях общего назначения). Теперь же — все не так. И придуманный три года назад AMD термин «APU» обретает физический смысл. Что можно считать шагом вперед с точки зрения технологии, независимо от практической применимости на сегодняшний день :)