В новом поколении процессорной архитектуры, Haswell, компания Intel использует несколько модификаций нового графического ядра с кодовыми названиями GT1, GT2, GT3, GT3е. Впрочем, кодовые наименования употреблялись только в период разработки, сейчас для идентификации используются наименования типа Intel HD Graphics HDxxxx. Их сопоставление с индексами на рынке приведено в таблице ниже.
Топовое ядро GT3e более-менее широко применяется только в мобильных решениях. В десктопном сегменте оно представлено только в процессорах форм-фактора BGA, которые распаиваются напрямую на материнские платы. Такое решение больше подходит для встраиваемых систем и вряд ли получит массовое распространение на рынке. В основном настольный сегмент будет довольствоваться ядрами GT1 и GT2.
С одной стороны, использование топовой версии только в мобильных решениях (ну и BGA для десктопов) выглядит логичным: геймеры и все, кому нужна высокая производительность графики, все равно будут использовать дискретные видеокарты, а тем, кому производительность не нужна, хватит любого встроенного решения, в т. ч. и младшей серии. С другой стороны, есть определенные категории пользователей, которые не отказались бы от более производительной графики, но при этом не хотели бы использовать внешний видеоадаптер. Есть и технические моменты: интеграция GT3e в десктопный четырехъядерный кристалл увеличила бы его площадь и тепловыделение, повысила сложность производства и стоимость решения при непонятных рыночных перспективах.
Топовые версии интегрированной графики Haswell получили собственное имя Iris. Точнее, ядро GT3 может, в зависимости от частот, носить наименование HD5000 или Iris 5100, а GT3e — только Iris Pro 5200. То есть собственные имена Iris имеют две модификации. Посмотрим на основные технические характеристики GT3 и GT3e.
Iris Pro 5200 | Iris 5100 | HD 5000 | |
Частота | до 1300 МГц | до 1300 МГц | до 1100 МГц |
Количество конвейеров | 40 | 40 | 40 |
eDRAM (Crystal Well) | 128 МБ | — | — |
Количество графических ядер у всех трех модификаций GT3 одинаковое и равняется 40. Отличие между 5000 и 5100 заключается только в максимальных частотах, а вот в GT3e (Iris Pro 5200) появляется еще одно нововведение, с которым мы познакомились на первых же презентационных слайдах Intel — новый кэш L4/высокоскоростной буфер, который получил название Crystal Well. К сожалению, в реальности он появился только у самого топового решения, Iris Pro 5200. К нему мы еще вернемся, а пока перейдем к GT2 и GT1.
Ядро GT1, названное традиционно Intel HD, ориентировано на бюджетный сегмент и встречается в процессорах Intel Pentium G3xxx. Наиболее распространенной на рынке будет версия GT2, она появится и в настольных, и в мобильных процессорах Haswell. У нее тоже три модификации: HD 4200, HD 4400 и HD 4600, плюс две модификации в серверном сегменте — P4600 и P4700.
HD 4200 | HD 4400 | HD 4600 | |
Частота | 850 | до 1100 МГц | до 1350 МГц |
Количество конвейеров | 20 | 20 | 20 |
Таким образом, в новом поколении архитектуры Core компания Intel представила всего 9 модификаций графического ядра нового поколения. Формально в Sandy Bridge и Ivy Bridge их было меньше — по три: HD3000, HD2000, Intel HD и HD4000, HD2500, Intel HD соответственно. Но там версии с одинаковым названием в разных процессорах тоже имели разные частоты работы. Поэтому сейчас линейка выглядит более логичной.
Посмотрим, как эволюционировали графические решения на примере Sandy Bridge, Ivy Bridge и Haswell. Первое, на что стоит обратить внимание, это поддержка новых API и увеличение количества унифицированных блоков по сравнению с предыдущей архитектурой.
Sandy Bridge | Ivy Bridge | Haswell | |
DirectX | 10.1 | 11.0 | 11.1 |
OpenGL | 3.1 (3.0) | 4 (3.1) | 4 |
OpenCL | — | 1.2 (1.1) | 1.2 |
Версия шейдеров | 4.1 | 5 (4.1) | 5 |
Частота ГП | до 1350 МГц | до 1350 МГц | до 1350 МГц |
Количество конвейеров | 12 | 16 (+33%) | 20 (+25%) или 40 (+150%) |
Как можно заметить, с каждым новым поколением графических адаптеров происходит рост количества конвейеров, в среднем примерно на 30% в каждом последующем поколении. Так что заметный рост производительности нам обеспечен. Что касается поддержки API, то изначально Haswell выглядел заметно интереснее из-за поддержки более современных API. Однако в последних версиях драйверов их поддержку добавили и в Ivy Bridge (в скобках указана поддержка API на момент анонса).
Архитектура графической части Haswell
Перейдем к обзору архитектур трех поколений графических решений: Sandy Bridge (HD2000, HD3000), Ivy Bridge (HD2500, HD4000), Haswell.
Как видим, каждое последующее поколение графических адаптеров не только вносит архитектурные изменения в старые функциональные блоки, но и добавляет новые, расширяя архитектуру графического ядра. Правда, стоит отметить, что переход с SB на IB принес больше изменений в архитектуре интегрированной графики, чем переход с IB на Haswell.
С переходом на IB графические ускорители, помимо увеличения количества графических ядер, получили второй текстурный семплер, кэш L3, увеличенные объемы текстурных кэшей L1 и L2. В Haswell архитектурные изменения в основном заключались в увеличении количества графических процессоров, добавлении новых исполнительных блоков, таких как Video Quality Engine (VQE) и Resource Streamer, а также усовершенствовании старых блоков — Texture Sampler, Multi Format Codec. Стоит заметить, что и компоновка исполнительных модулей (EU) изменилась — ранее 16 EU вытягивались в длинную цепочку, теперь же EU располагают сверху и снизу блоков растеризации и кэша L3, по 10 EU. Стоит заметить, что в модификации ядра GT3 не только происходит удвоение EU с 20 до 40, но и дублируется весь блок Slice Common, который содержит в себе блоки растеризации, кэш L3, блоки пиксельных операций. То есть происходит не просто наращивание количества конвейеров, но и удвоение других немаловажных блоков, таких как блоки растеризации, пиксельной обработки и рендера.
Что ж, рассмотрим нововведения и изменения в архитектуре.
В состав блока Command Streamer теперь входит блок Resource Streamer, который разгружает центральный процессор, беря некоторые функции драйвера на себя. Это позволяет снизить нагрузку на центральный процессор и повысить производительность.
Переработанный текстурный семплер. По утверждению компании Intel, в некоторых режимах прирост текстурной производительности может достигать четырех раз.
Был добавлен блок Video Quality Engine (VQE), отвечающий за качество видео, который позволяет не только улучшить качество видеоизображения, но и снизить потребление электроэнергии. Данный блок уменьшает шумы в видеоизображении, адаптирует цветовую схему и контраст, стабилизирует изображение, а также позволяет производить преобразование частоты кадров видео с 24 fps и 30 fps в 60 fps. Стоит заметить, что увеличение количества кадров в секунду происходит не простым копированием кадров, а интеллектуальным анализом межкадровой оценки движения.
Видеокодек также получил улучшения в виде поддержки новых форматов: кодирование MPEG, улучшение качества кодирования видео, декодирование Motion JPEG, декодирование видео 4К, декодирование SVC (Scalable Video Coding) в AVC, VC1, MPEG2.
Как видим, часть улучшений была направлена на снижение потребления электроэнергии. Графические ядра Haswell позволяют экономить электроэнергию в мультимедийной нагрузке — как видно из слайда, за счет большего распараллеливания ядро Haswell раньше заканчивает работу и раньше погружается в экономичное состояние простоя.
О Crystal Well
Crystal Well представляет собой чип памяти eDRAM объемом 128 МБ, распаянный на одной текстолитовой подложке с процессором. Доступен он только в процессорах с топовой версией интегрированной графики Iris Pro 5200. Данный чип памяти производится, как и процессор, по техпроцессу 22 нм и выступает в качестве промежуточного кэша четвертого уровня. Причем важно отметить, что он кэширует запросы не только видеоускорителя, но и центрального процессора. То есть теоретически производительность центрального процессора при его наличии тоже должна увеличиться.
Что касается скоростных характеристик, то чип eDRAM показывает пропускную способность (ПС) на уровне 50 ГБ/с в каждом направлении, то есть суммарная ПС равняется 100 ГБ/с. Что достаточно хорошо вписывается между ПС оперативной памяти в 25,6 ГБ/с и ПС кэша третьего уровня порядка 180 ГБ/с. При этом латентность такой памяти достаточно невелика — порядка 50-60 нс, тогда как двухканальный ИКП, использующий DDR3-1600, имеет 90-100 нс. Стоит заметить, что кэш L3 в процессорах Haswell имеет латентность около 30 нс. Таким образом, eDRAM достаточно хорошо вписывается по своим скоростным показателям между L3 и ОЗУ.
Физически модуль eDRAM представляет собой отдельный чип с площадью 84 мм², потребляющий до 1 Вт в простое и до 4,5 Вт под нагрузкой. Если бы такой чип устанавливали в десктопные процессоры, то TDP самых «горячих» четырехъядерных процессоров Haswell достиг бы 90 Вт, хотя это все равно значительно ниже, чем у процессоров с сокетом LGA2011 (а можно еще вспомнить AMD, недавно вышедшие процессоры которой имеют TDP 220 Вт). Однако в настольных решениях Crystal Well встречается только в процессорах BGA (т. е. напрямую распаиваемых на материнской плате, а не устанавливаемых в сокет), у которых, скорее всего, система охлаждения будет идти в комплекте.
Тут стоит отметить, что Intel в новом поколении не стала вводить поддержку новых, более скоростных стандартов памяти, так что ее максимальная пропускная способность осталась на уровне 25,6 ГБ/с. Даже HD2500 способна была использовать всю доступную ПС, так что гораздо более мощная HD4600, скорее всего, будет упираться в пропускную способность DDR3-1600, и использование Crystal Well и ей пошло бы на пользу. Не говоря уже о более мощных модификациях встроенной графики. В общем, логично было бы ожидать либо поддержки DDR3-1866 или DDR3-2133, либо более обширного списка процессоров с Crystal Well, либо и того, и другого одновременно. В итоге же мы имеем нераскрытый до конца потенциал нового поколения графических адаптеров.
Прим. ред.: Мне кажется, что корни решений Intel по использованию Crystal Well стоит искать не в технической, а в финансовой плоскости. С технической точки зрения это может быть и перспективное решение, но довольно затратное по финансам: два чипа на одной подложке в любом случае стоят заметно дороже, чем один. И при этом у технологии очень туманные рыночные перспективы. Поэтому сейчас Intel, скорее всего, «пробует воду»: выпустив всего пару моделей, компания будет отслеживать их судьбу на рынке и смотреть, станет решение популярным или нет. С этой точки зрения все выглядит логично: либо BGA, где процессор идет в конкретный продукт с определенным позиционированием, либо мобильные решения, где востребованность интегрированной графики существенно выше из-за отсутствия места и требований по энергопотреблению. Кстати, и спрос в этом сегменте заметно выше.
Что же касается поддержки памяти, то производитель, видимо, ориентировался в основном на DDR3L, а у нее частоты работы не выросли. Плюс, поддержка более быстрой памяти вряд ли принесет дивиденды в реальной жизни, особенно учитывая, что в большинстве случаев память устанавливают производители готовых систем, а они тоже смотрят больше на стоимость, а не на скорость.
Для наглядности приведем сравнение теоретической максимальной производительности.
Частота чипа | Частота/шина/тип памяти | ПСП | Теоретическая производительность | |
Intel HD2000 (SB) | 1250 МГц | 1333 МГц/128 бит/DDR3 | 21,2 ГБ/с | 60 GFLOPs |
Intel HD3000 (SB) | 1350 МГц | 1333 МГц/128 бит/DDR3 | 21,2 ГБ/с | 129,6 GFLOPs |
Intel HD2500 (IB) | 1150 МГц | 1600 МГц/128 бит/DDR3 | 25,6 ГБ/с | 110,4 GFLOPs |
Intel HD4000 (IB) | 1300 МГц | 1600 МГц/128 бит/DDR3 | 25,6 ГБ/с | 332,8 GFLOPs |
Intel HD4600 (Haswell) | 1350 МГц | 1600 МГц/128 бит/DDR3 | 25,6 ГБ/с | 432 GFLOPs |
Intel Iris Pro 5200 (Haswell) | 1300 МГц | 1600 МГц/128 бит/DDR3+Crystal Well | 25,6+2×50 ГБ/с | 832 GFLOPs |
AMD A8-3870K (Llano) | 600 МГц | 1866 МГц/128 бит/DDR3 | 29,9 ГБ/с | 480 GFLOPs |
AMD A10-5800K (Trinity) | 800 МГц | 1866 МГц/128 бит/DDR3 | 29,9 ГБ/с | 614 GFLOPs |
AMD A10-6800K (Richland) | 844 МГц | 2133 МГц/128 бит/DDR3 | 34 ГБ/с | 779 GFLOPs |
GeForce GTX 650 (GK107-450-A2) | 1058 МГц | 5000 МГц/128 бит/GDDR5 | 80 ГБ/с | 812,5 GFLOPs |
GeForce GT 640 (GF116) | 720 МГц | 1782 МГц/192 бит/DDR3 | 42,8 ГБ/с | 414,7 GFLOPs |
Для Ivy Bridge указаны частоты для LGA-модификаций.
Из данной таблицы можно сделать следующие наблюдения и выводы:
- Теоретическая пиковая производительность (в GFLOPs) в каждом поколении графических адаптеров Intel увеличивается на 150%: переход с топовой модификации графического ядра Sandy Bridge HD3000 на топовую HD4000 — +156,8%, переход с HD4000 на топовый Iris Pro 5200 — +150%, а вот переход с топовой HD4000 на среднюю модификацию графического ядра Haswell HD4600 дает прибавку всего лишь около 30%. Впрочем, значительный рост у Intel во многом объясняется изначально низким уровнем производительности. AMD, например, исходно встроили в APU производительные (для своего класса) графические решения, поэтому для них прирост в GFLOPs от поколения к поколению составляет около 30%;
- Топовый вариант интегрированной графики Intel, Iris Pro 5200, показывает на 6,8% больше пиковой производительности, чем новый AMD A10-6800K, но при этом решение среднего уровня HD4600 уже отстает на 10% от AMD A8-3870K (Llano);
- Если подобрать конкурентов для Iris Pro 5200 и HD4600 по пиковой производительности из дискретных видеокарт nVidia, то получится, что Iris Pro 5200 на 2,4% производительнее GeForce GTX 650 (GK107-450-A2), а HD4600 на 4,2% превосходит GeForce GT 640 (GF116);
- Производительность современных графических ускорителей во многом зависит от скорости работы с видеопамятью. Поэтому у интегрированных решений с этим всегда проблемы: мало того, что они работают с по определению более медленной DDR3, так еще и приходится делить ее с центральным процессором. Например, GeForce GTX 650 (GK107-450-A2) имеет ПСП памяти 80 ГБ/с, а что мог предложить Ivy Bridge? Всего лишь 25,6 ГБ/с суммарно на ГП и ядра ЦП. AMD в каждом поколении вводит поддержку более скоростных стандартов памяти, и теперь максимум для ее последнего поколения — 2133 МГц, что позволило достичь 34 ГБ/с. Intel, как мы знаем из обзора архитектуры процессоров Haswell, не стала вводить поддержку новых стандартов памяти, оставшись на уровне DDR3-1600. Поэтому для устранения узкого места в самом производительном решении ей пришлось добавить промежуточный буфер/кэш L4 (Crystal Well) объемом в 128 МБ с пропускной способностью в 50 ГБ/с в каждом направлении (суммарно 100 ГБ/с). Так что при работе с ним ПСП будет превосходить даже ПСП у дискретных решений — другой вопрос, что объем этого буфера небольшой.
Подводя итог, можно сделать некоторые предположения:
Если производительность интегрированной графики Intel будет и дальше расти такими же или хотя бы близкими темпами, то пропускной способности имеющихся на сегодня стандартов памяти следующему поколению будет очень серьезно не хватать — фактически, это «бутылочное горлышко» может съесть весь выигрыш. Так что надо будет либо повышать ПСП, вводя поддержку DDR4 или DDR3 в несколько каналов, либо искать другие решения. Возможно, Crystal Well, который сейчас представляет собой отдельный чип, переедет в основной кристалл (как в свое время переехала интегрированная графика при переходе на Sandy Bridge) и станет полноправной частью ядра Broadwell. Правда, судя по имеющейся информации, в Broadwell будет несколько чипов на одной подложке... В общем, тут пока много вопросов.
Впрочем, AMD также, скорее всего, столкнется с серьезной нехваткой ПСП, и примерные направления развития у нее те же: либо более быстрая память DDR4, либо «вспомнить» свою (ATI) разработку HyperMemory (небольшой кадровый буфер для интегрированной видеокарты, распаянный на материнской плате) и попытаться приспособить ее под современные задачи.
Наконец, не будем забывать про два серьезных козыря нового поколения интегрированной графики Intel: поддержку OpenCL, причем приложений с его поддержкой становится все больше, и новую версию Quicksync, существенно упрощающую работу с кодированием видео.
Выводы
Итак, давайте переходить к выводам. Как и в процессорной части обзора архитектуры Haswell, разобьем вывод на несколько частей.
Десктоп
Покупатели настольных компьютеров с интегрированной графикой Haswell получают ряд серьезных преимуществ. В первую очередь, это серьезно возросшая производительность графической подсистемы, а также улучшения в работе с видео благодаря Quicksync и поддержка OpenCL, позволяющая существенно поднять производительность во многих приложениях. Теоретически, владелец компьютера с HD4600 сможет даже поиграть в некоторые старые игры в высоком разрешении.
Если говорить об апгрейде, то разница с Ivy Bridge слишком мала, чтобы даже задумываться о переходе. Видеоядро Sandy Bridge существенно слабее, но прирост все равно не настолько большой, чтобы оправдать замену процессора и материнской платы. Разве что вам обязательно нужен OpenCL, который встроенной графикой Sandy Bridge не поддерживается.
А вот владельцам процессоров предыдущих поколений стоит всерьез задуматься. И дело не только в росте производительности, но и в серьезном повышении эффективности системы в целом. При том же уровне производительности, что и у старых дискретных решений среднего уровня, покупатели смогут вообще отказаться от внешнего графического адаптера. Это и дешевле, и корпус можно выбрать заметно меньше. Кроме того, энергопотребление системы, а значит — нагрев окружающего пространства и шум вентиляторов охлаждения, будет гораздо меньше.
Серверы и рабочие станции
Необходимости перехода с Xeon E3-12xx и Xeon E3-12xx v2 ради нового графического ядра P4600 нет. Если говорить о рабочих станциях, то хоть какой-то смысл появляется только при переходе с Sandy Bridge из-за отсутствия поддержки в нем OpenCL (и только для редких серверных приложений, которые OpenCL используют).
Мобильные решения
Это, пожалуй, самый интересный и перспективный сегмент, и к тому же самый массовый на сегодняшний день. Тем более что в мобильных системах чистая производительность сейчас не играет решающей роли, а рассматривается лишь как одна из составляющих эффективности системы наряду с энергосбережением и другими факторами.
Для начала посмотрим на основные линейки, GT2 и GT3(e). Для GT2 оценивать имеет смысл основное решение HD 4600.
HD 4600
Современный универсальный видеоадаптер обладает достаточным уровнем производительности для любых задач, кроме узкоспециальных (трехмерное моделирование, например) и игр. Впрочем, если снизить настройки качества графики, то в относительно простые или относительно старые игры играть можно.
Общий уровень производительности превосходит HD 4000, но в обычных задачах (кроме игр) это вряд ли будет заметно. HD 4600 имеет хорошую оптимизацию для работы с видео (Quicksync) и любыми приложениями, умеющими использовать преимущества OpenCL. Причем здесь важен не только рост скорости выполнения задач, но и рост общей энергоэффективности за счет оптимизации. Но в Ivy Bridge поддержка этих технологий тоже есть, поэтому переходить с него на Haswell бессмысленно. А вот переход с Sandy Bridge уже имеет смысл: и скорость заметно выше, и поддержки OpenCL там не было, и по энергоэффективности Haswell далеко впереди. В мобильных системах это важный фактор.
HD/Iris Pro 5x00
Старшая версия интегрированной графики (особенно с Crystal Well) имеет заметно более высокую производительность, что позволяет существенно расширить список доступных задач и игр, включая и относительно современные. Тем более что пока у большинства ноутбуков относительно невысокие разрешения экрана, что облегчает задачу для графического адаптера. Наличие Crystal Well должно увеличивать и производительность системы в целом, хотя тут многое будет зависеть от типа задач.
Таким образом, современный Haswell с интегрированной графикой уровня 5ххх, а особенно с Iris Pro 5200, выглядит гораздо интереснее, чем Ivy Bridge c дискретной графикой младших серий. И речь даже не о чистой производительности (не факт, что разница с Ivy Bridge + дискретная графика будет такой уж разительной), а скорее в росте общей энергоэффективности системы. Плюс, это позволит упростить и удешевить конструкцию ноутбука (выкинув большой чип и всю его систему охлаждения). Таким образом, по общей эффективности ноутбуки с Iris/Iris Pro будут существенно обгонять предыдущее поколение.
Другое дело, что сама по себе рыночная ниша для того же Iris Pro 5200 выглядит довольно узкой: кому графическая производительность не нужна — те остановятся на HD 4600, а кому она очень важна — те так и так выберут современную дискретную графику. То есть этот чип выгодно использовать только в профессиональных моделях, которые должны сочетать высокую производительность и портативность. В остальных случаях особого смысла в нем нет.
Работа в паре с дискретной графикой
Наконец, стоит отметить, что Haswell эффективнее и при совместной работе с внешней графикой. Сейчас политика Intel такова, что графика обязательно должна быть гибридной: в случае, когда нагрузка невелика, работает интегрированный адаптер, а если требуется высокая производительность (в играх и пр.), то подключается мощная дискретная графика. Так вот, чем более мощным и оптимизированным будет интегрированный адаптер, тем больше задач он сможет решать самостоятельно — а это прямой выигрыш в энергопотреблении (т. е. ноутбук будет меньше греться, меньше шуметь, дольше работать от батарей и пр.).
В результате, переход на Haswell объективно выгоден не в силу роста производительности, а из-за того, что существенно растет энергоэффективность системы. И хотя преимущество не настолько велико, чтобы оправдать переход с предыдущего поколения, но в целом интегрированная графика Haswell представляет собой существенный шаг вперед, значительно поднимающий эффективность системы в целом.