В данном материале мы рассмотрим самое последнее существенное обновление процессорного ряда компании Intel: CPU Intel Core 2 Extreme QX9650 на ядре с кодовым наименованием Yorkfield. Данное ядро является частью нового семейства ядер для мобильных, десктопных и серверных процессоров под общим кодовым наименованием Penryn. Честно говоря, с наибольшим нетерпением основная группа пользователей ждала обновлённых двухъядерников на ядре Wolfdale — четырёхъядерники интересуют намного меньший процент потенциальных покупателей. Однако Intel в этот раз поступила как-то очень «по-AMD-шному», начав раскрутку нового семейства с процессоров для экстремалов и серверов. Поэтому следующее, что мы увидим после Core 2 Extreme QX9650, это будет серия из трёх процессоров Core 2 Quad (ядро Yorkfield):
Процессор | Частота, ГГц | Частота шины (QP, МГц) | Объём L2-кэша (МБ) | TDP, ватт |
Q9550 | 2,83 | 1333 | 12 (6×2) | 95 |
Q9450 | 2,66 | 1333 | 12 (6×2) | 95 |
Q9300 | 2,50 | 1333 | 6 (3×2) | 95 |
и пяти Core 2 Duo (ядро Wolfdale):
Процессор | Частота, ГГц | Частота шины (QP, МГц) | Объём L2-кэша (МБ) | TDP, ватт |
E8500 | 3,16 | 1333 | 6 | 65 |
E8400 | 3,0 | 1333 | 6 | 65 |
E8300 | 2,83 | 1333 | 6 | 65 |
E8200 | 2,66 | 1333 | 6 | 65 |
Однако произойдёт это уже в 2008 году. Ну а сейчас мы рассмотрим единственный процессор из нового семейства, который уже доступен… ну, по крайней мере, нашей тестовой лаборатории. :)
Архитектура Intel Core: небольшой, мягкий апгрейдПереход на новый технологический процесс всегда оказывает благотворное влияние на фантазию разработчиков: и транзисторов можно впихнуть побольше, и энергопотребление на пару с нагревом снижаются просто за счёт техпроцесса, без применения разных хитрых и нестандартных технических решений. Поэтому нет ничего удивительного в том, что старый добрый Conroe решили немного модифицировать. Впрочем, модификации не отличаются особой оригинальностью подхода, и уж точно — первая из них.
Новый кэш
Максимальный объём разделяемого между двумя ядрами L2-кэша увеличили до 6 МБ (ранее максимум был равен 4 МБ). Соответственно увеличилось и количество каналов ассоциативности — с 16 до 24 (легко заметить, что 6/4=24/16). Также благодаря новому механизму Enhanced Cache Line Split Load кэш стал более интеллектуальным: данный механизм пытается повысить скорость считывания блоков данных, которые распределены между разными строками кэша. Теоретически, это может увеличить скорость работы программ, активно сканирующих большие области памяти, например, всевозможных кодеков и архиваторов.
Новый набор инструкций
Компания Intel уже давно является законодательницей мод в области расширения набора x86-инструкций без кардинальной его переделки — MMX, SSE, SSE2, SSE3… Когда-то AMD пыталась с ней соперничать, создав расширение 3DNow!, но на этом попытки закончились, и сейчас она предпочитает просто лицензировать наборы расширений у Intel. Новое расширение имеет наименование SSE4.1, что должно подчеркнуть некоторую его незаконченность — подразумевается, что будет ещё как минимум SSE4.2. В SSE4.1 входят 47 новых команд, предназначенных для ускорения работы с потоковыми данными и кодирования видео, а также для использования в научных расчётах. Подробнее мы на данном вопросе останавливаться не будем т.к. он достоин отдельной статьи. Остаётся лишь добавить, что из популярного ПО SSE4.1 на данный момент уже поддерживает MPEG4-кодек DivX версии 6.7.
Обновлённые функциональные блоки
Основные изменения коснулись блоков быстрого деления и битовых смещений: Fast Radix-16 Divider и Super Shuffle Engine. Блок деления Radix-16, используемый в ядре Conroe, обрабатывал за один проход 2 бита, Fast Radix-16 — 4 бита. Новый же Super Shuffle Engine теперь обеспечивает выполнение любых операций битовых перестановок в 128-битном регистре за 1 такт. По словам Intel, это должно существенно ускорить выполнение не только команд из нового набора SSE4.1, но и «старых» SSE3. Ну и кроме того, нам обещают очередные плановые улучшения в механизмах виртуализации.
В целом, всё это как-то подозрительно напоминает Prescott, вам не кажется? :) Однако мы всё же будем надеяться, что сходство исключительно формальное.
Аппаратное и программное обеспечениеКонфигурация тестовых стендов
Комплектующие, общие для всех проводимых тестов:
- Память типа DDR2: Corsair CM2X1024-6400C4, 2 x 1 ГБ, DDR2-800, 4-4-4-12.
- Память типа DDR: Corsair CMX1024-3500LLPRO, 2 x 1 ГБ, DDR-400, 2-3-2-6.
- Плата для LGA775: ASUS P5B Deluxe, чипсет Intel P965.
- Плата для Socket AM2: ASUS M2N32-SLI Deluxe, чипсет NVIDIA nForce 590 SLI.
- Плата для Socket 939: ECS RD480-A939, чипсет ATI CrossFire Xpress 1600.
- Жёсткий диск: Samsung HD401LJ (SATA-II).
- Кулер для процессоров Socket AM2: стандартный, боксовый.
- Кулер для процессоров Core 2 Duo / Celeron: стандартный, боксовый.
- Кулер для процессоров Core 2 Quad / Extreme: Zalman CNPS9700 NT.
- Блок питания: Cooler Master RS-A00-EMBA.
- Видеокарта: Reference NVIDIA GeForce 8800 GTX, 768 МБ DDR3, PCI-E x16.
Тестируемые процессоры:
Процессор | Core 2 eXtreme QX6700 | Core 2 eXtreme X6800 | Core 2 eXtreme QX6850 | Core 2 eXtreme QX9650 | Athlon 64 X2 6000+ |
Технология пр-ва |
65 нм
|
65 нм | 65 нм | 45 нм | 90 нм |
Частота ядра, ГГц | 2,66 | 2,93 | 3,0 | 3,0 | 3,0 |
Кол-во ядер | 4 | 2 | 4 | 4 | 2 |
Кэш L2*, МБ | 8 | 4 | 8 | 12 | 2x1 |
Частота шины**, МГц | 1066 (QP) | 1066 (QP) | 1333 (QP) | 1333 (QP) | 2x800 (DDR2) |
Коэффициент умножения | 10 | 11 | 9 | 9 | 15 |
Сокет | LGA775 | LGA775 | LGA775 | LGA775 | AM2 |
Типичное тепловыделение*** | 130 Вт | 130 Вт | 130 Вт | 130 Вт | 125 Вт |
AMD64/EM64T | + | + | + | + | + |
Virtualization Technology | + | + | + | + | + |
* — если указано «2x…», то имеется в виду «по … на каждое ядро»
** — у процессоров AMD — частота шины контроллера памяти
*** — у процессоров Intel и AMD указывается по-разному, поэтому сравнивать напрямую некорректно
Программное обеспечение
- Windows XP Professional x64 edition SP1
- 3ds max 9 x64 edition
- Maya 8.5 x64 edition
- Lightwave 3D 9 x64 edition
- MATLAB R2006a (7.2.0.32) x64 edition
- Pro/ENGINEER Wildfire 2.0
- SolidWorks 2005
- Photoshop CS2 (9.0)
- Visual Studio 2005 Professional
- Apache HTTP Server 2.2.4
- CPU RightMark 2005 Lite (1.3) x64 edition
- WinRAR 3.62
- 7-Zip 4.42 x64 edition
- FineReader 8.0 Professional
- LAME 3.97
- Monkey Audio 4.01
- OGG Encoder 2.83
- Windows Media Encoder 9 x64 edition
- Canopus ProCoder 2.01.30
- DivX 6.4
- Windows Media Video VCM 9
- x264 v.604
- XviD 1.1.2
- F.E.A.R. 1.08
- Half-Life 2 1.0
- Quake 4 1.3
- Call of Duty 2 1.2
- Serious Sam 2 2.07
- Supreme Commander 1.0.3220
Необходимое предисловие к диаграммам
Форма представления результатов в используемой нами методике тестирования имеет две особенности: во-первых, все типы данных приведены к одному — целочисленным относительным баллам (производительность рассматриваемого процессора относительно Intel Core 2 Duo E4300, если скорость последнего принять за 100 баллов), и, во-вторых, подробные результаты приводятся в виде таблицы в формате Microsoft Excel, в самой же статье присутствуют только сводные диаграммы по классам бенчмарков. Тем не менее, иногда мы будем обращать ваше внимание на подробные результаты, если они того заслуживают.
Пакеты трёхмерного моделирования
С самого начала QX9650 делает серьёзную заявку на победу: выигрыш у ближайшего конкурента составляет 6,5%. Конечно, сама по себе цифра достаточно скромная, но давайте не будем забывать, что частота у QX9650/6850 — одинаковая, поэтому выигрыш новичка обусловлен другими причинами.
CAD/CAE пакеты
Различные пакеты прореагировали на новый процессор совершенно по-разному: MATLAB даже больше понравился старый QX6850 (у него результат чуть повыше, чем у QX9650), SolidWorks остался практически равнодушен к новому CPU (всего 3% прироста скорости), а вот Pro/ENGINEER QX9650 встретил с бурным одобрением: его выигрыш у QX6850 в данном пакете составляет почти 6%.
Обработка цифрового фото
Даже если обратиться к подробным результатам, каких-то особенно выдающихся подтестов не видно: везде QX9650 чуть-чуть быстрее QX6850, благодаря чему в итоге он и оказывается чуть-чуть быстрее в среднем. Поэтому довольно сложно строить предположения о том, за счёт чего выигрывает новый процессор — то ли объём кэша повлиял, то ли ускоренные вычислительные блоки.
Компиляция
Компиляторы любят большой кэш, поэтому результат был предсказуем. С одной стороны, это радует (ведь «предсказание» было хорошее), с другой — на фоне явного преимущества QX9650 в объёме L2, другие его преимущества в этом тесте остались нераскрытыми. :)
Веб-сервер
Явление, о котором мы уже писали, сводит на нет все преимущества сегодняшних четырёхъядерников от Intel в архитектуре и объёме L2-кэша (особенно последнее).
Синтетика
Сногсшибательный результат, причём если обратиться к подробностям, то видно, что решающим стал почти 2-кратный выигрыш QX9650 в модуле Solver, который не распараллелен, и занимается обсчётом физической модели. Пожалуй, мы закажем программистам CPU RightMark отдельное исследование по данному вопросу, но основной вывод настолько очевиден, что, скорее всего, правилен: мы наблюдаем результаты модернизации вычислительных блоков процессора (к объёму кэша CPU RM достаточно равнодушен, это подтверждается многими прошлыми тестированиями).
Упаковка данных
Достаточно скромный результат, учитывая выросший в полтора раза объём кэша второго уровня. Есть предположение, что основная проблема в платформе, и узким местом стала память.
Оптическое распознавание
Здесь, судя по трём верхним линейкам, мы явно упёрлись во что-то другое, но никак не в процессор. Может, в подсистему памяти? Тогда, по идее, это будет заметно в будущих тестах с использованием DDR3-1333…
Кодирование аудиоданных
«Старая» подгруппа тестов, практически полностью потерявшая актуальность на данный момент ввиду высокой предсказуемости результатов. No comments.
Кодирование видеоданных
Особенных преимуществ в кодировании видео QX9650 не продемонстрировал, хотя надежды на ускоренные блоки после результатов CPU RightMark у нас появились. Однако не удовлетворившись стандартными тестами по основной методике, мы захотели попробовать, какие же неизведанные прелести несёт нам кодек DivX 6.7 с поддержкой SSE4. Настройка этой поддержки происходит вот таким образом:
Как видите, в настройках кодека DivX 6.7 появилась новая опция Experimental SSE4 full search. Вообще-то, если уж по-честному, то использование разработчиками ПО эвфемизма «Experimental» знающим людям само по себе говорит многое. В переводе с технического на русский, это, как правило, звучит примерно так: «Мы тут чего-то напрограммировали, впечатлённые новыми возможностями — но всерьёз это даже сами пока не воспринимаем».
Результаты, полученные нами, выглядят достаточно странно. Судите сами:
Разрешение использования данной функции кодека, как легко заметить по результатам тестов — приводит, в общем-то, к замедлению процесса кодирования. Однако если функция реализуется с помощью команд SSE2, то замедление оказывается довольно существенным, а вот если с помощью команд SSE4 — почти неощутимым.
Таким образом, на основании имеющихся у нас данных и принципа Оккама, мы можем предположить следующее: была у разработчиков кодека DivX некая мечта, но до появления SSE4.1 воплощение её в коде было уж слишком «тормозным». А тут вдруг предоставилась такая интересная возможность…
Остаётся надеяться, что «мечта» действительно обеспечивает увеличение качества закодированной картинки или степени сжатия т.к. в противном случае не очень понятно, зачем её вообще реализовывать. :)
Игры
Несмотря на внушительную победу QX9650, нам всё же хочется обратить ваше внимание на подробные результаты, приведенные в таблице. Нетрудно заметить, что основное превосходство новый процессор продемонстрировал в режимах Low Quality или (иногда) Medium Quality. Это свидетельствует о том, что перспективы у него самые замечательные (мощности процессора хватает с запасом в том числе для игр), но в качестве процессора для игровой машины сегодняшнего дня, QX9650 окажется, скорее всего, избыточным: в высоких разрешениях и при высоком качестве графики, мы всё равно упираемся в видеокарту, и разница между QX9650 и QX6850 практически неощутима.
Общие баллы
Линейки на диаграммах говорят сами за себя. Мы лишь отметим, что в «профессиональном» ПО отрыв процессора на базе нового ядра от ближайшего конкурента выглядит намного более внушительно, чем в «домашнем». В целом, тенденция с нашей точки зрения сугубо положительная: пусть «монстры производительности» будут быстры именно там, где их производительность смогут оценить по достоинству.
Предположительное энергопотребление
Несмотря на заявленный TDP 130 ватт (в точности такой же, как у QX6850), реальное энергопотребление QX9650 при 100% нагрузке равно 76 ваттам, что даже меньше чем у более низкочастотного QX6700, произведенного по старой 65-нм технологии. И даже если рассматривать данную цифру в абсолютном значении, согласитесь: 76 ватт для самого топового продукта в линейке — это явно немного. Давненько мы не видали high-end процессоров, которым бы удалось не перешагнуть знаковый 100-ваттный рубеж.
ЗаключениеК счастью, Prescott из Penryn не получился: при одинаковой частоте работы ядра, новый процессор оказался на внушительные 8% быстрее старого (согласно общего среднего балла нашей методики), причём некоторые признаки свидетельствуют о том, что не только за счёт экстенсивного подхода (увеличение объёма L2-кэша), но и за счёт реального повышения быстродействия вычислительных блоков. На новую архитектуру это, конечно, не тянет, но обновление существующей явно удалось. Если ещё и с доступностью «нижних» моделей на новом ядре проблем не будет, то основному конкуренту Intel, кажется, пора начинать серьёзно беспокоиться: пока мы всё ждём и ждём фактического появления на десктопе AMD K10, новая архитектура Intel уже в который раз демонстрирует взятие очередной планки производительности. Если так и дальше пойдёт — кое-кто может дождаться ситуации, когда его новые процессоры окажутся по быстродействию слабее более «старых» конкурентов…