Измерить производительность ПК всегда полезно, но на этом тернистом пути есть и много препятствий. Хорошо сравнивать ПК по простым критериям, например по объему жесткого диска. Казалось бы, здесь все легко чем больше, тем лучше. Но даже если отбросить такой важный параметр, как цена (и часто используемое отношение объем/стоимость), то остаются и другие интересные критерии например, "объем / шум", "объем / энергопотребление", и даже "объем / производительность". Есть и еще один "параметр" может вам и не нужен диск на 180 GB, а достаточно и 10 GB. Даже на таком простом примере видна одна из главных проблем всех сравнений односторонность оценок. В этом примере нам еще повезло не очень большое влияние оказывает субъективный фактор. А представьте, как тяжело сравнивать, например, колонки или качество кодирования в формат MP3.
Наиболее часто используемые в тестировании пакеты программ обычно дают простой ответ на вопрос, что лучше один ПК (процессор, видеокарта, жесткий диск ) или другой, но совершенно упускают индивидуальный момент сравнения, а именно, ответ на встречный вопрос: "А для чего?". Идеальный тест должен давать каждому пользователю возможность оценить и выбрать конфигурацию ПК именно с точки зрения используемых этим пользователем приложений и с учетом их важности для него. Однако поскольку сколько людей, столько и мнений (конфигураций, приложений ), написать такой тест просто нереально. Поэтому используются другие подходы к оценке скорости во-первых, исследуется скорость работы в реальных приложениях, во-вторых, проводятся чисто аппаратные "низкоуровневые" тесты.
В первом случае "неуниверсальность", естественно, обуславливается отличием выполняемых скриптов от действий конкретного пользователя. Однако используемая последовательность действий обычно выбирается, исходя из исследования работы с приложением большого количества людей, и это дает основания предполагать, что полученные значения производительности применимы ко многим сценариям реальной работы.
Во втором случае вмешивается отличие кода тестовой программы от используемого в конкретном "рабочем" приложении, благодаря чему результаты получаются "рафинированными", отдаленными от жизни. Однако есть и плюсы: эти результаты могут дать представление о возможном быстродействии компьютера не только в существующих приложениях, но и в еще не созданных. Для достижения такого эффекта исследуется поведение приложений определенного класса, и на основании этих данных строится шаблон действий для синтетического теста.
Есть и еще один вид бенчмарков так называемые "100% синтетические". Вот мы берем, к примеру, и исследуем пиковую скорость обмена с памятью. Получаем (опять-таки, к примеру), что равна она 1600MBps. О чем этот говорит? В отдельно взятом случае ни о чем. Вместо MBps на это место можно вписать тех же "крокодилов", "попугаев" или просто "баллы" ничего не изменится. Однако и от таких тестов иногда нельзя отказываться, правда, как правило, их "не любят" ни тестеры, ни читатели. Мы их стараемся использовать только в самых крайних случаях и с большими оговорками при комментировании результатов.
Тема корректности тестов очень благодатная, и рассуждать о ней можно много. Однако не она является темой данной статьи, которая задумывалась всего лишь как обзор нового продукта компании AMD процессора Athlon MP, однако неожиданно переросла в более массивное исследование производительности различных систем и увеличилась до двух частей. В первой части описаны тесты систем на процессорах Intel Pentium III, AMD Athlon / Athlon MP, а во второй дополнительно участвует Intel Pentium 4.
Здесь вы не найдете высказываний типа "Pentium III это уже старо", "Athlon MP это серверный процессор и тестировать его в Word 2000 нет смысла", "а Athlon зато сильно дешевле", ну и всякое такое :). Для подобных (но только обоснованных и корректных!) обсуждений есть конференция. Здесь же будут приведены просто цифры и некоторые рассуждения о том, почему они именно такие. Отличие от предшествующих материалов заключается еще и в том, что рассмотрение тестов идет по отдельным приложениям, а не по интегральным оценкам. Это, я надеюсь, поможет ответить на простые вопросы о пригодности рассматриваемых систем к работе над конкретными задачами.
Но сначала немного информации о новых продуктах компании AMD.
Процессор AMD Athlon MP и чипсет AMD 760 MP
Внешне новый процессор AMD отличается от своего предшественника незначительно (картинки можно увеличить):
Внутренних же отличий практически нет. В этой короткой табличке можно найти только одно:
Athlon MP | Athlon | Pentium III | Pentium 4 | |
---|---|---|---|---|
Operations per clock cycle | 9 | 9 | 5 | 6 |
Integer pipelines | 3 | 3 | 2 | 4 |
Floating point pipelines | 3 | 3 | 1 | 2 |
Full x86 decoders | 3 | 3 | 1 | 1 |
L1 cache size | 128KB | 128KB | 32KB | 12KB+8KB |
L2 cache size | 256KB | 256KB | 256KB | 256KB |
Maximum System bus speed | 266MHz | 266MHz | 133MHz | 400MHz |
SIMD | 3DNow! Professional | Enhanced 3DNow! | SSE | SSE2 |
SMP support | + | + | + | - |
Естественно, в описаниях процессоров можно найти еще много всяких "enhanced", "advanced" и "hyper", но их глубокое значение известно только избранным (и еще вопрос известно ли). К тому же, превосходство "advanced" над "enhanced", а "hyper" над "advanced" чаще всего любят оценивать маркетологи, а не профессионалы (подсказка: как правило, численно это превосходство оценивается ими по старой маркетологической традиции "в попугаях", ибо " а в попугаях я все-таки длиннее!" :)).
Для нового процессора компания AMD сделала и новый чипсет AMD-760MP. Это первый чипсет для SMP платформ на базе процессоров AMD. Его краткие характеристики:
- северный мост AMD-762, system controller
- южный мост AMD-766, peripheral bus controller
- двойная процессорная шина 200/266MHz для процессоров Athlon
- поддержка до 4GB оперативной памяти PC1600 и PC2100
- поддержка порта AGP 4X (включая режимы 1X и 2X)
- поддержка шины PCI 2.2
- 7 PCI слотов 33MHz 32/64-bit или 2 PCI слота 66MHz 32/64-bit
- два канала EIDE, ATA 33/66/100
- четыре порта USB
- поддержка управления питанием (включая ACPI)
Чипсет использует классическую архитектуру с северным и южным мостом. Связь между ними осуществляется по шине PCI с максимальной пропускной способностью 133 MBps. Несмотря на поддержку чипом AMD-762 шины PCI с частотой 66MHz, в настоящий момент нет южных мостов, работающих на такой скорости, поэтому такие конфигурации пока невозможны. Отличий от известного чипсета AMD-760 всего два поддержка двухпроцессорных конфигураций и 64-битной шины PCI, ну а южный мост вообще используется тот же (AMD-766).
Первой реализацией материнской платы на чипсете AMP-760MP стала Tyan Thunder K7 S2462. Компания Tyan давно сотрудничает с AMD и поэтому появление первой платы именно от этого производителя выглядит закономерным (по некоторым данным, именно Tyan разрабатывала для AMD так называемый "reference design" плат на AMD-760MP). Первоначальная ориентация платформы на рынок серверов и высокоуровневых рабочих станций сказалась и на этом продукте он обладает всеми особенностями серверной платы: интегрированные SCSI-контроллер, сеть, видео. А расположение слотов DIMM под углом 45 градусов к плате, видимо, призвано помочь ее установке в серверные 1U/2U стоечные корпуса.
Основные технические характеристики:
- чипы AMD-762 и AMD-766
- поддержка одного и двух процессоров AMD Athlon/Athlon MP в PGA462 сокетах
- 4 разъема Registered DIMM
- до 3 GB PC2100 памяти
- поддержка ECC
- слот AGP Pro, 4x
- пять слотов PCI 2.2, 33MHz/64bit
- мониторинг системы, чип Winbond W83627HF, 6(!) вентиляторов, 2 температуры, 5 напряжений
- двухканальный контроллер EIDE, ATA100/66/33
- интегрированный видеоконтроллер на чипе ATi Rage XL, 4MB видеопамяти
- два сетевых адаптера 10/100BaseTX на чипах 3Com
- двухканальный Ultra160 SCSI контроллер на чипе Adaptec AIC-7899W
- опциональный Server Management контроллер QLogic Zircon
- порты FDD, 2 x COM, 1 x LPT, 4 x USB
- Phoenix BIOS, 4MB, APC, ACPI, DMI
- формат Extended ATX 30.5cm x 33cm
- два нестандартных разъема питания, на 24 и 8 контактов
Плата выполнена качественно, как и подобает такому производителю, как Tyan. В комплекте поставляются: описание, компакт-диск с драйверами, планка второго COM-порта, FDD- и ATA/100-шлейфы. В процессе установки было отмечено несколько затруднений с вентиляторами, разъемами FDD и питания. Вентиляторы для процессоров Athlon обычно достаточно крупные. Мы использовали Thermaltake Mini Copper Orb, и их оказалось достаточно сложно установить, особенно со стороны, обратной защелке очень близко расположены конденсаторы. А у первого процессора "мешается" и один из модулей DIMM. Порт FDD расположен у нижнего края платы, далеко от реального расположения дисковода в стандартном корпусе, и его шлейф путается с проводами SCSI (впрочем, такая плата и предназначена по идее не для стандартных корпусов все-таки серверная ориентация). Основной разъем питания платы расположен практически в самом центре, что затрудняет подключение к нему, тем более, что кабель насчитывает 24 провода. Однако возможно, что такое расположение FDD и питания лучше подходят для стоечных серверов, так что это не большой недостаток.
Все интегрированные контроллеры (видео, SCSI, два сетевых) можно отключить с использованием перемычек. Кроме них на плате есть четыре перемычки, определяющие частоту FSB. С ними произошла забавная история оказалось, что по умолчанию на новой плате они стояли в частично документированном положении 90MHz FSB, и поэтому установленные первыми Athlon 1GHz работали только на 676MHz. Конечно, после их установки на 133MHz все исправилось, но как-то это неожиданно для Tyan.
В процессе установки операционной системы возникла еще одна небольшая проблема. Я хотел поставить систему, загрузившись с компакт-диска, но оказалось, что ATAPI DVD-ROM не является стандартным устройством CD-ROM по мнению BIOS платы. Не признала она за "своего" и 48x CD-ROM компании Philips. И только Samsung SCR-2432 1998 года выпуска оказался ей мил. В общем, это тоже мелочь, и ее, я надеюсь, скоро исправят ("глюки" имеют явно "BIOS-ное" происхождение).
Phoenix BIOS, использованный на плате, имеет минимальный набор настроек, необходимый плате такого класса стандартные (настройка интегрированных портов, IDE устройств), выбор порядка устройств при загрузке, настройка параметров шины PCI. Никаких возможностей разгона процессоров, конечно, нет, все-таки это продукт Tyan.
Компания также планирует выпуск облегченного варианта S2462, платы Tiger MP S2460. На ней не будет SCSI, сети, видео. За счет этого цена платы будет значительно ниже.
Тесты и программы
Двухпроцессорные платформы обычно позиционируются для серверных применений. К сожалению, использовать серверные/сетевые тесты мы (я надеюсь, пока) не можем в силу технических причин, так что остаются только автономные задачи. Поэтому будем считать, что тесты проводятся, исходя из специфики "высокопроизводительной рабочей станции".
Важным аспектом проведения тестов является настройка системы перед их выполнением бывают ситуации, когда незначительный "твикинг" системы может заметно повлиять на результаты тестов. Как пример можно привести включение режима DMA у EIDE жестких дисков или режима чередования банков памяти у плат на чипсетах VIA. К счастью, сегодня технология производства материнских плат достигла того уровня, когда платы разных производителей, выполненные на одной элементной базе, показывают очень близкие результаты (это можно наблюдать в последних обзорных статьях по материнским платам на базе чипсетов Intel i815/i845/i850). Что касается сравнения плат, основанных на разных платформах, то здесь вопрос сложнее. Некоторые параметры настройки просто разные (например у памяти RDRAM и DDR RAM). Поэтому был выбран вариант использования настроек по умолчанию во всех конфигурациях. Это позволит сравнить скорость базовых систем, а дальнейшие настройки и оптимизации это тема для отдельной статьи :).
С настройкой программ немного проще, хотя и здесь бывают подводные камни (как, например, ограничение драйвером от NVidia режима AGP до 2x на некоторых системах с чипсетами VIA). Перед каждой установкой на жестком диске уничтожался системный раздел. После этого производилась установка Windows 2000 с компакт-диска с созданием одного NTFS-раздела. Устанавливались драйвера материнской платы, Service Pack 2, драйвера видеокарты и сетевого контроллера.
Еще одним нюансом проведения тестов является их возможная оптимизация под наборы дополнительных инструкций различных процессоров. Это также может очень сильно повлиять на результат. С одной стороны, такое использование SIMD-инструкций несколько нарушает "честность" сравнения, но с другой если как раз для вашего любимого приложения есть возможность их использования, то почему бы и нет?
Однако в поддержке этих наборов инструкций есть и еще одна проблема приложение должно определить, что такай набор у процессора есть и в этом случае использовать SIMD-инструкции. Конечно, идеальный случай когда есть возможность как автоматического, так и ручного контроля за этим процессом. Как вы помните, несколько лет назад программы определяли процессоры Intel Pentium по поддержке ими инструкции CPUID, что приводило к проблемам при работе с другими CPU, в которых также реализовали эту инструкцию, но которые не были полностью совместимы с Pentium. Поэтому сейчас, когда набор, например, MMX поддерживается как процессорами Intel, так и AMD, на последних он может не всегда реально использоваться.
Коротко о SIMD-инструкциях
Сокращение SIMD Single Instruction Multiple Data обозначает инструкции, оперирующие большим количеством аргументов сразу. Основным направлением их использования являются мультимедийные приложения, которым необходимо выполнять однотипные операции над большими потоками цифровой информации. И первое применение они нашли именно в различных программах обработки цифровой мультимедийной информации. Это объяснялось тем, что приложения было довольно легко оптимизировать достаточно было переписать наиболее трудоемкий участок кода библиотеки кодирования-декодирования и сразу был виден значительный прирост скорости. Конечно, данные наборы инструкций можно применять и в программах научных расчетов, однако это сопряжено с большими сложностями по оптимизации кода. Да и первые наборы SIMD-инструкций умели работать только с целочисленными данными, поэтому их применение было ограничено.
Первый набор дополнительных инструкций был представлен Intel в 1997 году в процессоре Intel Pentium MMX. Спецификация MMX определяла новые, 64-битные типы данных:
- Packed byte, 8 bytes packed into 64 bits
- Packed word, 4 words packed into 64 bits
- Packed doubleword, 2 doublewords packed into 64 bits
- Packed quadword, 64 bits
и 57 новых инструкций, выполняемых над ними в новых, 64-битных регистрах процессора.
Позже, в 1999 году, с процессорами Intel Pentium III был объявлен набор SSE, добавляющий к MMX еще 70 новых инструкций и возможность работать с вещественными данными одинарной точности (single precision). В основном новые инструкции были направлены на работу с потоковыми данными, отсюда и произошло название SSE Streaming SIMD Extensions. Кроме того, было добавлено еще восемь 128-битных регистров.
С созданием нового процессора Intel Pentium 4 в 2000 году Intel объявил о дальнейшем расширении набора SIMD в своих процессорах Pentium 4 поддерживает набор инструкций SSE2, позволяющий теперь выполнять блочные операции над данными двойной точности (double precision). Ну и, конечно, увеличилось количество команд еще на 144.
Компания AMD тоже не стояла на месте и с выходом процессора AMD K6-2 представила свою технологию SIMD под названием 3DNow! Кроме поддержки всех расширений MMX она включала 21 новую команду для работы с вещественными числами одинарной точности (single precision). При этом использовались те же дополнительные восемь 64-битных регистров, что и у Intel Pentium MMX.
В процессоре AMD Athlon компания реализовала еще 24 новые инструкции; получившийся набор был назван Enhanced 3DNow! Новые инструкции включали 19 для улучшения целочисленной арифметики MMX и дополнительных возможностей перемещения потоковых данных, а также 5 инструкций класса digital signal processing (DSP) для приложений типа программных модемов, Dolby Digital и обработки MP3.
В последний процессор компании Athlon MP добавили и поддержку технологии SSE, а получившаяся комбинация из Enhanced 3DNow! и SSE была названа 3DNow! Professional.
Для современных процессоров картина с поддержкой SIMD-инструкций выглядит так:
MMX | SSE | SSE2 | 3DNow! | |
Intel Pentium III | + | + | ||
Intel Pentium 4 | + | + | + | |
AMD Athlon | + | + | ||
AMD Athlon MP | + | + | + |
Проведение тестов на SMP системах также имеет свои особенности. Дело в том, что отдельные приложения могут использовать мультипроцессорность только в том случае, если они были созданы специально с учетом этого. Для остальных же никакого прироста в скорости работы не будет. Однако и они могут выиграть от использования второго процессора, если вам захочется одновременно запустить два (одинаковых или разных) приложения, например архиватор и MP3 проигрыватель.
С учетом вышесказанного мы будем в каждом конкретном случае приводить особенности используемого теста для наиболее полной картины описания результатов.
При тестировании было использовано множество программ. Во-первых, это пакеты SYSmark 2000 (patch 5) и Intel Pentium 4 Application Launcher 2.1 (далее P4AL). Они очень похожи и отличаются только набором приложений. Смысл тестов состоит в выполнении программой некоего скрипта. Конечно, вопрос о том, насколько выполняемые действия используются именно вами, спорен, зато тест является стандартным и есть возможность оценивать скорость работы совершенно разных ПК по всему миру. Измерив время выполнения скрипта (или достигнутый в процессе его работы fps), программа сравнивает результат с базовой системой и выставляет итоговый балл в виде % от скорости базовой системы. Например, если ваш результат 150, это означает, что ваш ПК выполняет данный тест в полтора раза быстрее некоего базового для данного теста ПК. К сожалению, что конкретно делают скрипты в SYSmark 2000 неизвестно. А вот для P4AL есть подробное описание действий в каждом приложении. Еще одним его плюсом является то, что известна конфигурация базовой системы:
- материнская плата: Intel VC820
- процессор: Intel Pentium III 1GHz
- оперативная память: 128MB RDRAM
- видеокарта: Creative Labs Annihilator 2 (GeForce2) 32MB DDR RAM, 1024x768x16bit, драйвера v6.18
- жесткий диск: IDE IBM DTLA-307030 (ATA 100), FAT32
- операционная система: Microsoft Windows Millennium Edition
Однако и есть отрицательный момент как видно из названия, тест в основном ориентирован на процессор Pentium 4, поэтому на других конфигурациях возможны проблемы. Которые, кстати, и были отмечены. Например, для проведения одного из тестов потребовалась видеокарта именно на GeForce2 (во всех других тестах была использована карта на GeForce3). А для системы на Intel Pentium 4 и GeForce3 прекрасно подошел (но мы, конечно, оставили там GeForce2).
Отличается P4AL от SYSmark 2000 и тем, что используются более простые сценарии работы приложений. Например, преобразование только аудио/видео файла, проигрывание клипа и т.п.
Тест SYSmark 2001 не был использован, поскольку дает только пару общих цифр и нет возможности выяснить, за счет какого приложения получился именно такой результат. По тем же причинам не проводились тесты в Z&D Winstone 2001.
Во-вторых, использовался тестовый пакет SPECviewperf; его результаты приводятся только для однопроцессорных конфигураций, поскольку он не использует SMP. Правда, оказалось, что для него уже при процессоре частотой в 1.2GHz ограничением является видеокарта, поэтому его результаты не очень информативны.
Ну и не могли мы обойти вниманием такой популярный тест, как игра Quake 3 Arena. Конечно, использование данных конфигураций именно для игры в Quake3 не очень стандартно :), однако игра от октября 1999 года все еще адекватно оценивает быстродействие современных систем и вдобавок поддерживает SMP.
В качестве дополнительных тестов использовались программы 3DStudio MAX 3.0, Windows Media Encoder 7 (он также входит в P4AL) и Flask MPEG encoder с DivX 3.11. Подробности их применения приведены ниже.
Конфигурации
В первой части обзора будут тестироваться следующие процессоры в одно- и двухпроцессорных конфигурациях:
- Intel Pentium III 1GHz
- AMD Athlon 1GHz
- AMD Athlon 1.2GHz
- AMD Athlon MP 1.2GHz
Процессор Pentium III имеет частоту FSB 133MHz, а у всех процессоров Athlon она составляет 266MHz. В целом, нас интересует их сравнение по парам: Pentium III 1GHz vs. Athlon 1GHz и Athlon 1.2GHz vs. Athlon MP 1.2GHz. И "за", и "против" тестов процессоров на одной частоте можно привести множество аргументов. Ведь, несмотря на формально одинаковую частоту ядра, мы имеем разную внутреннюю архитектуру, частоту FSB, разные процессорные шины, ну и, в конце концов, сильно отличающуюся цену. Тем не менее, поскольку никто не мешает читателям выбирать на диаграммах именно те процессоры, которые хочется, одинаковость частот может рассматриваться просто в качестве бонуса.
Для системы на базе Intel Pentium III использовалась материнская плата Tyan Thunder HEsl (S2567). Система для процессоров AMD была построена на двухпроцессорной плате Tyan Thunder K7 (S2462). Все остальные детали конфигурации были выбраны по возможности одинаковыми:
- оперативная память 512MB (для Pentium III ECC Reg SDRAM, для Athlon Reg DDR RAM)
- видеокарты MSI MS-8822 GeForce3 и Inno3D GeForce2 GTS (для теста P4AL)
- жесткий диск IBM DDYS 18GB, Ultra160 SCSI
- Ultra160 SCSI контроллеры на материнских платах (S2576 на базе чипа LSI, S2462 на базе чипа Adaptec)
Как видите, тестовые конфигурации все-таки немного отличаются у них используются разные SCSI-контроллеры. Однако проведенный экспресс-тест SYSmark 2000 с разными контроллерами (пробовался внешний контроллер на базе Ultra160-чипа QLogic) на одной системе показал, что разница результатов не превышает 2%, и поэтому мы считаем себя вправе не учитывать это отличие при интерпретации результатов. На платах также интегрированы разные сетевые чипы от Intel и 3Com, однако во время проведения тестов они отключались средствами операционной системы.
Что касается различных технологий памяти, то в настоящее время сравнять эти параметры сложно, да и, как уже много раз было показано, использование DDR RAM для системы на базе Intel Pentium III не приносит большого выигрыша в производительности. Так что придется с этим смириться. Заметим, правда, что на выбранной для процессоров Intel платформе S2567 применены микросхемы ServerWorks, а у них используется технология чередования при работе с памятью, что в некотором смысле аналогично DDR RAM.
По возможности все комплектующие подбирались так, чтобы ограничением скорости работы приложений являлись процессор(ы) и материнская плата. Насколько это удалось, покажут тесты.
Тестирование проводилось под управлением операционной системы Windows 2000 Pro, SP2. Для платы на базе микросхем AMD использовались драйвера для чипсета (их можно найти на сайте AMD). Для платы на чипсете ServerWorks их просто не существует, поэтому есть некоторые сомнения в максимальной скорости работы AGP. Скорее всего, она работала "в режиме PCI". Однако большинство проводимых тестов опирается скорее на вычислительную мощь процессора, чем видеокарты. Далее в тексте будет отмечено, где и как сказывается влияние скорости AGP (тесты SPECviewperf и Quake3). При возможности мы повторим эти тесты на более "правильной" системе.
Для видеокарт использовались драйвера версии 12.40, VSync был отключен, разрешение экрана 1280x1024x32. Для тестов P4AL использовалась видеокарта Inno3D GeForce2 GTS, для всех остальных MSI MS-8822 GeForce3.
Результаты тестирования
Первая часть тесты приложений SYSmark 2000. Данный тест применяется нами уже очень давно, так что описывать его здесь подробно не будем. Из приложений, используемых в SYSmark 2000, только Windows Media Encoder 4.0 полностью поддерживает SMP (и только на нем, кстати, хорошо виден прирост быстродействия от установки второго процессора). Поэтому его результаты будут приведены и для двухпроцессорных систем.
Распределение участников по результатам тестов набора Office Productivity не принесло никаких неожиданностей чем больше частота процессора, тем выше результат. Что касается сравнения архитектур, то на одной частоте AMD Athlon идет заметно впереди Intel Pentium III. Преимущество процессора от AMD составляет от 8 до 18%. Athlon MP почти везде незначительно (1..4%) опережает простой Athlon на той же частоте. Отметим, что приложения этого теста не оптимизированы под SIMD-инструкции участников (или оптимизированы только под MMX), так что этот фактор отличий не привнес.
В целом, картина аналогична предыдущей. Вот только в тесте Adobe Photoshop 5.5 мы видим значительный отрыв Intel Pentium III. При внимательном рассмотрении теста оказалось, что Photoshop 5.5 использует набор плагинов c поддержкой Pentium III FastCore.8BX, MMXCore.8BX, Wind.8BF и LightingEffects.8BF. Этим и объясняется такая большая разница в результатах. К сожалению, нет возможности повлиять на использование этих расширений приложением и выбрать вручную необходимое ядро. Кстати, в вышеназванных файлах можно встретить строки GenuineIntel, а во втором еще и AuthenticAMD, так что явно используется инструкция CPUID для определения типа процессора, на котором запущено приложение. Таким образом, в данном тесте налицо хорошая оптимизация приложения под наборы инструкций MMX и SSE. Видимо, SSE здесь используется и на Athlon MP его результат намного выше простого Athlon. Для окончательного выяснения данного вопроса была предпринята "хирургическая операция" :) в дистрибутиве SYSmark 2000 пара файлов (Wind.8BF и LightingEffects.8BF) была заменена на аналогичные от PhotoShop версии 5.0, не имеющие оптимизации под Pentium III, и проведен тест на другой системе с процессором Pentium III 800EB. При этом произошло снижение результата со 134 единиц до 96, то есть прирост от использования SIMD достигает почти 40%! Это очень неплохой результат. Однако напомню еще раз, что этот прирост нельзя просто перенести на любое приложение или любую работу в Photoshop.
Остается загадкой, почему компания Adobe не снабдила свои продукты полным и точным описанием поддерживаемых процессоров и наборов инструкций. Впрочем, и другие производители ПО не стремятся заявлять большее, чем абстрактная "поддержка новейшего процессора Intel Pentium 4".
Версия 4 программы Windows Media Encoder и входящие в ее состав аудио-видео кодеки используют только технологию MMX. А поскольку она есть во всех используемых процессорах, то результат зависит практически только от частоты процессора. Ну а поддержка SMP помогает в достижении высоких результатов при работе с двумя процессорами. Кроме того, Athlon MP выигрывает у предшественника той же частоты порядка 10%.
Следующий тест, Intel Pentium 4 Application Launcher 2.1, как я уже говорил, практически повторяет SYSmark 2000, однако используются другие приложения. Вот их список:
- NaturallySpeaking Preferred 4.0, Dragon Systems, Inc.
- Windows Media Encoder 7.0, Microsoft Corporation
- MagniTrax 1.02x, Pixel Kinetix
- Premiere 5.1 / Ligos LSX-MPEG for Adobe Premiere, Adobe / Ligos
- VideoStudio 4.0, Ulead Systems
- Incoming Forces, Rage Software PLC
- GoMotion Video Decoder, Ligos Technology
- eJay MP3 Plus 1.3, Canon Computer Systems, Inc., eJay GmbH
Почти все программы достаточно известны, за исключением, пожалуй, MagniTrax 1.02x от Pixel Kinetix.
Intel разбил их на две группы под названием
- business: MagniTrax 1.02x, NaturallySpeaking Preferred 4.0 и Windows Media Encoder 7.0
- consumer: VideoStudio 4.0, Premiere 5.1 / Ligos LSX-MPEG for Adobe Premiere, GoMotion Video Decoder, Incoming Forces, и eJay MP3 Plus 1.3
Мы также будем следовать этому делению, поскольку на одной картинке все это уж точно не уместилось бы :).
Итак, начнем с "consumer" приложений. Поскольку данных очень много, то на диаграмме нет подписей с цифрами, каждая конфигурация представлена двойной линией: верхняя один процессор, нижняя два. Каждый тест проводился по 3 раза и показал стабильные результаты, однако осталось несколько необъяснимых эффектов, которые предлагаются к обсуждению в конференции :).
Разберем результаты отдельно по приложениям.
- Jay MP3 Plus 1.3, Canon Computer Systems, Inc., eJay GmbH
Это приложение представляет собой MP Jukebox. Тест состоит в кодировании с использованием eJay MP3 Plus Encoder одного очень большого WAV файла (его размер более 500MB!) в формат MP3 128Kbps. Как видно по результатам, кодер может использовать преимущества SMP систем. Однако инструкции, отличные от MMX, не используются, об этом говорит практическое совпадение результатов для 1GHz процессоров Intel Pentium III и AMD Athlon. Ну и, конечно, с повышением частоты центрального процессора, скорость обработки данных возрастает.
- Incoming Forces, Rage Software PLC
Здесь используется демо игры Incoming Forces. Скорость обработки сложных поверхностей и фрактальных объектов требует высокой мощности процессора. Судя по результатам, игра не знает про двухпроцессорные системы, однако умеет использовать SSE, причем только на процессорах Intel.
Необъяснимым в этом тесте остается снижение результата при росте частоты процессора Athlon с 1GHz до 1.2GHz.
- GoMotion Video Decoder, Ligos Technology
Программа представляет собой одиночный файл MPEG2-проигрывателя. Она может использовать четыре версии кодека "pure C implementation" и откомпилированную под наборы MMX, SSE и SSE2. В тесте проигрывается 20MB MPEG2 (704x480, NTSC, 29.97fps, 5000000 bps) файл и измеряется достигнутый fps. Что касается собственно результатов теста, то не очень понятно, почему так проигрывает процессор от Intel. Мы уже видели, что использование SSE может приносить большой выигрыш, но здесь на Pentium III (и Athlon MP) этого эффекта просто нет. Видимо, выбор нужной библиотеки осуществляется не очень корректно. К сожалению, повлиять на этот процесс здесь мы не можем. Результат двухпроцессорной системы на Athlon 1.2GHz также необъясним.
- Premiere 5.1, Ligos LSX-MPEG for Adobe Premiere, Adobe / Ligos
Adobe Premiere 5.1 используется для создания и редактирования видео. Используемый Ligos LSX plug-in позволяет записывать финальный видео в формате MPEG2. Скрипт использует 320x240 AVI из презентации технологии Intel MMX. Он кодируется в MPEG2 (640x480, VBR видео, 384k аудио, motion estimation 16, and I, B and P frames included). При этом используется одна из динамических библиотек от Ligos, выбранная в соответствии с типом установленного процессора.
В этом тесте отчетливо видно, что использование SSE позволяет Pentium III 1GHz догнать Athlon 1.2GHz. А вот с Athlon MP не очень ясно его лидерство вызвано либо SSE, либо лучшей, чем у обычного Athlon, реализацией MMX. К сожалению, здесь "подменить" библиотеки нельзя, и это затрудняет более подробное исследование.
Отметим, что корректно тест завершался только на старших моделях процессоров, в остальных случаях скрипт выполнялся с ошибками. Но поскольку работа теста была достаточно простой (обычное перекодирование файла), то с использованием секундомера я провел все остальные тесты, их результаты были также нормированы к базовой системе. Корректность такого подхода была подтверждена совпадением результатов ручного и автоматического (где тест проходил нормально) измерения скорости.
- VideoStudio 4.0, Ulead Systems
Ulead VideoStudio является еще одной популярной программой редактирования видео. С ее помощью можно оцифровать видеоклипы из различных источников, смонтировать с использованием цифровых эффектов и вывести результат в файл формата MPEG1/MPEG2 или любого другого. Используемый скрипт открывает проект, состоящий из четырех видеофрагментов, и создает финальный файл формата MPEG2. При этом используется (почти) та же библиотека Ligos MPEG, что и в тесте с Adobe Premiere. Этим и объясняется схожесть результатов. Только вот опережение Pentium III еще больше, что позволяет нам предположить, что на Athlon MP используется только MMX версия библиотеки, несмотря на поддержку им и SSE.
Отметим, что последние три приложения, которые Intel выбрал для своего пакета, используют код компании Ligos. Видимо, она является партнером Intel в продвижении SSE и SSE2. Однако сама компания ничего не говорит о поддержке в своих продуктах этих технологий, что представляется не очень честным по отношению к пользователям.
Теперь рассмотрим "business" приложения.
- MagniTrax 1.02x, Pixel Kinetix
Я, если честно, про такую программу узнал только из этого теста :), поэтому много про нее рассказать не могу. MagniTrax является приложением для просмотра изображений, причем не только обычных картинок, но и специальных трехмерных изображений в формате HoloGrafix. Главной особенностью программы является возможность управления просмотром 3D файлов не просто мышкой, а с использованием фирменной технологии слежения за положением головы пользователя через видеокамеру. Результаты теста красноречиво свидетельствуют о том, что без использования SSE эта программа выглядит очень скучно, и о работе в real-time в таком случае можно забыть. Результат теста подтверждает и хорошую реализацию SSE у Athlon MP.
- NaturallySpeaking Preferred 4.0, Dragon Systems, Inc.
Dragon NaturallySpeaking Preferred 4.0 представляет собой приложение для распознавания речи. Во время исполнения теста программа проигрывает утилитой Dragon's PlayWave WAV заранее подготовленный файл. При этом производится преобразование звука в текст. Время, потраченное на этот процесс, и является результатом теста. Положение участников полностью совпадает с тестом SYSmark 2000, где также используется это приложение.
- Windows Media Encoder 7.0, Microsoft Corporation
Windows Media Encoder используется для кодирования видео и аудио информации в потоковый формат WMV/WMA. Исходные данные могут быть как стандартными файлами AVI, WAV, MP3, так и оцифровываться в реальном времени со звуковой карты или платы видеоввода. Получившийся результат можно просмотреть с использованием Windows Media Player или передавать потоком со специального сервера. Исходный файл теста представляет собой 30-секундный отрывок формата 320x240 AVI из презентации технологии Intel MMX. Файл кодируется со следующими параметрами: разрешение 720x480, 30 FPS, 10 sec/iframe, crispness=50, видеокодек MPEG4 V3 high bandwidth, аудиокодек Windows Media V7 Audio 44 kHz стерео. Измеряется время преобразования файла.
Как видно из результатов, Windows Media Encoder 7.0 это второе приложение из набора Intel Pentium 4 Application Launcher, поддерживающее SMP. По сравнению с версией 4.0, входящей в состав SYSmark 2000, в этой появилась поддержка SSE, что не замедлило сказаться на результатах.
Тестирование в SPECviewperf, к сожалению, показало, что используемая видеокарта уже не справляется со своей задачей, да и отсутствие поддержки AGP для чипсета ServerWorks также смазало результаты. Однако все-таки приведем их здесь, во-первых, для полноты картины, а во-вторых, жалко проведенных за исследованием результатов времени, и хочется поделиться ими с вами, дабы другие избежали таких ошибок :).
Итак, при взгляде на диаграмму прежде всего бросается в глаза сильное отставание системы на базе Intel Pentium III. Это достаточно странно, поскольку тест не использует SIMD-инструкции (хотя можно было бы предположить неожиданную поддержку 3DNow! :)), да и отставание, например, в тесте DX-06 в три раза от лидера настораживает. На самом деле, поскольку параллельно тестировалась система и на Pentium 4, сначала показался странным другой результат 15.11 в тесте ProCDRS-03, в точности та же цифра получалась и для Pentium 4 1.7GHz. Казалось бы, тут налицо классический вариант ограничения скорости видеокартой. Однако первая робкая попытка прояснения этого вопроса путем замены видеокарты на Inno3D GeForce2 GTS показала, что у той результат в ProCDRS-03 даже выше 17.28. Да и в других тестах не наблюдалось заметного падения скорости. Возникло подозрение, что дело в пропускной способности AGP. Для проверки этого мы провели дополнительные тесты на материнской плате Thunder K7 с процессором Athlon MP 1.2GHz, которые показали, что явное падение скорости есть только при ограничении AGP до 1x, а результаты 2x и 4x практически не отличаются. Тогда я снова взялся за видеокарту. Используя возможность менять частоту работы чипа GeForce3 и проведя тесты на частоте ядра, отличающейся от номинальной на 10%, я наконец получил явное подтверждение факту, что здесь не справляется видеокарта, и цифры, близкие к 15.11 в тесте ProCDRS-03 и 75.56 в тесте AWadvs-04, увидит любой тестер на системе с работающим AGP 4x, видеокартой NVidia GeForce3 и процессором с частотой 1.2GHz и более.
Вторым выводом из дополнительно проведенных тестов стало то, что системе на материнской плате Thunder HEsl S2567 очень мешает не работающая на нужной скорости шина AGP при ограничении AGP до 1x на системе с Athlon MP 1.2GHz получились цифры, близкие к Pentium III 1GHz 51.42 в тесте AWadvs-04 и 3.8 в тесте Light-04. Иллюстрации ко всем дополнительным тестам SPECviewperf и некоторые пути решения этой проблемы будут приведены во второй части статьи.
Теперь тесты в Quake3 Arena. Эта игра все еще достаточно часто используется для сравнения скорости различных систем. Я провел все тесты, как и в предшествующих статьях, используя три демо с различными установками качества в четырех разрешениях, но поскольку сегодня мы рассматриваем скорость процессоров, результаты будут приведены для наименьшего разрешения 640x480. Из демо demo002, q3crush, quaver для иллюстрации было выбрано demo002, поскольку показывает самые большие fps :), для оставшихся двух демо картинки аналогичны:
К сожалению, и для такой популярной программы, как Quake3, нет достоверной информации о поддержке ей SIMD-инструкций. Скорее всего, она использует только MMX, благо у всех современных процессоров он есть. Результаты тестов это косвенно подтверждают. Как и во многих других приложениях, Athlon считает быстрее Pentium III. Причем в двухпроцессорной конфигурации выигрыш становится еще больше 35% против 17% (процессоры на 1GHz). Athlon MP незначительно превосходит своего предшественника, работающего на той же частоте. Отметим, что и здесь результаты Intel Pentium III занижены из-за чипсета ServerWorks. Они практически совпадают с результатами Quake3, полученными ранее с процессором Pentium III 800EB на материнской плате ASUS CUV4X-DLS на чипсете VIA Apollo Pro 133A.
Наконец, перейдем к дополнительным тестам. Они включают:
- кодирование видео в WMA формат
- кодирование видео с использованием DivX кодека
- рендеринг сцен в 3DStudio MAX 3, оценка скорости прорисовок в окнах
В принципе, обработка видео в Windows Media Encoder у нас уже была (в составе Intel P4AL), но я решил все равно провести этот тест. Исходный файл формата MPEG1 toronto.mpg размером 29MB из состава видеоклипов компании ATi (его можно найти на компакт-диске с драйверами к видеоадаптеру этой фирмы) кодировался со стандартными профилями WME 7.0 для скоростей передачи 64, 128 и 256Kbps (профили 3-5 в свежеустановленном WME). Измерялось время преобразования, поэтому лучшая скорость соответствует меньшей цифре:
Если с иллюстраций убрать цифры, то их сложно будет отличить друг от друга и от диаграммы из теста Intel P4AL, если ту перевести из рейтинга в секунды :).
Кодирование в DivX проводилось с использованием программы Flask 0.594 и DivX кодека версии 3.11alpha. Исходный VOB файл размером 27MB DolbyDigitalBroadway.vob был взят из набора демо от компании Dolby (его можно найти на компактах с DVD проигрывателями, например от карты MSI MS-8822). Преобразование VOB файла осуществлялось с использованием кодека DivX Fast Motion. Все установки по умолчанию, звук "кодировался" в PCM. Измерялось время преобразования (снова, чем меньше цифра, тем лучше):
Здесь уже не используются инструкции SSE, и поэтому отставание Pentium III больше.
Последние два теста работа в программе 3DStudio MAX. Напомним, что эта программа использует SMP при рендеринге кадров и при стандартной установке не оптимизирована под какой-либо процессор.
В первом тесте измеряется время расчета первого кадра сцены architecture.max из пакета SPECapc for 3D Studio MAX R3. Результат можно посмотреть здесь (62KB, JPEG). Сцена достаточно большая 29 objects, 7 lights, 398229 vertices, 606794 faces; все ее файлы занимают в сумме почти 45MB. По горизонтальной оси отложено время в секундах (т.е. чем меньше, тем лучше):
По результатам теста лидируют системы на процессорах AMD Athlon и Athlon MP частотой 1.2GHz. Также наблюдается отставание процессора Pentium III от Athlon той же частоты. Были проведены тесты и на более простых сценах, и расстановка участников в них аналогична описанной.
Второй тест измеряет (в fps) скорость прорисовки стандартной сцены 4views.max в четырех окнах. Естественно, чем больше эта цифра, тем ПК быстрее:
Здесь мы снова видим небольшое отставание системы на Pentium III, а также заметный (40%) отрыв Athlon MP от простого Athlon в однопроцессорной конфигурации. Зато SMP конфигурация на процессоре Intel немного опережает аналогичную на Athlon 1GHz. Обратите внимание, что в тестах WME 7 та же ситуация.
Выводы
Итак, попробуем наконец подвести итоги первой части нашего обзора.
В сравнении участвовали процессоры Intel Pentium III, AMD Athlon и AMD Athlon MP. На приложениях, не оптимизированных специально под наборы инструкций MMX, SSE, 3DNow! (правда, похоже, что последних в тестах не было), процессор AMD Athlon показал более высокие результаты, чем Intel Pentium III. На некоторых приложениях заметен и отрыв процессора Athlon MP от простого Athlon. Видимо, неафишируемо произведено некоторое совершенствование архитектуры, хотя если почитать описания этих процессоров на сайте AMD, то с первого взгляда очень сложно найти в них отличия (кроме, конечно, поддержки SSE). В целом эти результаты согласуются с уже неоднократно проводившимися на нашем сайте сравнениями.
Если же ваша любимая программа знает и умеет использовать MMX и/или SSE, то выигрыш от этого может быть очень значительным, о чем говорят результаты тестов в приложениях Photoshop, VideoStudio, WME7. К сожалению, возможность оценить эффективность SIMD-команд компании AMD 3DNow!, Enhanced 3DNow! в этот раз не представилась, хотя реализация MMX и SSE в Athlon MP несомненно хороша: на тесте Photoshop 5.5 в SYSmark 2000 Athlon MP показал прирост в 40% относительно простого Athlon, причем значительная часть прироста объясняется именно использованием SSE. К слову, в теле библиотеки lsxprem.dll, выбирающей код для кодирования в MPEG2, встречаются строки "AuthenticAMD" и даже строка с именем файла "lsxpremk7.dll" (наряду с оптимизированными под SSE и SSE2 lsxprem3.dll, lsxprem4.dll), но вот самого файла, видимо, пока(?) не существует в природе. Так что возможны два варианта: или AMD будет активнее продвигать Enhanced 3DNow!, или просто реализует SSE2 :).
К сожалению, сейчас у нас нет теста, который бы мог более точно показать эффективность использования различных SIMD-инструкций и качество их реализации, однако поиски ведутся и уже есть некоторые результаты.
Напоминаем, что во второй части обзора в бой вступит флагман компании Intel, процессор Pentium 4. Соревноваться он будет с последними моделями процессоров AMD.