тестирование на основе игр
В первой части нашей статьи мы детально рассмотрели методику измерения производительности ноутбуков на основе реальных неигровых приложений, которая реализована в нашем бенчмарке iXBT Notebook Benchmark 1.0. Напомним, что идея этой методики заключается в том, чтобы измерить время выполнения определенного набора тестовых задач и, сопоставив полученные результаты с аналогичными результатами для референсной конфигурации, оценить производительность ноутбука. В этом бенчмарке единственным критерием производительности является время выполнения тестовых задач. Ну а получаемый в результате интегральный показатель производительности зависит главным образом от производительности процессора.
Однако если рассмотреть такие приложения, как игры, то принцип измерения производительности здесь кардинально иной. Основная нагрузка в данном случае ложится на графический процессор (GPU), а показателем производительности системы в играх является FPS (количество кадров в секунду). И все игровые тесты либо рассчитывают условные баллы производительности на основе FPS, либо прямо выдают значения FPS.
Собственно, в нашей методике тестирования ноутбуков в играх, которая реализована в бенчмарке iXBT Game Benchmark 1.0, используется тот же самый принцип: последовательно запускаются различные игровые тесты, в каждом из которых фиксируется среднее и минимальное (если это возможно) значение FPS. Вопрос лишь в том, какие именно игры выбрать для тестирования и в каких режимах их запускать.
Бенчмарк iXBT Game Benchmark v.1.0
Увы, далеко не любая игра может использоваться для тестирования в принципе, и уж тем более не каждая игра поддается скриптованию, что позволило бы сделать ее частью бенчмарка для тестирования. Для того чтобы игру можно было использовать для тестирования, необходимо, чтобы она имела либо встроенный бенчмарк, либо хотя бы возможность записи демо. Игры, которые имеют встроенный бенчмарк, значительно проще использовать для тестирования, однако дабы иметь возможность применять данный бенчмарк в программном скрипте, нужно, чтобы был выполнен еще ряд специфических условий (возможность автоматизации запуска бенчмарка, возможность сохранения результатов и т. д.).
Игры, которые не имеют встроенного бенчмарка (а таких, кстати, большинство), но позволяют записывать демо, можно использовать для тестирования, но с применением дополнительной программы замера FPS. Традиционно для этого используется утилита FRAPS. Использовать такие игры в программном скрипте (бенчмарке), в принципе, можно, но с очень большими оговорками. Главная проблема заключается в том, чтобы автоматизировать запуск записи сбора данных счетчика FRAPS и остановки записи в нужный момент. Понятно, что запускать сбор данных счетчика FRAPS необходимо не в момент начала загрузки игры, а в момент начала проигрывания демо, то есть когда на экране возникает вполне определенная картинка. Ну а останавливать сбор данных необходимо в момент окончания демки, то есть, опять-таки, когда на экране монитора возникает вполне конкретная картинка. Реализовать описанную процедуру в скрипте очень непросто, и всё, в конечном итоге, зависит от конкретной игры.
Кроме описанных особенностей, игры, которые мы отбирали для использования в нашем бенчмарке, должны были удовлетворять еще двум условиям. Во-первых, они должны быть относительно новыми, а во-вторых, все игры должны запускаться на встроенном в процессор графическом ядре Intel HD Graphics 4000.
Если первое условие понятно без комментариев, то необходимость запуска игр на Intel HD Graphics 4000 объясняется тем, что в этом случае мы получаем возможность тестировать ноутбуки не только с дискретной графикой, но и без нее (а таковых на рынке как минимум большинство).
Итак, проанализировав порядка 20 различных игр на предмет возможности их использования в тестовом скрипте, мы выбрали следующие шесть:
- Aliens vs Predator D3D11 Benchmark v.1.03;
- Word of Tanks 0.8.9;
- Bioshock Infinite;
- Grid 2;
- Metro: Last Light;
- Hitman: Absolution.
Все эти игры удовлетворяют описанным требованиям и используются в нашем бенчмарке iXBT Game Benchmark 1.0. Использовать большее количество игр для тестирования ноутбуков мы считаем нецелесообразным, поскольку прогон теста будет требовать больше времени, но вряд ли сможет кардинально изменить результат.
В самом бенчмарке предусмотрена возможность задавать количество прогонов каждого теста. После каждого прогона производится перезагрузка компьютера и выдерживается пауза. По результатам всех прогонов теста рассчитывается среднеарифметический результат и среднеквадратичное отклонение.
Во всех тестах результатом является среднее и минимальное значение FPS (исключение составляет лишь Aliens vs Predator D3D11 Benchmark v.1.03, в котором не фиксируется минимальное значение FPS).
Также в нашем бенчмарке предусмотрена возможность запуска каждой игры в двух разрешениях (1920×1080 и 1366×768) и в двух режимах настройки игр (на максимальное и минимальное качество).
Предполагается, что при тестировании ноутбуков все игровые тесты будут запускаться в двух режимах настройки, но только при родном разрешении экрана ноутбука. Это, естественно, не позволит нам сравнивать производительность любых ноутбуков в играх в «лоб», поскольку некорректно сравнивать результаты тестов, полученные при различном разрешении. Однако мы и не ставим перед собой такую цель. Основное назначение нашего игрового бенчмарка заключается в том, чтобы ответить на вопрос: можно ли использовать данный ноутбук для игр или нет? Именно поэтому мы и считаем, что игровые тесты должны запускаться на «родном» для ноутбука разрешении, ну а в ноутбуках сегодня наиболее распространены разрешения экрана 1366×768 и 1920×1080.
Правда, нужно отметить, что набирают популярность и экраны с более высоким разрешением 2560×1600 (и даже еще больше). В принципе, нет никаких проблем с тем, чтобы добавить это разрешение в наш бенчмарк, однако нужно проверить (пока у нас не было такой возможности), все ли игры поддерживают данное разрешение. Возможно, при тестировании ноутбуков с разрешением экрана выше Full HD мы будем запускать игровые тесты в разрешении 1920×1080.
Что касается режимов настроек игр на максимальное и минимальное качество, то подробно о настройке каждой игры мы расскажем в соответствующих разделах.
Настройки игр, используемых для тестирования
Aliens vs Predator D3D11 Benchmark v.1.03
Собственно, Aliens vs Predator D3D11 Benchmark v.1.03 — это не игра, а отдельный игровой тест, но сделанный специально для одноименной игры. И хотя сама игра уже не новая (она вышла в 2010 г.), мы включили этот технологичный тест в наш игровой скрипт.
Настройка теста на максимальное и минимальное качество производится в конфигурационном файле. Мы используем следующие настройки:
максимальное качество | минимальное качество | |
Texture Quality | Very High | Low |
Shadow Quality | High | Off |
Anisotropic Filtering | 16 | 1 |
Screen Space Ambient Occlusion (SSAO) | On | Off |
Vertical Sync | Off | Off |
DX11 Tessellation | On | Off |
DX11 Advanced shadow sampling | On | Off |
DX11 Full Screen Anti-Aliasing Sample Count | 4XAA | Off |
Отметим, что тест Aliens vs Predator D3D11 Benchmark v.1.03 плохо распараллеливается на все ядра процессора, да и вообще нагрузку на ядра процессора создает небольшую.
К примеру, для четырехъядерного процессора Intel Core i7-4770K (восемь логических ядер с учетом технологии Hyper-Threading) c графическим ядром Intel HD Graphics 4600 загрузка ядер процессора следующая: в режиме настройки на минимальное качество (при разрешении 1920×1080) одно логическое ядро процессора получает среднюю загрузку порядка 30%, а средняя загрузка всех остальных ядер процессора не превосходит 5%. Ну а загрузка графического ядра очень высокая и составляет порядка 100%.
В режиме настройки на максимальное качество загрузка ядер процессора еще ниже, а загрузка графического ядра опять-таки составляет порядка 100%.
World of Tanks 0.8.9
Основная проблема данной игры (в плане применимости ее для тестирования) заключается в том, что в ней нет встроенного бенчмарка. Однако эта игра позволяет записывать демо. Поэтому в нашем тестовом бенчмарке данная игра используется одновременно с утилитой FRAPS для определения среднего и минимального значения FPS. Ну а запись танкового сражения была сделана специально для нашего теста поклонниками этой игры.
Далее мы приводим настройки игры на максимальное и минимальное качество.
Данная игра плохо распараллеливается и эффективно нагружает лишь одно логическое ядро процессора. Однако нагрузка на это логическое ядро очень высокая (порядка 100%) даже при настройке на максимальное качество.
В нашем примере с процессором Intel Core i7-4770K загрузка ядер следующая: в режиме настройки на минимальное качество (при разрешении 1920×1080) одно логическое ядро процессора получает среднюю загрузку порядка 95%, еще пара ядер загружены примерно на 20%, а загрузка остальных ядер несущественна. Ну а загрузка графического ядра в данном режиме составляет порядка 100%.
В режиме настройки на максимальное качество загруженным остается только одно ядро процессора, причем средняя загрузка составляет порядка 90%. Загрузка графического ядра опять-таки составляет порядка 100%.
Bioshock Infinite
Игра Bioshock Infinite имеет встроенный бенчмарк, который можно запустить из командной строки. В режиме настройки бенчмарка на максимальное качество мы использовали команду запуска benchmark UltraDX11_DDOF, а в режиме настройки на минимальное качество — команду benchmark VeryLow.
Игра Bioshock Infinite дает нагрузку как на ядра процессора, так и на графический процессор. Причем если нагрузка на графический процессор достаточно стабильна и составляет порядка 100% независимо от настройки на минимальное или максимальное качество, то нагрузка на ядра процессора постоянно меняется, но в среднем она немного выше в режиме настройки на максимальное качество.
Далее приведены графики нагрузки на ядра процессора Intel Core i7-4770K и графическое ядро Intel HD Graphics 4600 для теста Bioshock Infinite в режимах настройки на минимальное и максимальное качество при разрешении 1920×1080.
Grid 2
Игра Grid 2 также имеет встроенный бенчмарк, который можно запускать с различными пресетами, задающими качество отображения. В режиме настройки на минимальное качество мы использовали пресет Ultra Low, а в режиме настройки на максимальное качество — пресет Ultra.
Нагрузка на графический процессор в этом тесте очень высокая, причем неважно, идет ли речь о максимальном или о минимальном качестве. А вот нагрузка на ядра процессора небольшая.
В нашем примере с процессором Intel Core i7-4770K в режиме настройки на минимальное качество одно логическое ядро процессора оказывается загружено немного больше, чем остальные, но даже это ядро загружено в среднем на 35%.
В режиме настройки на максимальное качество нагрузка на ядра процессора снижается еще сильнее, а нагрузка на графическое ядро остается на уровне 100%.
Metro: Last Light
Игра Metro: Last Light (LL) имеет встроенный бенчмарк, который мы и использовали в нашем тестовом скрипте.
Настройка бенчмарка производится в отдельном диалоговом окне перед его запуском. Настройки бенчмарка Metro: LL на режимы максимального и минимального качества приведены на скриншотах:
Бенчмарк Metro: LL дает примерно одинаковую нагрузку на все логические ядра процессора. Конечно, нагрузка на ядра процессора не очень большая, а вот нагрузка на графический процессор стабильно высокая.
В нашем примере с процессором Intel Core i7-4770K в режиме настройки на минимальное качество графическое ядро загружено на 100% во время теста, а нагрузка на ядра процессора составляет порядка 40%.
В режиме настройки на максимальное качество принципиально ничего не меняется. Возрастает лишь амплитуда колебаний загрузки ядер процессора, и в среднем ядра процессора получаются загруженными немного меньше. Ну а графическое ядро остается загруженным на 100%.
Hitman: Absolution
Игра Hitman: Absolution имеет встроенный бенчмарк, который мы и использовали в нашем тестовом скрипте. Настройка теста на максимальное и минимальное качество производится в конфигурационном файле. Мы используем следующие настройки:
максимальное качество | минимальное качество | |
MSAA | 8x | Off |
Shadow Quality | Ultra | Minimal |
Texture Quality | High | Normal |
Texture Filtering | Anisotropic 16x | Trilinear |
Screen Space Ambient Occlusion (SSAO) | High | Off |
Global Illumination | On | Off |
Tessellation | On | Off |
Reflections | High | Very Low |
Antialiasing FXAA | On | Off |
Level of Detail | Ultra | Very Low |
Depth of Fields | High | Off |
В тесте Hitman: Absolution основная нагрузка ложится на графический процессор. Нагрузка на логические ядра процессора распараллелена, но она небольшая. Так, в нашем примере с процессором Intel Core i7-4770K в режиме настройки на минимальное качество ядра процессора загружаются в среднем на 20% (одно ядро загружено чуть больше остальных — на 30%).
В режиме настройки на максимальное качество нагрузка на логические ядра процессора уменьшается и составляет порядка 10%. Графическое ядро остается загруженным на 100%.
Результаты тестирования и расчет интегрального показателя
Как мы уже отмечали, во всех игровых тестах, кроме Aliens vs Predator D3D11 Benchmark v.1.03, фиксируются как усредненное значение FPS, так и минимальное.
В качестве примера мы приводим результаты тестирования ноутбука с процессором Intel Core i7-4700MQ и графической картой Nvidia GeForce GTX 770M, которая на сегодняшний день является одной из самых производительных мобильных видеокарт:
Игровой тест | Максимальное качество | Минимальное качество | ||
Среднее значение FPS | Минимальное значение FPS | Среднее значение FPS | Минимальное значение FPS | |
Aliens vs Predator D3D11 Benchmark v.1.03 | 30,3 | — | 65,2 | — |
Grid 2 | 29,8 | 24,9 | 53,4 | 41,1 |
Bioshock Infinite | 39,4 | 8,3 | 122,8 | 18,2 |
World of Tanks 0.8.9 | 28,5 | 20,7 | 38,3 | 24,3 |
Metro: LL | 14,5 | 9,3 | 54,0 | 24,6 |
Hitman: Absolution | 16,2 | 13,3 | 51,9 | 42,0 |
Также, для сравнения, приводим результаты тестирования системы на базе процессора Intel Core i7-4770K с графическим ядром Intel HD Graphics 4600 (при тестировании процессор работал в штатном режиме без разгона):
Игровой тест | Максимальное качество | Минимальное качество | ||
Среднее значение FPS | Минимальное значение FPS | Среднее значение FPS | Минимальное значение FPS | |
Aliens vs Predator D3D11 Benchmark v.1.03 | 7,1 | — | 31,0 | — |
Grid 2 | 12,5 | 12,5 | 51,8 | 38,3 |
Bioshock Infinite | 7,8 | 3,9 | 31,3 | 11,9 |
World of Tanks 0.8.9 | 18,9 | 10,4 | 77,7 | 43,0 |
Metro: LL | 4,4 | 2,3 | 19,9 | 11,8 |
Hitman: Absolution | 3,2 | 2,5 | 25,1 | 20,0 |
В принципе, результаты тестирования вполне самодостаточны и показательны. В случае игр показателем производительности является как раз FPS, и рассчитывать некий интегральный показатель производительности нет необходимости. Соответственно, в отличие от тестирования в неигровых приложениях, где результатом является время выполнения тестовых задач, здесь нет необходимости в референсной системе, которая позволила бы наглядно сопоставить результаты тестирования и оценить производительность в безразмерных единицах. Более того, если уж использовать референсную систему для сравнения результатов, то не одну, а две (для каждого типа разрешения).
Тем не менее, цифр в итоге получается много, и это может запутать. А потому хотелось бы свести все полученные результаты к нескольким «попугаям», которые бы позволяли ответить на главный вопрос: можно ли использовать тестируемый ноутбук для игр или нет? Безусловно, алгоритмов, которые позволяли бы сводить полученные результаты тестирования к одной-двум итоговым цифрам, можно придумать много. Мы предлагаем алгоритм расчета интегрального результата, который позволял бы не сравнивать игровую производительность тестируемых систем, а отвечать на вопрос: позволяет ли данная система комфортно играть в игры или нет. Ну а сравнивать производительность можно непосредственно на основе FPS.
Для того чтобы ответить на вопрос, позволяет ли тестируемая система комфортно играть в игры, нужно прежде определить, что понимается под комфртностью игры. Будем считать, что комфортность игры (без подтормаживания) обеспечивается в том случае, если среднее значение FPS более или равно 30, а минимальное значение более или равно 10. Тогда для каждого из двух режимов настройки (максимальное и минимальное качество) в том случае, если в игре (тесте) среднее значение FPS более или равно 30, интегральный балл увеличивается на единицу. Если среднее значение FPS более или равно 30 и при этом минимальное значение более или равно 10, то интегральный балл увеличивается еще на единицу.
То есть в каждой игре тестируемая система может получить от 0 до 2 баллов. Исключение составляет лишь тест Aliens vs Predator D3D11 Benchmark v.1.03, где не фиксируется минимальное значение, так что в тесте Aliens vs Predator D3D11 Benchmark v.1.03 исследуемая система может получить либо один, либо нуль баллов.
Всего, во всех играх, тестируемая система может набрать максимум 11 баллов в режиме настройки на максимальное качество и 11 баллов в режиме настройки на минимальное качество. Соответственно, если система набирает 11 баллов в одном из режимов, это означает, что в данном режиме настройки исследуемый ноутбук позволяет играть в большинство современных 3D-игр. Ну а если система набирает 0 баллов, то она не позволит комфортно играть практически ни во что, кроме пасьянсов и пр.
К примеру, у протестированного нами ноутбука с процессором Intel Core i7-4700MQ и графической картой Nvidia GeForce GTX 770M результат составил 11 баллов в режиме настройки на минимальное качество и 2 балла — в режиме настройки на максимальное качество. Это значит, что данный ноутбук позволяет комфортно играть практически во все современные игры при настройке на минимальное качество, но не позволяет играть в большинство игр при настройке на максимальное качество. У настольной системы на базе процессора Intel Core i7-4770K с графическим ядром Intel HD Graphics 4600 результат составил 7 баллов в режиме настройки на минимальное качество и 0 баллов в режиме настройки на максимальное качество. Таким образом, в режиме настройки на минимальное качество интегрированная процессорная графика (хотя мы взяли практически самый производительный настольный процессор) позволит более-менее комфортно играть лишь примерно в половину игр, а в режиме настройки на максимальное — почти все современные игры будут тормозить.
Еще раз подчеркнем, что предлагаемая система расчета итогового балла не позволяет сравнивать производительность тестируемых ноутбуков в играх между собой. И тот факт, что две системы получат по результатам теста одинаковый балл, вовсе не означает, что они обеспечивают одинаковую производительность в играх — это означает лишь, что обе системы обеспечивают возможность комфортной игры примерно в равном количестве игр.
Заключение
В этой статье мы рассмотрели нашу новую методику измерения производительности ноутбуков на основе игр (бенчмарк iXBT Game Benchmark v.1.0). Этой методикой мы будем пользоваться как минимум на протяжении всего 2014 года, что позволит нам накопить базу результатов и сравнивать по производительности различные конфигурации ноутбуков.
В заключение хотелось бы еще раз предложить читателям поучаствовать в обсуждении данной методики и высказать свои конструктивные предложения по ее улучшению.