Данный материал является обновлением нашего первого обзора карт MTT из Китая и посвящен тестированию их на последней актуальной версии драйверов. Поэтому истории самой компании, появления этих карт у нас, а также теоретическая часть спрятаны под спойлеры, ибо там ничего нового нет.
Предыстория
Как мы получали данные карты в 2023 году
Интерес к исследованию новых уникальных видеокарт из Китая, выпущенных компанией Moore Threads, у нас возник, как только информация о них появилась в новостях. На тот момент (дело было поздней весной 2023 года) стоимость новинок была очень высокой: около 3000 юаней за MTT S80 и 2500 юаней за MTT S70 при ожидаемом уровне производительности где-то в районе Nvidia GeForce GTX 1650, а скорее всего еще ниже. Сами понимаете, что даже при курсе 10 рублей за 1 юань это было очень дорого, а с последующим ростом курса — тем более. Однако к моменту публикации обзора цена этих карт снизилась почти в 3 раза (до 1200 и 900 юаней соответственно), что уже можно назвать более-менее адекватным уровнем. Мы понимали, что переплачиваем и, возможно, приобретаем мертворожденные продукты без перспектив, но всё же хотелось разобраться, что собой представляют полностью (и сам GPU, и печатная плата) разработанные в Китае видеокарты.
Приобрести такие видеокарты можно было лишь через внутренних китайских поставщиков, поэтому мы обратились за помощью к Владиславу (его контакт в конце материала). Решили взять сразу два продукта, основанных на едином GPU — S70 и S80. MTT S70 удалось купить как самостоятельный розничный продукт.
А вот MTT S80 на тот момент пропали из продажи, их можно было заказать только в составе системных блоков китайских ПК. Но охота пуще неволи, и «одеревеневший» с помощью СДЭК системник тоже прибыл к нам.
Мы уже собирались применить подаренную в свое время Nvidia фомку (предназначенную «отбиваться от зомби или...», и мы решили, что это как раз случай «или»), однако крепление оказалось на винтах, так что обошлись отверткой.
Китайский ПК имел весьма оригинальный и стильный корпус с «водянкой» для охлаждения процессора (хотя там использовался всего лишь Intel Core i5-13400).
Собственно, на этом история появления у нас карт Moore Threads заканчивается, мы получили мы их в июне 2023 года, однако первый материал выпустили только в октябре 2023 по следующим причинам:
Пара-тройка имевшихся на лето 2023 года обзоров сообщали о крайне неустойчивой работе и очень скудном списке поддерживаемых игр с API не выше DirectX 10, однако даже за период ожидания карт разработчики успели выпустить пару бета-версий драйверов, так что смысл подождать имелся.
Выяснилось, что карты требуют для работы относительно новых платформ с поддержкой PCIe 5.0, так что пришлось обновлять наш тестовый стенд, где производятся измерения нагрева и шума.
Последующие выпуски драйверов Moore Threads действительно улучшали ситуацию и включали поддержку всё большего числа игр.
Компания Moore Threads и ее видеокарты
История появления компании и ее видеокарт
Осенью 2022 года китайская компания Moore Threads представила первую китайскую же игровую видеокарту MTT S80, а позднее и менее производительную S70 на том же чипе. Эта компания была основана еще в 2020 году, поставив своей целью разработку и создание графического процессора, основанного исключительно на китайских технологиях. Всего за год они прошли три раунда финансирования, получив многомиллионные вливания от Sequoia Capital China, ByteDance, Tencent и других больших компаний. Последняя серия инвестиций была использована для запуска массового производства видеокарт и расширения экосистемы Moore Threads — утверждается, что их партнерами стали сотни китайских компаний, работающих в сфере графики и вычислений.
В Китае в последние годы появилось большое количество молодых компаний, работающих над своими графическими процессорами, но именно у Moore Threads оказалось достаточно опытных сотрудников для создания собственного GPU. Часть команды была набрана из сотрудников Nvidia, Microsoft, Intel, ARM и других крупных технологических компаний. Неудивительно, что Moore Threads поддерживается китайскими властями, в числе прочего известно, что они адаптировали свои GPU для совместной работы с китайскими же центральными процессорами и операционными системами. И сейчас видеокарты компании Moore Threads поддерживают все основные платформы, интересующие китайцев — Intel, AMD, Loongson, Zhaoxin, а также операционные системы Windows, Kirin, Tongxin, Ubuntu и др.
Китайцам сейчас жизненно необходимо скорейшее создание полностью собственных чипов для высокопроизводительных вычислений — даже не графики, которая в этом деле не главное. Не так давно власти США запретили поставки некоторых моделей наиболее производительных графических процессоров западных производителей в Китай, это коснулось и Nvidia, и AMD. Времена полностью свободного рынка не то чтобы прошли, их никогда и не было, все последние санкции это лишь подтверждают. Сложно предугадать, какие еще конфликты и западные санкции грозят Китаю в будущем, но они справедливо желают иметь возможность использовать собственные разработки в столь важных для современной индустрии сферах, как высокопроизводительные вычисления и искусственный интеллект.
И компания Moore Threads сделала один из первых шагов к этому. Да, есть вопросы и к самой архитектуре (далее мы поговорим о том, китайская ли она вообще), и к ее совместимости с имеющимся парком аппаратного и программного обеспечения, и к возможности собственного производства — ведь западные санкции запретили китайцам производство микропроцессоров с использованием современных техпроцессов на той же тайваньской TSMC, где и производятся чипы MTT. А собственное 7-нанометровое производство на китайских фабриках SMIC пока еще, похоже, не готово к производству массовых изделий такой сложности. В общем, проблем на сегодняшний день немало, но часть из них находится в процессе решения.
И поскольку многих игроков в Китае не интересуют самые современные игры, требующие высокопроизводительных графических процессоров, то видеокарты начального уровня могут быть востребованы. MTT S80 и S70 сейчас с оговорками можно использовать для просмотра видеороликов и большинства несложных/старых игр, но для выхода на мировой уровень (даже не рынок) этого мало. Будем надеяться, что Moore Threads продолжат адаптировать и оптимизировать драйвера под всевозможные игры и приложения, а пока что советовать их решения при возможности приобрести карты AMD, Nvidia и Intel крайне сложно.
Впрочем, практические трудности не останавливают наш теоретический интерес: сегодня у нас один из самых интересных, но вместе с тем и самых сложных обзоров на сайте за всё время. Новые производители графических процессоров появляются даже не каждое десятилетие. Прошли 1990—2000-е годы бурного развития аппаратных ускорителей графики реального времени, когда маленькая компания могла спроектировать видеочип, отправить его в производство и привлечь стороннюю компанию для выпуска видеокарт. Видеочипы и видеокарты тех времен намного проще нынешних. Сейчас создать конкурентоспособный мощный GPU со всеми современными требованиями сходу не слишком хорошо получилось даже у Intel, хотя их попытка и стала наиболее удачной за долгие годы.
Кроме того, создание обзора сильно затрудняло отсутствие информации об изделиях MTT. Мы потратили кучу времени на поиски, но толковой информации нашлось очень мало, а по некоторым темам — например, про использование для майнинга или в задачах искусственного интеллекта — ее нет вообще. Какие-то отдельные китайские разработчики молча пишут программное обеспечение под MTT, но рассказывать об этом в мировом интернете не собираются. В найденных обзорах чаще всего просто констатируют, что такие видеокарты есть и работают они вот так, да еще и на китайском языке. Давайте посмотрим, что нам удалось узнать.
Графический ускоритель MTT S80
Кодовое имя чипа
Chunxiao (SD102AA)
Технология производства
7 нм TSMC
Количество транзисторов
22 млрд
Площадь ядра
416 мм²
Архитектура
унифицированная, с массивом процессоров для потоковой обработки разных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX
DirectX 11, с поддержкой уровня возможностей Feature Level 11_1
Шина памяти
256-битная: 8 независимых 32-битных контроллеров памяти с поддержкой GDDR6
Частота графического процессора
до 1800 МГц
Вычислительные блоки
4096 блоков ALU для целочисленных расчетов и расчетов с плавающей запятой (поддерживаются форматы INT8, INT16, FP16, FP32 и FP64)
Блоки трассировки лучей
—
Тензорные ядра
128 ядер
Блоки текстурирования
256 блоков текстурной адресации и фильтрации с поддержкой FP16/FP32-компонент и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP)
256 блоков ROP с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16/FP32-форматах буфера кадра
Поддержка мониторов
поддержка интерфейсов HDMI 2.1 и DisplayPort 1.4a
Спецификации видеокарты MTT S80
Частота ядра максимальная
1800 МГц
Количество универсальных процессоров
4096
Количество текстурных блоков
256
Количество блоков блендинга
256
Эффективная частота памяти
14 ГГц
Тип памяти
GDDR6
Шина памяти
256 бит
Объем памяти
16 ГБ
Пропускная способность памяти
448 ГБ/с
Вычислительная производительность (FP32)
до 14,4 терафлопс
Теоретическая максимальная скорость закраски
460 гигапикселей/с
Теоретическая скорость выборки текстур
460 гигатекселей/с
Шина
PCI Express 5.0 x16
Разъемы
один HDMI 2.1, три DisplayPort 1.4a
Энергопотребление
до 255 Вт
Дополнительное питание
один 8-контактный разъем
Число слотов, занимаемых в системном корпусе
2,5
Рекомендуемая цена на старте продаж
$423 (приблизительно)
Спецификации видеокарты MTT S70
Частота ядра максимальная
1600 МГц
Количество универсальных процессоров
3584
Количество текстурных блоков
224
Количество блоков блендинга
224
Эффективная частота памяти
14 ГГц
Тип памяти
GDDR6
Шина памяти
224 бит
Объем памяти
7 ГБ
Пропускная способность памяти
392 ГБ/с
Вычислительная производительность (FP32)
до 11,2 терафлопс
Теоретическая максимальная скорость закраски
358 гигапикселей/с
Теоретическая скорость выборки текстур
358 гигатекселей/с
Шина
PCI Express 4.0 x16
Разъемы
один HDMI 2.1, три DisplayPort 1.4a
Энергопотребление
до 220 Вт
Дополнительное питание
один 8-контактный разъем
Число слотов, занимаемых в системном корпусе
2,5
Рекомендуемая цена на старте продаж
$352 (приблизительно)
Наименование пары рассматриваемых сегодня моделей видеокарт Moore Threads соответствует принятому ими больше года назад принципу. Старший вариант из двух получил код S80, а младший — S70. Ранее у них существовала также менее мощная модель S60, а позднее они выпустили пару более производительных. Посмотрим, как они будут называть свои решения дальше, но пока что всё выглядит логично.
Понятно, что о рекомендованных ценах и конкурентах на рынке в случае видеокарт из Китая говорить сложно. Были заявлены какие-то рекомендованные цены для локального рынка, но они бессмысленны по причине отсутствия этих видеокарт на мировом рынке и быстрого изменения розничных цен. На момент начала продаж модель S80 стоила 3000 юаней (порядка $423), сейчас ее цена упала до 1200 юаней ($164), что всё равно дороговато. Впрочем, для Китая с учетом существующих и потенциальных санкций в будущем это может быть вполне интересно, а на остальные рынки видеокарты Moore Threads никто и не продвигает.
Что касается объема видеопамяти, то для MTT S80, исходя из ширины шины видеопамяти в 256 бит, выбор был между 8 и 16 ГБ. С учетом того, что эти карты не только игровые, объем 8 ГБ для старшей модели показался компании недостаточным, поэтому они выбрали 16 ГБ, вполне подходящие и для использования старшего решения в каких-то более-менее серьезных вычислительных задачах. С точки зрения игр же, скорость имеющихся видеокарт MTT настолько низкая, что в любом случае придется использовать низкие настройки качества графики, так что упора в объем видеопамяти не будет никогда. Для чисто игровой карты уровня S80 можно было обойтись и 8 ГБ (и, вероятно, еще меньше).
С моделью MTT S70 всё несколько интереснее: GPU этой модификации лишили одного 32-битного канала памяти, и шина стала 224-битной, так что установить на нее можно или 14 ГБ, или 7 ГБ видеопамяти. Для младшей карты разумно выбрали второй вариант, единственная претензия к которому заключается в том, что уж больно необычно смотрится такой «нечетный» объем. Разработчики игр обычно ориентируются на наиболее распространенные варианты объема видеопамяти, так что за ориентир они, скорее всего, возьмут 8 ГБ, а у карты с 7 ГБ теоретически могут наблюдаться странные провалы в производительности. Впрочем, с учетом сказанного выше про общий уровень производительности, S70 это вряд ли грозит.
Так как компания Moore Threads всё делает самостоятельно, то видеокарты MTT существуют исключительно в эталонном дизайне (и только производства самой компании). Обе полученные нами на тесты видеокарты имеют двухслотовую конструкцию, но из-за немалой толщины кожуха кулера они займут скорее 2,5-3 слота в корпусе. Система охлаждения у них трехвентиляторная. Обе видеокарты имеют по три разъема DisplayPort 1.4 и один разъем HDMI 2.1 для вывода информации на дисплеи, что вполне на хорошем современном уровне.
К сожалению, решения MTT не отличаются энергоэффективностью и по этому параметру уступают всем соперникам. Потребление энергии у пары видеокарт Moore Threads достаточно высокое: максимальный заявленный уровень у S80 может достигать 255 Вт, а у S70 — 220 Вт. Именно поэтому компания использует немаленький кулер с тремя вентиляторами. В то же время, такой уровень энергопотребления позволяет обойтись одним 8-контактным разъемом дополнительного питания.
Особенности архитектуры
Детали теории и как работают процессоры MTT
Видеокарты моделей MTT S80 и S70 является игровыми вариантами, они основаны на разных версиях графического процессора, известного под кодовым именем Chunxiao, который базируется на архитектуре Moore Threads Unified System Architecture (MUSA). GPU начал производиться с ноября 2022 года при помощи техпроцесса 7 нм на фабриках TSMC. Некоторые изначально предполагали возможность чисто китайского производства на фабриках SMIC, но дальнейшая история с санкционным запретом производства микрочипов с использованием современных технологий на тайваньских фабриках для китайских производителей раскрыла, что производителем точно являлась TSMC.
Напомним, в октябре 2023 года США еще сильнее ужесточили санкции против китайских компаний, запретив разработчикам графических чипов и ускорителей вычислений использование услуг контрактных производителей, вроде TSMC. Эти ограничения означают, что Moore Threads не смогут заказывать выпуск разработанных ими GPU на фабриках компании TSMC — вслед за компанией Huawei, которая попала в аналогичную ситуацию несколько лет назад и теперь сотрудничает с также находящейся под санкциями США китайской компанией SMIC. Введение санкций привело к тому, что Moore Threads даже заявила о сокращении части персонала, и в дальнейшем им, судя по всему, также придется обходиться возможностями SMIC.
Но пока что у них есть чипы, сделанные ранее на TSMC. Количество транзисторов в этом GPU немалое: заявлено 22 млрд, и это явно больше, чем 17,4 млрд в чипе GA104 (Nvidia), который используется в GeForce RTX 3060 Ti, RTX 3070 и даже RTX 3070 Ti. Площадь кристалла также довольно впечатляющая: 416 мм², что также несколько больше, чем 392 мм² у GA104. Судя по этим числам, плотность транзисторов у Chunxiao достаточно высока: 52,9 млн/мм², что явно выше, чем 44,4 млн/мм² у GA104. Это объясняется разницей в техпроцессах: 7 нм TSMC для китайского GPU и 8 нм Samsung для графического процессора Nvidia. По этим параметрам китайский GPU выглядит вполне серьезно.
Мы не знаем множества деталей о внутреннем устройстве графического процессора. Известно, что в нем 4096 блоков потоковой обработки архитектуры MUSA, работающих на частоте 1,8 ГГц, что дает вычислительную производительность до 14,4 терафлопс при вычислениях одинарной точности с плавающей запятой (FP32). Кроме этого, заявлено наличие 128 тензорных ядер, обеспечивающих производительность матричных вычислений в формате INT8 до 57,6 тераопс. К сожалению, данных о количестве блоков текстурирования TMU и растеризации ROP в Chunxiao у нас нет, но по появившимся на одном из слайдов цифрам в 460 Гпикс/с и 460 Гтекс/с, зная частоту чипа в 1800 МГц, можно посчитать, что этих блоков в GPU должно быть по 256 штук, что на фоне других GPU много. Но других данных у нас нет. И вот по этим значениям могут возникнуть некоторые вопросы к эффективности и конкурентоспособности китайского изделия — даже с учетом чисто теоретической производительности.
14,4 терафлопс FP32 для 22 млрд транзисторов при 21,8 Тфлопс FP32 для 17,4 млрд (RTX 3070 Ti) при близких тактовых частотах чипов говорят о том, что второй заметно более эффективен даже чисто в теории (0,65 против 1,25 Тфлопс/млрд). И даже если взять урезанную версию GA104 в RTX 3060 Ti, то это будет 0,93 Тфлопс/млрд — то есть показатель MTT S80 ниже в полтора, а то и в два раза. По скорости текстурирования и филлрейту, если верить заявленным MTT значениям, производительнее будет уже китайское решение, но это нужно проверять на практике. Кстати, предыдущее решение компании — модель MTT S60 — имело 2048 потоковых процессоров MUSA, вычислительную производительность до 6 терафлопс и скорость заполнения в 192 гигапикселей/с (примерно вдвое хуже по всем параметрам). К слову, MTT S80 основан на графическом процессоре Chunxiao, а S60 — на предыдущем чипе Sudi, и отличие нового GPU в том, что у него четыре вычислительных движка, которые могут работать одновременно.
Модель Moore Threads MTT S80 имеет 16 ГБ достаточно производительной GDDR6-памяти с эффективной частотой 14 ГГц, которая присоединена к графическому процессору по 256-битной шине, что дает итоговую пропускную способность памяти в 448 ГБ/с — ровно столько же, сколько у RTX 3060 Ti, к примеру. А вот что выгодно отличает именно старшую MTT S80, так это поддержка интерфейса PCIe 5.0 (с полной шириной x16, разумеется) — это первая в отрасли видеокарта с таким скоростным интерфейсом. В теории это должно обеспечить самую высокую пропускную способность для передачи данных в 128 ГБ/с (в обе стороны), недостижимую для всех остальных GPU, поддерживающих лишь предыдущую версию PCIe и имеющих вдвое меньшую скорость передачи. Другой вопрос, что мы не нашли тестов для Windows, которые могли бы на практике подтвердить эту скорость, и нам остается лишь верить китайским исследователям.
Значительно позднее компания Moore Threads анонсировала и выпустила на рынок модель MTT S70, основанную на том же GPU, но имеющем урезанные характеристики по сравнению с полным чипом в S80. Видеокарта MTT S70 имеет 3584 потоковых процессора архитектуры MUSA (вероятна группировка потоковых процессоров по 512 штук, если отключен один из укрупненных блоков, а если два, тогда по 256) и тактовую частоту до 1,6 ГГц — по сравнению с 4096 процессорами и 1,8 ГГц у S80. То есть пиковая вычислительная производительность S70 упала на 3,2 терафлопса. Судя по всему, аналогичным образом младшая версия GPU была урезана и по количеству блоков текстурирования и заполнения. Но это еще не всё: MTT S70 лишилась одного 32-битного канала памяти и вместо 256-битного предлагает лишь 224-битный интерфейс — не самое распространенное значение среди графических процессоров. Соответственно, установить на нее можно было или 14 ГБ, или 7 ГБ видеопамяти, и для младшей карты выбрали второй вариант, что смотрится весьма необычно. Эффективная частота памяти не изменилась (14 ГГц), поэтому общая пропускная способность составила 392 ГБ/с.
Ну а еще любопытнее то, что в компании решили лишить младший вариант уникальной особенности, известной по топовой видеокарте MTT: модель S70 поддерживает лишь интерфейс PCIe 4.0, а не более новый PCIe 5.0, поддержкой которого хвастает S80. Впрочем, на деле это скорее маркетинговое отличие, а в реальности PCIe 4.0 даже лучше, так как решает некоторые потенциальные проблемы совместимости с системными платами, скорости же более старой версии интерфейса для столь медленного GPU в игровых применениях точно будет достаточно. Что касается энергопотребления, то младший вариант видеокарты не слишком понизил эту планку: с 255 Вт лишь до 220 Вт.
Возможности по обработке видеоданных заявлены неплохие: видеокарты MTT имеют интеллектуальный мультимедийный движок второго поколения, который поддерживает такие распространенные видеоформаты, как AV1, H.264, H.265 и VP9, и также поддерживает аппаратную обработку и воспроизведение видеоданных в формате HDR10. S80 и S70 имеют четыре блока, которые обеспечивают обработку мультимедийных данных, их можно использовать в задачах компьютерного зрения, а также для простого ускорения кодирования и декодирования видеопотоков во всех основных видеоформатах. Поддерживается аппаратное ускорение декодирования видеопотока как минимум в форматах H.264, H.265 (HEVC), VP9 и AV1, включая 10-битные профили с разрешением до 8K или до 32 каналов Full HD при 30 FPS. На практике при тестовом просмотре видео типичная загрузка GPU наблюдалась порядка 50%-60%.
Благодаря поддержке относительно современных интерфейсов вывода данных на дисплеи DisplayPort 1.4a и HDMI 2.1, рассматриваемые китайские видеокарты поддерживают одновременный вывод информации на четыре дисплея с разрешением вплоть до 8K (7680×4320) при 30 Гц или 1920×1080 при 360 Гц, обещана также поддержка HDR. Ну а поддержка многопоточного транспорта MST дает возможность подключения нескольких дисплеев к одному порту при помощи объединения нескольких видеосигналов в один поток — до четырех.
Поддержка графических API
Найти специалистов по созданию графических процессоров непросто, о чем мы еще поговорим, но не менее сложно отыскать и программистов для написания хорошо оптимизированных графических драйверов для Windows и DirectX. Их в принципе мало, и большинство из них живет в западных странах. Даже компания Intel, занимающаяся созданием GPU десятки лет, столкнулась со многими проблемами и неудачами при разработке аппаратного и программного обеспечения для графики, не говоря уже о полностью новом игроке, присутствующем на рынке всего лишь три года. Поэтому совершенно не удивительно, что у китайцев возникли... скажем так, некоторые проблемы, и это еще мягко говоря.
Аппаратно графический процессор Chunxiao и видеокарты MTT выглядят весьма интересно, а вот с программной точки зрения им предстоит еще долгая работа. Центр управления видеокартой PES включает функции обновления драйверов, мониторинг состояния видеокарты, некоторые настройки и т. п., и тут всё довольно неплохо. Заявлена поддержка DirectX, OpenGL, Vulkan, OpenCL и CUDA (при помощи трансляции), но на данный момент по первому пункту это всего лишь DirectX 11 с уровнем возможностей 11_1 и OpenGL 3.3, так что GPU поддерживает лишь старые игры и приложения, и то далеко не идеально — есть проблемы и с производительностью, и с качеством.
Конечно, китайцы постоянно работают над улучшением драйверов, и новые версии часто обеспечивают большой прирост производительности, но это объясняется эффектом низкой базы: начальная скорость была уж слишком маленькой. Moore Threads продолжают оптимизировать программное обеспечение, чтобы повысить производительность и обеспечить лучшую совместимость, но не факт, что мы увидим действительно важные и большие изменения. Сейчас же поддержка возможностей Direct3D выглядит так.
Инструменты диагностики показывают общий доступный объем видеопамяти в 32 ГБ (к 16 ГБ локальной видеопамяти добавлены еще 16 ГБ разделяемой памяти в ОЗУ). Уровни поддержки функциональности Direct3D видеокартами MTT ограничены версией 11_1, хотя у всех современных GPU есть поддержка 12_1 и 12_0. Судя по всему, поддерживается полноэкранное сглаживание методами MSAA 2x, MSAA 4x и MSAA 8x, но мы это не проверяли, так как производительность слишком низкая и без включения столь затратных технологий. Максимальный поддерживаемый размер текстур — 8192×8192 пикселей (у видеокарт Nvidia, к примеру, 16384×16384).
Графическими процессорами MTT не поддерживаются следующие функции Direct3D 11 (по сравнению с современными видеокартами Nvidia): AGP Texturing, Double-Precision Floating-Point, Driver Concurrent Creates, Driver Command Lists, Edge Anti-Aliasing и Tiled Resources. Если Edge Anti-Aliasing и Double-Precision Floating-Point вряд ли пригодятся где-то с GPU такого уровня, то списки команд и мозаичные (плиточные) ресурсы вполне могли бы использоваться — особенно с учетом их дальнейшего развития в Direct3D12, который как раз и не поддерживается графическими процессорами MTT. Первые позволяют создавать объекты (текстуры, буферы и шейдеры) параллельно в разных потоках и формировать командный буфер в отдельном потоке, ускоряя загрузку и обработку. Практически все в том или ином виде используются в современных Direct3D12-приложениях. Тесселяция также поддерживается не полностью, как минимум пока.
Из важных вещей также нет поддержки функции GPU-планировщика с аппаратным ускорением — Hardware Scheduling, которая появилась в обновлении Windows 10 за май 2020 года. Аппаратное ускорение планирования обеспечивает более эффективное распределение ресурсов между различными приложениями — при поддержке этой функции аппаратным и программным обеспечением можно переложить большую часть планирования на сам графический процессор, что обычно работает несколько эффективнее. При этом сама операционная система продолжает решать, какие приложения имеют приоритет при использовании ресурсов.
Лицензирование или собственная архитектура?
Самый интересный вопрос: как китайцы за относительно короткое время вдруг смогли с нуля разработать полностью собственную графическую архитектуру, пусть и со множеством недостатков? Немногие компании в мире в принципе способны разработать собственные ядра графических процессоров, ведь в них используется немало технологий и патентов, принадлежащих далеко не только китайским компаниям, но и многим западным. Впрочем, не обязательно ведь разрабатывать самостоятельно вообще всё, можно использовать и чужие разработки, договорившись с их владельцами.
Этим вопросом задались далеко не мы одни, и хотя прямых доказательств нет, но, по многим признакам, есть немалая вероятность, что Moore Threads лицензировали какую-то архитектуру у компании Imagination Technologies, известной по PowerVR Kyro в настольных ПК много лет назад и графическим ядрам PowerVR в мобильных чипах, на которых основаны некоторые смартфоны и планшеты — к слову, их графические ядра раньше использовала даже Apple. Эта компания обладает более чем тридцатилетним опытом разработки графических процессоров PowerVR, они являются одними из пионеров аппаратных ускорителей 3D-графики. Компания известна по необычной архитектуре отложенного рендеринга на основе тайлов (tile-based deferred rendering — TBDR), созданной еще в 90-х годах, а их графические ядра для мобильных решениях включают даже поддержку трассировки лучей. В смартфонах и планшетах эти мобильные решения работают достаточно неплохо, обеспечивая хороший уровень производительности и энергоэффективности.
Портфолио графических процессоров компании Imagination весьма широко, их GPU отлично масштабируются и охватывают спектр решений с разным уровнем производительности. Интересно также, что недавно компания выпустила IMG DXD — новые высокопроизводительные графические ядра с поддержкой DirectX, предлагаемые для лицензирования сторонним компаниям. Конечно, архитектура не свалилась с неба, это наследник всё той же архитектуры отложенного рендеринга на основе тайлов PowerVR, которую мы знаем и по настольным решениям очень давнего прошлого, и по рынку мобильных решений, где очень важна высокая энергоэффективность. Новые ядра IMG DXD предлагают вдвое более высокую производительность на ядро по сравнению с предыдущими решениями IMG BXT. Ключевые функции повышения производительности — двойной темп FP16-вычислений, изменяемая скорость затенения — повышение производительности без ущерба качеству, текстурирование с двойным темпом, поддержка текстурного сжатия методом ASTC HDR для снижения требований к пропускной способности памяти, а также встроенное ядро RISC-V для управления графическим процессором.
Двухъядерная конфигурация IMG DXD обеспечивает вычислительную производительность до 5 терафлопс для вычислений в FP32-формате (темп FP16 вдвое выше, а DOT8 выше вчетверо) при скорости текстурирования в 144 гигатекселей/с, чего должно быть достаточно для непритязательных игроков. В реальных приложениях IMG DXD обеспечивает пиковую производительность на 40%—60% выше, чем эквивалентная конфигурация IMG BXT. Ну а для нас примечательнее всего то, что соотношение вычислительной производительности, скорости текстурирования и заполнения у IMG DXD и других решений компании в целом довольно близки к тому, что обозначила в своих материалах Moore Threads, так что на лицензирование каких-то предыдущих решений Imagination вполне похоже.
Всё это неудивительно: на китайском рынке растет спрос на высокопроизводительные и энергоэффективные видеокарты из-за растущего количества западных санкций и запретов, и востребованность предложения Imagination может быть весьма высокой. Полноценная аппаратная поддержка DirectX (пусть и всего лишь 11) и современных игр в IMG DXD дорогого стоит: как показал пример Moore Threads, таким образом можно сделать GPU полностью менее чем за пару лет, причем это будет индивидуальное решение, хотя и на основе кирпичиков чужой готовой архитектуры. Амбициозные китайские компании сейчас ускоряют изготовление своих продуктов, и подобная помощь от такого опытного партнера, как Imagination, им весьма пригодится.
Пока что аппаратная поддержка DirectX у IMG DXD заявлена лишь уровня возможностей 11_0, даже чуть ниже, чем у MTT, но это всё равно позволяет запускать множество популярных игр и приложений. Полная аппаратная поддержка DirectX очень важна для настольных GPU, и поддержка IMG DXD уровня возможностей Direct3D 11_0 — это только начало, специалисты компании собираются продолжать улучшать возможности своих решений, как утверждает директор компании. Их решениями также поддерживаются и другие API: Vulkan 1.3, OpenGL 4.6 (через Zink), OpenGL ES 3.2 и OpenCL 3.0. Как видите, и в этом возможности Moore Threads и самого современного решения Imagination, доступного для лицензирования, довольно близки.
Слухи давно говорили, что в решениях MTT используется архитектура PowerVR, и возможно, другие китайские компании будут догонять их, договорившись с той же Imagination, к примеру. Для Китая это означает лишь частичное решение их основной задачи, ведь патенты на большинство технологий GPU всё равно будут в чужих (западных) руках. Но использование готовых чужих блоков освобождает от львиной доли работы по созданию всей структуры GPU, и всю разработку можно завершить года за полтора. И на данном этапе развития китайской микроэлектроники это решение видится вполне разумным. Основные патенты в области графических процессоров, особенно связанные именно с графикой, а не вычислениями, находятся в руках таких производителей, как Nvidia, Intel и AMD, и китайские производители не смогут это обойти.
Модель правильная с коммерческой точки зрения, как и в мобильных SoC вполне нормально использовать готовые ядра ARM, а не разрабатывать свои. Лишь очень немногие из производителей микроконтроллеров в принципе имеют достаточно ресурсов и возможностей для разработки собственных ядер, а использование чужих разработок — быстрый и самый недорогой путь. Но с точки зрения импортозамещения, использование ядер GPU и архитектур иностранных (западных) производителей не способствует развитию собственных технологий. И тут есть серьезный риск, связанный с возможностью усиления санкционного давления со стороны западных стран.
В Китае еще в 90-х годах были разработки процессоров, сравнимых с Intel 80486, но после снятия ограничений на поставки таких процессоров производства Intel разработки собственных массовых решений были отложены в долгий ящик. Зачем тратить ресурсы, если всё можно купить, казалось тогда китайцам, да и не только им. Но если бы они продолжали свои разработки с того времени, то кто знает, может быть у них появился бы конкурент для Intel и Nvidia еще несколько лет назад. Ну а сейчас всё больше китайских компаний вынуждены проводить исследования и разрабатывать собственные технологии в области графических процессоров и вычислений, связанных с искусственным интеллектом.
И так как сейчас у китайских стартапов по проектированию и производству графических процессоров нет собственных разработок графических процессоров с нуля, то вполне можно использовать чужие, купив лицензию на использование графических ядер у Imagination Technologies. Пока на это есть деньги и не наложены санкции, такой вариант подходит. Можно также использовать специализированное ядро Nvidia с открытым исходным кодом NVDLA для вычислений, связанных с искусственным интеллектом — сам код открыт и его можно модифицировать как угодно, получив достаточно высокую эффективность, но графических функций в этом решении нет.
Сейчас в Китае существует несколько десятков начинающих компаний, которые занимаются именно графическими и вычислительными процессорами, и большинство из них используют ядра Imagination или NVDLA. И если всё больше предприятий будет развивать собственные исследования и разработки, у китайской индустрии графических процессоров появится больше возможностей. Мы постараемся следить за ними и по возможности исследовать.
Текущее положение дел и перспективы
Поговорим немного о том, что получилось на практике с видеокартами MTT у различных исследователей. Скорость заполнения MTT S80, по данным теста Fillrate Tester, равна 188 Гпикс/с, и это очень высокое значение: у RTX 3060 скорость заполнения менее 90 Гпикс/с, а MTT S80 по пиковой скорости заполнения ближе к RTX 3080 Ti. Вполне похоже, что Moore Threads указала верные данные по пиковой теоретической скорости заполнения, хотя оно и далеко от реального. Тест скорости текстурирования в бенчмарке 3DMark 06 показывает более 170 Гтекс/с, и это уже ближе к скорости заполнения текстур у условно конкурирующих видеокарт: например, RTX 3060 обеспечивает в этом тесте порядка 200 ГТекс/с.
К сожалению, под Windows оказалось не так много тестов, способных работать с китайскими видеокартами. К примеру, мы не смогли запустить тесты, использующие OpenCL, но максимальная скорость вычислений с плавающей запятой одинарной точности FP32 по результатам других исследователей составила для MTT S80 порядка 14 терафлопс, что весьма близко к ее теоретическому показателю. Что касается тестов пропускной способности PCIe, то в Windows мы также не смогли протестировать карты MTT, хотя поддержка S80 версии PCIe 5.0 нас весьма интересует. Китайские же исследователи через OpenCL в Ubuntu добились пропускной способности выгрузки в 28 Гбит/с, а загрузки — 32 Гбит/с, что далеко от теоретических значений, но всё равно заметно быстрее, чем у большинства других видеокарт с поддержкой «всего лишь» PCIe 4.0.
По данным всё тех же китайских исследователей, производительность декодирования видеороликов разрешения 1080p и формата VP9 в многоканальном тесте дает общую частоту кадров более 1200 кадров в секунду — то есть одновременно декодируется 10 каналов с более чем 120 FPS для каждого. Что касается кодирования, то десяток потоков разрешения 1080p сжимаются в формат H.265 со скоростью более 180 кадров в секунду. Так что аппаратные возможности кодирования и декодирования в MTT весьма хороши, но есть немалая ложка дегтя: адаптации популярного программного обеспечения под эти решения еще нет. Moore Threads занимается поддержкой программного обеспечения для редактирования видеоданных, но пока что всё находится на зачаточном уровне.
Если же вернуться к 3D-производительности, то если смотреть исключительно по результатам в синтетических тестах, а также теоретическим показателям производительности, топовая MTT S80 должна бы достигать примерно уровня GeForce RTX 3060. Но так как драйвер до сих пор сложно назвать хорошо оптимизированным, производительность даже в поддерживаемых китайскими GPU играх не дотягивает до куда менее производительных решений. Налицо явное несовпадение между заявленными теоретическими характеристиками MTT S80/S70 и их результатами в реальных тестах и играх. Уровень аппаратных возможностей MTT S80 и S70 до сих пор не раскрыт, и есть предположение, что в основном именно из-за недостатков драйверов.
Видеокарты MTT лучше всего себя показывают в приложениях, использующих DirectX 9, что также намекает на устаревшую архитектуру, для которой много лет не оптимизировали и не писали новые драйверы. Кстати, сначала драйверы китайских GPU вообще поддерживали только DX9, затем стала появляться поддержка DX10 и некоторых игр DX11, список которых постоянно расширялся. Всё это свидетельствует о явной работе и прогрессе оптимизации драйверов, но у китайцев впереди еще очень много работы. Список поддерживаемых игр растет, но всё это довольно старые проекты, а почти все новые используют Direct3D 12, которым в случае китайских видеокарт пока и не пахнет.
Так что с игровой точки зрения, видеокарты MTT — это первый блин, они очень сырые, их программная часть находится в постоянной разработке и доработке. Драйверы не поддерживают многие функции привычных графических API, вроде DirectX, вызов некоторых из поддерживаемых вызывает явные проблемы с производительностью, а иногда и с качеством. Есть подозрение, что в архитектуре и текущем воплощении GPU есть немало технических ошибок в аппаратном обеспечении, которые драйверам приходится обходить программно, а это всегда обходится очень дорого в плане производительности. Было бы неплохо увидеть исправления в следующих GPU, но пока что у нас нет никаких данных об этом — компания Moore Threads весьма скрытна, а теперь еще и санкции изменят планы.
Возможно, при дальнейшей разработке архитектуры удалось бы исправить большинство проблем, но на данный момент мы не уверены в том, что это будет сделано. Возможно, компания поспешила с рекламными заявлениями о том, что их видеокарты подходят для игр и вообще конкурентоспособны. Подобные решения на такой стадии разработки подходят скорее для отдельных узкоспециализированных применений, вроде разработки вычислительного ПО, в котором нужно использовать исключительно китайское аппаратное и программное обеспечение. Для таких задач MTT S80 и S70 вполне подойдут, а еще лучше подойдут специализированные ускорители вычислений, основанные на том же графическом процессоре. Но S80 и S70 выпущены как игровые решения, и в этом качестве они отнюдь не блистают.
Даже топовая модель S80 по производительности соответствует разве что GeForce GTX 1050 Ti, в лучшем случае — GTX 1650. Это крайне низкий уровень по сегодняшним меркам, а ведь если смотреть на сложность чипа Chunxiao, то решения на его основе должны конкурировать хотя бы с RTX 3060 Ti, чтобы иметь рыночный успех. Но многие даже не самые современные игры плохо работают или вовсе не запускаются на MTT из-за проблем совместимости драйверов и API. И поэтому S80 и S70 — игровые видеокарты для крайне малой доли энтузиастов, в реальности их применение выглядит необоснованно даже для китайского рынка, пока на него не запретили поставлять видеокарты Nvidia, AMD и Intel. Особенно при не самых низких ценах на видеокарты MTT, которые поначалу вообще были порядка $300 на внутреннем китайском рынке — так что та же GTX 1050 Ti была и лучше, и дешевле.
У видеокарт MTT очень хорошие теоретические показатели производительности вычислений, текстурирования, скорости заполнения, конкурентоспособный техпроцесс и показатель потребления энергии, а установленная GDDR6-память имеет очень приличную пропускную способность, не говоря уже о поддержке PCIe 5.0 — зачем бы китайцы делали всё это при скорости на уровне GTX 1050 Ti? Вероятнее всего, видеокарты MTT с аппаратной точки зрения способны на гораздо большее, чем мы получаем. Ну не должен достаточно сложный GPU с кучей исполнительных блоков и приличной частотой, интерфейсом PCIe 5.0 и 16 ГБ GDDR6-памяти с 256-битной шиной работать как медленная и древняя видеокарта с 4 ГБ медленной видеопамяти, присоединенной по 64-битной шине, да при потреблении в 75 Вт.
На (очень осторожный) оптимизм нас может настраивать лишь то, что у компании Intel также получалось далеко не всё сразу при выходе на рынок видеокарт серии Arc, особенно самых первых. Они также не поддерживали кучу игр и работали куда медленнее ожидаемого уровня, а затем удивили значительным приростом производительности и совместимости драйверов за довольно короткий период. И ведь это — огромная махина Intel с многолетним опытом в проектировании и производстве графических ядер, включая встроенные в процессоры, которые требуют высокой эффективности. Так что есть некоторые шансы и на то, что игровая производительность и совместимость MTT S80 и S70 сильно подрастут и сравняются, к примеру, хотя бы с Radeon RX 5700, если драйверы будут дорабатываться в высоком темпе. И тут нужна не только производительность, но и поддержка всех современных версий DirectX, OpenGL и OpenCL.
Возможно, видеокарты MTT в принципе лучше подходят не для игр, а для различных вычислительных применений, включая использование нейросетей. В теории, архитектура MUSA и разработанный компанией полный стек позволяет обеспечить необходимыми инструментами разработчиков ПО, перенести уже существующие программы на видеокарты MTT, которые совместимы с PyTorch, TensorFlow, PaddlePaddle, OneFlow и другими платформами глубокого обучения. В число функциональных модулей, включенных в программный стек MUSA, входит рендеринг, работа с мультимедиа, задачи искусственного интеллекта, физического моделирования и общих вычислений.
В теории графические процессоры MTT должны показывать неплохую производительность в таких задачах, ведь максимальная вычислительная производительность в операциях с плавающей запятой одинарной точности и специальном 8-битном формате INT8 у них достаточно высока. Есть некоторые данные о том, что решения MTT неплохо адаптированы к MONAI — платформе искусственного интеллекта с открытым исходным кодом в области медицинских исследований, к примеру. Также китайцы подтверждают высокую производительность в OpenCL под Ubuntu. Но так как мы используем только публичные тесты и не занимаемся вычислениями самостоятельно, то и проверить всё это не можем.
Кстати, одна из важнейших технологий, разработанных Moore Threads — CUDA on MUSA. Судя по ее названию, она позволяет снизить затраты на переход существующих пользователей CUDA с видеокарт Nvidia на MTT при помощи портирования кода на CUDA в код, подходящий для решений Moore Threads (видимо, OpenCL). Мы не знаем, насколько просто перенести исходный код CUDA на графические процессоры Moore Threads, но на бумаге заявлено, что это якобы достаточно просто, нужно лишь портировать и перекомпилировать код. Мы это также не можем проверить.
Что ж, сейчас предлагаем перейти к тому, что́ мы проверить можем и чем постоянно занимаемся — к рассмотрению особенностей видеокарт Moore Threads MTT S80 и S70 на практике.
Особенности карт Moore Threads MTT S80 (16 ГБ) и MTT S70 (7 ГБ)
Как устроены видеокарты MTT, их температурные и шумовые характеристики
Компания Moore Threads Technology (торговая марка MTT) основана в 2020 году в Китайской Народной Республике. Штаб-квартира в Пекине. Изначально создавалась как стартовая компания разработчиков новых графических процессоров и видеокарт на их основе. Формальным руководителем является бывший вице-президент и глава офиса Nvidia в КНР Чжан Цзяньчжун. За три года существования стартап получил миллиарды долларов государственной поддержки правительства КНР, вследствие чего уже через год компания объявила о первой успешной разработке собственного GPU, на основе которого вышли первые продукты компании для вычислительных нужд под единой идеологией создания «метакомпьютеров» для вычислительных процессов оцифровки всего физического мира и физикализации цифрового мира. Была создана единая системная архитектура MUSA (MT Unified System Architecture). Численность персонала неизвестна.
Объекты исследования: ускоритель трехмерной графики (видеокарта) MTT S80 16 ГБ 256-битной GDDR6 и ускоритель MTT S70 7 ГБ 224-битной GDDR6.
Частота работы памяти (физическая (эффективная)), МГц
1750 (14000)
1750 (14000)
Ширина шины обмена с памятью, бит
256
224
Число вычислительных блоков в GPU
64
56
Число операций (ALU/CUDA) в блоке
64
Суммарное количество блоков ALU/CUDA
4096
3584
Число блоков текстурирования (BLF/TLF/ANIS)
152
148
Число блоков растеризации (ROP)
80
Число блоков Ray Tracing
—
Число тензорных блоков
128
114
Размеры, мм
285×110×50
Количество слотов в системном блоке, занимаемые видеокартой
3
Цвет текстолита
черный
Энергопотребление пиковое в 3D, Вт
170
152
Энергопотребление в режиме 2D, Вт
150
141
Энергопотребление в режиме «сна», Вт
—
—
Уровень шума в 3D (максимальная нагрузка), дБА
27,6
27,4
Уровень шума в 2D (просмотр видео), дБА
22,0
22,0
Уровень шума в 2D (в простое), дБА
22,0
22,0
Видеовыходы
1×HDMI 2.1, 3×DisplayPort 1.4a
Поддержка многопроцессорной работы
нет
Максимальное количество приемников/мониторов для одновременного вывода изображения
4
4
Питание: 8-контактные разъемы PCIe
0
1
Питание: 8-контактные разъемы EPS12V
1
0
Питание: 16-контактные разъемы
0
0
Вес карты с комплектом поставки (брутто), кг
—
1,3
Вес карты чистый (нетто), кг
1,0
1,0
Максимальное разрешение/частота, DisplayPort
3840×2160@144 Гц, 7680×4320@60 Гц
Максимальное разрешение/частота, HDMI
3840×2160@144 Гц, 7680×4320@60 Гц
Ориентировочная стоимость карт
18 тысяч рублей
14 тысяч рублей
Память
Карта MTT S80 имеет 16 ГБ памяти GDDR6 SDRAM, размещенной в 8 микросхемах по 16 Гбит на лицевой стороне PCB.
Карта MTT S70 имеет 7 ГБ памяти GDDR6 SDRAM, размещенной в 7 микросхемах по 8 Гбит на лицевой стороне PCB.
Микросхемы памяти Samsung рассчитаны на номинальную частоту работы в 2000 (16000) МГц.
Особенности карт и сравнение между собой
MTT S80 (16 ГБ)
MTT S70 (7 ГБ)
вид спереди
вид сзади
Прекрасно видно, что обе карты имеют совершенно одинаковые PCB. Разница лишь емкостях установленных микросхем памяти и в отсутствии одной микросхемы у S70, вследствие чего объем памяти снизился до 7 ГБ, а ширина шины обмена с памятью — до 224 бит.
MTT S80 использует чип SD102AA-500, дата выпуска неизвестна.
MTT S70 использует чип SD102AA-400, дата выпуска неизвестна.
Чипы имеют разные маркировки производства, поэтому можно предположить, что кристаллы выпускались на разных заводах.
Суммарное количество фаз питания у обеих карт — 8 (6+2).
Зеленым цветом отмечена схема питания ядра, красным — памяти.
6 фазами питания ядра управляют два ШИМ-контроллера DRV8305 (Texas Instruments), каждый из которых рассчитан максимум на 3 фазы. Они расположены на лицевой стороне карты.
2 фазами питания микросхем памяти заведует точно такой же третий ШИМ-контроллер.
В преобразователе питания ядра и микросхем памяти используются транзисторные сборки DrMOS — в данном случае AOZ5311 (Alpha&Omega Semi), рассчитанные максимум на 55 А.
Имеется и контроллер Texas Instruments для мониторинга (отслеживания напряжений и температур).
Карты оснащены подсветкой, но однотонной и неуправляемой, так что контроллера подветки нет.
Обе карты оснащены контроллером Realtek RTD2175, который преобразует сигнал DisplayPort в HDMI 2.1 (для работы единственного такого видеовыхода).
Энергопотребление карт в тестах доходило до 170 Вт у MTT S80 и до 152 Вт у MTT S70 (что примерно соответствует их заявленному максимальному потреблению с учетом того, что во время тестов мы видели стабильно низкую загруженность GPU, далекую от 100%).
Питание на обе карты подается через боковой торец. При этом у MTT S70 установлен обычный 8-контактный разъем PCIe 2.0, а у MTT S80 — тоже 8-контактный, но EPS12V (такие устанавливаются на материнских платах для питания CPU).
Карта MTT S80 поставляется с переходником питания на EPS12V с двух 8-контактных разъемов PCIe (как правило, у блоков питания всего 2 «хвоста» EPS12V, и часто они оба используются).
Чтобы не перепутать требуемый коннектор, карты снабжены соответствующими наклейками на разъемах питания. Однако MTT S80 мы получили в составе уже собранного ПК, с уже вставленным хвостом питания и переходником, так что наклейки на ней не было.
Габариты карт вполне стандартные, толщина составляет 5 см, так что они занимают почти 3 слота в системном блоке (официально производитель их заявляет как 2-слотовые).
Также стоит отметить, что у обеих карт используются стандартные 4 видеовыхода: один HDMI 2.1 и три DP 1.4a.
Управление работой карт обеспечивается с помощью фирменной утилиты MTT PES (Perfect Experience System). PES позволяет лицезреть мониторинг во всей красе и управлять выводом графики на несколько мониторов. Управлять частотами GPU и режимами работы возможности нет. Очень важно включить в настройках автоматическое отслеживание обновлений драйверов, ибо только половина версий выкладывается на сайте в виде отдельных пакетов, прочие скачиваются через PES в виде обновлений.
Семейство MTT уже понимает FurMark 2, однако HWinfo до сих пор может выдавать лишь очень скудную информацию.
Нагрев и охлаждение
Основой СО является относительно массивный двухсекционный пластинчатый никелированный радиатор с тепловыми трубками, распределяющими тепло по ребрам радиатора.
Трубки припаяны к огромному медному плато. Микросхемы памяти и преобразователи питания VRM охлаждаются с помощью этого же огромного теплосъемника (через термопрокладки).
Задняя пластина служит элементом защиты PCB, усиливает жесткость конструкции, а также помогает в охлаждении силовых элементов схемы питания GPU (она прижата к оборотной стороне текстолита через термопрокладку).
Поверх радиатора установлен кожух с тремя вентиляторами (боковые — ∅100 мм, центральный — ∅85 мм).
Вентиляторы вращаются всегда, вне зависимости от нагрузки.
Мониторинг температурного режима
MTT S80
После 2-часового прогона под нагрузкой максимальная температура ядра не превысила 52 градусов, что является отличным результатом. Энергопотребление карты доходило до 170 Вт.
Максимум нагрева — около GPU и у разъема PCIe.
MTT S70
После 2-часового прогона под нагрузкой максимальная температура ядра не превысила 46 градусов, что также является отличным результатом. Энергопотребление карты доходило до 152 Вт.
Шум
Методика измерения шума подразумевает, что помещение шумоизолировано и заглушено, снижены реверберации. Системный блок, в котором исследуется шум видеокарт, не имеет вентиляторов, не является источником механического шума. Фоновый уровень 18 дБА — это уровень шума в комнате и уровень шумов собственно шумомера. Измерения проводятся с расстояния 50 см от видеокарты на уровне системы охлаждения.
Режимы измерения:
Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов
Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров
Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark
Оценка градаций уровня шума следующая:
менее 20 дБА: условно бесшумно
от 20 до 25 дБА: очень тихо
от 25 до 30 дБА: тихо
от 30 до 35 дБА: отчетливо слышно
от 35 до 40 дБА: громко, но терпимо
выше 40 дБА: очень громко
MTT S80
В режиме простоя в 2D температура была не выше 24 °C, вентиляторы работали на частоте вращения 1100 оборотов в минуту, уровень шума был равен 22 дБА.
При просмотре фильма с аппаратным декодированием ничего не менялось.
В режиме максимальной нагрузки в 3D температура ядра достигала 52 °C. Вентиляторы при этом раскручивались до 1846 оборотов в минуту, шум вырастал до 27,6 дБА: это тихо. Аудиозапись шума — здесь.
Спектрограмма шума:
MTT S70
В режиме простоя в 2D температура была не выше 22 °C, вентиляторы работали на частоте вращения 1000 оборотов в минуту, уровень шума был равен 22 дБА.
При просмотре фильма с аппаратным декодированием ничего не менялось.
В режиме максимальной нагрузки в 3D температура ядра достигала 46 °C. Вентиляторы при этом раскручивались до 1828 оборотов в минуту, шум вырастал до 27,4 дБА: это тихо. Аудиозапись шума — здесь.
Спектрограмма шума:
Подсветка
У обеих карт имеется однотонная оранжевая неуправляемая и неотключаемая подсветка по ободу центрального вентилятора. Точно так же подсвечен вырез в форме логотипа компании на задней пластине.
Комплект поставки и упаковка
MTT S70
В комплекте поставки кроме традиционного краткого руководства пользователя и гарантийной карты (оба на китайском языке) больше ничего нет.
MTT S80
Как мы уже отмечали, данная карта попала к нам в составе системного блока, так что кроме переходника питания с ней ничего не было. Однако в качестве бонуса отдельной посылкой приехал огромный фирменный коврик Moore Threads для мыши.
Тестирование: синтетические тесты
Мы провели повторное тестирование пары видеокарт Moore Threads со стандартными параметрами в нашем наборе синтетических тестов, с использованием последней версии драйверов на момент написания текста — 270.80. Тестовый набор в случае китайских GPU всё еще сильно не дотягивает до полноценного — хотя ранее мы добавили в него много новых тестов, но из-за крайне ограниченной поддержки графических API китайскими решениями (даже с новыми драйверами, немного улучшившими ситуацию) пришлось сильно урезать список и даже протестировать GPU в старых DirectX 10 тестах, которые мы давно выкинули из наших обычных материалов по картам AMD, Intel и Nvidia. Самое обидное, что нам снова придется обойтись без приложений DirectX 12, которые сейчас составляют основу наших синтетических тестов для графических процессоров, потому что необходимую поддержку со стороны драйверов решения MTT вряд ли вообще когда-либо получат.
Синтетические тесты проводились на следующих конфигурациях:
MTT S80 со стандартными параметрами и новыми драйверами 270.80 (MTT S80 NEW)
MTT S80 со стандартными параметрами и старыми драйверами 230.40 (MTT S80)
MTT S70 со стандартными параметрами и новыми драйверами 270.80 (MTT S70 NEW)
MTT S70 со стандартными параметрами и старыми драйверами 230.40 (MTT S70)
Radeon RX 5500 XT со стандартными параметрами (RX 5500 XT)
GeForce GTX 1650 со стандартными параметрами (GTX 1650)
GeForce GTX 1050 Ti со стандартными параметрами (GTX 1050 Ti)
GeForce GTX 1050 со стандартными параметрами (GTX 1050)
Соперники для анализа производительности видеокарт MTT и с новой версией драйверов остались теми же, и их было довольно сложно выбрать, особенно с учетом того, что решений подобного уровня производительности Nvidia с AMD давно не выпускали. Из имеющихся видеокарт Radeon мы взяли лишь одну модель из древнего поколения на основе еще первой архитектуры RDNA — Radeon RX 5500 XT. Она является чуть ли не самой слабой из той линейки (редкую RX 5300 не считаем) и достаточно старой и медленной для того, чтобы китайские видеокарты могли составить ей хоть какую-то конкуренцию.
Из решений производства Nvidia выбор был несколько шире, так как они выпустили в свое время линейку GeForce GTX 16 с относительно слабыми GPU. Из нее мы и взяли также почти самую слабую модель — GTX 1650 (в GTX 1630 нет смысла, так как она медленнее даже GTX 1050 Ti). А из GPU еще более старших поколений у нас будут представлены модели GTX 1050 Ti или GTX 1050, в зависимости от теста. Конечно, все они не являются прямыми соперниками китайским GPU по цене и возможностям, так как видеокарты AMD и Nvidia обычно и дешевле и стабильнее, но для синтетических тестов это не особенно важно.
Тесты Direct3D 10
Из DirectX 10-тестов из RightMark3D мы оставили только несколько примеров с наибольшей нагрузкой на GPU, в этот раз их будет чуть больше — по причине того, что видеокарты MTT не поддерживают самую современную версию этого графического API и с самыми новыми драйверами, а протестировать их надо. Первая пара тестов измеряет производительность выполнения относительно простых пиксельных шейдеров с циклами при большом количестве текстурных выборок (до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере. Оба примера включают самозатенение и шейдерный суперсэмплинг, увеличивающий нагрузку на видеочипы.
Первый тест пиксельных шейдеров — Fur. При максимальных настройках в нем используется от 160 до 320 текстурных выборок из карты высот и несколько выборок из основной текстуры. Производительность в данном тесте сильнее всего зависит от количества и эффективности блоков TMU, но на результат влияет также и эффективность выполнения сложных программ.
В задачах процедурной визуализации меха с большим количеством текстурных выборок, ранее чаще остальных хорошо выглядели решения компании AMD, которые были в лидерах с выхода первых графических процессоров архитектуры GCN, а модели на чипах Navi архитектуры RDNA1 стали еще сильнее, что говорит о большей эффективности выполнения ими подобных программ — но лишь по сравнению с решениями Nvidia, как выяснилось позднее.
Обе модели видеокарт компании Moore Threads выступают в этих тестах даже еще лучше, обогнав своих условных соперников: и Radeon RX 5500 XT и GeForce GTX 1650 с GTX 1050. Благодаря большому количеству блоков TMU, видеокарты S80 и S70 оказались заметно быстрее остальных видеокарт в этом тесте. Интересно, что S70 со старыми драйверами проигрывала старшей модели очень прилично и больше того, что должно быть по теории, но новые драйверы приблизили младшую модификацию к старшей. Которая, в свою очередь, почему-то даже стала медленнее в более сложных условиях высокой детализации. Причем это не ошибка, как показали чуть более сложные шейдеры и условия второго теста.
Еще один DX10-тест Steep Parallax Mapping также измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок. При максимальных настройках он использует от 80 до 400 текстурных выборок из карты высот и несколько выборок из базовых текстур. Этот шейдерный тест Direct3D 10 несколько интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, в том числе и такие варианты как steep parallax mapping. Кроме того, в нашем тесте мы включили самозатенение, увеличивающее нагрузку на видеочип в два раза, и суперсэмплинг, также повышающий требования к мощности GPU.
Диаграмма очень похожа на предыдущую, видеокарты GeForce выглядят чуть получше по отношению к Radeon, а две китайские видеокарты остались в лидерах. Старшая из них намного опережает остальные GPU — большое количество блоков текстурирования дает китайским видеокартам явное преимущество в таких тестах со сложными шейдерами и многочисленными текстурными выборками.
И снова примерно то же самое мы наблюдаем с младшим вариантом MTT S70, который со старыми драйверами был примерно на уровне Radeon RX 5500 XT, а драйверы новой версии значительно улучшили результат. А для S80 и сложных условий повышенной детализации даже ухудшили, хотя в режиме Low он чуть увеличился. Впрочем, это ничего не изменило, китайские видеокарты оказались теперь заметно быстрее как обеих видеокарт Nvidia, так и Radeon, также и во втором тесте.
Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере. В последние годы скорость выполнения арифметических инструкций в пиксельном шейдере стала не так важна, ведь большинство вычислений перешли в compute shaders, но для устаревших игр это важно.
Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.
Результаты следующей пары предельных математических тестов для DirectX 10 чаще всего не полностью соответствуют разнице по частотам и количеству вычислительных блоков, на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и упор в ПСП, и много чего еще. Так что в тесте Mineral видеокарты зачастую обеспечивают не самые показательные результаты, иногда далекие как от теории, так и от результатов в аналогичных тестах из других пакетов.
В прошлом году мы отмечали, что видеокарты MTT показали тут не самый высокий результат, хотя старшая модель обошла обе GeForce, но она отстала от видеокарты AMD, что не соответствует теоретическим пиковым показателям всех этих решений. А младшая видеокарта S70 слишком сильно уступала старшему варианту, оказавшись слабейшей в тесте, уступив даже сравнительно слабой по теории GeForce GTX 1050.
Можно сказать, что с новыми драйверами всё круто изменилось. Мы писали, что драйверы для разных моделей на базе одного и того же GPU могут быть настроены по-разному, так и получилось — с обновленной версией S70 оказалась куда ближе к S80, как и должно быть с самого начала. И вообще, теперь S80 лучшая в сравнении, пусть и с небольшим преимуществом, а младшая уступила только Radeon — но зато обогнала S80, работающую под управлением старых драйверов. Так что соответствие теоретических показателей и реальной скорости вычислений для китайских решений явно улучшилось.
Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для блоков ALU, текстурная выборка в нем только одна, а вот количество инструкций типа sin и cos увеличено вдвое — до 130. Посмотрим, что изменится при увеличении нагрузки:
Второй тест математических вычислений для китайских видеокарт оказался похуже. Со старыми драйверами младшая S70 уступала старшей S80 более чем в полтора раза, чего не должно быть по теории, и мы писали о вопросах к оптимизации драйверов, продолжая предполагать, что они могут быть основаны на разном коде. Судя по всему, так оно и было, ведь с новыми драйверами S70 отстает от S80 уже намного меньше. Хотя нужно заметить, что в подобных математических тестах мы нередко получали результаты, далекие от теории, многие GPU при тестировании чаще всего не загружены работой на 100% и сильно ограничены чем-то еще, кроме скорости ALU.
Но теперь, с увеличенной производительностью при новой версии драйверов, старшая MTT S80 заметно сильнее опережает обе GeForce, чем со старым ПО. А младшая модель S70 из аутсайдера сравнения превратилась в середнячка — она хоть и не догнала Radeon, но даже чуть опередила GeForce GTX 1650. Пусть это до сих пор не совсем соответствует теории, но уже куда ближе к ней. И это важно именно в подобных задачах, которые частенько перекликаются с тем, что получается в реальном ПО. И если про видеокарты Moore Threads мы раньше писали, что в математических DX10-тестах они показали себя средне, то их положение с новыми драйверами заметно улучшилось, особенно это касается младшей модели.
Переходим к тесту геометрических шейдеров. В составе пакета RightMark3D 2.0 есть два теста скорости геометрических шейдеров, но один из них (Hyperlight, демонстрирующий использование техник: instancing, stream output, buffer load, использующий динамическое создание геометрии и stream output), на всех видеокартах компании AMD не работает, да и на видеокартах MTT отработал так себе, поэтому мы оставили лишь второй — Galaxy. В этом тесте анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу.
Все вычисления в этом тесте производятся в геометрическом шейдере, и это уже куда менее распространенная задача, по сравнению с текстурированием и интенсивными математическими вычислениями из прошлых тестов, и это привело к тому, что обе видеокарты MTT показали себя явно слабее и AMD и Nvidia, даже с учетом того, что мы сравниваем их с очень старыми моделями. Разница между S80 и S70 невелика, и в этот раз она вполне соответствует теоретической.
Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, так как производительность соответствует количеству точек, но видеокарты MTT S80 и S70 показали крайне низкие результаты в несколько раз ниже даже своих устаревших условных конкурентов от AMD и Nvidia. Radeon RX 5500 XT и GeForce GTX 1650 в этом тесте находятся примерно на одном уровне, и обе достаточно эффективно выполняют работу, а вот видеокарты MTT плохо подготовлены для геометрических шейдеров — у них слабые геометрические конвейеры, да и драйверы вряд ли хорошо оптимизированы для подобных задач. И последнее обновление не дало существенного результата — скорость повысилась лишь на единицы процентов, что не меняет вообще ничего из наших выводов.
Переходим в тестированию скорости текстурных выборок из вершинных шейдеров. В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты «Earth» и «Waves» схожи по сути, в обоих используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет. И так как результаты оказались в целом схожими, будет достаточно лишь теста «Waves», количество билинейных текстурных выборок в данном случае до 24 на каждую вершину.
Как показала практика, на результаты этого теста может также влиять филлрейт и пропускная способность памяти, ограничивающая производительность, но у видеокарт Moore Threads с этим проблем нет, а как и со скоростью текстурных выборок самих по себе, а вот с оптимизацией драйверов под разные задачи, тем более относительно слабо распространенные, у них до сих пор большая беда, и мы еще раз смогли в этом убедиться.
Ситуация в этом тесте если и лучше, чем с геометрическими шейдерами, то не слишком — MTT S80 и S70 всё равно заметно уступили остальным участникам тестирования. Рассматриваемые китайские видеокарты показали крайне низкую скорость, отставая от единственного представителя Radeon до пяти раз и уступая даже слабейшей из GeForce до трех раз. Младшая модель S70 и в этот раз отстала от старшей модели не так уж далеко, но это не может быть утешением, так как в целом по геометрическим и вершинным шейдерам ситуация для видеокарт MTT печальная — они явно проигрывают даже очень старым и медленным GPU двух известных производителей.
Ах да, мы же перетестировали MTT с новыми драйверами... Хотя они и дали прирост в несколько процентов во всех протестированных нами случаях и условиях, существенным его назвать можно разве что для модели S70, да и то с большими оговорками, ведь она всё равно уступила слабейшей из GeForce более чем вдвое. Так что хотя прирост от новой версии драйверов есть и в этом тесте, он не позволяет догнать даже таких старых и слабых соперников в этом случае.
Тесты 3DMark Vantage
Обычно мы рассматриваем также устаревшие синтетические тесты из пакета 3DMark Vantage, ведь в них зачастую можно найти что-то интересное, чего нет в других, более современных тестах. Feature тесты из этого тестового пакета имеют поддержку DirectX 10, они до сих пор более-менее актуальны и при анализе результатов новых видеокарт мы всегда делаем какие-то полезные выводы.
Feature Test 1: Texture Fill
Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.
Эффективность работы видеокарт AMD и Nvidia в текстурном тесте компании Futuremark обычно довольно высока, и тест показывает результаты, близкие к соответствующим теоретическим параметрам, хотя иногда они всё же получаются несколько заниженными в случае некоторых GPU. Видеокарты Moore Threads же явно отстают от своих пиковых параметров, провозглашенных производителем — эффективная скорость текстурирования решений MTT оказалась явно ниже, чем даже у старых видеокарт AMD и Nvidia.
Хотя в целом производительность полноценной модели китайского графического процессора Chunxiao в этом тесте оказалась достаточно высока, чтобы обойти и Radeon RX 5500 XT и пару GeForce. А вот младшая модель на урезанном варианте GPU на старых драйверах смогла осилить лишь GTX 1050 Ti, чего не должно быть по теории, тогда у нас получилась двойная разницу между моделями S80 и S70, что могло объясняться лишь разной оптимизацией для этих видеокарт. Что и доказали новые драйверы, ведь с ними S70 заметно приблизилась к S80 и теперь даже младшая модель MTT опережает всех своих условных соперников от AMD и Nvidia. А вот S80 получила очень слабое ускорение от новых драйверов в этом тесте.
Feature Test 2: Color Fill
Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне современным.
Результаты второго подтеста 3DMark Vantage показывают производительность блоков ROP без учета величины пропускной способности видеопамяти, и тест измеряет именно производительность подсистемы ROP, а ПСП обычно не оказывает явного влияния. В прошлогоднем тесте мы особо отметили несуразную разницу между MTT S80 и S70 — ну не может быть такой разницы между парой решений на одном и том же GPU, хоть и с разным количеством исполнительных блоков. Очевидно, что в очередной раз проявилась разница в прошлогодних драйверах, оптимизированных для двух моделей по-разному.
И вот тут драйверы версии 270.80 изменили буквально всё — S70 теперь отстает от S80 примерно соответственно теории. Обе китайские видеокарты теперь стали ближе к впечатляющим теоретическим показателям пиковой скорости заполнения сцены, и сравнивать их с имеющимися у нас Radeon RX 5500 XT и парой GeForce просто нет смысла — MTT в разы быстрее справляются с такими условиями, что объясняется, скорее всего, родственностью их архитектуры с PowerVR, скажем так. Но нужно понимать, что это — искусственные условия, хорошо подходящие для тайловой архитектуры, а в реальных задачах такой разницы с традиционными GPU точно не будет.
Feature Test 3: Parallax Occlusion Mapping
Один из самых интересных feature-тестов, так как подобная техника давно используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.
Результаты этого теста из пакета 3DMark Vantage зависят не только исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а сразу от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен правильный баланс GPU, а также эффективность выполнения сложных шейдеров. Это довольно полезный тест, так как результаты в нем нередко хорошо коррелируют с тем, что получается в игровых тестах. Тут важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage видеокарты Moore Threads выступают очень неплохо — как и в аналогичных тестах предыдущего раздела из RightMark.
Но год назад мы и в этом случае отмечали слишком большую разницу между старшей видеокартой S80 и младшей S70, которая уступала первой слишком сильно. Но свежие драйверы уже одинаково оптимизированы для обеих моделей, и S70 заметно приблизилась к топовому GPU, который также получил хоть и небольшой, но всё же ощутимый прирост производительности. В результате, хотя младшей S70 и не хватило скорости, чтобы обогнать Radeon RX 5500 XT и GeForce GTX 1650, но разница между ними в этом тесте уже совсем невелика, что намного лучше прошлогодней ситуации. Ну а старшая S80 теперь уже безоговорочно впереди всех.
Feature Test 4: GPU Cloth
Четвертый тест интересен тем, что в нем рассчитываются физические взаимодействия (имитация ткани) при помощи GPU. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.
Скорость рендеринга в этом тесте также должна зависеть сразу от нескольких параметров, и основными факторами влияния должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Должны в теории, но на видеокартах Nvidia мы давно получаем явно некорректные результаты в этом тесте, поэтому не учитываем их, как и результаты видеокарт поколения Radeon RX 7000. А для MTT всё даже еще хуже, результаты в этом тесте в десятки раз ниже, чем у конкурентов.
Как и в тестах геометрических и вершинных шейдеров из предыдущего раздела, тут всё очень плохо, и это не объяснить теорией. Скорее всего, дело в драйверах, которые никто не оптимизирует для таких задач и непопулярных тестовых пакетов. И обновление версии драйверов до 270.80 не изменило практически ничего, несмотря на то, что чисто формально S70 ускорилась более чем втрое. S80 вообще чуть-чуть потеряла в скорости, а обе они заметно медленнее своих условных соперников в любом случае.
Feature Test 5: GPU Particles
Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи графического процессора. Используется вершинная симуляция, где каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.
В этом случае мы видим почти то же самое, что и на прошлой диаграмме — и во втором геометрическом тесте из 3DMark Vantage результаты у китайских видеокарт компании Moore Threads получились не совсем корректные — в десятки раз хуже, чем у Radeon и GeForce. Новый драйвер ничего не улучшил и тут, MTT всё так же безнадежно отстают. Да, S70 снова ускорилась втрое, но толку то...
Мы даже предположили в прошлом году, что в китайских GPU есть какая-то аппаратная особенность или даже ошибка, связанная с обработкой геометрии в таких задачах, из-за которой это приходится обходить в драйверах, частично рассчитывая что-то на CPU, как это было в старые добрые годы расцвета аппаратно-ускоренной 3D-графики на стыке веков. Но всё же есть большая вероятность, что всё в очередной раз объясняется просто отсутствием необходимых оптимизаций в драйвере под этот конкретный тип задач.
Feature Test 6: Perlin Noise
Последний feature-тест пакета Vantage является математически-интенсивным тестом GPU, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.
В этом математическом тесте производительность разных GPU не всегда соответствует теории, но она обычно близка к пиковой производительности видеочипов в предельных задачах, пусть и с оговорками. В тесте используются операции с плавающей запятой, и новые архитектуры обычно неплохо с ними справляются, но и старички тоже хороши — хотя тест уже порядком устарел, но для представленных GPU он подходит идеально.
Разница между младшей и старшей видеокартами MTT в этот раз оказалась слишком маленькой, что также не соответствует теории. Более того, свежие драйверы не улучшили, а даже ухудшили показатель младшей модели S70, а для старшей S80 он увеличился буквально на пару процентов. Остается порадоваться тому, что обе китайские видеокарты обошли и Radeon RX 5500 XT и GeForce GTX 1650, не говоря о самой слабой GTX 1050 Ti, оставшейся далеко позади с более чем вдвое худшим результатом.
Если подводить итоги обновления драйверов по DirectX 10 тестам, то можно сказать, что в тестах с текстурированием и заполнением буфера кадра, видеокарты MTT на фоне своих устаревших соперников смотрятся достаточно сильно, и свежие драйверы усилили их позиции в том числе и в математических тестах. А вот когда речь заходит о чем-то более редком для игр и ПО, вроде геометрических шейдеров или текстурных выборок из вершинных шейдеров, то в таких задачах китайский графический процессор выглядит очень бледно, несмотря на все программные улучшения. Посмотрим еще, что получится в более современных синтетических тестах, использующих DirectX 11.
Тесты Direct3D 11
Видеокарты Moore Threads изначально поддерживают DirectX 11, это позволило использовать Direct3D11-тесты из пакета разработчиков SDK Radeon. Первым на очереди будет тест под названием FluidCS11, в котором моделируется физика жидкостей, для чего рассчитывается поведение множества частиц в двухмерном пространстве. Для симуляции жидкостей в этом примере используется гидродинамика сглаженных частиц. Число частиц в тесте устанавливаем максимально возможное — 64 000 штук.
В первом Direct3D11-тесте модели видеокарт MTT S80 и S70 показали близкие результаты, что несколько неожиданно и странно. Их нельзя назвать провальными, как в некоторых тестах из предыдущих разделов, но всё же исполнение вычислительных шейдеров D3D11 не слишком хорошо оптимизировано в драйверах видеокарт MTT, судя по всему, поэтому они отстали не только от Radeon RX 5500 XT, но и GeForce GTX 1650, и даже уступили слабейшей GTX 1050 Ti! Впрочем, судя по высокой частоте кадров, вычисления в этом примере из SDK слишком просты даже для видеокарт такого низкого уровня.
Что касается свежих драйверов версии 270.80, то они... не изменили ровным счетом ничего. Похоже, что разработчики ПО для MTT (сами китайцы или специалисты Imagination Tech, архитектура которой легла в основу китайских GPU) оптимизировали DX11-часть драйвера разве что для конкретных игр, но не в универсальном виде, подходящем для любого ПО, использующего эту версию графического API. В первом DX11-тесте мы вообще не увидели никакой разницы между драйверами версий 270.80 и 230.40, возможно, она появится в остальных.
Второй D3D11-тест называется InstancingFX11, в этом примере из SDK используются DrawIndexedInstanced-вызовы для отрисовки множества одинаковых моделей объектов в кадре, а их разнообразие достигается при помощи использования текстурных массивов с различными текстурами для деревьев и травы. Для увеличения нагрузки на GPU мы использовали максимальные настройки: число деревьев и плотность травы.
Производительность рендеринга в этом тесте больше всего зависит от оптимизации драйвера и командного процессора GPU, с чем всё всегда было отлично у решений Nvidia, а вот AMD этим сначала не особо отличались, но затем улучшили свои позиции и теперь почти не уступают GeForce. Про решения Moore Threads этого не скажешь — мы уже отмечали, что как только задача отходит от распространенных тестов текстурирования и математических вычислений, то S80 и S70 показывают печально низкие результаты. Как получилось и в этот раз. Обновления драйверов за год снова не принесли никаких изменений для уже второго из наших DX11-тестов. И тут явно виноват недостаток оптимизации, так как по теории MTT точно не должны отставать в десятки раз от AMD и Nvidia.
Рассмотрим третий D3D11-пример — VarianceShadows11. В этом тесте из SDK AMD используются теневые карты (shadow maps) с тремя каскадами (уровнями детализации). Динамические каскадные карты теней сейчас широко применяются в играх с растеризацией, поэтому тест довольно любопытный именно с практической точки зрения. При тестировании мы использовали настройки по умолчанию.
Производительность в этом примере из SDK зависит как от скорости блоков растеризации, так и от пропускной способности памяти. Тест этот важен потому, что подобные техники для отрисовки теней нередко используются в реальных играх, и, скорее всего, именно поэтому нам наконец-то попался тест DX11, в котором MTT S80 и S70 даже год назад показали неплохие результаты. Хотя и тогда они всё равно отставали от всех решений AMD и Nvidia — компаний, которые давно и хорошо оптимизировали аппаратное и программное обеспечение.
Разница между старшей и младшей моделями MTT и в прошлом году была небольшой, а обновление версии драйверов до 270.80 принесло явное и существенное улучшение в скорости рендеринга теней. Теперь не только старшая S80, но и младшая S70 стала быстрее обеих GeForce, хотя от Radeon они обе довольно далеки. Подобные работы по оптимизации для DX11-кода не могут не радовать — близкие техники отрисовки теней и сейчас часто используют в играх, поэтому мы должны увидеть схожий эффект от драйвера новой версии и в игровых тестах.
А теперь — новинка, в этом материале мы добавили еще один DX11-тест, который наконец-то заработал с новыми драйверами — это бенчмарк Fire Strike (обычная версия) из тестового пакета 3DMark. Это довольно известный и часто применяемый тест для сравнения производительности не слишком мощных графических процессоров.
Видеокарты MTT в этом тесте находятся примерно на уровне GeForce GTX 1050 Ti и уступают модели GTX 1650 совсем немного, а вот Radeon RX 5500 XT обгоняет их всех с большим преимуществом. Но всё же можно назвать позитивным результатом для решений MTT уже одно то, что этот популярный тест в принципе на них работает. Удивительна лишь довольно слабая разница между моделями S70 и S80 — 3% и 7% для разных тестов, соответственно. Чаще всего у нас получалась большая разница, да и по теории она должна быть несколько большей.
В общем, если подводить какие-то итоги по синтетическим тестам, то можно сказать, что проблема в драйверах никуда не делась. Новая версия 270.80 позволила значительно увеличить производительность в большинстве из проведенных нами тестов, но во многих случаях она всё равно остается крайне низкой, что просто не позволяет на равных конкурировать с представителями даже очень старых поколений производства других компаний. По примеру видеокарт AMD и Intel, мы уже встречались со случаями, когда новые драйверы с внедренными в них оптимизациями позволяли поднять скорость рендеринга в разы, и это частично получилось и у MTT, но китайские решения всё равно продолжают уступать во многом именно из-за недостаточной проработки драйверов. Хотя у них есть запас по аппаратной производительности, но она скрыта не самой лучшей программной частью, и прошло уже очень много времени, а решения всех недостатков мы так и не увидели. И это понятно, ведь те же AMD и Nvidia долгие годы работали над оптимизацией своих драйверов, а Intel продолжает это делать и сейчас, но даже они уступают лидерам в этом моменте, что уж говорить о более мелких участниках рынка.
Тестирование: игровые тесты
Конфигурация тестового стенда
Конфигурация тестового стенда
Компьютер на базе процессора Intel Core i9-13900K (Socket LGA1700):
Платформа:
процессор Intel Core i9-13900K (разгон до 5,4 ГГц по всем ядрам);
ЖСО Cougar Helor 360;
системная плата Asus ROG Strix Z790-A Gaming WiFi D4 на чипсете Intel Z790;
оперативная память TeamGroup Xtreem ARGB White (TF13D416G5333HC22ADC01, CL22-32-32-52) 32 ГБ (2×16) DDR4 5333 МГц;
Во всех игровых тестах использовалось низкое качество графики в настройках.
Ashes of the Singularity
Dota 2
PlayerUnknown’s Battlegrounds
Counter-Strike: Global Offensive
Heroes of the Storm
World of Tanks
Monster Hunter: World
Far Cry 5
Crysis 3
Результаты тестирования в 3D-играх в разрешении 1920×1080
В прошлом году мы отобрали девять игровых тестов, в которых можно было получить приемлемую производительность на картах MTT, и всё работало без нареканий, причем игры требовались не очень старые, но ориентированные на DirectX 11 или DirectX 10. Напомним, что список официально поддерживаемых игр с сайта производителя по большей части состоит из китайских названий, которые ничего не говорят игрокам в остальном мире.
Тогда же мы протестировали в качестве конкурентов 4 карты бюджетного уровня:
Повторим, что уровень карт MTT — разрешение не выше Full HD (почти всегда даже ниже). Также понятно, что использовать максимальный уровень графики для подобных экспериментов бессмысленно, даже со средним качеством игры зачастую буксовали, поэтому все тесты в итоге для единообразия выполнены на низких настройках графики в разрешении 1080p.
Конечно, основной предмет исследования в этот раз — изменение результатов карт MTT на новой версии драйверов 270.80 по сравнению с прошлой версией 230.40. Однако для чистоты эксперимента мы перетестировали и все остальные карты на актуальных версиях драйверов. Оптимизацией для самых бюджетных карт никто не занимается, и наши тесты это хорошо показали: либо изменений у них нет вообще, либо разница составляет 1-2 fps (и не всегда в сторону увеличения) А вот у MTT S80 и MTT S70… Впрочем, смотрите сами.
Полоски с результатом на более новой версии драйверов во всех случаях расположены ниже.
Ранее комфорт в Ashes of the Singularity даже у S80 был приемлемым, но не полным. При этом загрузка GPU у карт MTT была не максимальной (очевидная проблема драйверов). Теперь же ситуация весьма ощутимо поменялась в лучшую сторону: S80 улучшил производительность на 38%, а S70 — на 40%. При этом S80 сравнялся с Arc A310, по-прежнему отставая от GeForce GTX 1650 (но теперь он отстает на 14%, а было почти 1,5 раза). Играть стало комфортно как на S80, так и на S70.
В Dota 2 при минимальном качестве графики играть в 1920×1080 было весьма комфортно и раньше, минимальный FPS всегда был выше 60. Тем не менее, новые драйверы обеспечили прирост 40% для S80 и 43% для S70 по сравнению с прошлогодними результатами. В итоге S80 не только догнал, но и обогнал GeForce GTX 1650, а S70 прилично подобрался к нему, сходу обогнав Arc A310.
На старых версиях драйверов играть в PUBG почти было невозможно. При этом снова фиксировался «недогруз» карт MTT, они работали на 60%-70% по загрузке ядер, то есть была проблема с драйверами. Сравнивать с конкурентами даже не было смысла. На новых версиях драйверов производительность S80 выросла в 2,3 раза, а S70 — в 2,42 раза! Феноменальная работа по оптимизации! Да, до конкурентов всё еще далеко, однако уже стало можно играть, минимальный FPS не падал ниже 30.
Ранее мы отмечали, что в CS:GO комфорт был на приличном уровне, хотя минимальный FPS иногда падал ниже 40. Теперь же S80 улучшил свой результат на 44%, а S70 — на 49%. Конкуренты всё равно быстрее, но результаты теперь сопоставимы, а играть можно без каких-либо проблем — нареканий на стабильность, лаги и пр. не было.
В Heroes of the Storm мы и ранее отмечали хороший комфорт, нареканий не было. Но всё равно стоит отметить, что новая версия драйвера MTT принесла S80 почти 35% прироста скорости, а S70 — 37%. Конкуренты снова быстрее, но разница сократилась серьезно.
Ситуация в World of Tanks практически такая же с точки зрения комфорта: играть можно, и отлично. При этом производительность S80/S70 на новых драйверах выросла очень сильно: +60%. В результате S80 и S70 смогли обойти не только Arc A310, но и GeForce GTX 1650, да и до Radeon RX 6500 XT осталось совсем чуть-чуть. В этой игре стало можно повышать качество графики до среднего, обе карты MTT при этом работают стабильно и обеспечивают приличный комфорт.
В игре Monster Hunter: World у S80/S70 ранее наблюдались периодические лаги и фризы, теперь их практически нет, а в чистом виде производительность на новых драйверах выросла у S80 на 35%, а у S70 — на 29%. До конкурентов не дотянули совсем немного.
В прошлом году мы отмечали, что у карт MTT были серьезные проблемы в этой игре, перерисовка сцен шла рывками. Теперь ситуация сильно улучшилась, геймплей стал плавным, хотя чистая производительность всё равно не дотягивает до планки комфорта.
Crysis 3 был единственным игровым тестом в нашем наборе, где карты MTT были вровень с конкурентами, имея достаточно высокий абсолютный показатель FPS, хотя и с периодическими лагами и фризами, особенно при вспышках огня (взрывах), когда показатель FPS мог падать до 10-15. На новых драйверах положение улучшилось, играть стало приятно, лаги пропали, а S80 тихой сапой стал лидером в общем зачете, обойдя даже GeForce RTX 3050 (S70 вышел на третье место). Впрочем, трубить в фанфары пока рано, это все-таки низкое качество графики.
Выводы
Moore Threads MTT S80/S70 в целом
Ранее мы отмечали, что даже сам факт появления компании, желающей играть в одной лиге с такими монстрами, как Nvidia, AMD и Intel, является большим плюсом. При этом Moore Threads Technology ориентирована исключительно на внутренние китайские и свои собственные технологии, отсюда и первоначальная оптимизация и отладка ПО под китайские игры. Кроме того, карты уровня S80/S70, несмотря на солидный внешний вид, всё же в большей степени ориентированы на офисные ПК для огромного китайского госаппарата, а также для многочисленных бизнес-центров, которым не важны возможности их компьютеров в плане 3D-игр.
Изначально мы отмечали, что главная проблема MTT S70/S80 — драйверы. Аналогично продукция компании Intel, которая вышла на рынок настольных ускорителей графики в 2022 году, поначалу катастрофически страдала из-за низкого качества ПО. Однако ситуация у Intel с тех пор заметно улучшилась, оптимизация драйверов не прекращается и по сей день, и сейчас карты семейства Arc почти во всех современных играх не уступают ни по скорости, ни и по качеству картинки сопоставимым по ТТХ решениям конкурентов. Но в случае Intel создатели драйверов ориентировались в первую очередь на современные игры на базе API DirectX 12 и Vulkan и лишь потом занялись оптимизацией ПО под «старье». В MTT выбрали противоположный подход: вначале поддержка старых игр с API DirectX 9, потом постепенное внедрение поддержки DirectX 10, теперь вот уже взялись за DirectX 11. Мы не знаем, почему так происходит; разработчик и его партнеры закрыты для внешнего мира. Вероятно, играют роль ограничения самой архитектуры, куда добавить поддержку API DirectX 12 и Vulkan просто невозможно. Другой вероятной причиной является отсутствие сотрудничества MTT с мировыми производителями игр, ведь у тех же AMD, Intel и Nvidia этот канал связи давным-давно налажен, и результат оптимизации налицо.
Китайские разработчики могут помочь с теми играми, которые выпускаются для внутреннего рынка — вероятно, поэтому они и доминируют в списке совместимости, выложенном на сайте MTT. Однако для выхода на глобальный рынок требуется сотрудничество с маститыми разработчиками, многие из которых находятся в США или Европе, и тут, скорее всего, вмешается политика, которая помешает такому сотрудничеству. Поэтому пока специалисты MTT пытаются самостоятельно отлаживать свое ПО, ориентируясь на свободные (а может, и не свободные) источники знаний по работе API и библиотек. И нынешние тесты показали, что результат есть, и весьма неплохой: с новыми драйверами производительность обеих карт сильно подросла во всех используемых нами играх — а это известные проекты уровня DX9/DX10/DX11.
В итоге MTT S80/S70 уже приемлемо работают в качестве игровых видеокарт, позволяют запускать некоторые игры уровня не выше DirectX 11 и обеспечивают в них приличный комфорт в разрешениях не выше Full HD при низком качестве графики. Разумеется, им еще далеко до уровня продуктов массового спроса, еще предстоит много работы по оптимизации драйверов и обслуживающего ПО (хотя бы возможность выбора языка интерфейса очень хотелось бы увидеть).
Moore Threads MTT S80 (16 ГБ)
Наши тесты показали, что в целом эта карта по-прежнему медленнее, чем Nvidia GeForce GTX 1650. Она может конкурировать только с GeForce GTX 1050 Ti или даже с GeForce GTX 1050, хотя в ряде игр все-таки догоняет GeForce GTX 1650 и Arc A310). Возможно, по мере отладки и выпуска новых версий драйверов картина и соотношение сил будут меняться и дальше, благо «на бумаге» характеристики у MTT S80 довольно серьезные. Стоит отметить, что поддержки DirectX 12 у этой карты может не появиться вовсе, если верна версия, что GPU основан на купленной старой архитектуре Imagination Tech, которая переработана под новые API и оптимизирована.
Прошлогодние наши исследования показали, что карта прекрасно аппаратно декодирует видеопотоки, но вот поддержка OpenCL была никакой. В результате почти во всех программах видеомонтажа (например, в Adobe Premiere) в окнах превью ничего не было. Новые драйвера улучшают ситуацию, уже стало возможно работать с превью, но пока полно артефактов. Ждем дальнейшего улучшения драйверов.
Мы отмечали, что видеокарта MTT S80 имеет достаточно тихий кулер, но для своего уровня производительности потребление у карты очень высокое, поскольку GPU произведен с использованием несовременного уже техпроцесса. Более того, GPU и микросхемы памяти всегда работают на высоких частотах, включая режим простоя (потребление после перехода в 2D почти не снижается). Если разработчикам удастся реализовать полноценный режим простоя, с резким снижением частот, то и потребление упадет, а там и до выключения вентиляторов недалеко. Всё это существенно улучшило бы пользовательский опыт взаимодействия с картой. Надеемся, что это возможно исправить в будущих версиях драйверов. И не помешало бы реализовать выключение подсветки для тех, кому будет мешать этот постоянно горящий оранжевый «глаз».
Moore Threads MTT S70 (7 ГБ)
Мы уже упоминали, что подход к созданию младшей версии ускорителя странный: не только уменьшить вдвое емкость микросхем видеопамяти по сравнению со старшим вариантом, но и снять одну из восьми микросхем, получив в итоге объем 7 ГБ вместо 16 ГБ. При этом карты мало различаются по количеству исполнительных блоков. Безусловно, 16 ГБ для игровой видеокарты такого уровня, как MTT S80, это излишняя роскошь (8 ГБ хватило бы за глаза). Впрочем, возможно, установка 16 ГБ локальной памяти несет какой-то другой смысл. В любом случае, разница в производительности между S80 и S70 совсем небольшая и явно определяется не объемом памяти.
Что касается самой видеокарты, то для нее справедливо абсолютно всё, сказанное выше про S80.
Итог
На данный момент видеокарты MTT по-прежнему остаются не массовыми продуктами, они всё еще нуждаются в долгой отладке и совершенствовании. Человек, купивший сейчас любую из этих видеокарт, поневоле становится бета-тестером за свои же деньги.
Тем не менее, прогресс в совершенствовании ПО наблюдать отрадно. За полгода производительность в целом заметно выросла, проблемы со стабильностью в играх стали отмечаться реже, хотя они всё еще имеются, особенно в играх под DX11. Пока мы с осторожным оптимизмом смотрим в будущее этих продуктов.
К тому же приятно отметить, что кто-то пытается делать свое, не завися от американских технологий. Главное достижение этого подхода — возможность усиления конкуренции, которая сейчас очень не помешает с учетом непомерно раздутых аппетитов американских производителей GPU.
Данный обзор — не последний. Мы планируем провести дополнительное исследование, когда для него наберется достаточно материала, включая тесты в профессиональных приложениях с поддержкой OpenCL.
Благодарим Владислава Громова из Хабаровска (Telegram-канал)
за помощь в оперативном получении нового оборудования из Китая