Войти

Платформа ПК

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Архитектурные особенности
Архитектура вычислительных ядер
Исполнительные блоки INT и FP
Подсистема кэша и памяти
Пропускная способность кэша и памяти
Тестирование производительности
Тестовые системы и условия
Синтетические тесты
Рендеринг
Работа с медиаданными
Обработка изображений
Криптографические тесты
Сжатие и распаковка
Компиляция и разработка
Высокопроизводительные вычисления
Молекулярная динамика
Машинное обучение
Энергопотребление
Выводы

Пожалуй, это самое необычное тестирование процессора на нашем сайте если не за всё время, то уж точно за последние несколько лет. Мы все давно привыкли к настольным ПК и ноутбукам на основе архитектуры x86, а ведь существуют и другие вычислительные архитектуры для универсальных процессоров — можно вспомнить ту же ARM в исполнении Huawei, да и компания Qualcomm совсем недавно в очередной раз выпустила свои решения, причем даже на основе операционной системы Windows, к которым мы еще вернемся по возможности. А еще раньше была распространена архитектура MIPS, хотя и совсем не так широко, как x86, завоевавшая в итоге бо́льшую часть рынка настольных и мобильных ПК.

В последнее время появляется всё больше процессоров с другими архитектурами, и этому есть несколько причин. Во-первых, ARM постепенно доросла до возможностей и мощности, которые требуются для создания полноценных современных настольных ПК и мощных мобильных решений вроде ноутбуков. Но еще важнее то, что китайские компании в последние несколько лет заметно продвинулись в разработке и выпуске собственной микроэлектроники, включая и универсальные и графические процессоры. И один из наиболее интересных универсальных процессоров китайского производства — Loongson 3A6000, который мы и рассмотрим сегодня.

Для начала стоит пояснить, почему у Китая вдруг возникла такая необходимость, почему бы им просто не покупать популярные во всем мире процессоры, выпускаемые AMD и Intel? Всё просто: сейчас всё большее значение приобретают вычислительные возможности, это важнейшая сфера современной экономики во всем мире. И у какой из стран больше таких возможностей и мощностей, та имеет определенные преимущества в разработке прогрессивных методов в различных сферах деятельности человека. Вычислительные возможности используются буквально везде, как в серверных, так и на столах и в ваших карманах. И для того чтобы не зависеть от других стран, крайне желательно иметь собственные возможности по проектированию и производству достаточно мощных и продвинутых микрочипов для их применения в своей же экономике.

Особенно это важно, когда другие мощные силы в мире сопротивляются тому, чтобы твоя страна получила как можно больше таких возможностей. В частности это касается и Китая, который давно вкладывает значительные средства в собственные компании по проектированию и производству процессоров, универсальных и специализированных. Мы уже писали о графических процессорах Moore Threads китайской разработки, настало время и универсальных вычислителей, на которых основаны ноутбуки, настольные ПК и серверы. Одним из таких примеров, созданных в Китае, является продукция Loongson — лидирующей компании этой сферы в стране. Существуют и другие китайские процессоры — основанные на архитектуре ARM решения Phytium и Huawei, о которых мы поговорим позднее.

В последние годы приоритетом для Китая является снижение зависимости от западных полупроводников, а в идеале — полная технологическая автономия и самодостаточность. К этому они стали стремиться во многом из-за наложенных на страну санкций США, которые запрещают продажу китайцам не только передовых микрочипов, но и технологий их производства, и даже само производство на западных фабриках (той же TSMC) было ограничено. Еще несколько лет назад США стали с опаской относиться к растущей технологической мощи Китая, которая была подкреплена ростом экономики, поэтому американцы ввели торговые ограничения для микроэлектронной промышленности, фактически запретив сотрудничество с Китаем. Естественно, азиаты восприняли экспортные ограничения в качестве угрозы своему экономическому развитию и росту мирового влияния и начали действовать.

Сейчас китайским компаниям запрещен доступ к новейшим западным технологиям, что замедляет разработку и производство их собственных микрочипов. Крупнейший поставщик инструментов для производства микроэлектроники — компания ASML — имеет экономические связи и с США, и с Китаем, и экспортные ограничения западной стороны напрямую влияют на глобальную полупроводниковую промышленность и экономику. Но Китай может найти (и уже находит) альтернативные варианты для развития технологий, также они инвестируют большие средства в собственные исследования и разработки по производству микроэлектроники. И хотя китайские фабрики еще очень далеки по возможностям от лидеров мировой индустрии, вроде тайваньской TSMC, дистанция между ними постепенно сокращается, и полупроводниковая война между США и Китаем может продлиться десятилетия.

Китай постепенно переходит на собственные технологии по производству микроэлектроники, открывая возможности для полностью местных производителей, таких как Loongson. Этот проект является частью новой политики страны по снижению зависимости от иностранных технологий, это один из лидеров китайской процессорной индустрии. В прошлом году они выпустили долгожданный процессор Loongson 3A6000, который, по мнению китайцев, примерно соответствует по количеству исполняемых инструкций за такт (IPC) решениям архитектуры AMD Zen 3, а также соответствующим процессорам компании Intel. Так это или нет — мы сегодня проверим, но выбора у Китая нет, им приходится развивать собственную промышленность.

Китайское правительство планирует постепенно заменить процессоры Intel и AMD отечественными аналогами в государственных учреждениях — министерство промышленности и информационных технологий Китая запланировало полную замену чипов иностранного производства в сетях и инфраструктуре китайских телекоммуникационных операторов к 2027 году. Крупнейшие телекоммуникационные компании Китая (China Mobile, China Telecom и China Unicom) находятся под государственным управлением и имеют тысячи иностранных процессоров в своих центрах обработки данных — со временем все они должны быть заменены на полностью отечественные разработки.

Таким образом, Китай постепенно отказывается от иностранных чипов в правительственных учреждениях, заменяя их китайскими. Китайские компании и правительство закупают тысячи ПК на базе отечественных процессоров для школ и рабочих применений. Компьютеры на основе процессоров Loongson и другие разработки не только используют собственное аппаратное обеспечение, но и работают под управлением отечественных операционных систем — UOS и Loongnix, основанных на Linux. В комплекте с системами поставляется и набор программного обеспечения для различных нужд, включая офисные приложения и специализированное ПО для образовательных учреждений. Кроме поставки аппаратного обеспечения, Loongson участвует и в разработке обучающих программ для китайских школ.

Компания Loongson Science and Technology, поддерживаемая Китайской академией наук, была создана более десяти лет назад и выпустила уже несколько серий процессоров, в том числе Loongson нескольких поколений. Она была известна и ранее, предыдущие процессоры получили определенное распространение, но не такое широкое, поскольку влияние санкций еще не было существенным. В 2022 году у них появились серверные модели Godson 3C5000 и 3C6000 с 16 ядрами, а позже вышел 32-ядерный 3D6000, включающий сразу два кристалла 3C6000 на одной подложке. Затем компания анонсировала более современный 3A6000, который отличается большим скачком в производительности на такт по сравнению с прямым предшественником 3A5000, уже обеспечивавшим весьма неплохую производительность на такт, но всё же недостаточно продвинутым и производительным для конкуренции с лучшими процессорами.

Так что потребовалась разработка более мощного процессора Loongson 3A6000, наиболее производительного решения компании для настольных ПК. Еще в начале прошлого августа китайский производитель сообщил, что четырехъядерный процессор нового поколения Loongson 3A6000 успешно производится, а в ноябре 2023 года он был представлен официально — как процессор, предназначенный для выполнения различных задач, включая типичные домашние и офисные. Это полностью самостоятельная разработка с набором инструкций и 64-разрядной микроархитектурой на основе MIPS64, но доработанной китайскими инженерами под собственные нужды. Также CPU имеет модуль аппаратного шифрования TPM и двухканальный контроллер оперативной памяти с поддержкой памяти DDR4-3200.

В день запуска процессора Loongson 3A6000 сразу более 50 партнеров компании анонсировали выход компьютеров, ноутбуков, плат, устройств хранения данных, оборудования сетевой безопасности и других продуктов на основе нового CPU. А с недавнего времени на китайских торговых площадках стало возможно купить Loongson 3A6000 в составе готовой системы или установленным на системную плату в двух вариантах. Первый вариант — плата с припаянным 3A6000, без установленной памяти и возможности разгона, а второй — плата известной компании Asus с некоторыми возможностями для разгона, о которых мы расскажем во второй части этого материала, посвященной практическим особенностям работы процессора. Мы решили разделить чисто тестовую часть и обзор тонкостей работы с Loongson с общими размышлениями на тему.

Тут же нам остается поговорить об ожидаемой производительности Loongson 3A6000. Производителем сразу было заявлено, что производительность их процессора сопоставима со скоростью вычислений четырехъядерного процессора Intel Core 10-го поколения, выпущенного в 2020 году — Core i3-10100. И действительно, судя по некоторым тестам (первая оговорка), процессор Loongson 3A6000 по производительности на такт (вторая оговорка) может соперничать с аналогичными четырехъядерными процессорами Intel и AMD. Так, в однопоточном тесте SPECint CPU 2006, процессор 3A6000 набрал 43,1 балла, а в SPECfp CPU 2006 — 54,6 балла. Это примерно такая же производительность, как у процессоров Intel Core предыдущих поколений, но лишь при равной тактовой частоте 2,5 ГГц. Равная тактовая частота позволяет сравнить показатели IPC, так как SPEC CPU универсален, в нем 3A6000 особенно хорош в целочисленном тесте, хотя в тесте с плавающей запятой впереди процессоры Intel. В тесте SPEC CPU 2017 результаты 3A6000 сравнительно неплохие даже с учетом отставания по тактовой частоте:

Как видим, отставание от процессоров Intel и AMD сохраняется даже по оценкам самой компании-производителя, хотя ожидалось, что по скорости вычислений на такт этот процессор достигнет уровня Core 11-го поколения и Zen 3, но реальность оказалась несколько хуже. 3A6000, работающий на частоте 2,5 ГГц, лишь в выборочных тестах может быть чуть быстрее модели Core i3-10100, работающей на частоте 3,6 ГГц, но список таких тестов невелик. В любом случае, если сравнивать Loongson 3A6000 с предшествующей моделью 3A5000, однопоточная производительность нового CPU увеличилась на 60%, а многопоточная еще больше, и это впечатляет, но всё же во многом обусловлено эффектом низкой базы. А главное — это всего лишь некоторые из тестов производительности, пусть и из списка общепризнанных. Мы же захотели проверить Loongson и в других тестах — в том числе куда менее распространенных.

Если китайцы действительно достигли уровня IPC, аналогичного пусть и не самым новым, но достаточно современным решениям Intel и AMD, то это уже впечатляющее достижение, ведь спроектировать эффективную архитектуру не так уж просто, нужно всё правильно реализовать. Отдельно отметим, что IPC — это лишь половина дела, также многое решает тактовая частота, и предел в 2,5 ГГц не слишком впечатляет по современным меркам. Максимальная тактовая частота 3A6000 — это даже не половина от турбо-частот, на которых могут работать современные ядра решений конкурентов, и поэтому реальным соперником для китайского CPU действительно является что-то вроде Core i3-10100 — но даже он имеет тактовую частоту в 4,3 ГГц и нередко оказывается быстрее. А увеличить частоту китайцам мешает не только сама архитектура, но и технологическое отставание китайских полупроводниковых производств, и тут сама Loongson поделать ничего не может, к сожалению. Но давайте посмотрим, чего они добились в разработке собственных процессоров.

Архитектурные особенности

Итак, процессор Loongson 3A6000 — это улучшенная версия более раннего процессора 3A5000. Если 3A5000 имеет четыре ядра и четыре потока и работает на частоте 2,5 ГГц, потребляет до 35 Вт и поддерживает память DDR4-3200, то более новая версия отличается поддержкой многопоточности и повышенным максимальным энергопотреблением, хотя и сохраняет ту же рабочую тактовую частоту — довольно скромную по современным меркам.

Как и процессор 3A5000, выпущенный еще три года назад, модель 3A6000 производится по техпроцессу 12 нм, тут никаких изменений не произошло. Размер самого кристалла, по данным коллег, составляет порядка 116 мм² (11,6×10 мм) — что даже меньше, чем у 3A5000 с его 142 мм². При этом новый CPU содержит вдвое больше кэша первого уровня, а L2-кэш имеет тот же объем 4 МБ в пересчете на каждое ядро.

Рассматриваемый нами сегодня процессор основан на собственной архитектуре LoongArch — последнем поколении архитектуры Godson, появившейся в 2022 году, а перед этим компания выпустила несколько процессоров на основе архитектуры MIPS — сначала не совсем легально, как это нередко бывает в азиатской стране, но несколько лет назад китайский институт официально купил лицензии на использование MIPS32 и MIPS64 у MIPS Technologies. Еще в начале века вышел первый процессор Loongson с 32-битной архитектурой MIPS32, затем было несколько 64-разрядных процессоров, включая многоядерные модели с архитектурными расширениями и даже двоичной трансляцией x86-кода.

В расширениях были собственные наборы инструкций общего назначения, расширения виртуализации, инструкции для ускорения двоичной трансляции x86 и ARM, а также векторные расширения для 128-битных SIMD. Всё это привело к появлению уже собственной микроархитектуры LoongArch в 2021 году — вместе с выходом процессоров Loongson 3 серии 5000. Сами разработчики описывают ее как RISC-архитектуру, похожую на MIPS и RISC-V. То есть это 64-разрядная микроархитектура на основе MIPS64, но доработанная китайскими инженерами под собственные нужды при помощи добавления собственных инструкций. Техническая документация не слишком подробная, из нее следует, что разработчики убрали устаревшие инструкции, чтобы получить более эффективное устройство, а дополнительно к базовому набору добавили инструкции 128-битной расширенной векторной обработки LSX, 256-битные инструкции расширенной векторной обработки LASX и инструкции расширения виртуализации LVZ, а также инструкции для двоичной трансляции LBT.

Loongson 3A6000 использует более новые ядра LA664 по сравнению с LA464 в 3A5000. Новые вычислительные ядра были серьезно переделаны, хотя архитектура осталась прежней. LA664 отличается более глубоким конвейером с бо́льшим количеством исполнительных блоков и поддержкой многопоточного исполнения (SMT), что дополнительно повышает производительность в современных многопоточных задачах при довольно небольших затратах на проектирование. В итоге рассматриваемый четырехъядерный процессор основан на четырех вычислительных ядрах LA664 с поддержкой технологии многопоточности — как и современные модели AMD и Intel, он поддерживает вдвое больше вычислительных потоков (логических ядер): восемь штук на процессор. Добиться правильной работы SMT не так уж просто, те же AMD и Intel не сразу пришли к достаточно эффективным технологиям, а работу китайской компании можно оценить по тому, что по сравнению с предшественником 3A5000 однопоточная производительность модели 3A6000 увеличилась на 32%, а многопоточная — на 84%.

64-битное суперскалярное процессорное ядро LA664 поддерживает 128/256-битные векторные инструкции, внеочередное выполнение инструкций, имеет четыре целочисленных блока и четыре векторных блока. Каждое ядро процессора содержит 64 КБ кэша инструкций и 64 КБ кэша данных первого уровня, а также 256 КБ кэша второго уровня. Все ядра процессора используют общий для них кэш третьего уровня объемом 16 МБ.

Архитектура вычислительных ядер

LA664 — ядро с возможностью внеочередного исполнения (out-of-order) команд и достаточно широкими возможностями переупорядочивания инструкций, и в этом оно если не на равных, то вполне конкурентоспособно на фоне ядер Intel и AMD недавнего прошлого. Хотя ядро LA664 и основано на предыдущем ядре LA464, которое применялось в модели Loongson 3A5000, оно может одновременно исполнять большее количество инструкций и имеет многочисленные важные доработки.

Блок предсказания ветвлений в 3A6000 имеет неплохие возможности по их распознаванию и является лучшим для китайских процессоров — он точно намного лучше, чем в 3A5000, и недалек по своим возможностям от процессоров Intel и AMD пары поколений назад. Хотя Loongson еще не может соревноваться с Zen 3 и более новыми решениями, но китайская компания добилась значительного прогресса по сравнению с предсказателем ветвлений в 3A5000, и улучшение этих возможностей в рассматриваемом процессоре Loongson во многом и привело к росту производительности по сравнению с его предшественником.

Судя по результатам тестов, предсказатель ветвлений 3A6000 неплохо справляется с работой даже в таких непростых случаях, как сжатие информации — не хуже уровня Zen 1 как минимум, а скорее даже примерно как Zen 2. Конечно, новейшая архитектура Zen 4 еще намного лучше, но прогресс в Loongson 3A6000 по сравнению с 3A5000 очевиден. Как только предсказатель инструкций определяет, в каком направлении движется дело, в работу вступает кэш инструкций, чтобы прокормить ядро данными. Как и у предшественника, в 3A6000 есть достаточно большой кэш инструкций первого уровня 64 КБ, что весьма неплохо при сравнении с лишь 32 КБ аналогичного кэша у конкурентов AMD и Intel. Этот кэш кормит данными декодер в полтора раза более производительный по сравнению с 3A5000.

В процессе внеочередного исполнения инструкций на этапе переименования и выделения находятся слоты в очередях и буферах для отслеживания состояния инструкций, и более сложные структуры позволяют ядру предсказывать поток инструкций дальше, что скрывает задержки и улучшает поиск параллелизма на уровне инструкций, и в этом Loongson 3A6000 достаточно хорош, обеспечивая заметный шаг вперед по сравнению с 3A5000. Также в более новом CPU увеличили регистровые файлы и очереди памяти — на четверть и более. В LA464 был недостаточный по объему буфер ветвления, что было исправлено в LA664.

Большие буферы внеочередного исполнения очень важны для повышения производительности в однопоточном режиме, но еще важнее хорошо настроенная технология одновременной многопоточности (SMT), которая распределяет имеющиеся ресурсы CPU между несколькими потоками — в случае Loongson это два потока на ядро, как и у AMD с Intel. Китайские разработчики выбрали консервативный вариант реализации SMT со статически разделенными ресурсами — регистровыми файлами, очередями загрузки и хранения. Поскольку 3A6000 — первый процессор компании с поддержкой SMT, это вполне логичный вариант.

Исполнительные блоки INT и FP

По сравнению с предыдущей моделью блоки целочисленного исполнения 3A6000 почти не изменились, разве что вполовину выросла производительность планировщика, что приводит к более эффективному использованию исполнительных блоков ALU. 3А6000 имеет те же четыре канала ALU, способные выполнять распространенные инструкции, два из них могут обрабатывать ветвления, а два — целочисленные умножения. По организации это похоже на Zen 2, но у Loongson два канала для целочисленных умножений по сравнению с одним в решении AMD, который, однако, имеет больше возможностей планирования.

Loongson 3A5000 уже имел 256-битные векторные возможности при помощи расширения LASX, но лишь в простой реализации с двумя 256-битными конвейерами. В модели 3А6000 была проведена глобальная модернизация этих блоков: у нее есть четыре конвейера, каждый из которых может обрабатывать 256-битные упакованные сложения, что обеспечивает высокую производительность операций с плавающей запятой, ведь x86-процессоры обычно могут выполнять только два 256-битных упакованных сложения с плавающей запятой за цикл.

Но хотя Loongson добавили дополнительные каналы, пиковая пропускная способность операций умножения-сложения с однократным округлением (FMA) осталась неизменной, и LA664, как и LA464, может выполнить лишь одну операцию FMA за цикл, что дает вдвое меньшую пропускную способность по сравнению с Zen 2 или Skylake. Как и в случае с целочисленными блоками, возможности планировщика увеличилась на 50%, что должно обеспечить прирост производительности операций с плавающей запятой, и вместе с дополнительными каналами исполнения это делает 3A6000 весьма производительным процессором в векторных нагрузках и операциях с плавающей запятой.

Подсистема кэша и памяти

Грамотно спроектированная иерархия кэша и памяти жизненно важна для обеспечения данными современного высокопроизводительного процессора, и хотя в 3A6000 сохранилась иерархия кэша из предыдущей модели, небольшие улучшения китайцы всё же сделали, снизив задержки и сократив этапы конвейера доступа к данным в кэше. Так, задержка доступа к данным из кэш-памяти первого уровня снизилась с четырех до трех циклов — это особенно полезно при не слишком высокой частоте Loongson по сравнению с куда более высокочастотными западными процессорами.

В современных CPU есть кэш второго уровня (L2), который используется для того, чтобы изолировать промахи кэша первого уровня от высокой задержки кэша третьего уровня. В 3A6000 используют L2-кэш объемом 256 КБ, как в старых архитектурах Intel, хотя в более новых процессорах AMD и Intel применяют L2-кэши уже большего размера: в Zen 4 он имеет объем 1 МБ, а в Raptor Lake — 2 МБ. И хотя в 3A6000 не реализовали более крупный L2-кэш по сравнению с предшественником, для него также получилось снизить задержку — с 14 до 12 циклов. Что касается кэша третьего уровня, то 3A6000 и 3A5000 имеют довольно большой L3-кэш объемом в 16 МБ, общий для всех четырех ядер — как и в Zen 2, к примеру. В 3A6000 также снизилась задержка L3-кэша на пару циклов — возможно, из-за ускорения проверки L2-кэша.

В 3A5000 был далеко не лучший контроллер памяти DDR4 с большими задержками, в 3A6000 он был значительно улучшен, так что задержка доступа к оперативной памяти снизилась со 144 нс до 104 нс, хотя даже это не слишком хорошо по современным меркам. Фактические значения задержки получаются высокими, так как Loongson работает на вдвое более низкой тактовой частоте по сравнению с современными процессорами AMD и Intel, и для конкурентоспособности LA664 это плохо. В итоге китайский CPU получается медленнее на каждом уровне кэша и поэтому в реальных применениях проигрывает даже старенькому Zen 2, несмотря на то что имеет отличные возможности по переупорядочиванию команд и в целом более высокий показатель количества исполняемых за такт инструкций.

Пропускная способность кэша и памяти

Помимо задержек, важна и пропускная способность памяти, которая также влияет на производительность, особенно в случае современных многопоточных приложений. Модель 3A6000 во многом унаследовала иерархию памяти своего предшественника, хотя и с некоторыми улучшениями. 3A5000 уже имел пропускную способность для кэша первого уровня на цикл как у Skylake или Zen 2, а 3A6000 улучшил возможности при помощи удвоения пропускной способности при записи — L1-кэш для данных обслуживает два 256-битных доступа за цикл при операциях чтения или записи, и в результате 3A6000 имеет отличный показатель пропускной способности даже несмотря на низкую тактовую частоту CPU. В этом смысле сравнить с LA664 можно ядро Golden Cove, также имеющее пропускную способность L1 в 512 байт на цикл.

Кэш второго уровня в LA664 объемом 256 КБ слабо отличается от того, что было у предшественника: полоса пропускания при чтении и записи равна 21-22 байта на цикл, и по этому параметру 3A6000 имеет меньшую пропускную способность L2 за цикл по сравнению с современными западными процессорами, особенно если сравнивать с процессорами Intel, имеющими 64 байт за цикл. А вот пропускную способность L3-кэша увеличили на треть — до 18 байт за цикл, что позволяет относительно свежему Loongson конкурировать со старыми процессорами Intel, хотя в процессорах AMD реализация кэш-памяти третьего уровня еще лучше.

Мы уже писали, что Loongson 3A5000 имел плохой DDR4-контроллер, и в 3A6000 он намного лучше. Заявлена поддержка DDR4-3200, но на практике нам удалось добиться стабильной работы с такой скоростью памяти лишь в одноканальном режиме, а при работе с двумя каналами 3A6000 обеспечивал лишь режим DDR4-1800/DDR4-1866. Впрочем, у других исследователей память в двухканальном режиме работала и на частоте 2133 МГц, так что это скорее вопрос совместимости с конкретными модулями, а настроек работы с памятью в BIOS Setup просто нет. Так или иначе, по современным меркам процессор 3A6000 имеет довольно посредственную производительность работы с памятью.

И всё же модель 3A6000 оказалась примерно на 38% производительнее предшественника в однопоточном режиме, а в многопоточных нагрузках разница между 3A6000 и 3A5000 еще больше — ведь старый CPU не поддерживает SMT. Подобные технологии нужны для того, чтобы более полно загружать конвейер и имеющиеся исполнительные блоки CPU. И в многопоточном режиме SMT обеспечивает 3A6000 ускорение примерно на 20%-30% по сравнению с вариантом без SMT, хотя у конкурентов прирост от аналогичных технологий может достигать 40%, так что китайцам еще есть над чем поработать. Если не учитывать разницу в рабочей частоте, то Loongson выступает почти на равных с пусть и не самыми новыми, но всё же довольно производительными решениями AMD и Intel. Но такой результат достигается лишь в отдельных тестах, проведенных специалистами самой компании, а что бывает в более широком наборе ПО, мы сегодня проверим.

На мероприятии по запуску процессора Loongson было объявлено о доступности трех моделей процессора, рассчитанных на разные сферы применения: модель LS3A6000-HV ориентирована на серверный рынок и высокопроизводительные системы, LS3A6000-LL — на рынок настольных ПК, а LS3A6000M — на рынок мобильных устройств, но в физическом воплощении все эти чипы одинаковы и имеют одинаковые FCBGA-корпуса 35×35 мм при 1190 контактах. Тактовая частота составляет от 2,0 ГГц до 2,5 ГГц в зависимости от модели, также отличаются напряжение и максимальное энергопотребление: от 30 до 80 Вт.

Контроллер памяти Loongson 3A6000 поддерживает два канала DDR4-3200 и коррекцию ошибок ECC. Для ввода-вывода в CPU есть контроллер HyperTransport 3.0 с максимальной скоростью 6,4 Гбит/с, совместимый со стандартами HT 1.0 и HT 3.0 с рабочими частотами 200—800 МГц и 1000—3200 МГц соответственно. Для управления энергопотреблением процессор поддерживает динамическое отключение тактового сигнала основного модуля, динамическое преобразование частоты основного тактового сигнала, динамическое регулирование напряжения основного домена. Для упрощения интерфейса ввода-вывода процессор 3A6000 может работать только в однопроцессорной конфигурации, физическая ширина адреса шины Loongson 3A6000 ограничена 44 битами.

В паре с процессором работает чипсет 7A2000, который содержит графическое ядро LG110 с поддержкой разрешения 1920×1080 при частоте в 120 Гц или до 4K при 30 Гц — по HDMI и VGA, также есть поддержка OpenGL 2.1 и OpenGL ES 2.0. Поддерживается 32 канала PCIe 3.0, четыре порта SATA600, четыре USB 3.0 и восемь USB 2.0. Вполне достаточные для ПК начального уровня возможности расширения и вывода информации на экран.

Тестирование производительности

Тестовые системы и условия

При тестировании мы использовали как готовый китайский ПК, собранный на основе процессора Loongson 3A6000, который содержит перечисленный ниже набор аппаратного обеспечения, так и системную плату компании Asus с напаянным на нее процессором, комплектным воздушным кулером и дополнительным набором комплектующих.

Процессор: Loongson 3A6000 (4 ядра/8 потоков, 2,5 ГГц)
Система охлаждения: малогабаритные воздушные кулеры
Системные платы:
- PNXC PN-L530A (чипсет 7A2000)
- Asus XC-LS3A6M (чипсет 7A2000)
Оперативная память:
- 16 ГБ (2×8 ГБ) DDR4-3200 CL16
- 16 ГБ (1×16 ГБ) DDR4-3200 CL22
Видеокарты: встроенная в чипсет LG110 и внешняя AMD Radeon RX 480 (8 ГБ)
Накопитель: SSD Kimtigo TP3000 512 ГБ

Китайский процессор поддерживает установку памяти стандарта DDR4-3200, как и его предшественник — четырехъядерный и четырехпоточный Loongson 3A5000. Поддерживается двухканальный режим, но имеющиеся у нас комплекты DDR4-памяти в паре заработали только в режиме DDR4-1800/1866 и не более, поэтому большого прироста от конфигурации с двухканальной памятью можно не ждать, хотя мы протестировали и ее, чтобы понять, насколько сильно система упирается в ПСП. Это нужно учитывать, так как в готовой системе PNXC установлен лишь один модуль, работающий в одноканальном режиме, но зато на полной скорости DDR4-3200.

К сожалению, никаких настроек частоты и таймингов памяти в настройках BIOS Setup нет совсем, системная плата самостоятельно выставляет их все, не давая ни регулировать, ни выбрать имеющиеся XMP-профили — это просто не поддерживается сравнительно молодой платформой. Кроме встроенной в чипсет видеокарты самой Loongson, мы использовали также и единственную подходящую модель компании AMD — Radeon RX 480, но лишь для дополнительных тестов из второй части статьи. Почему именно эту видеокарту — также объясним в практической части.

Выбрать конкурентов для Loongson 3A6000 было непросто, решений вроде Core i3-10100 у нас уже нет в наличии, поэтому мы взяли минимальную конфигурацию из имеющихся у нас систем на основе процессоров Intel и AMD: Core i3-12100 с памятью DDR5, а также «Ryzen 5 1500X» — мы «эмулировали» данную модель при помощи процессора Ryzen 7 1700, выставив в BIOS Setup режим 2+2 ядра, ведь в четырехъядерном процессоре Ryzen 5 1500X заблокирована как раз половина ядер, да не в одном блоке CCX, а отключены по паре ядер в каждом из них, что позволило процессору сохранить весь объем в 16 МБ L3-кэша, зато оставило узкое место в виде сниженной скорости передачи данных между ними по Infinity Fabric. Также для полноценной имитации четырехъядерного Ryzen первой серии мы выставили соответствующий лимит энергопотребления, и у нас получился почти полноценный Ryzen 5 1500X.

Для процессоров Ryzen и Core мы использовали имеющиеся тестовые системные платы и типичную для них память с настройками из XMP-профилей, а ограничения процессоров по потреблению энергии — в соответствии с их спецификациями. Также мы решили протестировать Core i3-12100 еще и при постоянной частоте 2,5 ГГц — отключив все технологии повышения частоты вроде Turbo Boost и Thermal Velocity Boost, а также выставив лимит потребления ниже. То же самое сделали и с имитированным нами Ryzen 5 1500X, изменив его множитель для работы на постоянной частоте в 2,5 ГГц и отключив технологии повышения частоты, вроде Precision Boost Overdrive (см. скриншот).

В итоге получились точно такие же CPU, но ядра которых всегда работают на частоте 2,5 ГГц — как у китайского процессора. С помощью пары Core и Ryzen со сниженными до уровня Loongson частотами мы поймем, насколько хорошей получилась архитектура китайского процессора и насколько он близок к пусть и не самым новым CPU Intel и AMD, но всё же достаточно производительным решениям не такого уж давнего прошлого при равной тактовой частоте. Это позволит сравнить так называемый показатель IPC — производительность на такт, или количество исполняемых за такт инструкций.

Если говорить о программной стороне вопроса, то пока что выпущены две полноценные версии операционных систем с официальной поддержкой архитектуры LoongArch: Loongnix и UOS. Но уже есть тестовые сборки российской ALT Linux, а со временем поддерживаемых систем станет еще больше. Попавший к нам готовый ПК имел предустановленную операционную систему UOS на базе Linux, но мы также использовали в тестах и Loongnix — на второй системе, основанной на плате Asus. Чтобы все процессоры были в более-менее равных условиях, мы тестировали Ryzen 5 и Core i3 под управлением x86-совместимой версии UOS. Возможно, другие версии Linux и/или Windows дали бы лучшие результаты для x86-процессоров, эту вероятность тоже нужно учитывать.

А вот выбрать тестовое ПО оказалось совсем непросто. Привычные для нас тесты и методики мы использовать не могли по понятным причинам — Loongson в принципе не работает под управлением Windows за неимением поддерживаемой версии, а привычного ПО нет уже под Linux. Поэтому для такого разового тестирования мы решили использовать пакет Phoronix Test Suite, использовав как можно большее количество тестов из него, в принципе работоспособных на LoongArch64.

Это также было очень непросто, потому что какие-то тестовые пакеты вообще не предназначены для этой архитектуры и попросту не работоспособны на ней, другие используют библиотеки и другие оптимизации исключительно архитектуры x86-64, и не собираются на других CPU. И даже если в коде нет жесткой привязки к архитектуре, то могут возникнуть проблемы со сборкой, и даже если их решить, то выбранное ПО может не работать корректно, не выдавая результатов вовсе или завершая работу теста с ошибкой. Так что имеем то, что имеем — лишь те тесты из пакета, которые запустились на системе с Loongson в принципе. К слову, часть из них может использовать двоичную трансляцию x86-кода, а не родной код, но определить это сходу не так уж просто.

Синтетические тесты

Производительность памяти и системы кэширования

Для начала посмотрим, насколько эффективным получился контроллер памяти и система кэширования данных у китайских инженеров. К сожалению, для всех процессоров использовались разные условия, ведь к единым их привести сложно, да в этом и нет особого смысла, так как процессор Intel поддерживает память DDR5, а AMD и Loongson — лишь DDR4, причем китайский процессор ни в какую не захотел работать в двухканальном режиме DDR4-3200 с имеющимися у нас наборами такой памяти. А вот с одной планкой в этом режиме он вполне нормально работал, хотя разница между одноканальной DDR4-3200 и двухканальной DDR4-1866 далека от двукратной.

	Read, MB/s	Write, MB/s	Read/Modify/Write, MB/s
Loongson 3A6000 DDR4-3200×1	6351	38036	62670
Loongson 3A6000 DDR4-1866×2	6355	38074	62898
Core i3-12100 3.3 GHz	16368	82602	128042
Core i3-12100 2.5 GHz	9520	48036	74466
Ryzen 5 1500X 3.5 GHz	9254	44095	83291
Ryzen 5 1500X 2.5 GHz	6360	31470	59445

	Copy 128 MiB, MiB/s	Copy 4096 MiB, MiB/s	Copy Fixed 128 MiB, MiB/s	Copy Fixed 4096 MiB, MiB/s
Loongson 3A6000 DDR4-3200×1	8065	8506	7765	8449
Loongson 3A6000 DDR4-1866×2	8655	9861	8406	9726
Core i3-12100 3.3 GHz	16395	16313	11764	11662
Core i3-12100 2.5 GHz	12633	12692	9340	9289
Ryzen 5 1500X 3.5 GHz	14394	14797	7433	8795
Ryzen 5 1500X 2.5 GHz	13582	13872	6916	8173

	Average Integer, MB/s	Average Float, MB/s
Loongson 3A6000 DDR4-3200×1	11716	11549
Loongson 3A6000 DDR4-1866×2	13321	13171
Core i3-12100 3.3 GHz	37662	37899
Core i3-12100 2.5 GHz	34653	34778
Ryzen 5 1500X 3.5 GHz	22705	24916
Ryzen 5 1500X 2.5 GHz	21895	24184

	Copy, MB/s	Scale, MB/s	Triad, MB/s	Add, MB/s
Loongson 3A6000 DDR4-3200×1	15901	19408	17950	17872
Loongson 3A6000 DDR4-1866×2	19699	22436	21708	21914
Core i3-12100 3.3 GHz	58831	58440	58246	58203
Core i3-12100 2.5 GHz	57357	54315	53573	53588
Ryzen 5 1500X 3.5 GHz	38177	24664	28568	28719
Ryzen 5 1500X 2.5 GHz	38147	24612	28518	28640

	Min core latency, ns	Average core latency, ns	Max core latency, ns
Loongson 3A6000 DDR4-3200×1	31,24	97,88	107,61
Loongson 3A6000 DDR4-1866×2	31,22	95,78	108,29
Core i3-12100 3.3 GHz	21,27	74,72	101,53
Core i3-12100 2.5 GHz	74,88	120,13	192,61
Ryzen 5 1500X 3.5 GHz	47,13	167,7	274,33
Ryzen 5 1500X 2.5 GHz	65,94	190,81	300,1

	it/s
Loongson 3A6000 DDR4-3200×1	113258
Loongson 3A6000 DDR4-1866×2	114771
Core i3-12100 3.3 GHz	212087
Core i3-12100 2.5 GHz	129218
Ryzen 5 1500X 3.5 GHz	139047
Ryzen 5 1500X 2.5 GHz	99400

	Mops/s
Loongson 3A6000 DDR4-3200×1	327,6
Loongson 3A6000 DDR4-1866×2	321,8
Core i3-12100 3.3 GHz	1119,7
Core i3-12100 2.5 GHz	661,4
Ryzen 5 1500X 3.5 GHz	625,3
Ryzen 5 1500X 2.5 GHz	473,2

	Blowfish, sec	CryptoHash, GiB/s	Fibonacci, sec	N-Queens, sec	Zlib, Himarks	FFT, sec	Raytracing, sec
Loongson 16GBx1	2,16	0,79	0,64	3,58	1,39	0,87	1,22
Loongson 8GBx2	2,06	1,08	0,63	3,55	1,43	0,83	1,17
Core i3-12100 3.3 GHz	0,65	1,82	0,36	7,90	2,25	0,41	1,14
Core i3-12100 2.5 GHz	1,07	1,04	0,62	12,95	1,36	0,68	1,90
Ryzen 5 1500X 3.5 GHz	1,52	1,17	0,64	5,45	1,37	0,85	1,90
Ryzen 5 1500X 2.5 GHz	2,14	0,80	0,93	7,82	1,01	1,26	2,79

	Composite, Mflops	Monte Carlo, Mflops	FFT, Mflops	Sparse Matrix Multiply, Mflops	Dense LU Matrix Factorization, Mflops	Jacobi Successive Over-relaxation, Mflops
Loongson 3A6000 DDR4-3200×1	1945	988	268	1259	6296	913
Loongson 3A6000 DDR4-1866×2	2024	989	304	1414	6498	915
Core i3-12100 3.3 GHz	2574	1117	628	3166	5860	2100
Core i3-12100 2.5 GHz	1577	653	355	2190	3467	1220
Ryzen 5 1500X 3.5 GHz	2073	1320	274	2077	5372	1367
Ryzen 5 1500X 2.5 GHz	1584	942	226	1519	4254	980

	AOBench, sec	C-Ray, sec	POV-Ray, sec	Smallpt, sec
Loongson 3A6000 DDR4-3200×1	46,2	191,9	125,9	35,1
Loongson 3A6000 DDR4-1866×2	46,0	190,8	124,8	34,9
Core i3-12100 3.3 GHz	25,2	109,1	67,5	16,3
Core i3-12100 2.5 GHz	43,3	179,2	110,9	26,8
Ryzen 5 1500X 3.5 GHz	41,8	149,6	115,1	25,7
Ryzen 5 1500X 2.5 GHz	59,2	210,1	161,3	36,0

**Google libwebp**
	Default, Mpix/s	Quality 100, Mpix/s	Quality 100 Lossless Highest, Mpix/s
Loongson 3A6000 DDR4-3200×1	4,5	3,0	0,35
Loongson 3A6000 DDR4-1866×2	4,6	3,0	0,35
Core i3-12100 3.3 GHz	18,8	12,2	0,65
Core i3-12100 2.5 GHz	11,0	7,1	0,39
Ryzen 5 1500X 3.5 GHz	13,3	8,4	0,45
Ryzen 5 1500X 2.5 GHz	9,5	6,0	0,32

**Etcpak**
	DXT1 (1T), Mpix/s	DXT1 (MT), Mpix/s	ETC2 (1T), Mpix/s	ETC2 (MT), Mpix/s
Loongson 3A6000 DDR4-3200×1	12,1	58,8	12,0	58,6
Loongson 3A6000 DDR4-1866×2	12,1	59,3	12,1	59,2
Core i3-12100 3.3 GHz	266,7	1259,0	264,2	1254,0
Core i3-12100 2.5 GHz	156,3	768,4	154,9	766,1
Ryzen 5 1500X 3.5 GHz	155,3	735,9	153,4	735,7
Ryzen 5 1500X 2.5 GHz	111,3	528,7	110,2	526,6

	APE, sec	FLAC, sec	WavPack, sec
Loongson 3A6000 DDR4-3200×1	54,5	71,1	62,8
Loongson 3A6000 DDR4-1866×2	55,2	69,9	62,6
Core i3-12100 3.3 GHz	10,6	16,4	11,3
Core i3-12100 2.5 GHz	18,4	26,8	18,1
Ryzen 5 1500X 3.5 GHz	16,6	29,6	10,9
Ryzen 5 1500X 2.5 GHz	23,3	40,8	15,1

	SynthMark, voices	eSpeak, sec
Loongson 3A6000 DDR4-3200×1	552,4	48,3
Loongson 3A6000 DDR4-1866×2	554,0	47,9
Core i3-12100 3.3 GHz	938,4	27,2
Core i3-12100 2.5 GHz	548,1	42,7
Ryzen 5 1500X 3.5 GHz	571,2	39,5
Ryzen 5 1500X 2.5 GHz	411,1	54,9

	Summer Nature 1080p, FPS	Summer Nature 4K, FPS
Loongson 3A6000 DDR4-3200×1	166,9	40,6
Loongson 3A6000 DDR4-1866×2	171,5	41,6
Core i3-12100 3.3 GHz	561,4	139,9
Core i3-12100 2.5 GHz	354,3	90,5
Ryzen 5 1500X 3.5 GHz	311,2	76,5
Ryzen 5 1500X 2.5 GHz	237,8	58,8

	2D Function, sec	3D Volume, sec	3D Elevated Function, sec
Loongson 3A6000 DDR4-3200×1	171,9	35,3	65,4
Loongson 3A6000 DDR4-1866×2	168,5	34,9	64,8
Core i3-12100 3.3 GHz	70,1	15,4	44,1
Core i3-12100 2.5 GHz	116,1	26,2	75,2
Ryzen 5 1500X 3.5 GHz	123,4	28,2	103,6
Ryzen 5 1500X 2.5 GHz	172,1	39,8	145,0

	SVG to PNG, sec
Loongson 3A6000 DDR4-3200×1	24,4
Loongson 3A6000 DDR4-1866×2	24,2
Core i3-12100 3.3 GHz	12,2
Core i3-12100 2.5 GHz	19,3
Ryzen 5 1500X 3.5 GHz	20,6
Ryzen 5 1500X 2.5 GHz	28,3

	Sec
Loongson 3A6000 DDR4-3200×1	163,5
Loongson 3A6000 DDR4-1866×2	159,9
Core i3-12100 3.3 GHz	61,9
Core i3-12100 2.5 GHz	99,8
Ryzen 5 1500X 3.5 GHz	97,2
Ryzen 5 1500X 2.5 GHz	132,9

	JPEG decompression, Mpix/s
Loongson 3A6000 DDR4-3200×1	72,5
Loongson 3A6000 DDR4-1866×2	72,8
Core i3-12100 3.3 GHz	242,0
Core i3-12100 2.5 GHz	140,8
Ryzen 5 1500X 3.5 GHz	147,2
Ryzen 5 1500X 2.5 GHz	105,4

	JPEG2000 encode, sec
Loongson 3A6000 DDR4-3200×1	78,9
Loongson 3A6000 DDR4-1866×2	78,7
Core i3-12100 3.3 GHz	58,6
Core i3-12100 2.5 GHz	96,0
Ryzen 5 1500X 3.5 GHz	72,9
Ryzen 5 1500X 2.5 GHz	101,3

	Default, Mpix/s	Quality 100 Effort 5, Mpix/s
Loongson 3A6000 DDR4-3200×1	1,56	0,81
Loongson 3A6000 DDR4-1866×2	1,57	0,82
Core i3-12100 3.3 GHz	4,22	2,03
Core i3-12100 2.5 GHz	2,58	1,24
Ryzen 5 1500X 3.5 GHz	2,87	1,35
Ryzen 5 1500X 2.5 GHz	2,06	0,96

	k/s
Loongson 3A6000 DDR4-3200×1	1810
Loongson 3A6000 DDR4-1866×2	1818
Core i3-12100 3.3 GHz	16163
Core i3-12100 2.5 GHz	9965
Ryzen 5 1500X 3.5 GHz	6622
Ryzen 5 1500X 2.5 GHz	4725

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Оглавление

Архитектурные особенности

Архитектура вычислительных ядер

Исполнительные блоки INT и FP

Подсистема кэша и памяти

Пропускная способность кэша и памяти

Тестирование производительности

Тестовые системы и условия

Синтетические тесты

Рендеринг

Работа с медиаданными

Обработка изображений

Криптографические тесты

Сжатие и распаковка

Компиляция и разработка

Высокопроизводительные вычисления

Молекулярная динамика

Машинное обучение

Энергопотребление

Выводы

Новости

	sec
Loongson 3A6000 DDR4-3200×1	10,1
Loongson 3A6000 DDR4-1866×2	9,9
Core i3-12100 3.3 GHz	6,3
Core i3-12100 2.5 GHz	10,3
Ryzen 5 1500X 3.5 GHz	10,9
Ryzen 5 1500X 2.5 GHz	15,2

	All algo, MiB/s
Loongson 3A6000 DDR4-3200×1	534,8
Loongson 3A6000 DDR4-1866×2	537,1
Core i3-12100 3.3 GHz	2025,5
Core i3-12100 2.5 GHz	1182,7
Ryzen 5 1500X 3.5 GHz	1296,1
Ryzen 5 1500X 2.5 GHz	929,6

	RSA4096, sign/s	SHA512, MB/s
Loongson 3A6000 DDR4-3200×1	361,9	998,5
Loongson 3A6000 DDR4-1866×2	364,3	1006,4
Core i3-12100 3.3 GHz	1408,2	2063,1
Core i3-12100 2.5 GHz	867,4	1256,1
Ryzen 5 1500X 3.5 GHz	750,8	1397,5
Ryzen 5 1500X 2.5 GHz	536,1	999,3

	Compression, sec
Loongson 3A6000 DDR4-3200×1	55,1
Loongson 3A6000 DDR4-1866×2	55,1
Core i3-12100 3.3 GHz	29,8
Core i3-12100 2.5 GHz	51,1
Ryzen 5 1500X 3.5 GHz	44,7
Ryzen 5 1500X 2.5 GHz	63,0

	Compression, MIPS	Decompression, MIPS
Loongson 3A6000 DDR4-3200×1	22279	20251
Loongson 3A6000 DDR4-1866×2	23849	20697
Core i3-12100 3.3 GHz	44880	27073
Core i3-12100 2.5 GHz	29177	16620
Ryzen 5 1500X 3.5 GHz	27300	23159
Ryzen 5 1500X 2.5 GHz	21261	16495

	Compression, MB/s	Decompression, GB/s
Loongson 3A6000 DDR4-3200×1	24,6	2,19
Loongson 3A6000 DDR4-1866×2	25,1	2,11
Core i3-12100 3.3 GHz	40,4	4,38
Core i3-12100 2.5 GHz	23,5	2,59
Ryzen 5 1500X 3.5 GHz	27,2	3,21
Ryzen 5 1500X 2.5 GHz	19,4	2,34

	Compression, MB/s	Decompression, GB/s
Loongson 3A6000 DDR4-3200×1	4,96	0,707
Loongson 3A6000 DDR4-1866×2	4,87	0,689
Core i3-12100 3.3 GHz	7,26	1,423
Core i3-12100 2.5 GHz	5,08	0,842
Ryzen 5 1500X 3.5 GHz	5,96	0,887
Ryzen 5 1500X 2.5 GHz	4,67	0,645

	Compression, sec	Decompression, sec
Loongson 3A6000 DDR4-3200×1	31,9	13,6
Loongson 3A6000 DDR4-1866×2	30,8	13,3
Core i3-12100 3.3 GHz	14,0	8,1
Core i3-12100 2.5 GHz	23,3	13,9
Ryzen 5 1500X 3.5 GHz	20,3	12,7
Ryzen 5 1500X 2.5 GHz	27,8	17,8

	Sec
Loongson 3A6000 DDR4-3200×1	29,29
Loongson 3A6000 DDR4-1866×2	29,01
Core i3-12100 3.3 GHz	18,59
Core i3-12100 2.5 GHz	30,66
Ryzen 5 1500X 3.5 GHz	28,78
Ryzen 5 1500X 2.5 GHz	39,90

	sec
Loongson 3A6000 DDR4-3200×1	453,8
Loongson 3A6000 DDR4-1866×2	453,4
Core i3-12100 3.3 GHz	187,9
Core i3-12100 2.5 GHz	292,7
Ryzen 5 1500X 3.5 GHz	310,1
Ryzen 5 1500X 2.5 GHz	413,2