Команда SberDevices, входящая в экосистему СберБанка, объявила о запуске многоязычной версии нейросети GPT-3 — модель под названием mGPT может генерировать тексты на 61 языке мира, включая языки народов России и стран СНГ.
Как отмечает пресс-служба, mGPT — это первая в мире генеративная модель, которая поддерживает такое количество языков. Она доступна в двух версиях: базовой, с 1,3 миллиарда параметров, опубликованной в открытом доступе в облачном хранилище «СберДиск», и расширенной, с 13 миллиардами параметров, которая скоро станет доступна на платформе машинного обучения ML Space от SberCloud.
Модель mGPT может использоваться как просто для создания текста, так и для решения различных задач в области обработки естественного языка на одном из поддерживаемых языков путём дообучения или в составе ансамблей моделей.
Например, можно научить автоматизированную систему отвечать на вопросы, определять эмоциональную окраску текста, извлекать из текста имена, фамилии, названия компаний и тому подобное. Модель может также использоваться как компонент различных речевых технологий — например, для улучшения качества распознавания речи, генерации сценариев диалоговых систем и так далее.
Глава SberDevices Денис Филиппов рассказал:
В 2020 году мы представили русскоязычную версию нейросети GPT-3, именно она используется в двух виртуальных ассистентах семейства Салют от Сбера — Джой и Афине. Мы продолжили развивать наши NLP-технологии и представили модель mGPT, поддерживающую более 60 языков, при этом для многих из них ранее генеративных моделей просто не существовало. Это среди прочего станет нашим вкладом в сохранение и развитие языков народов России: mGPT умеет генерировать тексты, например, на татарском или якутском».
Полный перечень языков, доступный в модели mGPT: азербайджанский, английский, арабский, армянский, африкаанс, баскский, башкирский, белорусский, бенгали, бирманский, болгарский, бурятский, венгерский, вьетнамский, голландский, греческий, грузинский, датский, иврит, индонезийский, испанский, итальянский, йоруба, казахский, калмыцкий, киргизский, китайский, корейский, латышский, литовский, малайский, малаялам, маратхи, молдавский, монгольский, немецкий, осетинский, персидский, польский, португальский, румынский, русский, суахили, таджикский, тайский, тамильский, татарский, телугу, тувинский, турецкий, туркменский, узбекский, украинский, урду, финский, французский, хинди, чувашский, шведский, якутский, японский.