Языковую ИИ-модель для Дании пришлось обучать на материалах форума Heste-Nettet, посвящённого лошадям

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | Программы, сервисы и сайты

Датским учёным, пожелавшим в 2021 году подготовить набор данных на местном языке для обучения ИИ, пришлось столкнуться с серьёзными трудностями. Многие материалы на датском, включая новости, были строго защищены законом от несанкционированного использования. В этих условиях пришлось найти крайне необычное решение. Форум для любителей лошадей оказался основой для датской ИИ-модели.

Автор: kudybadorota

У учёных были и другие источники языковой информации, вроде датских налоговых законов, но язык в них оказался слишком сухим, чтобы на его основе можно было бы обучить действительно работоспособный искусственный интеллект. При этом оказалось, что посвящённый лошадям ресурс Heste-Nettet богат материалами на самые разные темы и их обсуждают в весьма свободной форме. Созданный ещё в 1997 году форум был одним из первых в датском сегменте интернета, поэтому вскоре на площадке стали обсуждать что угодно — от проблем поиска партнёров до вопросов лечения детей, университетских задач по математике и кулинарных тем.

Как сообщает Bloomberg, с Heste-Nettet знакомы практически все жители Дании, здесь обсуждаются многие вопросы, используется живая разговорная речь и, что немаловажно, в отличие от материалов СМИ, посты не защищаются строгими правовыми нормами. Некоторые считают, что форум часто заменяет в Дании Википедию, хотя по-прежнему сохраняет свой «лошадиный вектор», и это заметно даже по главной странице сайта.

По словам профессора Леон Дерчинского (Leon Derczynski) из Копенгагена, возглавлявшего проект, на сайте присутствует «очень богатый» материал, как связанный, так и не связанный с лошадьми и открытый для свободного использования. Материалы с Heste-Nettet составили 22 % от всего датского датасета, использовавшегося для обучения. Это чрезвычайно много в контексте обучения языковых моделей общего назначения — например, X (бывшая Twitter) не способна обеспечить такой объём данных на датском языке для тренировки.

Источник: Bloomberg

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
По всем взаимовыгодным вопросам, не противоречащим законам РФ: 2016-kv@rambler.ru

Сейчас на главной

Новости

Публикации

Первый гревел Shulz: изучаем прототип велосипеда The Lightning

Бренд Shulz наконец-то дал возможность всесторонне рассмотреть, что из себя будет представлять первый гревел компании. Выпущенный видеоролик-анонс состоит из двух частей. В первой ведущий канала...

С какой скоростью надо ездить по лужам

В дождливую погоду дороги становятся особенно коварными, а лужи на асфальте — не просто лужи, а настоящие испытания для водителя и его автомобиля. Каждая такая встреча скрывает риски: от...

Почему на современных стиральных машиных нельзя отключить отжим, и как это исправить вручную

Если на моделях стиральных машин 7-10 летней давности управление оборотами отжима (вплоть до 0) было базовой возможностью, то у современной техники подобная функция встречается всё реже. Но для...

Как можно узнать, сколько герц в экране Айфона и на что они влияют

В мире смартфонов происходит настоящая революция, связанная с частотой обновления экранов. Долгое время стандартом считались 60 Гц, но теперь производители, включая Apple, переходят на более...

Как одеваться в жаркую погоду, чтобы было комфортно

Лето — пора яркого солнца и прогулок на свежем воздухе. Но высокая температура может стать настоящим вызовом, если тщательно не продумать образ. Поговорим о том, как правильно одеваться...

Обзор MobaPad M6S: максимально удобная альтернатива Joy-Conn для Nintendo Switch

Над альтернативой для штатных Joy-Conn игровой консоли Nintendo Switch работали сразу несколько производителей, причем относительного успеха добился каждый из них, но по возможностям лучше, чем...