Сервис для озвучки Text to speech (и почему актерам озвучки можно не беспокоиться)

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

13 ноября 2023, 18:45

Вся эта шумиха вокруг нейросетей, озвучки с помощью так называемых «ИИ-инструментов» и забастовок актеров и сценаристов побудила меня к тому, что бы разобраться, в чем собственно дело. И так ли страшен черт, как его малюют. И я решил на основе одного сервиса озвучить небольшой кусочек видео. И посмотреть на полученном результате насколько сама идея «машинной озвучки» может стать конкурентом настоящей озвучки живыми даже не профессиональными актерами.

Однако, я попробовал на собственном опыте пару таких инструментов. Результат меня не шибко впечатлил. Особенно если учесть, что для получения результата пришлось заплатить денег из собственного кармана. Ибо все сервисы по озвучке, которые попадались мне в сети, имеют жесткие ограничения для бесплатного использования.

Содержание

Пример изготовленной озвучки
Демонстрация работы озвучки через нейросеть
Для чего можно использовать
Печальные выводы

Интерфейс сервиса texttospeech.ru

Автор: texttospeech.ru Источник: texttospeech.ru

Сервисов для озвучки достаточно большое количество. Однако на русском языке умеют озвучивать далеко не все. Я остановился лишь на одном из них, который предлагал за небольшую стоимость озвучить довольно внушительную часть текста. Сервис бесхитростно называется texttospeech.ru.

Пример изготовленной озвучки

В бесплатном варианте доступно около 17 голосов: женских и мужских. «Небинарных» голосов нет, так что озвучить «небинарную» персону не получится. На первых порах доступно для озвучки и скачивания около 2500 символов, включая пробелы и спец символы. Этого крайне мало, но если раскошелиться на 300 рублей, то можно свободно использовать голоса с пометкой «free» каких-либо ограничений. Так же станет доступна озвучка текстом всех остальных голосов, согласно указанному тарифу.

Стоит отметить, что изменения параметров голоса (скорость, высота и т. п.) не влияют на стоимость. Вы оплачиваете только символы.

Выбор голосов большой, но все звучат одинаково безэмоционально.

Зато внесли возможность менять цвет интерфейса.

Настройки голоса не требуют отдельной оплаты.

У каждого голоса можно менять такие параметры, как: высота, скорость, громкость, частота, сдвиг и эхо. Так же можно выбрать формат, в котором можно будет загрузить полученный результат: mp3 или чистый wav. Последний лучше по качеству. Правда качество результата оставляет желать лучшего.

Хотя все зависит от задачи. Например, я решил попробовать «переозвучить» кусок ролика отличной модификации для Deus Ex — 2027. Которая была выпущена одновременно с официальной Deus Ex Human Revolution и показывала альтернативный взгляд на середину 20-х годов XXI века. Да-да, мы уже живем в киберпанке.

Вот только у разработчиков не хватило средств и возможностей для создания пусть даже любительской озвучки для своего произведения и все диалоги приходится читать, как в какой-нибудь интерактивной книге. Это не плохо, но — «несовременно».

Демонстрация работы озвучки через нейросеть

В ролике идет диалог между ИИ Титан и человеком-агентом Даниэлем. И, если честно, то озвучка человека получилась крайне отвратительной. Банально не хватает эмоций и «человечности» в голосе протагониста. Зато озвучка робота «роботом» удалась на славу. Правда пришлось перемонтировать ролик, так как озвучка текста не попадала в тайминги.

Результат выглядит вот так:

Криворукий результат. Но зато озвучка ИИ получилась весьма недурственной.

Как видите… то есть как слышите, результат озвучки человека крайне посредственный. У нас в 90-е прошлого века озвучивали одним голосом и то лучше. И это я еще использовал не бесплатный, а платный голос.

Это не единственный сервис и я приведу еще один пример. Но тратить деньги на такой посредственный результат — это не самая разумная трата средств. Все же актеры озвучки куда как лучше справляются с такой работой. Пусть такой процесс обойдется куда как дороже, чем использование нейросетевых инструментов.

Для чего можно использовать

Существуют сервисы, которые позволяют использовать ранее записанный голос или генерировать различные голоса, а не использовать заранее записанный. Например, сервис llElevenLabs позволяет озвучивать текст множеством языков.

При этом озвучка на русском так же возможна. Но есть несколько условий. Например, новый создаваемый голос использует один из пяти английских акцентов. С его помощью можно озвучивать текст на английском языке вполне сносно, но не идеально. Но текст, например на русском, озвучивается с карикатурным акцентом, как в дешевом российском кино.

Множество языков на выбор.

Создание нового языка на основе одного из английских акцентов.

Функционал для записи и обработки голоса.

Готовые голоса озвучивают текст на русском языке куда как лучше. Но эмоциональность остается на уровне плинтуса. Может быть какую-нибудь аудио книгу озвучить этот сервис и поможет, но для озвучки персонажей в качественных проектах он не подходит.

Да и ограничения в 10 000 символов — это ни о чем. Ранее показанный ролик с диалогом содержит около 3 000 символов. И казалось бы, можно аж три раза его озвучить. Вот только даже тестовые попытки выбрать подходящие настройки текста так же включаются в эти 10 000 символов. И пробелы тоже.

А вот для любительских проектов и модификаций такие инструменты подошли бы, если бы они не стоили таких больших денег. Или хотя бы предоставляли куда как более сносный результат.

Но пока машины не могут заменить людей в озвучке. Как минимум в нормальной озвучке. Когда-нибудь это измениться, но это будет не сегодня.

Печальные выводы

В принципе для озвучки каких-нибудь ИИ, роботов, безэмоциональных живых или не живых существ такого рода сервисы подходят. Однако считаю, что беспокоиться и устраивать неолуддитские протестные акции по поводу «Нас всех заменять машинами!» не стоит.

Да, машина может нарисовать картинку. Да, машина может сочинить симфонию. Да, машина может наделить голосом персонажа. Но все это она делает весьма посредственно.

Так что если Вы — посредственный специалист, то есть смысл беспокоиться. Но если вы — профессионал, то беспокоиться о своем благополучии не имеет никакого смысла. Вряд ли нейросети, даже самые продвинутые, смогут заменить творческие профессии. Какими бы продвинутыми алгоритмами они не обладали.

Другой вопрос, что большинству людей результат особо и не интересен. Главное, что бы было, а как оно сделано — не особо и важно. Но это не вина нейросетей. Если вас устраивает озвучка в стиле «я — робот», то это не вина актеров.