Deepfake голоса и создание новых композиций с помощью нейросети

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

Благодаря развитию нейронных сетей эффект «Зловещей Долины» с каждым днём всё ближе и ближе к человечеству, ибо то, что когда-то считалось невозможным, в наши дни становится вполне осуществимым. В этой небольшой инструкции вы узнаете, как выполнить Deepfake голоса и на его основе создать совершенно новую композицию, даже если его обладатель давно покинул нас.


RVC-GUI — это удобная оболочка с открытым исходным кодом созданная для упрощения управления параметрами нейронной сети RVC применяемой для синтеза любого голоса/музыкальной композиции. По сравнению с аналогами, не требует установки и настройки сложных библиотек или использования Linux. Для работы программы достаточно Windows 10/11 и относительно современного ПК.

Инструкция

1. Скачиваем с GitHub бесплатное приложение RVC-GUI и распаковываем его в любую удобную папку. Убедитесь, что в название папки или пути до конечного файла запуска нет кириллицы.

2. Запускаем файл RVC-GUI.bat.

Если всё прошло успешно, то перед вашим взором появится интерфейс ПО.

3. Чтобы программа могла воссоздать полноценную музыкальную композицию с интересующем нас голосом, необходимо заранее подготовить голосовую модель и отделить вокал солиста от инструментала в интересующей нас композиции. В общем, чтобы голос стал отдельно от музыки.

Скачиваем заранее обученные модели:


Модель голоса Михаила Горшенёва (Король и Шут) (Спасибо Baron Unger)
  • Модель голоса Юлии Олеговны (t.A.T.u.)
  • Дополнительные модели формата RVC/RVC2 вы всегда можете найти здесь.

    4. Выбираем желаемую композицию, которую мы хотим, чтобы наша модель перепела. Отделяем вокал солиста от инструментала. Благо, сделать это весьма просто.

    Переходим на веб-сайт редактора:

    Загружаем трек формата .mp3 и дожидаемся пока редактор обработает композицию. Скачиваем результат.

    5. После того как мы выбрали желаемую модель и отделили вокал от инструментала, можно вновь возвращаться к интерфейсу программы.

    • (1) Выбираем через кнопку Browse наш подготовленный музыкальный трек с голосом солиста.
    • (2) Загружаем и выбираем модель через кнопку Select a model. Чтобы загрузить голосовую модель, можно воспользоваться кнопкой Import model from. zip в интерфейсе ПО или распакуйте файлы архива модели напрямую в папку models с установленной программой.
    • (3) Выбираем алгоритм конечного качества трека. Советую всегда использовать пресет harvest.
    • (4) Выбираем, на чём будет обсчитываться конечный трек. Если у вас мощный ПК с видеокартой Nvidia, то выбирайте GPU, но не забудьте тогда установить вспомогательный пакет CUDA. Обладатели видеокарт AMD/Intel выбирают CPU.
    • (5) Нажимаем Convert.

    Вот, собственно, и всё! Если всё было сделано правильно, то, через пару десятков минут, вы получите готовый музыкальный трек с любимым исполнителем в папке рядом с оригиналом.


    6. Сводим готовы аудиодарожки вокала и инструментала в любом аудио/видео редакторе. Лично я использую для этого бесплатный видеоредактор Shotсut.

    • Правый клик по нижней части программы>> действия с дорожкой>> добавить аудиотрек.
    • Левый угол программы «Открыть файл». Переносим треки на добавленные дорожки.
    • Правый угол программы «Экспорт». Выбираем в левом углу программы желаемый формат и качество.

    7. Наслаждаемся результатом.

    Заключение

    Скажу откровенно, меня пугает уровень развития современных технологий. Но кроме страха я ощущаю ещё и надежду. Надежду на то, что человечество может и не искоренит свои пороки, но благодаря развитию технологий подарит утешение миллионам людей по всему миру. Уважайте свободу, используйте свободное ПО и ни в коем случае не предавайте себя!