Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Deepfake голоса и создание новых композиций с помощью нейросети

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

11 июня 2023, 21:06 | Инструкция | ИИ, сервисы и приложения

Благодаря развитию нейронных сетей эффект «Зловещей Долины» с каждым днём всё ближе и ближе к человечеству, ибо то, что когда-то считалось невозможным, в наши дни становится вполне осуществимым. В этой небольшой инструкции вы узнаете, как выполнить Deepfake голоса и на его основе создать совершенно новую композицию, даже если его обладатель давно покинул нас.

RVC-GUI — это удобная оболочка с открытым исходным кодом созданная для упрощения управления параметрами нейронной сети RVC применяемой для синтеза любого голоса/музыкальной композиции. По сравнению с аналогами, не требует установки и настройки сложных библиотек или использования Linux. Для работы программы достаточно Windows 10/11 и относительно современного ПК.

Инструкция

1. Скачиваем с GitHub бесплатное приложение RVC-GUI и распаковываем его в любую удобную папку. Убедитесь, что в название папки или пути до конечного файла запуска нет кириллицы.

2. Запускаем файл RVC-GUI.bat.

Если всё прошло успешно, то перед вашим взором появится интерфейс ПО.

3. Чтобы программа могла воссоздать полноценную музыкальную композицию с интересующем нас голосом, необходимо заранее подготовить голосовую модель и отделить вокал солиста от инструментала в интересующей нас композиции. В общем, чтобы голос стал отдельно от музыки.

Скачиваем заранее обученные модели:

Модель голоса Михаила Горшенёва (Король и Шут) (Спасибо Baron Unger)
Модель голоса Юлии Олеговны (t.A.T.u.)

Дополнительные модели формата RVC/RVC2 вы всегда можете найти здесь.

4. Выбираем желаемую композицию, которую мы хотим, чтобы наша модель перепела. Отделяем вокал солиста от инструментала. Благо, сделать это весьма просто.

Переходим на веб-сайт редактора:

Загружаем трек формата .mp3 и дожидаемся пока редактор обработает композицию. Скачиваем результат.

5. После того как мы выбрали желаемую модель и отделили вокал от инструментала, можно вновь возвращаться к интерфейсу программы.

(1) Выбираем через кнопку Browse наш подготовленный музыкальный трек с голосом солиста.
(2) Загружаем и выбираем модель через кнопку Select a model. Чтобы загрузить голосовую модель, можно воспользоваться кнопкой Import model from. zip в интерфейсе ПО или распакуйте файлы архива модели напрямую в папку models с установленной программой.
(3) Выбираем алгоритм конечного качества трека. Советую всегда использовать пресет harvest.
(4) Выбираем, на чём будет обсчитываться конечный трек. Если у вас мощный ПК с видеокартой Nvidia, то выбирайте GPU, но не забудьте тогда установить вспомогательный пакет CUDA. Обладатели видеокарт AMD/Intel выбирают CPU.
(5) Нажимаем Convert.

Вот, собственно, и всё! Если всё было сделано правильно, то, через пару десятков минут, вы получите готовый музыкальный трек с любимым исполнителем в папке рядом с оригиналом.

6. Сводим готовы аудиодарожки вокала и инструментала в любом аудио/видео редакторе. Лично я использую для этого бесплатный видеоредактор Shotсut.

Правый клик по нижней части программы>> действия с дорожкой>> добавить аудиотрек.
Левый угол программы «Открыть файл». Переносим треки на добавленные дорожки.
Правый угол программы «Экспорт». Выбираем в левом углу программы желаемый формат и качество.

7. Наслаждаемся результатом.

Заключение

Скажу откровенно, меня пугает уровень развития современных технологий. Но кроме страха я ощущаю ещё и надежду. Надежду на то, что человечество может и не искоренит свои пороки, но благодаря развитию технологий подарит утешение миллионам людей по всему миру. Уважайте свободу, используйте свободное ПО и ни в коем случае не предавайте себя!

53 комментария

Иструкция по создание модели будет готова где-то после праздников.

Ответить

Когда ж таки настанет «после праздников»? :)

Ответить

Только сейчас заметил, конвертирование немного поджевало качества записи. Поменяю в ближайшее время.
___________
Земенено!

Ответить

на андроид есть аналог? хотелось бы на телефоне такое творить.
а вообще браво ?

Ответить

Слишком затратно по ресурсам для телефона.

Ответить

Ответить

Дополню что собирать музло обратно гораздо удобнее во FL Studio
А Отковыривать голос и музыку отдельно в Ultimate Vocal Remover
ЗЫ я хз как комент сюда попал вместо того чтобы пойти вниз… ну да ладно.
По теме отвечу что для телефона есть гугл коллаб он всё за телефон сделает по быстрому)
Но это огромная тема есть на ютубе lunnaholy он инструкции подробные снимал для бедолаг с телефонами

Ответить

Так это обычная демонстрация, что в итоге получится. Ссылки указаны на оригинал под видео и в самом видео. Присмотритесь. Не говоря уже о том, что я дополнил видео и создаю в видеоредакторе совершенно другую композицию. Гайд структрурирован и дополнен для ixbt/live.
____________________
https://sun9-68.userapi.com/impg/kd6PbLiwqeZXUQUaGrhvfO7RzOsKtzyNKRdvrA/nqmmeGHt7uM.jpg?size=408x799&quality=96&sign=732996bb6c0bcb3d8034bd250d444997&type=album
_____________________
https://sun9-44.userapi.com/impg/xPuiy1N3LeDzaej6LE9FLz5RQ5zA7jnLboEJng/hXQC4cymEEI.jpg?size=1118x211&quality=95&sign=6aa0749ba4a3e0c6e2520597d41d4f62&type=album

Ответить

Как здорово! Очень жду инструкции, как свою модель забацать! Спасибо.

Ответить

Современные технологии это настоящее чудо!

Ответить

Так вот как это делают Вован и Лексус…

Ответить

Сомневаюсь)

Ответить

Вообще могут) например на so-vits-svc fork можно подрубать микрофон и базарить в реальном времени чужим голосом) А уж всякие программы в даркнете поди давно так могли.
Именно на fork это его главное отличие от просто svc

Ответить

ВОт спасибо бро за ощерный гайд по РВС и за линк иде модели лежат! А то на СВС нихто моделями нормально не делится самому тренировать приходится)
ЗАбираю в арсенал извращений и РВС))

Ответить

Наслаждайтесь!

Ответить

Забрал по ссылке модельку Бритни Спирс (всё никак сам датасет не дорежу натренировать) и скормил so-vits-svc fork
И он модельку радостно всосал и уже вовсю пашет над моим тестовым треком )) О_О
ВОзможно модельки универсальные)

Ответить

Или моделька попалась под svc. Скажите, пожалуйста, как там назван файл конфигурации?

Ответить

Файлы по SVCшному и обозваны config.json да G_100000.pth
Ога пока писал до меня допёрло почему по ссылке в списке на некоторых там написано RVC в скобках!
Там значиться всё в перемешку лежит)

Ответить

Верно))

Ответить

К слову если ваша любимая поп певица или певец никогда не будет петь ваш любимый всякий лютый метал это не проблема!!!
Нейросеть в недавних версиях наловчилась адекватно переваривать гроул и скрим и петь его внятно чистым голосом))
Например вот так Милен Фармер поёт лютый похоронный дум митол)
https://www.youtube.com/watch?v=TfkuXjirPYU
А вот так русскую алтьтернативу 2007го))
https://www.youtube.com/watch?v=nne3wxyzeZU

Ответить

Вторую сылочку поправь.

Ответить

Поправил

Ответить

Неплохо вышло.

Ответить

Отдельно дополню для тех кто попробует натянуть на экстремальный вокал — чистый голос
Возможны неприятные открытия типа экстрим вокалиста орущего мимо нот но при экстрим вокале это было нормально а на чистом звучит как испанский стыд))
Ещё обнажается хреновое качество записи или недостаточная тренировка модели (не только малое количество эпох но и неудачно собранный датасет для тренировки с однообразным или слишком небольшим по количеству материалом) — слова могут звучать неразборчиво.
Ну и на совсем высоком скриме или шрайке уменьшайте питч иначе чистым голосом будет совсем шептать)

Ответить

Для среднего качества хватает эпох 150, но опять таки, всё зависит от желаемого голоса и конечного произвидения. Если брать бардовсвое исполнение, то и 250 будет уже за глаза, но если хардкорный металл, то и 500 будет мало.

Ответить

Отдельно отмечу что по крайней мере для SVC не все эпохи одинаково полезны)
Лучше тестить промежуточные итерации (я сохраняю каждую 1000ю потому говорю за них) скажем 42000 шаг может звучать с откровенный металлическим голосом робота работая хуже чем 16000й а тем временем 41000 был идеален о_о а 40000 тоже мусор.
Металл кстати многое прощает! Как раз плотное музло скрывает многие косяки) Голос понизил в редакторе на децибел и ваще хорошо стало)
А вот с простым музлом типа голоса под гитару засада) косяки как на ладони — их нечем маскировать!
Естественно всё это зависит от того чей голос куда натягивать)
Когото проще когото сложнее.
Это индивидуально даже не для каждого исполнителя а для для каждой песни.

Ответить

А можно без музыки изменить голос и получить только вокал измененный? Мне не надо накладывать на музыку, но надо поменять голос.

Ответить

Конечно, просто пропустите 6 шаг.

Ответить

Подскажите, а что означают в описании моделей голосов параметры: Anuel AA (RVC) 400 Epoch, Anuel AA (2016 Era) 500 Steps, Anuel AA 41.6k ?
И есть ли еще российские голосовые модели для скачивания, кроме 2-х в статье?

Ответить

1. Количество эпох это степень обучения модели, больше>лучше. 41.6k — это качество дискретизации, больше>лучше.
2. Модели есть, но их нужно ещё поискать. В основном все их обучают сами и мало кто делится в итоге. Погуглите модели или гайд по обучению. Я хотел продолжить гайд обучением, но обнаружил, что это мало кому интересно. В общем, решил не тратить силы.

Ответить

Шутишь? Я уже неделю обновляю твою страницу ради этой инструкции)

Ответить

Прости, придётся тебе просто погуглить).

Ответить

Эх ладно я нашел живой гайд и живой коллаб по которому уже успешно обучаю) Дам ссылки тута
Инструкция по обучению увы токмо на ангельском но с картинками! https://youtu.be/x-jelyl6dyE
Коллаб для тренировки по этой инструкции https://colab.research.google.com/drive/1TU-kkQWVf-PLO_hSa2QCMZS1XF5xVHqs#scrollTo=MErtbNbp4wn0
Коллаб живой и рабочий остальное что находил нерабочий мусор.
Да суперкомпы гугла бесплатно попашут на вас 3 часа в сутки мощей стоимостью в пару миллионов)

Ответить

Вот по этому, и не захотел).

Ответить

Можно взять и перевести коллаб на русскый и запилить инструкцию)
Некий неивестный никому поц lunnaholy за месяц поднял на этом и канал в телеге до 3к подпищеков и ютубный...
Хотя тогда эффект новизны был в конце апреля…

Ответить

Автор делает всё для помощи людям, ему не нужны поклонники и прочие бонусы.

Ответить

Здравствуйте. Извините, но в этой статье вы вроде даёте инструкции просто как сделать кавер, а где же генерация абсолютно новых композиций?

Ответить

Изменяйте музыку, слова. Получите новые композиции.

Ответить

… ничего не понимаю. То есть, слова и музыку надо создать самостоятельно?

Ответить

Читайте гайд.

Ответить

Так я прочитал, но там как раз про это не написано

Ответить

Вопрос: у меня 32 разрядная винда и ваша программа ругается, что она не совместима с ней. Есть версия на 32ую винду?

Ответить

А может ли установиться эта программа на среднем пк?

Ответить

При открытии файла пишет что не нашел модуль. Помогите пожалуйста, что можно сделать?

Ответить

Здравствуйте, скажите пожалуйста как подтянуть вокал, например если берешь какую-то песню с высоким припевом, эта программа RVC-GUI не вытягивает припев до конца, может есть какие-то лучшие программы или настройки улучшить? спасибо

Ответить

Почему у всех в описании так всё просто? Запустите и работайте :) Так она не запускается просто. Моя система Win7 64, видео АМД, 32 память. При запуске не может загрузить модуль cudart64_110.dll, который точно есть. И нигде никто не пишет, как это можно исправить. Или, какие требования, чтоб RVC точно работала :(((

Ответить

Простите, но автор не поддерживает устаревшие ОС, как и компания Nvidia. Попробуйте установить версию Cuda для Windows 7.

Ответить

Попробовал, не получилось. Как я понял из статьи, возможно использовать ресурсы ЦПУ для работы. Но для этого надо, чтобы программа запустилась ;-)

Ответить

А для этого программе нужно Windows 10)

Ответить

Здравствуйте, не пойму что нужно делать, к примеру я хочу заменить песенку про мамонтенка, голосом Розенбаума, мои действия какие должны быть???? 1) взять песенку мамонтенка и сделать один вокал или наоборот один Розенбаум??? 2)где мне брать модель под мамонтёнка в формате RVC/RVC2, 3) МОЖНО пожалуйста дополнить инструкцию???

Ответить

Traceback (most recent call last):
File «site.py», line 169, in addpackage
File "", line 1, in
File "<frozen importlib._bootstrap>", line 562, in module_from_spec
AttributeError: 'NoneType' object has no attribute 'loader'
Remainder of file ignored
Error processing line 1 of G:\Archive\Deep Fake\runtime\lib\site-packages\matplotlib-3.6.2-py3.9-nspkg.pth:
Traceback (most recent call last):
File «site.py», line 169, in addpackage
File "", line 1, in
File "<frozen importlib._bootstrap>", line 562, in module_from_spec
AttributeError: 'NoneType' object has no attribute 'loader'
Remainder of file ignored
Error processing line 7 of G:\Archive\Deep Fake\runtime\lib\site-packages\pywin32.pth:
Traceback (most recent call last):
File «site.py», line 169, in addpackage
File "", line 1, in
ModuleNotFoundError: No module named 'pywin32_bootstrap'
Remainder of file ignored
Traceback (most recent call last):
File «G:\Archive\Deep Fake\rvcgui.py», line 3, in
from tkinter import filedialog
ModuleNotFoundError: No module named 'tkinter'
Press any key to continue.. .
((((

Ответить

Можно ли спеть самому, но плохо и подменить голосом модели, что бы конечный результат был на уровне.

Ответить

Добавить комментарий

Сейчас на главной

Новости

Xiaomi представила поломоечную машину с паровой очисткой

Техника для дома
32 минуты назад
0

Новый аксессуар Satechi заменяет подставку, хаб и картридер одновременно

ADAM elements представила Hub S — USB-C-хаб со встроенным SSD-накопителем

Хранение данных
3 часа назад
0

Энтузиаст создал самодельный аналог камеры Polaroid на базе термопринтера и Raspberry Pi

Фото и аксессуары
5 часов назад
0

Компания Lucid Motors вышла с концептуальным роботакси Lunar, которому не нужен ни руль, ни педали

Публикации

Семь в одном. Обзор USB-C док-станции Rapoo XD71

Обзор
7 часов назад
Клавиатуры, мыши и периферия

Нынешние ноутбуки все больше становятся похожими на планшеты, лишаясь зачастую самых нужных портов. Вернуть привычные возможности позволяет док-станция Rapoo XD71 с двумя портами USB-A, картридером...

Мал, да удал. Обзор компактного аккумуляторного инструмента: 3-дюймовая УШМ под 18V батареи

Обзор
8 часов назад
Инструменты и запчасти

Аккумуляторная угловая шлифовальная машина ONEKFYFD, на которую можно установить диски/насадки 75 мм (3″). Выручает в мелких работах, например, по сантехнике и электрике, удобная для работы...

Как выглядела Вселенная в первые микросекунды: на Большом адронном коллайдере доказали жидкую природу первичной материи

Статья
9 часов назад
Наука и космос

Как изучать свойства материи, которая существовала лишь в первые микросекунды после Большого взрыва? Это состояние называется кварк-глюонной плазмой. В обычных условиях нашего мира кварки и...

Возможна ли жизнь без воды: как экзотические растворители расширяют границы обитаемой Вселенной

Статья
10 часов назад
Наука и космос

Вся современная астробиология построена на одном правиле: для возникновения и поддержания жизни необходима жидкая вода. Этот принцип определяет цели всех космических миссий, архитектуру...

Парадокс стакана воды: почему мы боимся таяния не тех ледников и откуда реально придет потоп

Статья
Вчера в 19:08
Наука и космос

Белые медведи ни при чем. Разбираем сухие физические факты: почему тающий Северный Ледовитый океан не затопит города, куда делись 9 триллионов тонн горного льда и что происходит с Гренландией.

Ловушка «чемодана без ручки»: почему нам так страшно бросить то, что давно пора бросить

Статья
Вчера в 18:44
Наука и космос

Продолжаем изучать ментальные приемы, которые помогают нам принимать верные решения и делают нас более эффективными. Сегодня поговорим про ловушку невозвратных затрат. Рассмотрим примеры и решения.