Как не попасться на дипфейки: научные методы распознавания голоса

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Рассуждения | Оффтопик

В наше время интернет полон ложной и искаженной информацией, которая может вводить в заблуждение и манипулировать общественным мнением. Особенно опасны так называемые дипфейки — подделки аудио и видео, созданные с помощью искусственного интеллекта (AI). Дипфейки могут имитировать голос и облик любого человека, будь то политик, знаменитость или ваш близкий родственник. Такие подделки могут использоваться для шантажа, мошенничества, дезинформации или просто для развлечения.

Угроза дипфейка — не фейк
Автор: Designer

Но как отличить реальный голос от клонированного? Есть ли способы, которые помогут нам не попасться на уловки дипфейков? На эти вопросы пытаются ответить исследователи из Школы информации при Калифорнийском университете в Беркли. Сара Баррингтон, Ромит Баруа и Гаутам Курма (все MIMS '23) представили свою работу по обнаружению клонированного голоса на нескольких научных конференциях, включая Нобелевский саммит и конференцию IEEE WIFS (Workshop in Information Forensics and Security) в Нюрнберге, Германия.

Исследователи работали под руководством профессора Хани Фарида, эксперта в области цифровой криминалистики и борьбы с дипфейками. Профессор Фарид признал, что он был удивлен скоростью и качеством развития технологии клонирования голоса, которая стала «потрясающе хорошей» за несколько месяцев. По его словам, команда сделала важный вклад в разработку методов обнаружения новой угрозы дипфейков аудио.

Пример реальных звуковых сигналов (вверху) и «синтетических» звуковых сигналов (внизу) во времени (каждая нормализована по диапазону амплитуд). [−1, 1]) для одной и той же фразы. Обратите внимание на разницу в продолжительности пауз и разницу в общей амплитуде и амплитудной модуляции с течением времени
Автор: Sarah Barrington, Romit Barua, Gautham Koorma, Hany Farid; arxiv(2023); DOI: 10.48550/arxiv.2307.07683 Источник: arxiv.org

Команда применила три разных подхода для анализа аудиопроб реальных и поддельных голосов. Первый подход заключался в изучении воспринимаемых особенностей или паттернов, которые можно визуально (или на слух) идентифицировать. Например, реальные человеческие голоса часто имеют больше пауз и различаются по громкости на протяжении всего клипа, в то время как клонированные голоса более ровные и однообразные. Этот метод легко понять, но может давать менее точные результаты.

Второй подход заключался в использовании спектрального анализа с помощью специальной программы, которая извлекает более 6 000 характеристик из аудиоволн, таких как среднее, стандартное отклонение, коэффициенты регрессии и т. д. Затем программа выбирает 20 самых важных характеристик и сравнивает их с другими аудиоклипами. Этот метод дает более точные результаты, но требует больше вычислительных ресурсов.

Третий подход основан на использовании модели глубокого обучения, которая принимает на вход сырое аудио и обрабатывает его, извлекая многомерные представления, называемые вложениями. Эти вложения используются для различения реального и «синтетического» аудио. Этот метод показал самые высокие показатели точности и даже достигал нулевой ошибки в лабораторных условиях. Однако этот метод сложнее понять и объяснить, так как он основан на сложных математических операциях.

Исследователи считают, что их работа может помочь защитить общественность от злоупотребления технологией клонирования голоса, которая хоть и может быть полезным инструментом для творчества, но в руках злоумышленников способна принести несоизмеримо больший вред. «Клонирование голоса — это один из первых случаев, когда мы сталкиваемся с дипфейками, имеющими реальную угрозу, будь то обход биометрической верификации банка или звонок родственнику с просьбой о деньгах», — сказала Баррингтон. «Теперь под угрозой не только мировые лидеры и знаменитости, но и обычные люди».

Поэтому важно развивать и совершенствовать методы обнаружения дипфейков, которые будут надежными и масштабируемыми для широкой публики. Исследователи надеются, что их работа способствует восстановлению доверия к аудиоконтенту в интернете и снижению рисков, связанных с развитием технологий. Они также планируют продолжать свои исследования в этой области и сотрудничать с другими учеными в поиске лучших решений.

3 комментария

101412951809884982016@google
Актуальность таких проблем только растет))
102976506796884933242@google
Причем с каждым днём всё больше. Мной уже давно были проинструктированы все знакомые/родственники, особенно старики о наличии у мошенников таких технологий, и о том, что если мой голос просит перевести деньги, то это не я прошу
A
И поэтому с мошенниками нельзя долго разговаривать: чем больше скажешь — тем лучше они подделают голос. И еще не надо говорить слова вроде «да», «нет», которые потом используются в прохождении разного сорта «электронных ассистентов» банков/компаний.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Первый гревел Shulz: изучаем прототип велосипеда The Lightning

Бренд Shulz наконец-то дал возможность всесторонне рассмотреть, что из себя будет представлять первый гревел компании. Выпущенный видеоролик-анонс состоит из двух частей. В первой ведущий канала...

С какой скоростью надо ездить по лужам

В дождливую погоду дороги становятся особенно коварными, а лужи на асфальте — не просто лужи, а настоящие испытания для водителя и его автомобиля. Каждая такая встреча скрывает риски: от...

Почему на современных стиральных машиных нельзя отключить отжим, и как это исправить вручную

Если на моделях стиральных машин 7-10 летней давности управление оборотами отжима (вплоть до 0) было базовой возможностью, то у современной техники подобная функция встречается всё реже. Но для...

Как можно узнать, сколько герц в экране Айфона и на что они влияют

В мире смартфонов происходит настоящая революция, связанная с частотой обновления экранов. Долгое время стандартом считались 60 Гц, но теперь производители, включая Apple, переходят на более...

Как одеваться в жаркую погоду, чтобы было комфортно

Лето — пора яркого солнца и прогулок на свежем воздухе. Но высокая температура может стать настоящим вызовом, если тщательно не продумать образ. Поговорим о том, как правильно одеваться...

Обзор MobaPad M6S: максимально удобная альтернатива Joy-Conn для Nintendo Switch

Над альтернативой для штатных Joy-Conn игровой консоли Nintendo Switch работали сразу несколько производителей, причем относительного успеха добился каждый из них, но по возможностям лучше, чем...