Как настроить наушники, чтобы слышать только те звуки, которые хотите: новая технология семантического прослушивания

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

Как часто мы хотели бы отключиться от шумного мира и погрузиться в свои мысли? Или наоборот, выделить из общего фона те звуки, которые для нас важны или приятны? Например, услышать сирену скорой помощи, когда мы едем на машине, или насладиться пением птиц, когда мы гуляем в парке. Но как нам сделать так, чтобы наши наушники понимали, что мы хотим слышать, а что нет?


Автор: Bing image creator

Современные наушники с функцией шумоподавления умеют лишь полностью заглушать или пропускать окружающий звук, не давая нам возможности выбирать его по своему вкусу. Однако американские ученые из Университета Вашингтона придумали новую технологию, которая позволяет нам настраивать наушники так, чтобы они фильтровали только те звуки, которые мы хотим слышать в реальном времени. Они назвали свое изобретение «семантическим прослушиванием».

Принцип работы этой технологии таков: наушники снимают аудио сигнал из окружающей среды и передают его на смартфон, который подключен к ним. Смартфон отменяет все звуки, кроме тех, которые мы выбрали с помощью голосовых команд или специального приложения. Мы можем выбрать из 20 разных категорий звуков, таких как речь, музыка, плач ребенка, сирены, пылесосы и т. д. Только эти звуки будут возвращаться в наушники.

Ученые представили свою технологию на конференции UIST '23 в Сан-Франциско 1 ноября. Они планируют запустить ее в продажу в ближайшее время.

«Чтобы понять, что это за звук, например, птица, и выделить его из всех остальных, нужен реальный интеллект, которого нет у обычных наушников с шумоподавлением», — говорит Шьям Голлакота, профессор компьютерных наук и инженерии Университета Вашингтона и ведущий автор исследования. «Сложность еще и в том, что звуки должны соответствовать тому, что мы видим. Нельзя, чтобы мы слышали голос человека с задержкой в несколько секунд после того, как он заговорил. Поэтому наши алгоритмы должны обрабатывать звуки очень быстро, менее чем за сотую секунды».

Автор: Bing image creator

Для этого технология семантического прослушивания использует нейронные сети, которые обучены распознавать разные звуки и отделять их друг от друга. Эти нейронные сети работают на смартфоне, а не на облачных серверах, чтобы ускорить процесс и снизить расходы. Кроме того, технология сохраняет пространственные характеристики звуков, такие как направление и расстояние, чтобы мы могли лучше ориентироваться в звуковом пространстве.


Ученые проверили свою технологию в разных условиях, таких как офисы, улицы и парки. Они смогли успешно извлекать целевые звуки, такие как сирены, птицы, тревоги и другие, убирая при этом весь лишний шум. Когда 22 добровольца оценивали качество звука, полученного с помощью технологии, они сказали, что оно стало лучше, чем в оригинальной записи. Однако иногда технология путала звуки, которые были похожи друг на друга, например, вокальную музыку и человеческую речь.

Семантическое прослушивание — это новый виток в развитии умных наушников, которые могут подстраиваться под наши потребности и желания. Такие наушники могут не только повысить наш комфорт и качество жизни, но и предупредить некоторые риски, связанные с неправильным восприятием звуковой среды. Например, такие наушники могут помочь людям с проблемами со слухом или аутизмом, которые могут реагировать на определенные звуки. Также такие наушники могут способствовать изучению иностранных языков, позволяя нам концентрироваться на речи, а не на шуме.

Семантическое прослушивание — это перспективная технология, которая может открыть новые горизонты для наушников и их пользователей. Однако для ее успешного внедрения на рынок потребуется решить ряд технических и этических вопросов, связанных с качеством звука, безопасностью данных, конфиденциальностью и социальным взаимодействием. Возможно, в скором будущем мы сможем не только слышать, но и выбирать, что мы хотим слышать.