VASA-1: Когда фото запели. Искусственный интеллект Microsoft оживляет изображения

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Рассуждения | Наука и космос

С давних времен человечество стремилось запечатлеть мгновения жизни, остановить бег времени, заключив его в рамки картин и фотографий. Но что, если бы эти застывшие образы могли заговорить, оживить свои истории, подарить миру эмоции, скрытые за непроницаемой маской холста или фотобумаги? Именно эту смелую идею воплощает в жизнь VASA-1 — новейшая разработка исследователей из Microsoft Research Asia.

Автор: Designer

VASA-1 — это не просто технологический прорыв, это шаг в сторону слияния искусства и науки, стирания грани между статикой и динамикой. Система, основанная на искусственном интеллекте, способна вдохнуть жизнь в любое изображение, будь то шедевр эпохи Возрождения или селфи, сделанное на смартфон. Достаточно предоставить аудиозапись — песню, речь, диалог, — и искусственный разум, словно дирижер, оживит черты лица, синхронизировав мимику с интонациями голоса, ритмом и смыслом произносимых слов.

В основе этого волшебства лежит сложный процесс обучения. VASA-1, подобно студенту-искусствоведу, изучила тысячи изображений с разнообразными выражениями лица, постигая тонкости человеческой мимики, её связь с эмоциями и речью. Результат — поразительная реалистичность анимаций, где каждое движение губ, каждый взгляд, каждое поднятие брови находятся в идеальной гармонии с произносимыми словами.

Получив одно портретное изображение, аудиоклип с речью и, по желанию, набор других управляющих сигналов, подход создает высококачественное реалистичное видео говорящего лица с разрешением 512x512 со скоростью до 40 кадров в секунду. Метод является универсальным и надежным, а сгенерированные говорящие лица могут точно имитировать человеческую мимику и движения головы, достигая высокого уровня реализма и живости. (Все фотореалистичные портретные изображения являются виртуальными, несуществующими личностями)
Автор: Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, Baining Guo. VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time. Microsoft Research Asia arxiv:2404.10667 [cs.CV] https://doi.org/10.48550/arXiv.2404.10667 Источник: arxiv.org

Представьте: Мона Лиза, с её загадочной улыбкой, вдруг начинает читать рэп, а суровый портрет средневекового рыцаря оживает, декламируя стихи о любви. VASA-1 стирает границы между эпохами и жанрами, позволяя нам взглянуть на знакомые образы под новым, неожиданным углом. (Посмотреть примеры работ можно на странице с исследованием Microsoft)

Однако возможности VASA-1 выходят далеко за рамки развлекательного контента. Эта технология открывает двери в мир интерактивного обучения, где исторические личности могут лично поведать о своих достижениях, а литературные герои — сойти со страниц книг, чтобы поделиться своими переживаниями. Представьте себе музей, где картины не просто висят на стенах, а ведут диалог с посетителями, рассказывая о своей эпохе и создателе.

Вместе с тем, разработчики VASA-1 осознают и этические аспекты своей технологии. В руках недобросовестных пользователей она может стать инструментом для создания фальшивых видео, способных ввести в заблуждение общественность. Поэтому на данный момент VASA-1 не доступна для широкого использования.

VASA-1 — это не просто технология, это приглашение к диалогу о будущем искусства и науки, о границах реальности и воображения. Это инструмент, который, подобно кисти художника, способен создавать новые миры, оживлять прошлое и дарить голос тем, кто был лишен его веками.

1 комментарий

107730199923922391507@google
На зубы обратите внимание в примерах на оригинальном сайте. Можно еще отличить, но это уже на уровень выше, чем Смута :)

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор накопителя 2.5" Orico Y-20 512 ГБ

Сегодня вспомним, что помимо распространенных накопителей NVMe SSD M2, существуют и даже используются еще другие стандарты. Стандарт 2,5″ SSD пришел на смену медленным HDD, и еще используется...

Не просто камни из космоса: неочевидные факты о Земле, открытые благодаря метеоритам

Они прибывают на Землю, словно письма из прошлого, запечатанные в огненных конвертах, — безмолвные вестники, несущие на своих оплавленных боках отпечатки эпох. Метеориты, а также их...

Докатка: как избежать опасностей на временном колесе

На дорогах часто случаются непредвиденные ситуации, и одна из самых распространённых — это поломка или повреждение колеса. В такие моменты на помощь приходит докатка, маленькое и удобное...

Космический бит: зачем NASA отправило хип-хоп к Венере?

Недавно NASA провернуло трюк, достойный, скорее, пиар-агентства, нежели организации, занимающейся серьезными научными исследованиями. Агентство отправило к Венере… нет, не новейший зонд,...

Россия – самая холодная страна, так ли это на самом деле

Мы живём в уникальной и огромной стране, которая расположена в Восточной Европе и Северной Азии. Её территория занимает более 17 миллионов квадратных километров, это делает её по площади одной из...

Имеет ли право инспектор ДПС останавливать ночью в неосвещенном месте?

Если в условиях города освещенность улиц одинаково хорошая в любое время суток, но за городом многие трассы освещены неравномерно. И ночью, в слабо освещенном месте очень не хочется останавливать...