VASA-1: Когда фото запели. Искусственный интеллект Microsoft оживляет изображения

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

22 апреля 2024, 11:33

С давних времен человечество стремилось запечатлеть мгновения жизни, остановить бег времени, заключив его в рамки картин и фотографий. Но что, если бы эти застывшие образы могли заговорить, оживить свои истории, подарить миру эмоции, скрытые за непроницаемой маской холста или фотобумаги? Именно эту смелую идею воплощает в жизнь VASA-1 — новейшая разработка исследователей из Microsoft Research Asia.

Автор: Designer

VASA-1 — это не просто технологический прорыв, это шаг в сторону слияния искусства и науки, стирания грани между статикой и динамикой. Система, основанная на искусственном интеллекте, способна вдохнуть жизнь в любое изображение, будь то шедевр эпохи Возрождения или селфи, сделанное на смартфон. Достаточно предоставить аудиозапись — песню, речь, диалог, — и искусственный разум, словно дирижер, оживит черты лица, синхронизировав мимику с интонациями голоса, ритмом и смыслом произносимых слов.

В основе этого волшебства лежит сложный процесс обучения. VASA-1, подобно студенту-искусствоведу, изучила тысячи изображений с разнообразными выражениями лица, постигая тонкости человеческой мимики, её связь с эмоциями и речью. Результат — поразительная реалистичность анимаций, где каждое движение губ, каждый взгляд, каждое поднятие брови находятся в идеальной гармонии с произносимыми словами.

Получив одно портретное изображение, аудиоклип с речью и, по желанию, набор других управляющих сигналов, подход создает высококачественное реалистичное видео говорящего лица с разрешением 512x512 со скоростью до 40 кадров в секунду. Метод является универсальным и надежным, а сгенерированные говорящие лица могут точно имитировать человеческую мимику и движения головы, достигая высокого уровня реализма и живости. (Все фотореалистичные портретные изображения являются виртуальными, несуществующими личностями)

Автор: Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, Baining Guo. VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time. Microsoft Research Asia arxiv:2404.10667 [cs.CV] https://doi.org/10.48550/arXiv.2404.10667 Источник: arxiv.org

Представьте: Мона Лиза, с её загадочной улыбкой, вдруг начинает читать рэп, а суровый портрет средневекового рыцаря оживает, декламируя стихи о любви. VASA-1 стирает границы между эпохами и жанрами, позволяя нам взглянуть на знакомые образы под новым, неожиданным углом. (Посмотреть примеры работ можно на странице с исследованием Microsoft)

Однако возможности VASA-1 выходят далеко за рамки развлекательного контента. Эта технология открывает двери в мир интерактивного обучения, где исторические личности могут лично поведать о своих достижениях, а литературные герои — сойти со страниц книг, чтобы поделиться своими переживаниями. Представьте себе музей, где картины не просто висят на стенах, а ведут диалог с посетителями, рассказывая о своей эпохе и создателе.

Вместе с тем, разработчики VASA-1 осознают и этические аспекты своей технологии. В руках недобросовестных пользователей она может стать инструментом для создания фальшивых видео, способных ввести в заблуждение общественность. Поэтому на данный момент VASA-1 не доступна для широкого использования.

VASA-1 — это не просто технология, это приглашение к диалогу о будущем искусства и науки, о границах реальности и воображения. Это инструмент, который, подобно кисти художника, способен создавать новые миры, оживлять прошлое и дарить голос тем, кто был лишен его веками.