Подробнее о Sora — новой революционной технологии генерации видео от OpenAI

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Рассуждения | Оффтопик

В нашем мире, где видеоконтент становится все более популярным и востребованным, появление новых технологий, которые могут генерировать видео по текстовым запросам, может революционировать создание контента. Одна из таких технологий — Sora, разработанная компанией OpenAI, которая уже поразила общественность представив образцы генераций очень высокого качества. Но что же такое Sora, как она работает, и какие перспективы и риски она с собой несет?

Что такое Sora?

Sora — это генеративная система искусственного интеллекта, которая может создавать короткие видео по текстовым запросам. Например, если вы введете «фотореалистичное видео двух пиратских кораблей, сражающихся друг с другом, пока они плывут в чашке кофе», Sora попытается сгенерировать такое видео, используя свои знания и воображение.

Sora пока не доступна публике, но OpenAI уже опубликовала несколько образцов, которые, по ее словам, были созданы непосредственно Sora без изменений. Эти образцы показывают высокий уровень реалистичности, динамики, согласованности и креативности видео, которые порой трудно отличить от снятых камерой.

Sora также может выполнять задачи видеомонтажа, такие как создание видео из изображений или других видео, объединение элементов из разных видео, продление видео по времени и т. д. Sora может генерировать видео с разрешением до 1920 x 1080 пикселей, в различных соотношениях сторон, и длительностью до 60 секунд.

Как работает Sora?

Sora использует новый тип нейронной сети, называемый диффузионным трансформером. Эта сеть сочетает в себе особенности двух других типов сетей: трансформеров и диффузионных моделей.

Трансформеры — это сети, которые хорошо работают с последовательными данными, такими как текст или звук. Они могут находить закономерности и зависимости между разными частями данных. Трансформеры лежат в основе многих больших языковых моделей, таких как ChatGPT и Google Gemini.

Диффузионные модели — это сети, которые хорошо работают с изображениями. Они могут создавать изображения, начиная с случайного шума и постепенно приближаясь к «чистому» изображению, которое соответствует входному запросу. Диффузионные модели лежат в основе многих генераторов изображений, которые могут генерировать изображения по запросу.

Диффузионные модели (в данном случае Stable Diffusion) генерируют изображения из шума в течение множества итераций
Автор: Stable Diffusion / Benlisquare / Wikimedia Источник: en.wikipedia.org

Sora сочетает в себе эти два типа сетей, чтобы создавать видео. Видео можно рассматривать как последовательность изображений, но в видео важна не только качественность каждого кадра, но и согласованность и последовательность между ними.

Sora использует трансформер, чтобы обрабатывать связь между кадрами. В то время как трансформеры обычно работают с токенами, представляющими текст, Sora работает с токенами, представляющими небольшие участки пространства и времени. Таким образом, Sora может учитывать контекст и динамику сцены.

Какие перспективы открывает Sora?

Sora может иметь множество приложений в разных сферах, таких как развлечения, реклама, образование и наука. Sora может быть использована как инструмент для прототипирования и визуализации идей по значительно меньшей стоимости, чем реальная съемка или услуги специалиста по видеомонтажу.

OpenAI утверждает, что Sora может быть рассмотрена как симулятор, способный моделировать физический и цифровой мир, объекты, животных и людей, которые в нем живут. Если это так, то Sora может иметь научные приложения для проведения физических или химических экспериментов. Однако некоторые эксперты утверждают, что такая система принципиально не может быть способной на подобные расчеты.

Какие риски несет Sora?

Sora также может иметь негативное воздействие на общество. В мире, где дезинформация и манипуляция становятся все более распространенными, Sora может усугубить ситуацию.

Sora может быть использована для создания поддельных или вводящих в заблуждение видео, которые могут быть использованы для распространения лжи или сомнительной информации. Это может подвергнуть опасности общественное здоровье, влиять на общественное мнение, или даже подрывать судебную систему потенциальными поддельными доказательствами.

Sora также может быть использована для создания угроз целевым лицам, через дипфейки — особенно откровенного формата, что естественно понесет за собой ужасные последствия для жизни пострадавших лиц и их семей.

Кроме того, есть вопросы авторского права и интеллектуальной собственности. Sora требует огромных объемов данных для обучения, и OpenAI не раскрыла, откуда взялись эти данные. Возможно, что Sora использовала материалы, которые принадлежат другим авторам или компаниям, без их согласия.

Sora — это удивительная и мощная технология, которая может открыть новые возможности для творчества, обучения и исследований. Однако она также несет в себе серьезные риски и угрозы, которые необходимо учитывать и решать. OpenAI утверждает, что она принимает меры по обеспечению безопасности и этики Sora, прежде чем сделать ее доступной публике.

3 комментария

B
Вообще, да, это мощный прорыв, ничего не скажешь. У OpenAI были ресурсы, чтобы вмазать побольше данных в нейронку, поэтому она такая стабильная. А всепропальщики на реддите уже всех, как обычно, похоронили. Сказали, что все — тлен, жизнь не имеет смысла :) умрут VFX-артисты, 3d-аниматоры, умрет сторителлинг и вообще бросайте свои хобби, т.к. это уже устарело… типичный реддит, в общем. Но они не учитывают, что сколь серебряной пулей вещь ни была, если человек идиот, то он ничего уникального даже с такой не сможет создать. Лично убедился в этом, когда активно писал на компе музыку в 2010-х годах. Супер-пупер плагины, семплы на сотни гигов, синтезаторы по 1000-2000$, студии ценой с пару московских квартир — все это тебе не поможет, если ты тупой, отсутствует системное мышление и, в целом, если у тебя нет идей и какого-то культурного бэкграунда. Технические знания для получения качества в звуке это такая же большая тема, как и творческая часть.
Это если мы говорим о нейронках, как об инструменте в руках человека, т.к. супер-ИИ это другой разговор. Там человек просто не нужен будет :)
А про физику в видосах мелькало мнение, что могли дополнительно использоваться симуляции из того же Unreal Editor для обучения нейронки (может и houdini какой-нибудь тоже использовался). Про химию думаю, что выдумано. Что там симулировать? Нейронка же жидкость не в виде атомов прямо воссоздает и держит это в контексте.
Т.е. эта нейронка (sora) может изображать достоверное поведение предметов + дым и вода + отражения и преломления. Не особо, но может. В видео это всякие косячные одеяла, колышащаяся одежда, волны, разбивающиеся о скалы и так далее.
Алсо, если присмотреться к анимациям, то в космосе болванчик (да и мамонты тоже) бежит слишком неестественно, как в катсценах из первого старкрафта. Словно нейронка как раз вспомнила какой-то не особо детально анимированный видосик. Но это просто вопрос времени. В будущем и это исправят.
Тут же и Google показал свой gemini или кто там с нехилым контекстом, в который влезает фильм и можно просить найти такой-то момент в видео или, наоборот, описать текстом эпизод.
Посмотрим, что из этого выйдет в этом году.
102976506796884933242@google
Конечно, ровно как и инструментальная музыка не вымерла, а наоборот переместилась в ранг чего-то элитарного.
А про физику — трудно сказать. С одной стороны, это сложные расчеты, с другой — зачем они нужны, если модель обучится на множестве примеров, и вместо расчетов просто будет иметь понимание того, как ведет себя объект в конкретной ситуации.
Улучшаться будет несомненно. Год назад нейронки не могли запомнить сколько у человека пальцев и где нос, а сейчас делают детализацию вплоть до каждой поры и волосинки

Добавить комментарий

Сейчас на главной

Новости

Публикации

Первый гревел Shulz: изучаем прототип велосипеда The Lightning

Бренд Shulz наконец-то дал возможность всесторонне рассмотреть, что из себя будет представлять первый гревел компании. Выпущенный видеоролик-анонс состоит из двух частей. В первой ведущий канала...

С какой скоростью надо ездить по лужам

В дождливую погоду дороги становятся особенно коварными, а лужи на асфальте — не просто лужи, а настоящие испытания для водителя и его автомобиля. Каждая такая встреча скрывает риски: от...

Почему на современных стиральных машиных нельзя отключить отжим, и как это исправить вручную

Если на моделях стиральных машин 7-10 летней давности управление оборотами отжима (вплоть до 0) было базовой возможностью, то у современной техники подобная функция встречается всё реже. Но для...

Как можно узнать, сколько герц в экране Айфона и на что они влияют

В мире смартфонов происходит настоящая революция, связанная с частотой обновления экранов. Долгое время стандартом считались 60 Гц, но теперь производители, включая Apple, переходят на более...

Как одеваться в жаркую погоду, чтобы было комфортно

Лето — пора яркого солнца и прогулок на свежем воздухе. Но высокая температура может стать настоящим вызовом, если тщательно не продумать образ. Поговорим о том, как правильно одеваться...

Обзор MobaPad M6S: максимально удобная альтернатива Joy-Conn для Nintendo Switch

Над альтернативой для штатных Joy-Conn игровой консоли Nintendo Switch работали сразу несколько производителей, причем относительного успеха добился каждый из них, но по возможностям лучше, чем...