Подробнее о Sora - новой революционной технологии генерации видео от OpenAI

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

21 февраля 2024, 09:32

В нашем мире, где видеоконтент становится все более популярным и востребованным, появление новых технологий, которые могут генерировать видео по текстовым запросам, может революционировать создание контента. Одна из таких технологий — Sora, разработанная компанией OpenAI, которая уже поразила общественность представив образцы генераций очень высокого качества. Но что же такое Sora, как она работает, и какие перспективы и риски она с собой несет?

Что такое Sora?

Sora — это генеративная система искусственного интеллекта, которая может создавать короткие видео по текстовым запросам. Например, если вы введете «фотореалистичное видео двух пиратских кораблей, сражающихся друг с другом, пока они плывут в чашке кофе», Sora попытается сгенерировать такое видео, используя свои знания и воображение.

Sora пока не доступна публике, но OpenAI уже опубликовала несколько образцов, которые, по ее словам, были созданы непосредственно Sora без изменений. Эти образцы показывают высокий уровень реалистичности, динамики, согласованности и креативности видео, которые порой трудно отличить от снятых камерой.

Sora также может выполнять задачи видеомонтажа, такие как создание видео из изображений или других видео, объединение элементов из разных видео, продление видео по времени и т. д. Sora может генерировать видео с разрешением до 1920 x 1080 пикселей, в различных соотношениях сторон, и длительностью до 60 секунд.

Как работает Sora?

Sora использует новый тип нейронной сети, называемый диффузионным трансформером. Эта сеть сочетает в себе особенности двух других типов сетей: трансформеров и диффузионных моделей.

Трансформеры — это сети, которые хорошо работают с последовательными данными, такими как текст или звук. Они могут находить закономерности и зависимости между разными частями данных. Трансформеры лежат в основе многих больших языковых моделей, таких как ChatGPT и Google Gemini.

Диффузионные модели — это сети, которые хорошо работают с изображениями. Они могут создавать изображения, начиная с случайного шума и постепенно приближаясь к «чистому» изображению, которое соответствует входному запросу. Диффузионные модели лежат в основе многих генераторов изображений, которые могут генерировать изображения по запросу.

Диффузионные модели (в данном случае Stable Diffusion) генерируют изображения из шума в течение множества итераций

Автор: Stable Diffusion / Benlisquare / Wikimedia Источник: en.wikipedia.org

Sora сочетает в себе эти два типа сетей, чтобы создавать видео. Видео можно рассматривать как последовательность изображений, но в видео важна не только качественность каждого кадра, но и согласованность и последовательность между ними.

Sora использует трансформер, чтобы обрабатывать связь между кадрами. В то время как трансформеры обычно работают с токенами, представляющими текст, Sora работает с токенами, представляющими небольшие участки пространства и времени. Таким образом, Sora может учитывать контекст и динамику сцены.

Какие перспективы открывает Sora?

Sora может иметь множество приложений в разных сферах, таких как развлечения, реклама, образование и наука. Sora может быть использована как инструмент для прототипирования и визуализации идей по значительно меньшей стоимости, чем реальная съемка или услуги специалиста по видеомонтажу.

OpenAI утверждает, что Sora может быть рассмотрена как симулятор, способный моделировать физический и цифровой мир, объекты, животных и людей, которые в нем живут. Если это так, то Sora может иметь научные приложения для проведения физических или химических экспериментов. Однако некоторые эксперты утверждают, что такая система принципиально не может быть способной на подобные расчеты.

Какие риски несет Sora?

Sora также может иметь негативное воздействие на общество. В мире, где дезинформация и манипуляция становятся все более распространенными, Sora может усугубить ситуацию.

Sora может быть использована для создания поддельных или вводящих в заблуждение видео, которые могут быть использованы для распространения лжи или сомнительной информации. Это может подвергнуть опасности общественное здоровье, влиять на общественное мнение, или даже подрывать судебную систему потенциальными поддельными доказательствами.

Sora также может быть использована для создания угроз целевым лицам, через дипфейки — особенно откровенного формата, что естественно понесет за собой ужасные последствия для жизни пострадавших лиц и их семей.

Кроме того, есть вопросы авторского права и интеллектуальной собственности. Sora требует огромных объемов данных для обучения, и OpenAI не раскрыла, откуда взялись эти данные. Возможно, что Sora использовала материалы, которые принадлежат другим авторам или компаниям, без их согласия.

Sora — это удивительная и мощная технология, которая может открыть новые возможности для творчества, обучения и исследований. Однако она также несет в себе серьезные риски и угрозы, которые необходимо учитывать и решать. OpenAI утверждает, что она принимает меры по обеспечению безопасности и этики Sora, прежде чем сделать ее доступной публике.