Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Подробнее о Sora — новой революционной технологии генерации видео от OpenAI

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

21 февраля 2024, 09:32 | Мнение | Оффтопик

В нашем мире, где видеоконтент становится все более популярным и востребованным, появление новых технологий, которые могут генерировать видео по текстовым запросам, может революционировать создание контента. Одна из таких технологий — Sora, разработанная компанией OpenAI, которая уже поразила общественность представив образцы генераций очень высокого качества. Но что же такое Sora, как она работает, и какие перспективы и риски она с собой несет?

Что такое Sora?

Sora — это генеративная система искусственного интеллекта, которая может создавать короткие видео по текстовым запросам. Например, если вы введете «фотореалистичное видео двух пиратских кораблей, сражающихся друг с другом, пока они плывут в чашке кофе», Sora попытается сгенерировать такое видео, используя свои знания и воображение.

Sora пока не доступна публике, но OpenAI уже опубликовала несколько образцов, которые, по ее словам, были созданы непосредственно Sora без изменений. Эти образцы показывают высокий уровень реалистичности, динамики, согласованности и креативности видео, которые порой трудно отличить от снятых камерой.

Sora также может выполнять задачи видеомонтажа, такие как создание видео из изображений или других видео, объединение элементов из разных видео, продление видео по времени и т. д. Sora может генерировать видео с разрешением до 1920 x 1080 пикселей, в различных соотношениях сторон, и длительностью до 60 секунд.

Как работает Sora?

Sora использует новый тип нейронной сети, называемый диффузионным трансформером. Эта сеть сочетает в себе особенности двух других типов сетей: трансформеров и диффузионных моделей.

Трансформеры — это сети, которые хорошо работают с последовательными данными, такими как текст или звук. Они могут находить закономерности и зависимости между разными частями данных. Трансформеры лежат в основе многих больших языковых моделей, таких как ChatGPT и Google Gemini.

Диффузионные модели — это сети, которые хорошо работают с изображениями. Они могут создавать изображения, начиная с случайного шума и постепенно приближаясь к «чистому» изображению, которое соответствует входному запросу. Диффузионные модели лежат в основе многих генераторов изображений, которые могут генерировать изображения по запросу.

Диффузионные модели (в данном случае Stable Diffusion) генерируют изображения из шума в течение множества итераций
Автор: Stable Diffusion / Benlisquare / Wikimedia Источник: en.wikipedia.org

Sora сочетает в себе эти два типа сетей, чтобы создавать видео. Видео можно рассматривать как последовательность изображений, но в видео важна не только качественность каждого кадра, но и согласованность и последовательность между ними.

Sora использует трансформер, чтобы обрабатывать связь между кадрами. В то время как трансформеры обычно работают с токенами, представляющими текст, Sora работает с токенами, представляющими небольшие участки пространства и времени. Таким образом, Sora может учитывать контекст и динамику сцены.

Какие перспективы открывает Sora?

Sora может иметь множество приложений в разных сферах, таких как развлечения, реклама, образование и наука. Sora может быть использована как инструмент для прототипирования и визуализации идей по значительно меньшей стоимости, чем реальная съемка или услуги специалиста по видеомонтажу.

OpenAI утверждает, что Sora может быть рассмотрена как симулятор, способный моделировать физический и цифровой мир, объекты, животных и людей, которые в нем живут. Если это так, то Sora может иметь научные приложения для проведения физических или химических экспериментов. Однако некоторые эксперты утверждают, что такая система принципиально не может быть способной на подобные расчеты.

Какие риски несет Sora?

Sora также может иметь негативное воздействие на общество. В мире, где дезинформация и манипуляция становятся все более распространенными, Sora может усугубить ситуацию.

Sora может быть использована для создания поддельных или вводящих в заблуждение видео, которые могут быть использованы для распространения лжи или сомнительной информации. Это может подвергнуть опасности общественное здоровье, влиять на общественное мнение, или даже подрывать судебную систему потенциальными поддельными доказательствами.

Sora также может быть использована для создания угроз целевым лицам, через дипфейки — особенно откровенного формата, что естественно понесет за собой ужасные последствия для жизни пострадавших лиц и их семей.

Кроме того, есть вопросы авторского права и интеллектуальной собственности. Sora требует огромных объемов данных для обучения, и OpenAI не раскрыла, откуда взялись эти данные. Возможно, что Sora использовала материалы, которые принадлежат другим авторам или компаниям, без их согласия.

Sora — это удивительная и мощная технология, которая может открыть новые возможности для творчества, обучения и исследований. Однако она также несет в себе серьезные риски и угрозы, которые необходимо учитывать и решать. OpenAI утверждает, что она принимает меры по обеспечению безопасности и этики Sora, прежде чем сделать ее доступной публике.

3 комментария

Добавить комментарий

Вообще, да, это мощный прорыв, ничего не скажешь. У OpenAI были ресурсы, чтобы вмазать побольше данных в нейронку, поэтому она такая стабильная. А всепропальщики на реддите уже всех, как обычно, похоронили. Сказали, что все — тлен, жизнь не имеет смысла :) умрут VFX-артисты, 3d-аниматоры, умрет сторителлинг и вообще бросайте свои хобби, т.к. это уже устарело… типичный реддит, в общем. Но они не учитывают, что сколь серебряной пулей вещь ни была, если человек идиот, то он ничего уникального даже с такой не сможет создать. Лично убедился в этом, когда активно писал на компе музыку в 2010-х годах. Супер-пупер плагины, семплы на сотни гигов, синтезаторы по 1000-2000$, студии ценой с пару московских квартир — все это тебе не поможет, если ты тупой, отсутствует системное мышление и, в целом, если у тебя нет идей и какого-то культурного бэкграунда. Технические знания для получения качества в звуке это такая же большая тема, как и творческая часть.
Это если мы говорим о нейронках, как об инструменте в руках человека, т.к. супер-ИИ это другой разговор. Там человек просто не нужен будет :)
А про физику в видосах мелькало мнение, что могли дополнительно использоваться симуляции из того же Unreal Editor для обучения нейронки (может и houdini какой-нибудь тоже использовался). Про химию думаю, что выдумано. Что там симулировать? Нейронка же жидкость не в виде атомов прямо воссоздает и держит это в контексте.
Т.е. эта нейронка (sora) может изображать достоверное поведение предметов + дым и вода + отражения и преломления. Не особо, но может. В видео это всякие косячные одеяла, колышащаяся одежда, волны, разбивающиеся о скалы и так далее.
Алсо, если присмотреться к анимациям, то в космосе болванчик (да и мамонты тоже) бежит слишком неестественно, как в катсценах из первого старкрафта. Словно нейронка как раз вспомнила какой-то не особо детально анимированный видосик. Но это просто вопрос времени. В будущем и это исправят.
Тут же и Google показал свой gemini или кто там с нехилым контекстом, в который влезает фильм и можно просить найти такой-то момент в видео или, наоборот, описать текстом эпизод.
Посмотрим, что из этого выйдет в этом году.

Ответить

Конечно, ровно как и инструментальная музыка не вымерла, а наоборот переместилась в ранг чего-то элитарного.
А про физику — трудно сказать. С одной стороны, это сложные расчеты, с другой — зачем они нужны, если модель обучится на множестве примеров, и вместо расчетов просто будет иметь понимание того, как ведет себя объект в конкретной ситуации.
Улучшаться будет несомненно. Год назад нейронки не могли запомнить сколько у человека пальцев и где нос, а сейчас делают детализацию вплоть до каждой поры и волосинки

Ответить

Кек

Ответить

Добавить комментарий

Сейчас на главной

Новости

Австралийский мастер сделал прибор, который решает проблему отвлечений на телефон

Оффтопик
30 минут назад
0

Энтузиаст создал карманный компьютер на x86 с полным десктопом Linux

Платформа ПК
37 минут назад
0

YouTube появился в Android Auto, но доступен только в аудиорежиме с рядом ограничений и требует платной подписки

Сделан шаг к предотвращению слепоты из-за дегенерации сетчатки

Наука и космос
1 час назад
0

Seeed Studio представила дисплей на электронных чернилах с автономностью до полугода

Техника для дома
1 час назад
0

Публикации

Как новая теория формирования Земли меняет представление о рождении нашей планеты

Статья
3 часа назад
Наука и космос

Новые исследования заставляют по-новому взглянуть на раннюю Солнечную систему. Общепринятая модель формирования Земли оказывается не такой однозначной.

Ученые годами находили микропластик повсюду, загрязняя образцы своими же перчатками: найдена слепая зона современной экологии

Статья
Вчера в 21:00
Наука и космос

Глобальная проблема загрязнения окружающей среды микропластиком требует от научного сообщества максимально точных методов оценки. Исследователи находят полимерные фрагменты в водоемах, почве,...

Копать вслепую больше не нужно: как ученые нашли египетский храм на глубине 7 метров с помощью спутников

Статья
Вчера в 19:52
Наука и космос

Дельта Нила — это один из самых сложных регионов для проведения археологических исследований. В отличие от засушливых пустынных зон Египта, где исторические памятники сохраняются в сухом...

Почему курсор мыши наклонен: инженерные ограничения и решения эпохи Xerox Alto

Статья
Вчера в 19:40
Клавиатуры, мыши и периферия

Привычный интерфейс современного компьютера часто воспринимается как результат работы дизайнеров. Однако форма и наклон курсора мыши во многом обусловлены техническими ограничениями электроники...

Камеры будто бы стали хуже, но изменилось другое: почему Vivo X300 Ultra — это лучший камерофон на рынке

Мнение
Вчера в 18:14
Смартфоны и телефоны

Долгое время смартфоны Vivo X100 и X200 Ultra считались эталонами в мире мобильной фотографии. Они предлагали самые передовые наборы камер и грамотную цифровую обработку. Со второго поколения они...

Обзор умного робота-пылесоса ILIFE A20 для сухой и влажной уборки с зарядной станцией

Обзор
Вчера в 17:35
Техника для дома

Робот-пылесос ILIFE A20. Сухая и влажная уборка. Время работы до 120 минут на одном заряде, максимальная мощность всасывания 3000Па. Мощность 35Вт, аккумулятор 3200 мАч, полное время зарядки 6 часов