Нейросеть Яндекса для генерации картинок — Шедеврум: насколько качественно и как этим пользоваться

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

В начале апреля этого года Яндекс анонсировали свою нейросеть для генерации изображений — «Шедеврум». Изначально доступ выдавался в порядке очереди, однако сейчас приложение может попробовать любой желающий, просто скачав его из маркета (Google Play или AppStore). В этом материале я кратко разберусь, что представляет из себя «Шедеврум», и соответствует ли его названию качеству работы.


Что такое «Шедеврум»

Создатели проекта решили реализовать нейросеть в виде социальной сети. Идея не новая, и множество иностранных ресурсов, наподобие LeonardoAi или PlaygoundAi, уже имеют схожий формат, где генерируемые изображения с их описанием выстраиваются в пользовательскую ленту. Однако «Шедеврум» разместился не на сайте, а в мобильном приложении без какой-либо веб-версии, что делает его по-своему уникальным.

Особенности приложения

На данный момент нейросеть находится в статусе бета-теста, поэтому объективно оценить её возможности будет сложно. По заявлениям разработчиков, при запуске проекта ИИ уже освоил массив данных из 200 миллионов изображений с описанием и продолжает обучение ещё на 500 миллионах картинок.

Из преимуществ стоит отметить следующие аспекты:

  • Простой интерфейс. Приложение имеет крайне простую и ориентированную на пользователя структуру. Состоит она из 3 основных разделов: панель генерации; пользовательская лента; личная страница юзера, где видны его работы.
  • Промпты на русском. Нейросеть понимает описание не только на английском, но и на русском, что значительно упрощает взаимодействие для начинающих пользователей, которые ранее не были знакомы промпт-инженерией. Для генерации достаточно просто ввести описание желаемого изображения.
  • Попадание в промпт. Часто слабо обученные нейросети имеют проблемы с пониманием описания, поэтому могут генерировать абстрактные работы. Здесь же пользователь чаще всего получает именно то, что описывал, однако работает это лишь с простыми одно- или двухобъектными композициями. «Шедеврум» также умеет работать со стилистиками и цветовой палитрой. Функция кажется банальной, но для бета-версии уже неплохо.

Недостатков приложение тоже не лишено:

  • Нехватка функциональности. Данный минус вытекает из той же упрощённости интерфейса. Всё, что вы можете делать в «Шедевруме» сейчас — сгенерировать картинку и посмотреть работы других пользователей, смешанных в общую кучу. Помимо промптов, нет других инструментов работы с изображением: разрешение, соотношение сторон, процент соответствия промпту, настройка стиля и множество других параметров. Кроме лайков в ленте нет способов взаимодействия с контентом (например комментариев). Также нет инструментов сортировки контента — всё максимально упрощено. Заметно, что разработчики решили не перегружать продукт фичами и функциями, пока качество работы самой нейросети не достигло желаемого уровня и было готово для широкого пользования.
  • Низкое качество изображений. Генерируемые картинки идут в квадратном соотношении 1:1. При этом, если «Шедеврум» умеет в стилистики и фотореализм, то высокая детализация и приемлемое разрешение пока ему не доступны (сейчас это 256 на 256 пикселей). Спасает только мобильный формат отображения, при котором все косяки не так заметны. Слабо детализированные и отдалённые объекты даются намного проще, но даже там заметно, что до нормального хотя бы мобильного качества ещё далеко.
  • Долгое время генерации. На старте работы генерация изображений занимала крайне много времени — около 2 минут на 4 картинки (их количество выбрать тоже нельзя — 4 по стандарту). Со временем этот показатель приближается к комфортному, и сейчас генерация занимает около 40 секунд в среднем. При этом в процессе создания видна лишь панель ожидания, после которой сразу показывается результат. Хотелось бы видеть поэтапный процесс прорисовки, однако этот недостаток можно списать на статус тестируемой версии.

Подведём итоги

Качество работы нейросетей — это всегда постепенный и длительный процесс улучшения. Проект достаточно экспериментальный, ведь конечная его цель неизвестна. Те же Leonardo или Playground служат не только в качестве хорошего инструмента генерации контента, но и поиска интересных идей для вдохновения с открытыми промптами. Мобильный формат нейросети не даёт возможности детальной работы с контентом, а значит удерживать пользователя придётся другими методами. Более конкретные выводы стоит делать уже после выхода полноценной и готовой для использования версии «Шедеврума».

Для тех, кто думал приобрести помощника робота-пылесоса, видеорегистратор для машины или телевизор, рекомендую посмотреть наши подборки:

Здесь точно найдете подарок для себя, а то и близким.