Нейросеть Сбера Kandinsky 2.1: главные особенности и где ей пользоваться

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

С момента запуска Kandinsky от Сбера прошло около 10 месяцев. В этом материале я решил кратко разобраться в особенностях отечественного аналога нейросети для генерации изображений, а также рассмотреть основные платформы, где сейчас им можно пользоваться.


Особенности нейросети Kandinsky 2.1

На данный момент Kandinsky 2.1 является одной из самых продвинутых нейросетей среди продуктов российских IT-компаний. Актуальная версия ИИ от Сбера имеет около 3.3 млрд параметров, основанных на 170 миллионах изображений с их описанием. Далее предлагаю разобраться в ключевых отличиях Kandinsky от более известных иностранных аналогов.

Исходный код

Одним из главных преимуществ является открытый исходный код нейросети, который позволяет сторонним разработчикам реализовывать ИИ в самых различных интерфейсах. На данный момент попробовать Kandinsky 2.1 можно сразу на 3 разных платформах:

1. Fusion Brain

Наиболее популярная платформа с «user-friendly» интерфейсом. Здесь нейросеть имеет удобную и понятную панель с основными инструментами для работы: строка для введения промптов (описания); окно для выбора стилистики. Всего имеется 23 стиля: от известного художника до фотореализма и 3D рендера. Всё это можно вписать и через промпт, однако такой подход несколько упрощает работу для начинающих пользователей.

Соотношение сторон здесь фиксированное — 1:1. Разрешение же можно регулировать, начиная от 128x128 и заканчивая 768x768. Не так много, зато есть функция расширения и дополнительной генерации, где максимальное разрешение общей композиции почти не ограничено.

Имеется и возможность работы с собственными изображениями. Для этого здесь реализован инструмент «Маска». Это тот же ластик, которым вы можете удалять отдельные области и генерировать их заново. Так можно удалить или наоборот добавить в изображение какие-либо объекты. Если ошиблись — ничего страшного: здесь также есть функция возвращения к предыдущему шагу. Есть возможность экспорта изображения на устройство. В общем, инструментов не так много, но все полезные, что лишь упрощает процесс работы.

2. ruDALL-E

Менее популярная платформа, которая к тому же лишена визуального интерфейса и возможности обработки собственных изображений. Параметры генерации задаются в 3-х разделах:

  1. Промпт;
  2. Выбор разрешения (плавной регулировки здесь нет, зато есть более гибкое соотношение сторон — 1:1, 1.5:1 и 2:1 как горизонтальном, так и вертикальном положении);
  3. Стиль (всего 19 вариаций, которые, впрочем, можно тоже расширить через промпты).

При этом нельзя сказать, что казуальный интерфейс упрощает работу с нейросетью. Скорее наоборот: для отправки запроса и начала генерации нужно пройти капчу, а затем постоянно обновлять панель, пока не придёт ответ от сервера. Результат можно можно скачать.

Ещё хочу, отметить, что сама модель нейросети, по словам разработчиков, поддерживает 101 язык, однако разные платформы как будто имеют разную степень понимания. Возможно это зависит от разработчиков самого ресурса, но в этом плане версия от ruDALL-E справляется лучше, по крайнем мере при тесте на китайском языке. Английский и русский одинаково качественно распознаются на всех платформах.


3. Телеграм-бот

Формат бота отлично подойдёт для работы со смартфонов и других портативных устройств. Разрешение и соотношение сторон здесь всегда одинаковое — 768x768. Имеется всего 3 встроенных стиля (artstation, 4k и anime), поэтому данный параметр в основном вводится промптом.

Помимо генерации изображения через текст, имеется возможность смешивания изображений, дополнение готовой картинки с помощью текста, а также переработки имеющегося примера.

Ещё бот обладает функцией «/profmode», которая позволяет задавать значимость (вес) изображений при их смешивании.

Подведём итоги

Kandinsky 2.1 хоть и имеет неплохое качество генерации, однако вряд ли сможет превзойти крупные генеративные модели, наподобие Midjourney или Stable Diffusion. Главными особенностями этой нейросети является открытый код, позволяющий реализовывать Kandinsky в различных интерфейсах, а также поддержка русского языка, что несколько упрощает взаимодействие для локальных пользователей.

Для тех, кто думал приобрести помощника робота-пылесоса, видеорегистратор для машины или телевизор, рекомендую посмотреть наши подборки:

Здесь точно найдете подарок для себя, а то и близким.