Сравниваем нейросети Kandinsky 2.1 Сбера и «Шедеврум» Яндекса
Чтобы поиграться с генеративными нейросетями, необязательно идти в Midjourney или Stable Diffusion. В России есть свои нейросети, которые тоже неплохо рисуют: Kandinsky от Сбера и «Шедеврум» от Яндекса. Разбираемся, какая из них работает лучше и генерирует круче.
Но сначала — немного о самих нейросетях
Kandinsky 2.1 — это улучшенная версия предыдущей модели. Она стала умнее, потому что ее дообучили на 170 млн картинок с подписями. И если в Kandinsky 2.0 было 2 млрд параметров, то в Kandinsky 2.1 их 3,3 млрд.
«Шедеврум» использует в работе каскадную диффузию. Это значит, что сначала он генерирует картинку в виде пикселей, а потом детализирует ее и улучшает в качестве. База картинок у него меньше: 240 млн с подписями. Поэтому «Шедевруму» я буду давать иногда несколько попыток, все-таки база у него меньше, поэтому и картинки могут не получаться с первого раза.
Первый запрос — попугай сидит на ветке
Первый шаг за Kandinsky 2.1:
Выглядит очень неплохо: детализированный голубь, хороший задний фон и ветка под лапами. Жаль, что с лапами у голубя какая-то беда. А так было бы вообще без вопросов.
Теперь очередь «Шедеврум».
Сразу скажу, что «Шедеврум» заметно уступает Kandinsky. Но при этом на третьей картинке все выглядит неплохо: птица достаточно детализированная, у нее видны перья и даже лапа получилась более-менее. А про четвертую картинку я промолчу — добро пожаловать в игры 2008-2010 годов.
Дам «Шедевруму» еще один шанс.
Теперь все стало куда круче. Особенно, на третьей картинке. Здесь и лапки смотряться неплохо, и перья стали лучше. Правда, глаз выглядит неестественно.
В общем, тут ставлю 1:1. Обе нейросети выдали неплохие результаты. Теперь усложним задачу.
Второй запрос — 3 кошки стоят перед красной дверью
Этот запрос сложнее, потому что в нем есть конкретное число и больше деталей.
Кошек, конечно, жизнью потрепало. Но, Kandinsky почти справился с задачей: кошек трое и они стоят перед красной дверью. Жаль, что не получилось сгенерировать красивые мордашки.
Теперь очередь за «Шедеврум».
Тут нейросеть почти везде нарисовала красную дверь, но с кошками совсем беда: их больше и кошками назвать их трудно. Дадим «Шедевруму» еще одну попытку.
Стало получше, особенно на последней картинке: красная дверь и три кошки есть, мордашки и глаза почти нормальные. Но балл все равно отдам Kandinsky — у него все выглядит лучше.
Бонус сравнение. Решил добавить в промпт в «Шедевруме» подсказок, которая рекомендует сама нейросеть. Вот, какие выбрал: реалистично, высокое разрешение, красиво. Заодно посмотрим, как на эти уточнения отреагирует Kandinsky.
Вот обновленный промпт: три кошки стоят перед красной дверью, реалистично, высокое разрешение, красиво. Теперь первым отдувается «Шедеврум».
Мне не нравится ни одна из картинок. Без уточнений было лучше. Посмотрим, что получится у Kandinsky.
Здесь тоже почти без изменений: стала лучше шерсть и одного кота нейросеть зачем-то покрасила.
В общем, здесь 0:0.
Третий запрос — космический корабль в виде летающей тарелки летит на луну
Здесь я решил чуть-чуть запутать запрос и дать побольше подробностей.
Первым отвечает Kandinsky:
Как по мне, здесь полное совпадение: космический корабль в виде летающей тарелки и луна.
Теперь очередь за «Шедеврум».
У него тоже получилось неплохо, на двух картинках (2 и 4) полное совпадение с запросом. Жаль, что все пиксельное. Но я опять попробую это исправить дополнительным запросом: космический корабль в виде летающей тарелки летит на луну, реалистично, 4К, высокое разрешение, высокая детализация, мягкое освещение.
В целом, получилось лучше. Но изображение так и не стало в высоком и 4K-разрешении.
Посмотрим, что из этого промпта сделает Kandinsky.
Вот здесь стало действительно лучше. Поэтому еще один балл в копилку Kandinsky.
Что в итоге
Обе нейросети — хороший вариант попробовать новые технологии. Но серьезно использовать их в работе я бы не стал: у Stable Diffusion и Midjourney получается генерировать изображения куда лучше. Но если хочется просто попробовать — рекомендую обе. Иногда получаются прикольные варианты.
А как считаете вы, какая из нейросетей лучше? Пишите свои мнения в комментарии.
31 комментарий
Добавить комментарий
С тарелкой у Кандинского вроде и не плохо, но вот логика тоже хромает. На первой картинке пропала половина луны (по идее должна виднеться и ниже тарелки). Да еще и непонятно откуда лишние спутники земли появились. :)
С тарелкой согласен: в общем все выглядит неплохо, но если присмотреться…
Но не совсем )) На картинке текст «Голудь сидит на ветке». Кто такой голудь? Удивительно что нейросеть вас поняла.
Мрачняк. Я думал, тут сейчас будут пытать Канди на умение распознавания некорректных запросов. Но нет ))) Это Михаил чутка ошибся ))) Ну, на самом деле, не страшно)))
Спасибо за статью.
Некорректные запросы пока что не трогаю))
И да, это к некорректным запросам тоже относится, он весьма едко на эту тему высказался «на уровне» — «я то завтра трезвый буду, а ты так уродом и останешься» )))
Спасибо за ссылочку
Абсолютно не за что. Считайте маленькой оплатой за вашу статью. )
«Шедеврум»… картинок у него меньше: 240 млн»
Для полной логики не хватает понимания, сколько же картинок потребовалось для обучения Кандинского в итоге.
Добавить комментарий