В США разработали инструмент Nightshade, способный «отравить» изображения для вывода из строя обучающихся ИИ-моделей и защиты работ художников

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

26 октября 2023, 10:15

Компании, стоящие за генеративными ИИ-моделями, часто обвиняются в незаконном использовании изображений без разрешений их авторов. Новый инструмент Nightshade, разработанный в Чикагском университете, сможет частично решить проблему незаконного использования контента с помощью «отравленных» изображений.

Автор: University of Chicago Источник: arxiv.org

Специальный генератор контента позволяет обмануть модели вроде DALL-E, Stable Diffusion и Midjourney, в результате чего те начнут выдавать непредсказуемые и довольно неприглядные результаты, не соответствующие промптам. Благодаря новой технологии на запрос о собаке «отравленный» ИИ будет выдавать изображения кошек, коров вместо машин, тортов вместо шляп или тостеров вместо сумок. Подменяются и стили изображений, делая работу с ИИ совершенно невыносимой.

Автор: University of Chicago Источник: arxiv.org

В опубликованной в хранилище arXiv работе описывается технология, не требующая скармливания моделям миллионов изображений. По некоторым данным, Nightshade может испортить промпт для Stable Diffusion всего с помощью 50 рисунков, причём удар придётся не только на одно слово, но и на другие, с ним связанные. Например, если «отравить» слово «собака», под воздействие попадут и «щенок», «гончая», «хаски» и т. п., а также изображения, связанные с «атакованным» словом лишь косвенно. Так, если испортить промпт «фэнтези», пострадают «дракон», «замок во Властелине колец» и др. — будут генерироваться нерелевантные изображения.

Автор: University of Chicago Источник: arxiv.org

Как заявляют в команде университета, разрабатывавшей Nightshade, исследователи надеются, что инструмент станет фактором сдерживания ИИ-компаний от использования работ художников и дизайнеров без их разрешения. При этом учёные признают, что им потенциально могут воспользоваться и злоумышленники, но навредить мощным ИИ-моделям можно только в помощью тысяч изображений — они могут обучаться на миллиардах образцов и использовать инструменты защиты вроде частотного анализа и др.

Некоторые крупные компании дают художникам возможность обратиться и запретить использовать свои работы для тренировки ИИ-моделей, но это, во-первых, не касается работ, которые уже применили для обучения и, во-вторых, многие считают, что авторы должны выражать недвусмысленное согласие по запросу компаний, а не обращаться сами с требованием не использовать свой контент.