Новый инструмент против искусственного интеллекта «отравляет» генеративные модели, чтобы защитить произведения искусства

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

27 октября 2023, 17:00

Новый инструмент от исследователей из Чикагского университета обещает защитить искусство от того, чтобы модели искусственного интеллекта поглощали его и использовали для обучения без разрешения путем «отравления» данных изображений.

Источник: ts2.space

Инструмент, известный как Nightshade, настраивает данные цифровых изображений способами, которые, как утверждается, невидимы для человеческого глаза, но вызывают всевозможные помехи для моделей генеративного обучения, таких как DALL-E, Midjourney и Stable Diffusion.

Этот метод, известный как «отравление данных», утверждает, что он привносит «неожиданное поведение в модели машинного обучения во время самого обучения». Команда Чикагского университета утверждает, что их исследовательская работа показывает, что такие атаки с отравлением могут быть «на удивление» успешными.

Автор: Future Источник: www.pcgamer.com

Судя по всему, изображения образцов яда выглядят «визуально идентично» безвредным изображениям. Утверждается, что образцы яда Nightshade «оптимизированы по эффективности» и могут испортить Stable Diffusion SDXL менее чем за 100 образцов яда.

Специфика работы этой технологии не совсем ясна, но она включает в себя изменение пикселей изображения невидимыми для человеческого глаза способами, в то же время заставляя модели машинного обучения неверно интерпретировать контент. Утверждается, что зараженные данные очень сложно удалить, а это означает, что каждое зараженное изображение необходимо вручную идентифицировать и удалить из модели.

Автор: University of Chicago Источник: www.pcgamer.com

Используя Stable Diffusion в качестве подопытного, исследователи обнаружили, что потребовалось всего 300 образцов яда, чтобы заставить модель думать, что собака — это кошка, а шляпа — это торт. Или наоборот?

В любом случае, они также говорят, что влияние отравленных изображений может распространяться на связанные концепции, позволяя умеренному количеству атак Nightshade «дестабилизировать общие функции в генеративной модели преобразования текста в изображение, фактически отключая ее способность генерировать осмысленные изображения».

Несмотря на все вышесказанное, команда признает, что уничтожить более крупные модели не так-то просто. Потребуются тысячи отравленных изображений. Что, вероятно, хорошо с точки зрения злоумышленника. Другими словами, потребуются согласованные усилия, чтобы подорвать любую крупную генеративную модель.