Исследователи используют чат-ботов с искусственным интеллектом против самих себя, чтобы «взломать» друг друга

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

Ученым-компьютерщикам НТУ (Наньянского технологического университета) удалось найти способ «взломать» популярных чат-ботов, натравив их друг на друга. «Взломав» их, исследователи смогли заставить чат-ботов генерировать ответы на вопросы, на которые они обычно не отвечают.


Автор: NTU Singapore Источник: www.tomshardware.com

По словам компьютерных ученых, они использовали двухэтапный метод, который они называют процессом «Masterkey». Первая часть процесса включала реверс-инжиниринг защитных механизмов больших языковых моделей (LLM). Затем они передали данные, полученные в результате обратного проектирования, другому LLM.

Целью передачи данных другому чат-боту с искусственным интеллектом было научить его обходному пути. Таким образом, исследователи получили «мастер-ключ», который затем использовался для атаки на защитные механизмы чат-ботов LLM. Им удалось скомпрометировать Microsoft Bing Chat, Google Bard, ChatGPT и другие.

Как отмечают исследователи, процесс создания этих обходных подсказок можно автоматизировать. Это говорит о том, что чат-боты с искусственным интеллектом можно использовать для создания адаптивного «мастер-ключа», который работает, даже когда разработчики исправляют свои LLM. Один из исследователей, профессор Луи Ян, объяснил, что этот процесс стал возможен, потому что чат-боты LLM с искусственным интеллектом обладают способностью учиться и адаптироваться.

Благодаря этому чат-боты с искусственным интеллектом могут стать критически важными атакующими для конкурирующих чат-ботов и даже для самих себя. Информацию обо всем процессе и подробности того, как ученым-компьютерщикам удалось «взломать» модели LLM, можно найти в опубликованной исследовательской статье.

По сути, результаты этого исследования помогут разработчикам осознать слабые стороны своих чат-ботов LLM. Они также отмечают, что обычный метод ограничения этих моделей не реагировать на определенные ключевые слова не так эффективен, как могли подумать разработчики.