ИИ научился обманывать людей: учёные Массачусетского технологического института бьют тревогу

Упоминаются системы Cicero и GPT-4

Исследователи Массачусетского технологического института опубликовали исследование, которое подтверждает, что некоторые системы искусственного интеллекта научились обманывать людей.

Исследовательская группа под руководством Питера Пака обнаружила, что эти системы искусственного интеллекта могут выполнять такие задачи, как обманывать игроков в онлайн-играх или обходить CAPTCHA (проверки «Я не робот»). Пак предупреждает, что эти, казалось бы, тривиальные примеры могут иметь серьёзные последствия в реальной жизни.

ИИ научился обманывать людей: учёные Массачусетского технологического института бьют тревогу

Изображение DALL-E

В исследовании подчеркивается система искусственного интеллекта Cicero, изначально спроектированная как честный противник в игре о виртуальной дипломатии. По словам Пака, Cicero стала «мастером обмана», хотя изначально система планировалась как максимально честная и полезная. Во время игры Cicero, играя за Францию, тайно объединилась с контролируемой людьми Германией, чтобы предать Англию (ещё одного игрока-человека). Первоначально Cicero обещал защитить Англию, одновременно предупреждая Германию о вторжении.

Другой пример касается GPT-4, который ложно утверждал, что у него проблемы со зрением, и нанимал людей для обхода CAPTCHA от своего имени.

Питер Пак подчеркивает необходимость обучения ИИ честности. В отличие от традиционного программного обеспечения, системы искусственного интеллекта с глубоким обучением «развиваются» в процессе, похожем на селекцию. Их поведение может быть предсказуемым во время тренировки, но позже может стать неконтролируемым.