Исследование: чат-боты могут получить данные о пользователях из скучных бесед

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

Учёные из Щвейцарской высшей школы Цюриха (ETH Zürich in Switzerland), провели исследование с довольно неожиданным результатом. Выяснилось, что современные чат-боты могут получить о собеседнике массу информации, даже если состоявшиеся разговоры были на совершенно нейтральные и даже скучные темы.


Автор: julien Tromeur Источник: unsplash.com

Вероятно подобному феномену мир обязан тому, как обучаются алгоритмы моделей с использованием больших объёмов сетевого контента. По словам возглавлявшего исследование Мартина Вечева, «даже непонятно, как решить эту проблему». Он считает, что в настоящее время это «очень, очень проблематично».

Команда исследователей уже выяснила, что большие языковые модели, стоящие за наиболее передовыми чат-ботами, способны делать чрезвычайно точные выводы о пользователях, даже по косвенным признакам выясняя их расу, местоположение, род занятий и прочие данные — из бесед, которые кажутся совершенно безобидными.

Проблема в том, что злоумышленники и корпорации вполне могут использовать собранные сведения для получения точных профилей ничего не подозревающих пользователей. По словам Вечева, в частности такая возможность может инициировать рождение новой эры рекламы, в ходе кампаний рекламодатели будут применять сведения, собранные ботами. Проблема ещё и в том, что некоторые компании, стоящие за разработкой чат-ботов, одновременно являются ещё и операторами рекламных сервисов и/или крупными рекламодателями.

В Цюрихе протестировали языковые модели OpenAI, Google, Meta* и Anthropic. Учёные подчеркнули, что сообщили компаниям о выявленной проблеме. В OpenAI, например, ответили, что компания предпринимает все меры для удаления персональных данных из используемых для тренировки пакетов информации и настраивает свои инструменты так, чтобы те отказывались предоставлять персональные данные по запросам. Как утверждают в OpenAI, её модели «изучают мир, а не отдельных людей». Кроме того, люди могут запросить у компании удалить данные о себе, если те всё же всплыли в процессе опроса бота. В Anthropic утверждают, что не собирают и не продают персональную информацию, а в Google и Meta* на запрос журналистов предпочли промолчать.

По словам одного из цюрихских учёных, открытие поднимает вопрос о том, сколько информации о себе люди предоставляют, наивно рассчитывая на анонимность. Пока исследователи не знают, сколь подробные сведения можно собрать о пользователе из простых бесед, но предполагают, что языковые модели способны стать мощным подспорьем для сбора такой информации. В Цюрихе предполагают, что в некоторых случаях модели чрезвычайно хорошо ищут в беседах некие «подсказки», в других случаях человеческая интуиция справляется гораздо лучше.

  • * — Компания Meta (социальные сети Instagram и Facebook) - признана экстремистской организацией на территории Российской Федерации