Amazon Cloud начала расследование в отношении стартапа Perplexity AI. Как стало известно WIRED (авторитетный источник информации о технологиях и науке), подозрение заключается в том, нарушает ли стартап правила Amazon Web Services, сканируя веб-сайты, которые пытались помешать ему это делать.
Представитель AWS подтвердил расследование компании в отношении Perplexity. Ранее WIRED обнаружил, что Perplexity, которая поддерживается семейным фондом Джеффа Безоса и Nvidia и недавно была оценена в $3 миллиарда, по-видимому, полагается на контент, полученный парсингом веб-сайтов, доступ к которым был запрещён через протокол исключения роботов, — распространённый веб-стандарт. Хотя протокол исключения роботов не является юридически обязательным, условия обслуживания, как правило, являются таковыми.
Протокол исключения роботов — это существующий уже несколько десятилетий веб-стандарт, который предполагает размещение в домене открытого текстового файла (например, wired.com/robots.txt), чтобы указать, какие страницы не должны быть доступны автоматическим ботам и сканерам. Хотя компании, использующие парсеры, могут игнорировать этот протокол, большинство из них традиционно соблюдают его. Представитель AWS заявил, что их клиенты AWS должны придерживаться стандарта robots.txt при сканировании веб-сайтов.
«Условия обслуживания AWS запрещают оскорбительные и незаконные действия, и наши клиенты несут ответственность за соблюдение этих условий. Мы регулярно получаем сообщения о предполагаемых злоупотреблениях из различных источников и привлекаем наших клиентов к разбору этих сообщений», — заявил представитель AWS.
Проверка методов Perplexity последовала за отчётом Forbes от 11 июня, в котором стартап обвинялся в краже по крайней мере одной из своих статей. Расследования подтвердили эту практику и обнаружили дополнительные доказательства злоупотреблений системами, связанными с поисковым чат-ботом Perplexity на базе искусственного интеллекта. Инженеры Condé Nast, материнской компании WIRED, блокируют краулер (поисковый робот) Perplexity на всех своих веб-сайтах с помощью файла robots.txt. Но WIRED обнаружил, что у компании был доступ к серверу с неопубликованным IP-адресом — 44.221.181.252 — который посещал объекты Condé Nast по крайней мере сотни раз за последние три месяца, по-видимому, для сбора данных с веб-сайтов.
Похоже, что сервер, связанный с Perplexity, занимается широкомасштабным сканированием новостных веб-сайтов, которые запрещают ботам доступ к их контенту. Представители The Guardian, Forbes и The New York Times также заявили, что обнаружили IP-адрес, неоднократно посещавший их серверы. WIRED отследил IP-адрес до виртуальной машины Elastic Compute Cloud (EC2), размещённой на AWS.
Генеральный директор Perplexity Аравинд Сринивас первым отреагировал на расследование WIRED, заявив, что вопросы, которые задали компании, «отражают глубокое и фундаментальное непонимание того, как работают Perplexity и Интернет». Затем Сринивас сообщил, что IP-адрес, обнаруженный WIRED, сканировал веб-сайты Condé Nast, а созданный тестовый сайт управлялся сторонней компанией, которая предоставляет услуги веб-сканирования и индексирования. Он отказался назвать название компании, сославшись на соглашение о неразглашении. Когда его спросили, попросит ли он третье лицо прекратить сканировать WIRED, Сринивас ответил: «Это сложно».
Сара Платник, представитель Perplexity, сообщила, что компания ответила на запросы Amazon 26 июня и охарактеризовала расследование как стандартную процедуру. Платник говорит, что Perplexity не внесла никаких изменений в свою работу в ответ на опасения Amazon. Она добавила, что PerplexityBot будет игнорировать robots.txt, когда пользователь вводит определённый URL в запросе — случай использования, который Платник описывает как «очень редкий».
«Когда пользователь запрашивает определенный URL-адрес, это не запускает сканирование. Агент действует от имени пользователя, получая URL-адрес. Это работает так же, как если бы пользователь сам зашёл на страницу, скопировал текст статьи, а затем вставил его в Perplexity», — говорит Платник.
Это описание функциональности Perplexity подтверждает выводы WIRED о том, что чат-бот в некоторых случаях игнорирует robots.txt.
Digital Content Next (торговая ассоциация индустрии цифрового контента, членами которой являются The New York Times, The Washington Post и Condé Nast) в прошлом году организация поделилась проектом принципов управления генеративным ИИ для предотвращения потенциальных нарушений авторских прав. Генеральный директор Джейсон Кинт сообщил, что если обвинения против Perplexity справедливы, то компания нарушает многие из этих принципов.
«По умолчанию компании, занимающиеся искусственным интеллектом, должны исходить из того, что у них нет права брать и повторно использовать контент издателей без разрешения», — говорит Кинт. Если Perplexity нарушает условия обслуживания или обхода файла robots.txt, добавляет он, «то должен сработать сигнал тревоги о том, что происходит что-то ненадлежащее».