Смягчение галлюцинаций искусственного интеллекта: конформное прогнозирование и самооценка моделей

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

23 мая 2024, 11:28 | Рассуждения | Наука и космос

В мире искусственного интеллекта (ИИ) большие языковые модели (LLM) стали настоящими звездами. Они сочиняют стихи, пишут программный код, переводят тексты и даже способны поддержать осмысленный диалог. Казалось бы, машины уже практически достигли уровня человеческого интеллекта. Но за блестящей фасадом скрывается серьезная проблема — склонность LLM к галлюцинациям.

ИИ делает выбор между правдой и ложью
Автор: Designer

Что же это за «галлюцинации»? Представьте себе, что вы задаете LLM вопрос, например: «Кто написал «Войну и мир»?» Вместо ожидаемого ответа — «Лев Толстой» — модель может уверенно заявить: «Это произведение принадлежит перу Александра Пушкина». LLM, словно заблудившись в лабиринте своих знаний, выдает ложную информацию, при этом демонстрируя непоколебимую уверенность в своей правоте.

Укрощение строптивых: как научить языковые модели говорить «не знаю»?

Проблема галлюцинаций, или конфабуляций, как их еще называют, становится все более актуальной по мере развития LLM. Ведь от достоверности информации, предоставляемой машинами, зависит не только наше понимание мира, но и принятие важных решений в самых разных сферах: от медицины до финансов.

Как же бороться с этой проблемой? Ученые предлагают различные подходы, в том числе дообучение моделей на специальных наборах данных, проверку фактов с помощью внешних источников и т. д. Но одним из самых перспективных направлений является обучение LLM воздержанию от ответа в тех случаях, когда модель не уверена в своей правоте. Другими словами, машину учат говорить: «Я не знаю».

В научной работе «Mitigating LLM Hallucinations via Conformal Abstention», опубликованной на сервисе препринтов Arxiv, разрабатывается принципиально новый подход к решению проблемы галлюцинаций. Вместо того чтобы пытаться «исправить» модель, авторы предлагают использовать ее собственную «самооценку» для определения уровня уверенности в ответе.

Представьте себе человека, который, прежде чем ответить на вопрос, мысленно проговаривает несколько вариантов ответа и сравнивает их между собой. Если варианты похожи, он уверенно дает ответ. Если же варианты различаются, он, скорее всего, скажет: «Я не знаю».

Авторы научной работы предлагают обучить LLM делать то же самое. Для этого модель генерирует несколько вариантов ответа на заданный вопрос, а затем самостоятельно оценивает их сходство. Если сходство высокое, модель дает ответ. Если же сходство низкое, модель воздерживается от ответа.

Ключевым моментом этого подхода является использование специальных техник машинного обучения, называемых «конформным прогнозированием». Эти техники позволяют «откалибровать» модель таким образом, чтобы она воздерживалась от ответа только в тех случаях, когда риск галлюцинации достаточно высок.

ИИ анализирует собственный ответ
Автор: Designer

Экспериментальные результаты, полученные авторами научной работы, подтверждают эффективность предложенного подхода. LLM, обученные воздерживаться от ответа в случае неуверенности, демонстрируют значительно более низкий уровень галлюцинаций по сравнению с моделями, не прошедшими такого обучения.

Конечно, это только первый шаг на пути к созданию действительно достоверных LLM. Но результаты, полученные авторами научной работы, внушают оптимизм. Возможно, в будущем машины научатся не только говорить, но и молчать тогда, когда это необходимо. А это значит, что мы сможем доверять им еще больше.

Молчание — золото?

Предложенный в научной работе подход к борьбе с галлюцинациями LLM выглядит весьма перспективно. Он не требует дополнительного обучения модели на огромных наборах данных и позволяет эффективно контролировать уровень риска галлюцинаций. Более того, он основан на идее, которая интуитивно понятна человеку: прежде чем дать ответ, нужно взвесить все «за» и «против».

Возможно, именно этот подход станет ключом к созданию LLM, способных не только генерировать тексты, но и критически оценивать их достоверность. И тогда мы сможем наконец-то сказать, что машины действительно научились мыслить.

В статье предлагается использовать саму LLM для самооценки схожести сгенерированных ответов. Но разве не может модель «галлюцинировать» и на этом этапе, ошибочно считая два совершенно разных ответа похожими?

Да, это вполне возможно. Модель может ошибиться при оценке сходства, приняв, например, два текста с похожим синтаксисом, но разным смыслом за эквивалентные. Именно поэтому мы используем конформное прогнозирование — этот метод помогает установить «порог сомнения», который гарантирует, что частота таких ошибок не превысит заданного уровня.

Не приведет ли использование конформного прогнозирования к тому, что модель будет слишком часто отказываться от ответа, боясь ошибиться?

Это возможный риск, но мы можем контролировать его, устанавливая допустимый уровень «галлюцинаций». Цель — найти баланс между частотой отказов и точностью ответов. Наши эксперименты показали, что этот метод позволяет достичь хороших результатов при разумном уровне отказов.

Смягчение галлюцинаций искусственного интеллекта: конформное прогнозирование и самооценка моделей

Укрощение строптивых: как научить языковые модели говорить «не знаю»?

Молчание — золото?

Не приведет ли использование конформного прогнозирования к тому, что модель будет слишком часто отказываться от ответа, боясь ошибиться?

0 комментариев

Добавить комментарий

Добавить комментарий

Сейчас на главной

Новости

Представлен компактный смартфон с пятидюймовым экраном Unihertz Jelly Max

Разработчики Huawei показали пользовательский интерфейс HarmonyOS для ПК

Hisense представила телевизор Starlight S1 Pure Enjoyment Edition

Китайский глубоководный аппарат для добычи полезных ископаемых побил рекорд, работая на глубине 4100 метров

Мировые поставки смартфонов выросли на 6,5% во II квартале 2024 года — Samsung сохраняет лидерство

Публикации

Первый гревел Shulz: изучаем прототип велосипеда The Lightning

С какой скоростью надо ездить по лужам

Почему на современных стиральных машиных нельзя отключить отжим, и как это исправить вручную

Как можно узнать, сколько герц в экране Айфона и на что они влияют

Как одеваться в жаркую погоду, чтобы было комфортно

Обзор MobaPad M6S: максимально удобная альтернатива Joy-Conn для Nintendo Switch