Смягчение галлюцинаций искусственного интеллекта: конформное прогнозирование и самооценка моделей

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Рассуждения | Наука и космос

В мире искусственного интеллекта (ИИ) большие языковые модели (LLM) стали настоящими звездами. Они сочиняют стихи, пишут программный код, переводят тексты и даже способны поддержать осмысленный диалог. Казалось бы, машины уже практически достигли уровня человеческого интеллекта. Но за блестящей фасадом скрывается серьезная проблема — склонность LLM к галлюцинациям.

ИИ делает выбор между правдой и ложью
Автор: Designer

Что же это за «галлюцинации»? Представьте себе, что вы задаете LLM вопрос, например: «Кто написал «Войну и мир»?» Вместо ожидаемого ответа — «Лев Толстой» — модель может уверенно заявить: «Это произведение принадлежит перу Александра Пушкина». LLM, словно заблудившись в лабиринте своих знаний, выдает ложную информацию, при этом демонстрируя непоколебимую уверенность в своей правоте.

Укрощение строптивых: как научить языковые модели говорить «не знаю»?

Проблема галлюцинаций, или конфабуляций, как их еще называют, становится все более актуальной по мере развития LLM. Ведь от достоверности информации, предоставляемой машинами, зависит не только наше понимание мира, но и принятие важных решений в самых разных сферах: от медицины до финансов.

Как же бороться с этой проблемой? Ученые предлагают различные подходы, в том числе дообучение моделей на специальных наборах данных, проверку фактов с помощью внешних источников и т. д. Но одним из самых перспективных направлений является обучение LLM воздержанию от ответа в тех случаях, когда модель не уверена в своей правоте. Другими словами, машину учат говорить: «Я не знаю».

В научной работе «Mitigating LLM Hallucinations via Conformal Abstention», опубликованной на сервисе препринтов Arxiv, разрабатывается принципиально новый подход к решению проблемы галлюцинаций. Вместо того чтобы пытаться «исправить» модель, авторы предлагают использовать ее собственную «самооценку» для определения уровня уверенности в ответе.

Представьте себе человека, который, прежде чем ответить на вопрос, мысленно проговаривает несколько вариантов ответа и сравнивает их между собой. Если варианты похожи, он уверенно дает ответ. Если же варианты различаются, он, скорее всего, скажет: «Я не знаю».

Авторы научной работы предлагают обучить LLM делать то же самое. Для этого модель генерирует несколько вариантов ответа на заданный вопрос, а затем самостоятельно оценивает их сходство. Если сходство высокое, модель дает ответ. Если же сходство низкое, модель воздерживается от ответа.

Ключевым моментом этого подхода является использование специальных техник машинного обучения, называемых «конформным прогнозированием». Эти техники позволяют «откалибровать» модель таким образом, чтобы она воздерживалась от ответа только в тех случаях, когда риск галлюцинации достаточно высок.

ИИ анализирует собственный ответ
Автор: Designer

Экспериментальные результаты, полученные авторами научной работы, подтверждают эффективность предложенного подхода. LLM, обученные воздерживаться от ответа в случае неуверенности, демонстрируют значительно более низкий уровень галлюцинаций по сравнению с моделями, не прошедшими такого обучения.

Конечно, это только первый шаг на пути к созданию действительно достоверных LLM. Но результаты, полученные авторами научной работы, внушают оптимизм. Возможно, в будущем машины научатся не только говорить, но и молчать тогда, когда это необходимо. А это значит, что мы сможем доверять им еще больше.

Молчание — золото?

Предложенный в научной работе подход к борьбе с галлюцинациями LLM выглядит весьма перспективно. Он не требует дополнительного обучения модели на огромных наборах данных и позволяет эффективно контролировать уровень риска галлюцинаций. Более того, он основан на идее, которая интуитивно понятна человеку: прежде чем дать ответ, нужно взвесить все «за» и «против».

Возможно, именно этот подход станет ключом к созданию LLM, способных не только генерировать тексты, но и критически оценивать их достоверность. И тогда мы сможем наконец-то сказать, что машины действительно научились мыслить.

В статье предлагается использовать саму LLM для самооценки схожести сгенерированных ответов. Но разве не может модель «галлюцинировать» и на этом этапе, ошибочно считая два совершенно разных ответа похожими?

Да, это вполне возможно. Модель может ошибиться при оценке сходства, приняв, например, два текста с похожим синтаксисом, но разным смыслом за эквивалентные. Именно поэтому мы используем конформное прогнозирование — этот метод помогает установить «порог сомнения», который гарантирует, что частота таких ошибок не превысит заданного уровня.

Не приведет ли использование конформного прогнозирования к тому, что модель будет слишком часто отказываться от ответа, боясь ошибиться?

Это возможный риск, но мы можем контролировать его, устанавливая допустимый уровень «галлюцинаций». Цель — найти баланс между частотой отказов и точностью ответов. Наши эксперименты показали, что этот метод позволяет достичь хороших результатов при разумном уровне отказов.

Сейчас на главной

Новости

Публикации

Первый гревел Shulz: изучаем прототип велосипеда The Lightning

Бренд Shulz наконец-то дал возможность всесторонне рассмотреть, что из себя будет представлять первый гревел компании. Выпущенный видеоролик-анонс состоит из двух частей. В первой ведущий канала...

С какой скоростью надо ездить по лужам

В дождливую погоду дороги становятся особенно коварными, а лужи на асфальте — не просто лужи, а настоящие испытания для водителя и его автомобиля. Каждая такая встреча скрывает риски: от...

Почему на современных стиральных машиных нельзя отключить отжим, и как это исправить вручную

Если на моделях стиральных машин 7-10 летней давности управление оборотами отжима (вплоть до 0) было базовой возможностью, то у современной техники подобная функция встречается всё реже. Но для...

Как можно узнать, сколько герц в экране Айфона и на что они влияют

В мире смартфонов происходит настоящая революция, связанная с частотой обновления экранов. Долгое время стандартом считались 60 Гц, но теперь производители, включая Apple, переходят на более...

Как одеваться в жаркую погоду, чтобы было комфортно

Лето — пора яркого солнца и прогулок на свежем воздухе. Но высокая температура может стать настоящим вызовом, если тщательно не продумать образ. Поговорим о том, как правильно одеваться...

Обзор MobaPad M6S: максимально удобная альтернатива Joy-Conn для Nintendo Switch

Над альтернативой для штатных Joy-Conn игровой консоли Nintendo Switch работали сразу несколько производителей, причем относительного успеха добился каждый из них, но по возможностям лучше, чем...