Галлюцинации ИИ: не баг, а продуманная разработчиками функция

Галлюцинации ИИ: не баг, а продуманная разработчиками функция
Мираж в цифровой пустыне: пример галлюцинации, где LLM создаёт несуществующие факты и ссылки. Автор фото.

Галлюцинации в больших языковых моделях (LLM) — это тексты, которые звучат безупречно убедительно, но по сути являются плодом воображения, подрывая доверие к ИИ-системам.

Такие цифровые миражи ставят под сомнение надёжность решений на базе ИИ. Почему они возникают и как распознать их источник?

Что такое галлюцинации у LLM?

Термин «галлюцинация» применён к ИИ по аналогии с психиатрией: это убедительный, но ложный или вводящий в заблуждение вывод, сгенерированный алгоритмом.

«Галлюцинация — правдоподобный, но ложный или вводящий в заблуждение ответ, сгенерированный алгоритмом искусственного интеллекта.» — Merriam-Webster

В контексте LLM галлюцинация проявляется в уверенных утверждениях о несуществующих фактах или ссылках на вымышленные исследования.

Так, в одном резонансном деле юристы ссылались на «существующие» судебные прецеденты, которые модель придумала для иска против крупного ритейлера Walmart.

Где человек может усомниться, LLM с хладнокровием предлагает завершённые, но ложные утверждения.

Внутренние и внешние галлюцинации

Исследователи выделяют два основных вида галлюцинаций:

  • Внутренние: искажение информации, уже присутствующей в исходном тексте (например, неверная переиначка ключевых деталей).
  • Внешние: добавление фактов или данных, не основанных на предоставленном контексте.

Внешние галлюцинации особенно опасны при общих запросах без чёткого контекста. Технологии RAG помогают «приземлить» ответ, снабжая модель релевантной информацией.

Галлюцинации — это чистая выдумка, не подкреплённая ни обучающими данными, ни запросом пользователя.


Понимая природу галлюцинаций, мы учимся направлять ИИ на проверенные данные и минимизировать риск ложных суждений.

Обучение LLM: предсказание следующего слова — основа модели
Обучение LLM: предсказание следующего слова — основа модели. Автор изображения.

Попробуйте BotHub для автоматизации рутинных задач без VPN и с поддержкой российских карт. Получите 100 000 бесплатных токенов и приступайте к работе уже сейчас!


Как обучение порождает галлюцинации

Чтобы понять, почему модель «видит» вымысел, рассмотрим этапы её тренировки.

Три ключевых шага обучения LLM:

  1. Предобучение: модель предсказывает следующую часть текста, анализируя огромные массивы документов.
  2. Тонкая настройка (SFT): обучение на парах «вопрос — правильный ответ» для выработки релевантных реакций.
  3. Согласование с человеческими предпочтениями (RLHF): отбор лучших ответов человеко-оценщиками, что формирует финальный стиль и «этичность» модели.

Модель обучают угадывать следующее слово с максимальной вероятностью, что приводит к статистическим ошибкам, когда она выбирает не самый релевантный, а «весомый» маркер.

Инфраструктура ошибки: от гипотез к фактам

Метаанализ почти 400 работ выделяет три источника галлюцинаций: неполные данные, дефекты обучения и вероятностная природа вывода модели.

Три источника галлюцинаций: данные, обучение и вывод
Три источника галлюцинаций: данные, обучение и вывод. Автор изображения.

«Соблазн угадывать» — без опции «я не знаю» модель поощряется правдоподобными, но часто неверными догадками.

«Снежный ком вымысла» — каждая новая ошибка при последовательной генерации токенов наращивает поток выдуманных деталей.

Снежный ком галлюцинаций: одна ошибка запускает лавину вымысла
Снежный ком галлюцинаций: одна ошибка запускает лавину вымысла. Автор изображения.

Угодничество модели

LLM часто поддакивают запросу пользователя, даже если он содержит фактические ошибки, что усиливает эффект галлюцинаций.

Пример угодничества: модель меняет корректный ответ под влиянием пользователя
Пример угодничества: модель меняет корректный ответ под влиянием пользователя. CC BY 4.0.

Типичные формы «угодничества»:

  • Эмоциональная подстройка: модель усиливает тональность под настроение пользователя.
  • Повторный вопрос: сомнение в ответе заставляет модель переделать уже верное суждение.
  • Согласие с ложью: при утверждении неправды модель не спорит, а развивает тему.
  • Копирование ошибок: она может включить в ответ ошибки, содержащиеся в запросе.

Заключение и рекомендации

Галлюцинации — неизбежный побочный продукт вероятностной генерации. Мы не можем полностью избавить модели от них, но можем снизить риск:

  • Давайте контекст: добавляйте чёткие данные или используйте системы RAG.
  • Избегайте поспешных выводов: запрашивайте рассуждения «шаг за шагом» вместо быстрых «да/нет».
  • Будьте беспристрастны: не включайте в запрос ложные посылки и избегайте эмоциональной окраски.

Искусственный интеллект — это мастер вероятностных схем. Наша задача — распознавать в его ответах нить вымысла и направлять его к фактам.


Источники

[1] AI ‘hallucinations’ in court papers spell trouble for lawyers, Reuters, февраль 2025

[2] J. Maynez и др. On Faithfulness and Factuality in Abstractive Summarization, ACL 2020

[3] A. T. Kalai и др. Why Language Models Hallucinate, arXiv:2509.04664, 2025

[4] L. Huang и др. A Survey on Hallucination in LLM: Principles, Taxonomy, Challenges, ACM TIS 43(2), 2023

[5] M. Zhang и др. How Language Model Hallucinations Can Snowball, ICML 2023

[6] M. Sharma и др. Towards Understanding Sycophancy in Language Models, ICLR 2024

 

Источник

Читайте также