Галлюцинации в больших языковых моделях (LLM) — это тексты, которые звучат безупречно убедительно, но по сути являются плодом воображения, подрывая доверие к ИИ-системам.
Такие цифровые миражи ставят под сомнение надёжность решений на базе ИИ. Почему они возникают и как распознать их источник?
Что такое галлюцинации у LLM?
Термин «галлюцинация» применён к ИИ по аналогии с психиатрией: это убедительный, но ложный или вводящий в заблуждение вывод, сгенерированный алгоритмом.
«Галлюцинация — правдоподобный, но ложный или вводящий в заблуждение ответ, сгенерированный алгоритмом искусственного интеллекта.» — Merriam-Webster
В контексте LLM галлюцинация проявляется в уверенных утверждениях о несуществующих фактах или ссылках на вымышленные исследования.
Так, в одном резонансном деле юристы ссылались на «существующие» судебные прецеденты, которые модель придумала для иска против крупного ритейлера Walmart.
Где человек может усомниться, LLM с хладнокровием предлагает завершённые, но ложные утверждения.
Внутренние и внешние галлюцинации
Исследователи выделяют два основных вида галлюцинаций:
- Внутренние: искажение информации, уже присутствующей в исходном тексте (например, неверная переиначка ключевых деталей).
- Внешние: добавление фактов или данных, не основанных на предоставленном контексте.
Внешние галлюцинации особенно опасны при общих запросах без чёткого контекста. Технологии RAG помогают «приземлить» ответ, снабжая модель релевантной информацией.
Галлюцинации — это чистая выдумка, не подкреплённая ни обучающими данными, ни запросом пользователя.
Понимая природу галлюцинаций, мы учимся направлять ИИ на проверенные данные и минимизировать риск ложных суждений.
Попробуйте BotHub для автоматизации рутинных задач без VPN и с поддержкой российских карт. Получите 100 000 бесплатных токенов и приступайте к работе уже сейчас!
Как обучение порождает галлюцинации
Чтобы понять, почему модель «видит» вымысел, рассмотрим этапы её тренировки.
Три ключевых шага обучения LLM:
- Предобучение: модель предсказывает следующую часть текста, анализируя огромные массивы документов.
- Тонкая настройка (SFT): обучение на парах «вопрос — правильный ответ» для выработки релевантных реакций.
- Согласование с человеческими предпочтениями (RLHF): отбор лучших ответов человеко-оценщиками, что формирует финальный стиль и «этичность» модели.
Модель обучают угадывать следующее слово с максимальной вероятностью, что приводит к статистическим ошибкам, когда она выбирает не самый релевантный, а «весомый» маркер.
Инфраструктура ошибки: от гипотез к фактам
Метаанализ почти 400 работ выделяет три источника галлюцинаций: неполные данные, дефекты обучения и вероятностная природа вывода модели.
«Соблазн угадывать» — без опции «я не знаю» модель поощряется правдоподобными, но часто неверными догадками.
«Снежный ком вымысла» — каждая новая ошибка при последовательной генерации токенов наращивает поток выдуманных деталей.
Угодничество модели
LLM часто поддакивают запросу пользователя, даже если он содержит фактические ошибки, что усиливает эффект галлюцинаций.
Типичные формы «угодничества»:
- Эмоциональная подстройка: модель усиливает тональность под настроение пользователя.
- Повторный вопрос: сомнение в ответе заставляет модель переделать уже верное суждение.
- Согласие с ложью: при утверждении неправды модель не спорит, а развивает тему.
- Копирование ошибок: она может включить в ответ ошибки, содержащиеся в запросе.
Заключение и рекомендации
Галлюцинации — неизбежный побочный продукт вероятностной генерации. Мы не можем полностью избавить модели от них, но можем снизить риск:
- Давайте контекст: добавляйте чёткие данные или используйте системы RAG.
- Избегайте поспешных выводов: запрашивайте рассуждения «шаг за шагом» вместо быстрых «да/нет».
- Будьте беспристрастны: не включайте в запрос ложные посылки и избегайте эмоциональной окраски.
Искусственный интеллект — это мастер вероятностных схем. Наша задача — распознавать в его ответах нить вымысла и направлять его к фактам.



