Вопреки заявлениям разработчиков о достижениях, крупные языковые модели (LLM) наблюдают тревожный рост числа ошибок. Согласно отчету OpenAI, представленному в апреле, модели o3 и o4-mini демонстрировали галлюцинации в 33% и 48% случаев соответственно. Для сравнения, модель o1, выпущенная в конце 2024 года, проявляла ошибки лишь в 16% эпизодов. Сходные результаты приводит рейтинговая платформа Vectara — модель DeepSeek-R1 с «улучшенным логическим выводом» показала увеличение галлюцинаций на двузначное число процентов.
OpenAI отрицает связь между обновлениями логического вывода и ростом ошибок, утверждая, что предпринимаются усилия для уменьшения галлюцинаций в актуальных версиях. Тем не менее эксперты сомневаются в эффективности текущих методов. Например, рейтинг Vectara, оценивающий согласованность при суммировании текстов, обнаружил, что модели как с логическим выводом, так и без него, имеют почти одинаковые показатели ошибок. При этом, как отметил Форрест Шэн Бао из Vectara, многие ошибки DeepSeek-R1 были «безвредными» — хоть и логически корректными, но отсутствующими в исходных материалах.

Эмили Бендер из Вашингтонского университета подвергла критике сам термин «галлюцинации», назвав его олицетворением машинных систем. «LLM не понимают смысла — они предсказывают следующее слово на основе статистических данных», — подчеркнула она. Арвинд Нараянан из Принстонского университета добавил, что проблема глубже: модели используют устаревшие данные и ненадежные источники. По его словам, увеличение объема обучающих данных не решает вопрос достоверности.
Исследователи советуют проявлять осторожность. Нараянан рекомендует применять LLM только в тех случаях, где проверка ответа занимает меньше времени, чем самостоятельный поиск. Бендер советует полностью отказаться от использования чат-ботов для поиска фактов. «Эти системы не созданы для генерирования знаний — они имитируют речь», — пояснила она.
Текущая ситуация вызывает сомнения в будущем LLM. Если раньше предполагалось, что с развитием технологий галлюцинации исчезнут, то теперь эксперты признают: ошибки останутся неотъемлемой частью работы моделей. Решение — не надеяться на исправление алгоритмов, а перестроить подходы к оценке их выводов.
Источник: iXBT