Кризис доверия к ИИ: OpenAI продемонстрировала, что LLM ошибаются в 60% случаев

Компания OpenAI представила новый тестовый стандарт SimpleQA, предназначенный для оценки точности данных, которые предоставляют как их собственные, так и конкурентные модели ИИ. Однако тестирование показало серьёзные проблемы, связанные с достоверностью информации, которую генерируют современные крупные языковые модели (LLM).

Основная задача нового бенчмарка заключается в предоставлении объективной оценки точности и надёжности работы LLM, находящих всё большее применение в различных областях, начиная от образования и разработки ПО до здравоохранения и правоохранительных органов. В то же время тесты показали, что даже самые продвинутые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие результаты успешности — 42,7% и 28,9% соответственно.


Кризис доверия к ИИ: OpenAI продемонстрировала, что LLM ошибаются в 60% случаев
Источник: Michael Dwyer / AP

Проблему усугубляет склонность моделей «завышать свои возможности» и выдавать абсолютно неверные ответы, известные как «галлюцинации». Это явление хорошо задокументировано и может иметь серьёзные последствия, особенно в критически важных областях, таких как медицина и правоохранительные структуры. К примеру, в больницах, где используются ИИ модели от OpenAI, сообщалось о частых случаях галлюцинаций и неточностей при взаимодействии с пациентами. Американские правоохранительные органы также начинают прибегать к ИИ, что может привести к несправедливым обвинениям или усилению предвзятостей.

Эксперты отмечают, что результаты тестирования на бенчмарке SimpleQA представляют собой тревожный сигнал, указывающий на неспособность текущих LLM достоверно передавать информацию. «Эти данные должны напомнить нам о необходимости скептически относиться к результатам работы любой LLM, и тщательно проверять сгенерированные тексты», — прокомментировал представитель OpenAI.

Остаётся нерешённым вопрос о том, может ли проблема достоверности LLM быть устранена путём увеличения объёмов обучающих данных, как утверждают некоторые лидеры в области ИИ. Однако по мнению ряда экспертов, необходимо разрабатывать новые методы, которые обеспечат более высокую точность и надёжность информации, создаваемой моделями. «Мы должны сосредоточиться на разработке таких моделей, которые не только будут генерировать правдивые ответы, но и смогут оценивать их, а также отказываться от ответа, если они не уверены в своей достоверности», — подчеркнул один из исследователей в сфере ИИ.

Результаты тестирования на SimpleQA акцентируют внимание на необходимости дальнейших исследований и разработок в области ИИ для гарантии надёжности и достоверности получаемой информации и избегания возможных отрицательных последствий использования LLM в разных аспектах жизни.

 

Источник: iXBT

Читайте также