Компания OpenAI представила новый тестовый стандарт SimpleQA, предназначенный для оценки точности данных, которые предоставляют как их собственные, так и конкурентные модели ИИ. Однако тестирование показало серьёзные проблемы, связанные с достоверностью информации, которую генерируют современные крупные языковые модели (LLM).
Основная задача нового бенчмарка заключается в предоставлении объективной оценки точности и надёжности работы LLM, находящих всё большее применение в различных областях, начиная от образования и разработки ПО до здравоохранения и правоохранительных органов. В то же время тесты показали, что даже самые продвинутые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие результаты успешности — 42,7% и 28,9% соответственно.
Проблему усугубляет склонность моделей «завышать свои возможности» и выдавать абсолютно неверные ответы, известные как «галлюцинации». Это явление хорошо задокументировано и может иметь серьёзные последствия, особенно в критически важных областях, таких как медицина и правоохранительные структуры. К примеру, в больницах, где используются ИИ модели от OpenAI, сообщалось о частых случаях галлюцинаций и неточностей при взаимодействии с пациентами. Американские правоохранительные органы также начинают прибегать к ИИ, что может привести к несправедливым обвинениям или усилению предвзятостей.
Эксперты отмечают, что результаты тестирования на бенчмарке SimpleQA представляют собой тревожный сигнал, указывающий на неспособность текущих LLM достоверно передавать информацию. «Эти данные должны напомнить нам о необходимости скептически относиться к результатам работы любой LLM, и тщательно проверять сгенерированные тексты», — прокомментировал представитель OpenAI.
Остаётся нерешённым вопрос о том, может ли проблема достоверности LLM быть устранена путём увеличения объёмов обучающих данных, как утверждают некоторые лидеры в области ИИ. Однако по мнению ряда экспертов, необходимо разрабатывать новые методы, которые обеспечат более высокую точность и надёжность информации, создаваемой моделями. «Мы должны сосредоточиться на разработке таких моделей, которые не только будут генерировать правдивые ответы, но и смогут оценивать их, а также отказываться от ответа, если они не уверены в своей достоверности», — подчеркнул один из исследователей в сфере ИИ.
Результаты тестирования на SimpleQA акцентируют внимание на необходимости дальнейших исследований и разработок в области ИИ для гарантии надёжности и достоверности получаемой информации и избегания возможных отрицательных последствий использования LLM в разных аспектах жизни.
Источник: iXBT