OpenAI в сотрудничестве с 262 медицинскими специалистами из 60 различных стран представила новый открытый стандарт HealthBench для оценки возможностей больших языковых моделей (LLM) в здравоохранении. Этот инструмент стремится преодолеть ограничения предыдущих тестов, предлагая анализировать 5000 реалистичных диалогов, затрагивающих экстренные случаи, работу с клиническими данными и международные медицинские сценарии. К каждому диалогу применяется индивидуальная оценка — врачами разработано более 48 тысяч правил, которые определяют точность, качество коммуникации, контекстную осведомлённость и другие параметры ответов ИИ.
HealthBench предлагает инновационный подход: вместо простых вопросов с выбором ответов оцениваются открытые диалоги, где баллы присваиваются за выполнение или несоблюдение конкретных условий. К примеру, рекомендация об оказании неотложной помощи может прибавить +10 баллов, а неверный совет — отнять 10. Итоговое значение модели выводится на основе суммы баллов, нормализованной до шкалы [0, 1]. Для повышения точности эксперты внедрили «критерии консенсуса» — 34 ключевых правила, одобренных большинством врачей, а также подмножество HealthBench Hard из 1000 сложных случаев, где даже продвинутые модели, такие как GPT-4.1 nano, показывают результаты всего в 0,32 балла.

Результаты испытаний свидетельствуют о прогрессе: если GPT-3.5 Turbo набрал 16%, то GPT-4o достиг 32%, а новейшая версия o3 — 60%. Надёжность моделей, оцениваемая по самому низкому из 16 результатов, у o3 вдвое выше, чем у GPT-4o. Хотя уровень ошибок сократился в четыре раза с 2023 года в критических ситуациях, таких как экстренная помощь, остаются проблемы с контекстным поиском и ответами на неопределённые запросы.
Важным элементом HealthBench стала мета-оценка: согласованность между решениями врачей и оценки модели GPT-4.1 колеблется в пределах 55–75%, что подчёркивает естественную сложность клинических заключений. Однако стабильность результатов при повторных запусках подтверждает низкий уровень шума в оценках.
Несмотря на открытый код и данные, разработчики предупреждают о возможностях утечек: в бенчмарк внедрены меры для отслеживания несанкционированного применения. HealthBench уже становится стандартом для исследований, однако создатели подчёркивают, что даже самые передовые модели пока не готовы к широкому использованию в медицине — особенно из-за недостаточной надёжности в критических ситуациях.
Источник: iXBT