В очередной раз медицинское сообщество решило протестировать возможности ИИ в исследовании, проведённом группой учёных под руководством Мезиан Сильхади и Мона Харисси-Дагер (Meziane Silhadi, Wissam B. Nassrallah, David Mikhail, Daniel Milad, Mona Harissi-Dagher) из Университета Монреаля и Университета Торонто. Они устроили benchmark-тест, столкнув лбами Microsoft Copilot, GPT-4 (в версиях GPT-4o и GPT-4o mini) и Google Gemini (Gemini и Gemini Advanced). Арена для поединка выбрана весьма специфическая — офтальмологические вопросы. На первый взгляд, узкая специализация, но, поверьте, это исследование раскрывает ключевые возможности и, что не менее важно, ограничения современных LLM, особенно в контексте медицинских приложений и обработки визуальных данных.
Взгляд «глаза» в глаза
Почему именно офтальмология? Дело в том, что в этой медицинской области точность диагностики — вопрос первостепенной важности, и она напрямую зависит от умения интегрировать разнородную информацию: текстовые описания симптомов и результаты визуальных исследований. Это создаёт идеальные условия для испытания LLM, где моделям приходится демонстрировать не только лингвистические способности, но и умение анализировать изображения.
Исследование построено строго научно. В качестве «полигона» использовались 300 тщательно отобранных офтальмологических вопросов из авторитетного ресурса StatPearls. Чтобы всё было максимально честно, каждую модель тестировали двумя разными подходами к промптингу. Первый, zero-shot forced prompting, представлял собой простой, прямой запрос: «Выбери лучший ответ и объясни своё рассуждение». Второй, более сложный PS+ промптинг, имитировал экспертную консультацию. Представьте, что вы обращаетесь к LLM как к опытному офтальмологу, просите подготовиться к анализу клинического случая, а затем, шаг за шагом, с объяснением логики, выбрать верный диагноз из предложенных вариантов.
Для статистического анализа результатов учёные использовали x2-тест для категориальных переменных. Для подкатегорий офтальмологии и категории «Изображения» применялся точный тест Фишера, если более 20% данных были ниже значения 5. Для статистически значимых категорий проводилась коррекция Бонферрони для множественных сравнений LLM. P-value ниже 0.05 считался статистически значимым.
Скрытый текст
x2-тест для категориальных переменных — это статистический метод, использованный в исследовании для определения, являются ли различия в производительности между LLM статистически значимыми, а не случайными. Он сравнивает ожидаемое распределение правильных ответов, если бы все модели работали одинаково, с фактически наблюдаемым распределением.
И лучший ИИ-врач — это…
Безоговорочным лидером гонки стал GPT-4 (GPT-4o). При простом промптинге он правильно ответил на 72.3% вопросов, существенно опередив всех конкурентов.
Но это ещё не всё. Поразительным оказался рывок Microsoft Copilot. Стартовав с довольно скромных 53.7%, благодаря искусному PS+ промптингу, Copilot буквально преобразился, достигнув тех же 72.3%. Это стало показателем правильной стратегии промптинга, показав, как контекстно-ориентированные запросы могут вытащить максимум даже из, казалось бы, менее мощных моделей.

А что же Gemini? Модели Google показали более сдержанные результаты. Gemini Advanced, хоть и улучшил свои показатели при PS+ промптинге, всё равно остался позади GPT-4o. Но самая большая неожиданность ждала в категории «Изображения». Здесь Gemini и Gemini Advanced потерпели фиаско. Их точность в анализе офтальмологических изображений оказалась катастрофически низкой, независимо от типа промптинга. Разрыв с GPT-4o, который в этой же категории показал впечатляющие 85.7% при PS+ промптинге, был просто огромным и статистически значимым.
Немного выводов
В заключение, авторы исследования подчёркивают несколько важных моментов:
-
GPT-4o стабильно превосходит другие LLM при обоих типах промптинга.
-
Структурированные промпты, такие как PS+, значительно улучшают производительность Copilot.
-
Несмотря на прогресс LLM, ограничения в анализе визуальных данных сохраняются, особенно для моделей Gemini. Это говорит о необходимости специализированной доработки LLM для офтальмологической визуализации.
-
Дальнейшая оценка и доработка LLM критически важны для обеспечения их безопасной и эффективной интеграции в клиническую практику.
-
Будущие исследования должны быть направлены на разработку LLM с итеративным рассуждением, имитирующих реальные клинические сценарии, и обеспечивающих доказательные и интерпретируемые ответы. Также важно изучить интеграцию LLM в медицинские команды, масштабируемость для отдалённых районов и реальную валидацию для оценки их влияния на точность диагностики, эффективность и результаты лечения пациентов, не забывая об этических аспектах.
В целом, это исследование — ценный урок для всех нас. Оно напоминает, что выбор модели — это лишь часть уравнения. Не менее, а может и более важны методы промптинга и понимание сильных и слабых сторон каждой конкретной LLM, особенно когда речь идёт о применении в критически важных областях, таких как медицина. И, конечно, нельзя забывать о необходимости дальнейших исследований и осторожности при внедрении этих всё ещё неидеальных инструментов в реальную практику.