OpenAI вновь тестирует пределы возможного: компания представила GDPval — новую метрику, оценивающую способность ИИ решать прикладные задачи в 44 профессиях. Разбираемся, что именно измеряет эта шкала и стоит ли опасаться за свою работу.
На этот раз в OpenAI выдержали более взвешенный тон. Никаких сенсационных заявлений о «замене человека машиной» — акцент сделан на «поддержке людей». По словам разработчиков, GDPval создана для трезвой оценки областей, где модели уже приносят практическую пользу. В компании не спешат поднимать дискуссию о том, кто и когда будет заменён — исследование ориентировано на то, как ИИ может повышать эффективность труда, а не отбирать рабочие места.
Что оценивали
В основу GDPval положены 44 профессии из девяти отраслей, вносящих наибольший вклад в ВВП США. Исследователи сформировали выборку из 1320 реальных рабочих задач: от подготовки юридических документов и инженерных чертежей до общения со службой поддержки и планов ухода за пациентами — охвачены разнообразные профессиональные сценарии, где ИИ может применяться практически.
Особое внимание уделялось видам деятельности, где результат зависит от знаний, опыта и аналитического мышления. Для отбора профессий OpenAI опиралась на государственную базу ONET, которая классифицирует виды работ по уровню интеллектуальной и физической вовлечённости.
В выборку попали те профессии, где как минимум 60% задач требуют умственного труда: умения рассуждать, принимать решения и работать с информацией. Среди них — юристы, инженеры, разработчики, врачи, аналитики, сотрудники службы поддержки и другие роли, в которых влияние ИИ может быть наиболее заметным.
Результаты
OpenAI протестировала не только собственные модели, но и конкурентов. В исследовании участвовали GPT-4o, o4-mini, OpenAI o3, GPT-5, а также модели сторонних разработчиков: Claude Opus 4.1 от Anthropic, Gemini 2.5 Pro от Google и Grok 4 от xAI.
Вопреки ожиданиям, первое место по суммарным показателям заняла не модель OpenAI. Лидером стала Claude Opus 4.1 — особенно сильна она оказалась в эстетических задачах: оформлении документов, структуре презентаций и визуальной логике. GPT-5 финишировала второй, продемонстрировав высокую точность и глубину отраслевых знаний. Версия GPT-5 high получила оценку «на уровне или выше экспертов» в чуть более чем 40% случаев, тогда как GPT-4o, выпущенная весной 2024 года, показала лишь 13,7%.

Исследователи также отметили заметный прирост эффективности: с момента релиза GPT-4o качество выполнения задач по наборам GDPval практически удвоилось. Модели стали не только точнее, но и решают рабочие сценарии примерно в сто раз быстрее и дешевле по сравнению с людьми — однако OpenAI подчёркивает, что эти оценки касаются только «чистого» времени работы модели и стоимости API, без учёта проверки человеком, доработок и интеграции в бизнес-процессы. Поэтому поводов для паники пока немного.

