Итоговая проверка цивилизации: действительно ли ИИ обладает разумом?

2 часа назад

Фундаментальный принцип научного познания — критический скептицизм: ни одно утверждение не признается истинным без эмпирического подтверждения. Любая гипотеза требует верификации через систему метрик, испытаний и моделирования. Все явления во Вселенной, от физических объектов до абстрактных концепций, подлежат измерению. Знания не являются исключением — их уровень традиционно оценивается с помощью экзаменов в учебных заведениях. С развитием генеративного ИИ разгорелись споры о реальной глубине «интеллекта» нейросетей и достоверности их ответов. Прежние методы тестирования перестали быть репрезентативными, так как модели научились обходить их. В ответ на этот вызов исследователи из Техасского университета A&M разработали «Финальный экзамен человечества» (Humanity’s Last Exam) — беспрецедентный по сложности массив вопросов из самых разных областей науки. В данной статье мы разберем структуру этого теста и проанализируем, насколько успешно с ним справились ведущие ИИ-системы.

Концепция исследования

Возможности больших языковых моделей (LLM) эволюционировали настолько, что в ряде задач они уже превосходят человеческие показатели. Традиционно для их оценки используются бенчмарки — наборы задач в сфере математики, программирования или естественных наук. Однако современные нейросети демонстрируют точность свыше 90% на классических тестах, таких как MMLU (Massive Multitask Language Understanding), которые еще недавно считались эталоном сложности. Как видно на графике ниже, эффект насыщения существующих метрик ограничивает объективную оценку прогресса ИИ, требуя создания качественно новых инструментов контроля.

Изображение №1

Для преодоления этого барьера ученые представили HLE — бенчмарк из 2500 сложнейших вопросов, охватывающих десятки дисциплин. Этот тест нацелен на проверку компетенций экспертного уровня в гуманитарных и точных науках. HLE — мультимодальный инструмент, включающий текстовые задачи и вопросы с визуальными данными. Важной особенностью является оригинальность контента: ответы нельзя найти в поисковиках или извлечь из существующих баз данных. Особый акцент сделан на математических задачах высшего порядка, требующих глубокой логической дедукции.

Процесс верификации контента был многоуровневым. Каждый вопрос предварительно проверялся на существующих LLM: если нейросеть мгновенно давала верный ответ, задание отсеивалось. Оставшиеся вопросы проходили двойную экспертизу: сначала рецензировались специалистами с магистерской степенью, а затем утверждались профильными экспертами и организаторами проекта.

По мере того как ИИ приближается к человеческому уровню в узких областях, критически важно иметь точные инструменты для измерения его границ. HLE призван стать такой «нулевой точкой» отсчета, позволяя выявлять случаи переобучения моделей и оценивать их реальный когнитивный потенциал.

Структура экзамена

Формирование базы данных

Изображение №2

HLE включает в себя 2500 заданий по более чем 100 академическим предметам. В разработке участвовало около тысячи экспертов из 500 ведущих мировых институтов. Ниже представлены примеры междисциплинарных вопросов, демонстрирующих уровень сложности теста.

Изображение №3

Тест комбинирует два формата: открытые вопросы (где модель генерирует точный ответ) и задания с множественным выбором (один верный вариант из пяти и более). Около 14% задач требуют анализа изображений, а 76% представляют собой вопросы с необходимостью точного совпадения ответа.

Каждое задание сопровождалось строгим набором метаданных: подробным обоснованием решения, указанием дисциплины и авторства. Это гарантировало академическую ответственность и исключало двусмысленность.

Ключевым условием была невозможность решения через простое запоминание. Вопросы требовали синтеза знаний на уровне аспирантуры или затрагивали узкоспециализированные факты (локальные обычаи, редкие исторические хроники). Чтобы избежать случайных угадываний, авторы усложняли структуру вариантов ответов. Техническая часть оформлялась с использованием нотации LaTeX. Категорически запрещались субъективные трактовки и контент, связанный с технологиями создания оружия массового поражения.

Методология проверки

Для фильтрации заданий было проведено более 70 000 тестов на современных LLM. Только те 13 000 вопросов, которые поставили алгоритмы в тупик, были допущены до экспертной оценки. Рецензенты — обладатели ученых степеней — проводили двухэтапный отбор.

На первом этапе задания дорабатывались для достижения максимальной точности формулировок. На втором — отбирались наиболее качественные и репрезентативные задачи для финальной версии HLE. Схема процесса представлена ниже.

Изображение №4

После формирования итогового набора данных ученые провели оценку передовых мультимодальных моделей. Использовался унифицированный промпт, требующий от ИИ сначала привести логическое обоснование, а затем дать ответ. Для автоматизации проверки применялась модель o3-mini, способная сопоставлять разные форматы записи (например, эквивалентные дроби).

Анализ результатов

Таблица №1

Итоги тестирования оказались неутешительными для разработчиков ИИ: все модели показали крайне низкую точность (Таблица №1). Это ожидаемо, так как бенчмарк специально проектировался как «непроходимый» для текущих систем. Низкие ненулевые показатели часто объясняются статистическим шумом или случайным угадыванием в вопросах с вариантами ответов.

Примечательно, что модели часто демонстрировали избыточную уверенность. Ученые просили ИИ оценивать вероятность правильности своего ответа от 0% до 100%. Выяснилось, что нейросети склонны заявлять о полной уверенности в своих действиях, даже выдавая абсолютно ошибочные решения. Это подчеркивает проблему плохой калибровки современных LLM.

Изображение №5

Современные модели рассуждения (reasoning models) тратят дополнительные ресурсы на генерацию промежуточных цепочек мыслей. Исследователи проанализировали зависимость точности от количества затраченных токенов рассуждения (график выше). Выявилась лог-линейная зависимость, однако после порога в 2¹⁴ токенов рост точности прекращался. Это доказывает, что простое увеличение вычислительных затрат на «обдумывание» не является панацеей, и будущие системы должны фокусироваться на эффективности алгоритмов, а не на грубой силе.

Подробности методологии и полные данные доступны в основном докладе и сопутствующих материалах.

Заключение

Созданный учеными «Последний экзамен человечества» стал суровым испытанием для современных технологий. Вопросы, требующие не просто извлечения информации, а глубокого синтеза и узкоспециальных знаний, оказались практически непреодолимыми для ИИ. Результаты говорят сами за себя: GPT-4o набрала лишь 2.7%, Claude 3.5 Sonnet — 4.1%, а более продвинутая модель o1 от OpenAI достигла 8%. Даже лидеры индустрии, такие как Gemini 3.1 Pro, не смогли преодолеть барьер в 50% точности.

Авторы исследования подчеркивают: наличие колоссального объема данных не тождественно пониманию сути вещей. ИИ сегодня напоминает гигантский цифровой агрегат, аккумулирующий информацию со всего интернета. В момент запроса он не «мыслит», а статистически подбирает наиболее вероятные фрагменты текста. Даже имитация логических рассуждений — это лишь повторение паттернов, найденных в обучающей выборке. Способность к нестандартному мышлению, творческому поиску и интуитивному пониманию остается исключительной прерогативой человека. ИИ — мощный инструмент, но его ценность и безопасность полностью зависят от целей тех, кто им управляет.

Немного рекламы

Благодарим за внимание! Если вам интересны глубокие технические разборы, поддержите нас. Мы предлагаем облачные VPS для разработчиков от $4.99 — это **уникальное решение начального уровня, созданное нами для ваших проектов:** Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 (в наличии конфигурации с RAID1 и RAID10, до 24 ядер).

**Нужна мощь Dell R730xd по выгодной цене в Нидерландах (дата-центр Tier IV)?** У нас есть эксклюзивные предложения: **2 х Intel Xeon E5-2697v3 2.6GHz (28 ядер) 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ всего от $199!** Также доступен бюджетный вариант: **Dell R420 — 2x E5-2430 128GB DDR3 2x960GB SSD от $99!** Узнайте, как развернуть корпоративную инфраструктуру на базе серверов Dell за минимальный бюджет.

Источник