Иллюзия разума: почему статистическая аппроксимация не является сильным ИИ
Сегодня всё чаще звучат утверждения о том, что эра сильного искусственного интеллекта (AGI) уже наступила. Одно из наиболее резонансных заявлений такого рода было опубликовано в журнале Nature, ознакомиться с которым можно здесь (краткое изложение доступно по этой ссылке).
Авторы: Уолтер Кватрочокки, Валерио Капраро, Гэри Маркус
Оригинал материала: Gary Marcus Substack
Слухи о том, что человечество наконец создало полноценный ИИ, сопоставимый с человеческим разумом, кажутся нам сильно преувеличенными. Подобный оптимизм обычно подогревается успехами больших языковых моделей (LLM), которые демонстрируют впечатляющие результаты в синтетических тестах, виртуозно владеют языком и порой находят решения для сложных математических задач. Эти достижения ошибочно принимаются за окончательное доказательство триумфа AGI.
В основе таких интерпретаций лежит фундаментальное заблуждение: подмена понятия общего интеллекта результатами выполнения конкретных, зачастую узкоспециализированных задач. Блестящее решение отдельных кейсов не может служить достаточным аргументом в пользу наличия универсального разума. В данной статье мы аргументируем, что современные восторги основаны на концептуальной ошибке — смешении всё более изощренной статистической аппроксимации с подлинными когнитивными способностями. Мы также покажем, что недавние заявления об успехе ИИ (например, Chen et al., 2026) опираются на подмену исторически сложившегося определения AGI.

Эволюция и девальвация определения AGI
Изначально концепция «сильного искусственного интеллекта» подразумевала системы, способные гибко и надежно функционировать в самых разных условиях. Акцент делался не на решении заранее заданного набора задач, а на способности к обобщению (генерализации), адаптации к принципиально новым ситуациям и самостоятельному обучению.
Классическое определение Шейна Легга и Маркуса Хаттера (2007) описывает интеллект как умение агента добиваться целей в широком спектре контекстов, опираясь на устойчивость и способность к переносу навыков. Схожие идеи высказывал и Бен Гертцель (2014), подчеркивая важность самообучения и универсальности в решении проблем.
Долгое время эта парадигма оставалась незыблемой. Прогресс в бенчмарках признавался важным, но явно недостаточным условием для признания наличия абстрактного мышления или надежности системы. Хендрикс и соавторы (2025) недавно подтвердили: ключевыми критериями AGI остаются способность к генерализации вне рамок тестов и устойчивость к системным сбоям. Современные модели этим требованиям не соответствуют.
Тем не менее, в последние годы наблюдается попытка «размыть» или упростить понятие AGI. Не имея доказательств соответствия исходным критериям, некоторые исследователи начали подменять когнитивную сложность высокими баллами в тестах, что зачастую продиктовано коммерческими интересами. Другие пытаются переосмыслить AGI в чисто экономических категориях, приравнивая его к способности автоматизировать значительную часть человеческого труда.
Сегодня термин AGI фактически превратился в синоним успеха в стандартизированных бенчмарках. Фокусируясь на частных результатах, сторонники этого подхода игнорируют саму суть интеллекта — способность к гибкому обобщению. Это приводит к опасному смешению статистического правдоподобия с реальным разумом.

Ловушка бенчмарков: почему тесты лгут
Аргументы о достижении AGI часто опираются на показатели тестов. Например, Чен и коллеги утверждают, что прохождение теста Тьюринга является неоспоримым доказательством разумности ИИ. Однако успех в изолированной среде — крайне ненадежный индикатор.
Бенчмарки по своей природе оценивают узкие компетенции в стерильных условиях, где сложно отличить подлинное понимание от обычного распознавания паттернов. Высокий балл в тесте редко гарантирует стабильную работу в ситуации неопределенности или при смене целей.
Более того, тесты уязвимы для манипуляций. История с Юджином Густманом показала, что тест Тьюринга можно «пройти», эксплуатируя доверчивость людей и используя заученные фразы. В последние годы, когда от результатов тестов стали зависеть инвестиции, модели начали целенаправленно «натаскивать» (teaching to the test) на конкретных наборах данных. В итоге мы получаем системы, которые блестяще справляются с экзаменами, но пасуют перед реальностью. Медицинские исследования (Gu et al. 2025) подтверждают: модели выдают верные ответы в тестах даже при отсутствии важных вводных, но становятся нестабильными при малейшем изменении условий, генерируя правдоподобные, но ошибочные рассуждения.
Экономическая статистика подтверждает этот разрыв. Несмотря на «интеллект» в бенчмарках, современные нейросети способны автоматизировать лишь крошечную долю реальных рабочих задач (Eloundou et al., 2023). Дарон Аджемоглу (2025) прогнозирует, что влияние ИИ на общую производительность труда составит не более 0,66% за десятилетие. Эти цифры плохо вяжутся с амбициями «всемогущего» AGI.

Бихевиоризм 2.0: сходство поведения не означает равенство процессов
Увлечение бенчмарками повторяет старую ошибку бихевиоризма — попытку судить об интеллекте исключительно по внешним признакам, игнорируя внутренние механизмы. Когнитивная психология давно доказала: одинаковый результат может быть следствием абсолютно разных процессов.
Классический пример: голуби, обученные отличать фотографии людей от других изображений (Herrnstein & Loveland, 1964). Они успешно справлялись с задачей, но это не означало, что они понимают концепцию «человека» или способны к абстрактному мышлению вне контекста обучения.
То же самое происходит с LLM. Они имитируют человеческое поведение, выдавая результаты, которые внешне неотличимы от человеческих. Однако это сходство маскирует глубокую пропасть в способах обработки информации. В экспериментах по оценке надежности источников (Loru et al., 2025) эксперты-люди проявляли осторожность и указывали на нехватку данных там, где модели безапелляционно выдавали уверенные, но ничем не подкрепленные выводы. Это явление мы называем «эпистемией» — когда генеративное правдоподобие подменяет собой знание.
Люди учитывают причинно-следственные связи, цену ошибки и ответственность. Языковые модели же оптимизируют лингвистическую вероятность. Это структурное различие между «выглядеть компетентным» и «быть компетентным».
Реальные границы возможностей
Если оценивать существующие системы по исходным критериям AGI — автономность, целеполагание, устойчивость в новизне — их ограниченность становится очевидной. LLM не имеют собственных долгосрочных целей и критически зависят от человека, который формулирует задачи и проверяет результаты.
Даже успехи в математике, такие как решение задач Эрдёша, не меняют картины. Как отмечает Теренс Тао, это скорее результат высокоскоростного перебора и комбинирования известных методов, а не создание качественно новых стратегий мышления. Хрупкость систем проявляется в их чувствительности к формулировкам (промптам) и неспособности к стабильному переносу навыков между разными контекстами.
Признание этих ограничений не обесценивает прогресс, а лишь вносит ясность. ИИ сегодня — это мощный инструмент, но не самостоятельный разум. Ошибочное наделение статистических моделей когнитивными свойствами чревато неверным распределением ответственности и доверия в государственных и научных институтах. Смешивание аппроксимации с интеллектом — это не просто теоретическая неточность, а серьезный стратегический риск.
Об авторах:
- Уолтер Кватрочокки — профессор компьютерных наук, Университет Сапиенца (Рим), эксперт по динамике информации и влиянию ИИ на общество.
- Валерио Капраро — доцент Миланского университета Бикокка, исследователь поведенческой экономики и автор книг о влиянии LLM на науку.
- Гэри Маркус — почетный профессор Нью-Йоркского университета, известный критик современных подходов к ИИ и автор трудов по когнитивистике.
Список источников:
- Acemoglu, D. (2025). The simple macroeconomics of AI.
- Chen, E. K. et al. (2026). Does AI already have human-level intelligence? Nature.
- Gu, Y. et al. (2025). The Illusion of Readiness in Health AI.
- Hendrycks, D. et al. (2025). A Definition of AGI.
- Loru, E. et al. (2025). The Simulation of Judgment in Large Language Models. PNAS.


