ИИ не мыслит: ученые объяснили, почему «цепочки рассуждений» — это лишь статистика

На фоне стремительного прогресса больших рассуждающих моделей (Large Reasoning Models, LRM) научная группа под руководством Суббарао Камбхампати из Университета штата Аризона представила исследование, ставящее под сомнение устоявшуюся парадигму индустрии ИИ: убеждение, что промежуточные «цепочки рассуждений» (Chain of Thought, CoT) являются отражением реального когнитивного процесса нейросети.

Эксперты подчеркивают: такие модели, как OpenAI o1 или DeepSeek R1, создают лишь искусную иллюзию мыслительной деятельности, генерируя массивные последовательности промежуточных токенов. Однако, с точки зрения архитектуры трансформеров, подобные «рассуждения» не имеют ничего общего с логическим выводом. По сути, это лишь статистическое прогнозирование следующего фрагмента данных на основе предшествующего контекста.

Особое внимание уделено феномену «момента озарения» (Aha-moment), когда нейросеть «восклицает»: «Ага, я понял!». Исследователи настаивают: в этот момент внутри системы не происходит качественного перелома или аналитического скачка. Подобные обороты — не более чем культурная мимикрия под человеческий стиль мышления, заимствованная моделью в процессе обучения на огромных массивах пользовательских текстов.

Технический анализ показывает, что современные системы, опирающиеся на обучение с подкреплением через проверяемые вознаграждения (RLVR), оптимизированы исключительно под достижение итогового результата. Промежуточные токены лишены семантической нагрузки и не подвергаются верификации. Авторы предлагают видеть в них лишь способ адаптивного расширения контекста: модель превращает сложную задачу в последовательность токенов, при которой вероятность статистического успеха становится выше.

ИИ не мыслит: ученые объяснили, почему «цепочки рассуждений» — это лишь статистика
Изображение сгенерировано: Nano Banana

Для проверки этой гипотезы были использованы задачи, поддающиеся формальной верификации, такие как навигация в лабиринтах. Итоги оказались примечательными: модели демонстрировали высокую точность даже при подмене осмысленных рассуждений бессмысленным набором данных. Падение эффективности наблюдалось лишь при хаотичном перемешивании шаблонов.

Этот «U-образный эффект» доказывает: нейросеть ориентируется не на внутреннюю логику, а на статистическую структуру повествования. Она использует свои «рассуждения» как стандартный шаблон генерации, а не как инструмент познания.

Дополнительным доказательством стали эксперименты с «пустыми» лабиринтами без препятствий. Несмотря на примитивность условий, модели продолжали генерировать многостраничные выкладки. Это опровергает миф о том, что длина рассуждений коррелирует с объемом вычислительной работы. Скорее, это артефакт обучающей выборки, где сложные задачи исторически сопровождались длинными объяснениями.

Ученые предостерегают от попыток интерпретировать работу LLM через анализ промежуточных токенов, так как это рождает «ложное доверие». Пользователи склонны принимать правдоподобный текст за признак корректности, что критически опасно в таких сферах, как медицина или юриспруденция, где человек не в силах оперативно проверить десятки страниц автосгенерированного «анализа».

По мнению авторов, индустрия оказалась в ловушке «театра рассуждений», подменяя разработку математически строгих архитектур созданием имитаций человеческой речи. Альтернативой может стать подход LLM-Modulo, где нейросеть лишь формулирует гипотезы, а их верификация ложится на плечи внешних, строго формализованных алгоритмов.

Ключевой вывод работы ясен: современные цепочки рассуждений — это не окно в разум ИИ. Следует отказаться от антропоморфизации нейросетей и сменить вектор развития на создание систем, чья надежность подтверждается не «красноречием» их внутреннего монолога, а объективными результатами, прошедшими независимую проверку.

 

Источник: iXBT

Читайте также