Пару дней назад на конференции GTC 2025 Nvidia представила первую open source модель для гуманоидных роботов — Isaac GR00T N1. Оммаж Marvel Studios считывается на ура и объясняется стратегическим партнерством Nvidia с Disney Research и Google DeepMind в области робототехники — на той же конференции гендиректор Nvidia Дженсен Хуанг представил еще и физический движок Newton для моделирования движения роботов в условиях реальной среды.
Но не это самое интересное. Isaac GR00T N1 примечательна тем, что в ней используется dual-system design — «дуальная система мышления». Авторы разработки не скрывают, что взяли идею у нобелевского лауреата Даниэля Канемана из его известной научно-популярной книжки «Думай медленно, решай быстро». И нам стало интересно разобраться, где закончилось вдохновение и начался авторский подход — и чем вообще различаются AI-модель Nvidia и модель человеческого мышления Канемана. Об этом расскажу я — Екатерина Косова — аналитик Cloud.ru и исследователь в области когнитивной психологии.

О чем вообще писал Канеман
Вовсе не о том, что думать надо медленно, а решать надо быстро. Основная идея дуальной теории мышления (она же теория двойного процесса, dual process theory или попросту DPT) заключается в том, что любому человеку изначально по природе его свойственны два типа мышления (быстрое и медленное), которые, вероятно, эволюционно развивались параллельно друг другу и были предназначены для разных задач.
Саму идею дуального мышления придумал не Канеман. Они с близким другом и коллегой Амосом Тверски скорее доработали и популяризировали теорию, витавшую в воздухе и до них. Например, еще в конце XIX века Уильям Джеймс, один из основоположников и первопроходцев психологии как науки, предположил, что человеческому сознанию присущи два пути взаимодействия с миром: интуитивное понимание и логическое рассуждение. При анализе информации первый тип мышления (подсознательный, автоматический, непроизвольный) значительно превосходит второй тип по скорости, но уступает ему во внимании к деталям и способности к обучению.
В свою очередь Канеман, по аналогии с ассоциативным мышлением Джеймса, определил интуитивное понимание как быстрое, бессознательное, непроизвольное умозаключение, часто эмоционального характера, которое основано на прошлом опыте и привычках, а потому трудно поддается корректировке или влиянию (Система 1). В качестве противоположности он описывает логическое мышление: медленный, последовательный и гораздо более гибкий процесс, находящийся под контролем разума и отвечающий за формирование рациональных мнений и установок (Система 2).

Таким образом, суть дуального процессинга сводится к тому, что в человеческом мозге существуют два различных, но взаимосвязанных типа мышления, две когнитивные системы рассуждений, которые в ходе эволюции развивались отдельно, поскольку отвечали за принципиально разные задачи.
Стоит отметить, что исторически DPT Канемана развивалась в том числе в противовес неоклассическим теориям принятия решений, в которых предполагалось, что человек принимает решения, основываясь на рациональном принципе максимизации выгод и минимизации издержек (Homo Economicus). В этом смысле DPT — относительно правдоподобная основа, описывающая внутреннюю динамику принятия решений. К тому же подкрепленная неплохой эмпирической базой: если интересно углубиться, рекомендую начать с Tversky & Kahneman, 1974, где просто и коротко описаны основные эвристики, обнаруженные Канеманом и Тверски и являющиеся продуктом Системы 1.
К слову, теория дуального процессинга периодически подтверждается не только на уровне поведенческих экспериментов, но и на уровне нейрофизиологии. В 2004 году McClure et al. опубликовали интересную статью, в которой доказали, что в зависимости от степени «близости» ожидаемого вознаграждения во времени процесс принятия решения протекает по разным мозговым системам. Респонденты в эксперименте выбирали, хотят ли они получить меньшую сумму денег раньше или большую сумму — позже (размеры награды варьировались от 5 до 40 долларов, а срок получения — от дня эксперимента до шести недель после него).
Если переводить сложный научный на простой русский язык, есть исследователи с помощью фМРТ обнаружили две системы принятия решений в зависимости от выбранного респондентом условия:
-
β-система отвечает за процессинг более близкого вознаграждения и на физиологическом уровне коррелирует с лимбическими и паралимбическими структурами коры. Эти области богаты дофамином (нейромедиатор, который вызывает чувство удовольствия и является одним из ключевых элементов системы мотивации), часто вовлечены в импульсивное, временами даже деструктивное поведение. В известной серии экспериментов Олдса и Милнера (1954) крысы, которым предлагалось самостоятельно и бесконтрольно стимулировать дофаминергическую систему, предпочитали такую стимуляцию еде и воде даже в условиях крайнего истощения.
-
δ-система связана с латеральными префронтальными и теменными областями, которые обычно участвуют в сложных когнитивных процессах, таких как размышления или когнитивный контроль. В нее входят латеральные префронтальные и теменные области. Так, важная часть дельта-пути — дорсолатеральная префронтальная кора (DLPFC) — область мозга, отвечающая среди прочего за «взвешивание» разных опций при принятии решений, разрешение конфликтов (например, подавление обработки нерелевантной информации), способность переключаться между задачами и адаптироваться к новым правилам. Проще говоря, дельта-система участвует в обдумывании сложных решений и выборе оптимальных альтернатив.
Короткий вывод: опять две системы (пусть и не совсем Канемановские) сочетаются в одном человеке. Впрочем, чтобы сохранить объективность, отмечу, что DPT подвергается весьма активной критике: если интересно почитать, в чем же проблемы этой теории, начать рекомендую с Grayot, 2020.
А что там в GR007 N1?
Идея дуальной системы подробно описана в Whitepaper проекта. Основная ее суть в том, что Система 1 управляет действиями робота на основе данных о текущем состоянии робота и инструкций, которые формирует Система 2.

Если подробнее, то процесс «мышления» робота начинается с того, что из окружающей среды в Систему 2 попадают входные данные — изображения и текстовые инструкций. В основе Системы 2 — предварительно обученная на обширных интернет-данных Vision-Language Model (VLM), которая с высокой степенью точности интерпретирует и кодирует визуальные и языковые сигналы. VLM одновременно обрабатывает изображения и извлекает из них ключевые особенности, а также интерпретирует текстовые команды. За счет этого Система 2 формирует комплексное описание действия, которое должен выполнить робот.
После этого закодированная информация поступает в Diffusion Transformer Module (Систему 1) — он отвечает за преобразование данных в конкретные моторные команды. В модели DiT используются блоки с адаптивной нормализацией слоев, что позволяет эффективно очищать данные от шума и генерировать действия, предсказывая и корректируя их с учетом зашумленных векторов состояния и действий робота.
Так интерпретация и понимание задач (Система 2) сочетаются с точным управлением и исполнением (Система 1). В результате робот выполняет сложные задачи в реальном времени, а также действует автономно и эффективно в разнообразных условиях.
Nvidia vs. Канеман
На самом деле, как от этого ни грустно моему внутреннему когнитивисту, Nvidia взяли от идей Канемана скорее общую идею двухсистемности, а не основную суть теории. Единственное, чем архитектуры «мышления» робота и человека похожи в этом случае, помимо наличия двух систем, — так это тем, что Системе 2 отводится условно стратегическая роль в принятии решений, а Система 1 выступает не слишком размышляющим актором. В GR007 N1 Система 1 в принципе не интерпретирует мир, а у Канемана — делает это настолько быстро и непроизвольно, что ряд интерпретаций и действий практически остается «за рамками» нашей осознанности и выполняется на автопилоте. Например, мы, конечно, можем контролировать процесс жевания, но как часто мы действительно этим занимаемся?
А вот различий между архитектурами Nvidia и Канемана все же оказывается больше.
Во-первых, если у Nvidia модули должны работать строго согласовано (иначе в чем смысл разделения), то Канемановские системы мышления нет-нет да конфликтуют — когнитивные искажения яркий тому пример. Мои студенты часто легко проходят большинство заданий из экспериментов Канемана и Тверски на когнитивные искажения и эвристичность мышления, но почти всегда ломаются на этой задачке (Tversky & Kahneman, 1974). Попробуйте решить ее с наскока, а потом дайте себе минутку-другую подумать и сравните ответы:
В одном городе работают две больницы. В большей больнице каждый день рождается около 45 детей, а в меньшей — около 15. Как вы знаете, около 50% всех детей — мальчики. Однако точный процент меняется изо дня в день. Иногда он может быть выше 50%, иногда ниже. В течение одного года каждая больница регистрировала дни, когда более 60% родившихся детей были мальчиками. Как вы думаете, в какой больнице было зафиксировано больше таких дней?
Правильный ответ
В меньшей больнице. Если вы ответили по-другому, то поздравляю, вы попались в ловушку эвристики репрезентативности малых выборок. На самом деле, чем большее число людей случайно выбирается из популяции, тем более репрезентативной будет полученная группа по отношению ко всей популяции — и наоборот — закон больших чисел.
Во-вторых, разница кроется в принципах последовательности или параллельности работы. В архитектуре GR007 модели обучаются совместно и должны работать синхронно, т. е. по сути параллельно. Система 2 (VLM-модуль) анализирует среду и ставит задачи на частоте 10 Гц (раз в 100 мс), формируя стратегические планы, а Система 1 (Diffusion Transformer) непрерывно генерирует моторные действия на 120 Гц (каждые 8.3 мс), адаптируя эти планы в реальном времени.
В случае с человеческим мышлением в концепции Канемана ситуация иная: вся параллельность работы систем по сути сводится к тому, что Система 2 как бы «наблюдает» за Системой 1, но подключаются к работе они последовательно. Если говорить простым языком, то Система 1 непрерывно обрабатывает информацию из окружающего мира и пытается генерировать решения на ее основе, а Система 2 активизируется в случае осознанного усилия и при этом обычно нарушает работу Системы 1. Если в задаче выше вы сначала дали интуитивный ответ, а затем напряглись и обдумали его, то вы как раз силой воли переключились между двумя системами мышления. Здесь, правда, стоит отметить еще и то, что Канемановская Система 2 на самом деле довольно ленива и не всегда готова включиться в работу в случае ошибочных выводов Системы 1 — поэтому мы не всегда отслеживаем и вовремя корректируем нарушения логики и когнитивные искажения.
Наконец, третье важное отличие — в способности к обучению. В случае с Nvidia архитектура модели выстроена таким образом, чтобы обеспечить быстрое и динамическое обучение на основе постоянно поступающих данных из реальной среды и данных от нейросгенерированных траекторий движения. Иными словами, способность обучаться — важная фича систем Nvidia. А вот в случае с человеком относительно неплохо обучается только Система 2, в то время как эвристическая Система 1 адаптируется к новым условиям среды с заметными усилиями и сопротивлением. Фишка как раз в разделении задач, для которых Системы 1 и 2 эволюционно развивались. Система 1 сама по себе призвана давать максимально быстрый, по сути автоматический ответ (видишь тигра — беги!), а автоматизмы очень плохо поддаются корректировке.
Подводя итог, приятно, конечно, что устройство искусственного интеллекта по-прежнему весьма тесно пересекается с работой когнитивных механизмов человека — как известно, сама архитектура первых искусственных нейросетей выстраивалась по аналогии с архитектурой человеческого восприятия. Но не менее приятно наблюдать за тем, как исследователи постепенно отстраивают технологии, учитывая специфику их задач, а не только базируясь на том, что уже придумано природой.
А еще, пользуясь случаем, приглашаю вас на конференцию GoCloud 2025. В программе трек «AI & ML» — коллеги поделятся опытом использования AI-инструментов и расскажут про новые крутые продукты.
Источники:
-
Tversky, A., & Kahneman, D. (1974). Judgment under Uncertainty: Heuristics and Biases: Biases in judgments reveal some heuristics of thinking under uncertainty. science, 185(4157), 1124-1131.
-
McClure, S. M., Laibson, D. I., Loewenstein, G., & Cohen, J. D. (2004). Separate neural systems value immediate and delayed monetary rewards. Science, 306(5695), 503-507.
-
Olds, J., & Milner, P. (1954). Positive reinforcement produced by electrical stimulation of septal area and other regions of rat brain. Journal of comparative and physiological psychology, 47(6), 419.
-
Grayot, J. D. (2020). Dual process theories in behavioral economics and neuroeconomics: A critical review. Review of Philosophy and Psychology, 11(1), 105-136.