Isaac GR00T N1: каким образом Nvidia применяет научные концепции Канемана в области робототехники

Пару дней назад на конференции GTC 2025 Nvidia представила первую open source модель для гуманоидных роботов — Isaac GR00T N1. Оммаж Marvel Studios считывается на ура и объясняется стратегическим партнерством Nvidia с Disney Research и Google DeepMind в области робототехники — на той же конференции гендиректор Nvidia Дженсен Хуанг представил еще и физический движок Newton для моделирования движения роботов в условиях реальной среды.

Но не это самое интересное. Isaac GR00T N1 примечательна тем, что в ней используется dual-system design — «дуальная система мышления». Авторы разработки не скрывают, что взяли идею у нобелевского лауреата Даниэля Канемана из его известной научно-популярной книжки «Думай медленно, решай быстро». И нам стало интересно разобраться, где закончилось вдохновение и начался авторский подход — и чем вообще различаются AI-модель Nvidia и модель человеческого мышления Канемана. Об этом расскажу я — Екатерина Косова — аналитик Cloud.ru и исследователь в области когнитивной психологии. 

Isaac GR00T N1: каким образом Nvidia применяет научные концепции Канемана в области робототехники
Источник: https://www.vedomosti.ru/technology/articles/2025/03/19/1098845-nvidia-predstavila-antropomorfnogo-robota

О чем вообще писал Канеман

Вовсе не о том, что думать надо медленно, а решать надо быстро. Основная идея дуальной теории мышления (она же теория двойного процесса, dual process theory или попросту DPT) заключается в том, что любому человеку изначально по природе его свойственны два типа мышления (быстрое и медленное), которые, вероятно, эволюционно развивались параллельно друг другу и были предназначены для разных задач.

Саму идею дуального мышления придумал не Канеман. Они с близким другом и коллегой Амосом Тверски скорее доработали и популяризировали теорию, витавшую в воздухе и до них. Например, еще в конце XIX века Уильям Джеймс, один из основоположников и первопроходцев психологии как науки, предположил, что человеческому сознанию присущи два пути взаимодействия с миром: интуитивное понимание и логическое рассуждение. При анализе информации первый тип мышления (подсознательный, автоматический, непроизвольный) значительно превосходит второй тип по скорости, но уступает ему во внимании к деталям и способности к обучению.

В свою очередь Канеман, по аналогии с ассоциативным мышлением Джеймса, определил интуитивное понимание как быстрое, бессознательное, непроизвольное умозаключение, часто эмоционального характера, которое основано на прошлом опыте и привычках, а потому трудно поддается корректировке или влиянию (Система 1). В качестве противоположности он описывает логическое мышление: медленный, последовательный и гораздо более гибкий процесс, находящийся под контролем разума и отвечающий за формирование рациональных мнений и установок (Система 2). 

Обобщенные характеристики Системы 1 и Системы 2
Обобщенные характеристики Системы 1 и Системы 2

Таким образом, суть дуального процессинга сводится к тому, что в человеческом мозге существуют два различных, но взаимосвязанных типа мышления, две когнитивные системы рассуждений, которые в ходе эволюции развивались отдельно, поскольку отвечали за принципиально разные задачи. 

Стоит отметить, что исторически DPT Канемана развивалась в том числе в противовес неоклассическим теориям принятия решений, в которых предполагалось, что человек принимает решения, основываясь на рациональном принципе максимизации выгод и минимизации издержек (Homo Economicus). В этом смысле DPT — относительно правдоподобная основа, описывающая внутреннюю динамику принятия решений. К тому же подкрепленная неплохой эмпирической базой: если интересно углубиться, рекомендую начать с Tversky & Kahneman, 1974, где просто и коротко описаны основные эвристики, обнаруженные Канеманом и Тверски и являющиеся продуктом Системы 1. 

К слову, теория дуального процессинга периодически подтверждается не только на уровне поведенческих экспериментов, но и на уровне нейрофизиологии. В 2004 году McClure et al. опубликовали интересную статью, в которой доказали, что в зависимости от степени «близости» ожидаемого вознаграждения во времени процесс принятия решения протекает по разным мозговым системам. Респонденты в эксперименте выбирали, хотят ли они получить меньшую сумму денег раньше или большую сумму — позже (размеры награды варьировались от 5 до 40 долларов, а срок получения — от дня эксперимента до шести недель после него). 

Если переводить сложный научный на простой русский язык, есть исследователи с помощью фМРТ обнаружили две системы принятия решений в зависимости от выбранного респондентом условия: 

  • β-система отвечает за процессинг более близкого вознаграждения и на физиологическом уровне коррелирует с лимбическими и паралимбическими структурами коры. Эти области богаты дофамином (нейромедиатор, который вызывает чувство удовольствия и является одним из ключевых элементов системы мотивации), часто вовлечены в импульсивное, временами даже деструктивное поведение. В известной серии экспериментов Олдса и Милнера (1954) крысы, которым предлагалось самостоятельно и бесконтрольно стимулировать дофаминергическую систему, предпочитали такую стимуляцию еде и воде даже в условиях крайнего истощения.

  • δ-система связана с латеральными префронтальными и теменными областями, которые обычно участвуют в сложных когнитивных процессах, таких как размышления или когнитивный контроль. В нее входят латеральные префронтальные и теменные области. Так, важная часть дельта-пути — дорсолатеральная префронтальная кора (DLPFC) — область мозга, отвечающая среди прочего за «взвешивание» разных опций при принятии решений, разрешение конфликтов (например, подавление обработки нерелевантной информации), способность переключаться между задачами и адаптироваться к новым правилам. Проще говоря, дельта-система участвует в обдумывании сложных решений и выборе оптимальных альтернатив.

Короткий вывод: опять две системы (пусть и не совсем Канемановские) сочетаются в одном человеке. Впрочем, чтобы сохранить объективность, отмечу, что DPT подвергается весьма активной критике: если интересно почитать, в чем же проблемы этой теории, начать рекомендую с Grayot, 2020

А что там в GR007 N1?

Идея дуальной системы подробно описана в Whitepaper проекта. Основная ее суть в том, что Система 1 управляет действиями робота на основе данных о текущем состоянии робота и инструкций, которые формирует Система 2.

Источник: https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T_1_Whitepaper.pdf
Источник: https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T_1_Whitepaper.pdf

Если подробнее, то процесс «мышления» робота начинается с того, что из окружающей среды в Систему 2 попадают входные данные — изображения и текстовые инструкций. В основе Системы 2 — предварительно обученная на обширных интернет-данных Vision-Language Model (VLM), которая с высокой степенью точности интерпретирует и кодирует визуальные и языковые сигналы. VLM одновременно обрабатывает изображения и извлекает из них ключевые особенности, а также интерпретирует текстовые команды. За счет этого Система 2 формирует комплексное описание действия, которое должен выполнить робот.

После этого закодированная информация поступает в Diffusion Transformer Module (Систему 1) — он отвечает за преобразование данных в конкретные моторные команды. В модели DiT используются блоки с адаптивной нормализацией слоев, что позволяет эффективно очищать данные от шума и генерировать действия, предсказывая и корректируя их с учетом зашумленных векторов состояния и действий робота. 

Так интерпретация и понимание задач (Система 2) сочетаются с точным управлением и исполнением (Система 1). В результате робот выполняет сложные задачи в реальном времени, а также действует автономно и эффективно в разнообразных условиях.

Nvidia vs. Канеман

На самом деле, как от этого ни грустно моему внутреннему когнитивисту, Nvidia взяли от идей Канемана скорее общую идею двухсистемности, а не основную суть теории. Единственное, чем архитектуры «мышления» робота и человека похожи в этом случае, помимо наличия двух систем, — так это тем, что Системе 2 отводится условно стратегическая роль в принятии решений, а Система 1 выступает не слишком размышляющим актором. В GR007 N1 Система 1 в принципе не интерпретирует мир, а у Канемана — делает это настолько быстро и непроизвольно, что ряд интерпретаций и действий практически остается «за рамками» нашей осознанности и выполняется на автопилоте. Например, мы, конечно, можем контролировать процесс жевания, но как часто мы действительно этим занимаемся?

А вот различий между архитектурами Nvidia и Канемана все же оказывается больше. 

Во-первых, если у Nvidia модули должны работать строго согласовано (иначе в чем смысл разделения), то Канемановские системы мышления нет-нет да конфликтуют — когнитивные искажения яркий тому пример. Мои студенты часто легко проходят большинство заданий из экспериментов Канемана и Тверски на когнитивные искажения и эвристичность мышления, но почти всегда ломаются на этой задачке (Tversky & Kahneman, 1974). Попробуйте решить ее с наскока, а потом дайте себе минутку-другую подумать и сравните ответы:

В одном городе работают две больницы. В большей больнице каждый день рождается около 45 детей, а в меньшей — около 15. Как вы знаете, около 50% всех детей — мальчики. Однако точный процент меняется изо дня в день. Иногда он может быть выше 50%, иногда ниже. В течение одного года каждая больница регистрировала дни, когда более 60% родившихся детей были мальчиками. Как вы думаете, в какой больнице было зафиксировано больше таких дней?

Правильный ответ

В меньшей больнице. Если вы ответили по-другому, то поздравляю, вы попались в ловушку эвристики репрезентативности малых выборок. На самом деле, чем большее число людей случайно выбирается из популяции, тем более репрезентативной будет полученная группа по отношению ко всей популяции — и наоборот — закон больших чисел.

Во-вторых, разница кроется в принципах последовательности или параллельности работы. В архитектуре GR007 модели обучаются совместно и должны работать синхронно, т. е. по сути параллельно. Система 2 (VLM-модуль) анализирует среду и ставит задачи на частоте 10 Гц (раз в 100 мс), формируя стратегические планы, а Система 1 (Diffusion Transformer) непрерывно генерирует моторные действия на 120 Гц (каждые 8.3 мс), адаптируя эти планы в реальном времени. 

В случае с человеческим мышлением в концепции Канемана ситуация иная: вся параллельность работы систем по сути сводится к тому, что Система 2 как бы «наблюдает» за Системой 1, но подключаются к работе они последовательно. Если говорить простым языком, то Система 1 непрерывно обрабатывает информацию из окружающего мира и пытается генерировать решения на ее основе, а Система 2 активизируется в случае осознанного усилия и при этом обычно нарушает работу Системы 1. Если в задаче выше вы сначала дали интуитивный ответ, а затем напряглись и обдумали его, то вы как раз силой воли переключились между двумя системами мышления. Здесь, правда, стоит отметить еще и то, что Канемановская Система 2 на самом деле довольно ленива и не всегда готова включиться в работу в случае ошибочных выводов Системы 1 — поэтому мы не всегда отслеживаем и вовремя корректируем нарушения логики и когнитивные искажения.

Наконец, третье важное отличие — в способности к обучению. В случае с Nvidia архитектура модели выстроена таким образом, чтобы обеспечить быстрое и динамическое обучение на основе постоянно поступающих данных из реальной среды и данных от нейросгенерированных траекторий движения. Иными словами, способность обучаться — важная фича систем Nvidia. А вот в случае с человеком относительно неплохо обучается только Система 2, в то время как эвристическая Система 1 адаптируется к новым условиям среды с заметными усилиями и сопротивлением. Фишка как раз в разделении задач, для которых Системы 1 и 2 эволюционно развивались. Система 1 сама по себе призвана давать максимально быстрый, по сути автоматический ответ (видишь тигра — беги!), а автоматизмы очень плохо поддаются корректировке.

Подводя итог, приятно, конечно, что устройство искусственного интеллекта по-прежнему весьма тесно пересекается с работой когнитивных механизмов человека — как известно, сама архитектура первых искусственных нейросетей выстраивалась по аналогии с архитектурой человеческого восприятия. Но не менее приятно наблюдать за тем, как исследователи постепенно отстраивают технологии, учитывая специфику их задач, а не только базируясь на том, что уже придумано природой. 

А еще, пользуясь случаем, приглашаю вас на конференцию GoCloud 2025. В программе трек «AI & ML» — коллеги поделятся опытом использования AI-инструментов и расскажут про новые крутые продукты.

Источники: 

  1. Tversky, A., & Kahneman, D. (1974). Judgment under Uncertainty: Heuristics and Biases: Biases in judgments reveal some heuristics of thinking under uncertainty. science, 185(4157), 1124-1131.

  2. McClure, S. M., Laibson, D. I., Loewenstein, G., & Cohen, J. D. (2004). Separate neural systems value immediate and delayed monetary rewards. Science, 306(5695), 503-507.

  3. Olds, J., & Milner, P. (1954). Positive reinforcement produced by electrical stimulation of septal area and other regions of rat brain. Journal of comparative and physiological psychology, 47(6), 419.

  4. Grayot, J. D. (2020). Dual process theories in behavioral economics and neuroeconomics: A critical review. Review of Philosophy and Psychology, 11(1), 105-136.

 

Источник

Читайте также