Механизмы понимания речи у человека и нейросетей оказались практически идентичными

Коллектив ученых из Колумбийского университета совместно с экспертами IBM Research и институтов Фейнштейна осуществил беспрецедентный сравнительный анализ механизмов обработки звука искусственным интеллектом и человеческим разумом. Исследователи сопоставили динамику внутренних состояний рекуррентных нейронных сетей (RNN), специализирующихся на распознавании речи, с нейронной активностью пятнадцати пациентов, в чью слуховую кору были имплантированы электроды для медицинского мониторинга.

В ходе эксперимента испытуемые прослушивали получасовые аудиозаписи повествовательного характера, в то время как нейросеть подвергала тот же контент цифровой обработке. Ученые отслеживали эволюцию сигналов на каждом этапе — от фиксации первичных акустических параметров до формирования глубоких семантических структур. Выяснилось, что обе системы демонстрируют поразительную конвергенцию: они последовательно выделяют фундаментальные звуковые паттерны, фонемы, лексемы и, в конечном итоге, извлекают контекстуальный смысл.

Механизмы понимания речи у человека и нейросетей оказались практически идентичными

Изображение сгенерировано нейросетью Grok

Ключевое открытие заключается в том, что иерархия слоев RNN топографически коррелирует с архитектурой обработки данных в человеческом мозге — от первичных слуховых зон до ассоциативных областей, отвечающих за лингвистический анализ. Это свидетельствует о том, что биологическая эволюция и алгоритмическая оптимизация ИИ независимо друг от друга выработали идентичные стратегии наиболее эффективного преобразования звуковой волны в осознанную информацию.

Авторы работы акцентируют внимание на том, что выбранная модель RNN обрабатывает речевой поток стадиально, подражая биологическим процессам, в отличие от современных трансформерных архитектур, анализирующих данные массивами. Такая методология позволила детально сопоставить фазы когнитивной деятельности. Примечательно, что структурное сходство проявлялось лишь при обучении ИИ на конкретном языке, что проводит прямую параллель с освоением родной речи человеком.

Данный научный труд открывает горизонты использования ИИ в качестве «прозрачной модели» для дешифровки принципов работы коры больших полушарий. Тем не менее, перед наукой все еще стоят фундаментальные вопросы: в чем причина функциональной асимметрии мозга при обработке речи и возможно ли интегрировать концепцию «двойного пути» в ИИ-системы для решения более комплексных коммуникативных задач.

Дальнейшие изыскания будут направлены на изучение когнитивных механизмов восприятия иностранного языка и применение подобных моделей для более глубокого понимания природы речевых патологий.

 

Источник: iXBT

Читайте также