Еще один кирпич в стене: декодирование музыки из активности мозга

Еще один кирпич в стене: декодирование музыки из активности мозга

Наука и технологии всегда были ощутимыми стимулами развития общества. Мир, коим мы видим его сейчас, по большей степени является таким именно благодаря научным изысканиям великих умов прошлого и настоящего. Тем не менее помимо науки существует ряд других основополагающих факторов, особое место среди которых занимает искусство. Живопись, музыка, кинематограф, литература и другие формы искусства стали неотъемлемой частью нашей истории, культуры и быта. Возможно, будет вполне честно предположить, что наука формирует мир наружный, тогда как искусство работает с внутренним миром человека. Точно так же нельзя отрицать и связь между двумя, на первый взгляд, противоположными видами деятельности. К примеру, между музыкой и нейробиологией существует вполне прямая связь — человек слушает композицию, его мозг реагирует. Если же учесть, что мозг человека подобен компьютеру, то можно ли, используя данные о сигналах мозга, декодировать музыку? Именно этим вопросом и задались ученые из Калифорнийского университет в Беркли (США). Они провели исследование, в ходе которого испытуемые слушали песню «Another Brick in the Wall: Part I» группы Pink Floyd, а ученые реконструировали ее по записям активности мозга. Как именно ученым это удалось, насколько реконструкция соответствовала оригиналу, и где может пригодиться такая технология? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Практически любой человек знакомится с музыкой в форме колыбельных еще до того, как научится ходить. В процессе взросления формируются музыкальные вкусы, которые могут разительным образом отличаться от человека к человеку. Кто-то целыми днями слушает Баха, кто-то предпочитает творчество Мэрилина Мэнсона, а для кого-то приятнее саундтреки.

Музыка тесно связана с эмоциональным, социальным и познавательным аспектами жизни любого человека. Понимание нейронного субстрата, поддерживающего восприятие музыки, определяемого как обработка музыкальных звуков от акустики до нейронных репрезентаций и конечного восприятия, является центральной целью слуховой нейронауки. В последние десятилетия произошел огромный прогресс в понимании нейронной основы восприятия музыки, и во многих исследованиях оценивались нейронные корреляты отдельных музыкальных элементов, таких как тембр, высота звука, мелодия, гармония и ритм.

В настоящее время хорошо известно, что восприятие музыки зависит от широкой сети подкорковых и корковых областей, включая первичную и вторичную слуховую кору, сенсомоторные области и нижние лобные извилины (IFG). Несмотря на то, что существует весьма обширное пересечение с сетью восприятия речи, некоторые области мозга височных и лобных долей преимущественно активируются во время восприятия именно музыки. Недавние исследования сообщают об избирательной музыкальной активации различных нейронных популяций в верхней височной извилине STG (от superior temporal gyrus) и нижней лобной извилине (IFG от inferior frontal gyri). Также известно, что в процессе восприятия музыки доминирующим является правое полушарие, хотя восприятием речи занимается по большей степени левое.

Проблема в том, что вышеперечисленные знания не позволяют создать единую модель того, как именно происходит процесс восприятия музыки мозгом человека. В рассматриваемом нами сегодня труде ученые попытались определить, какие области мозга преимущественно задействованы в восприятии различных акустических элементов, составляющих песню.

В исследовании использовалась реконструкция стимула, чтобы изучить пространственно-временную динамику, лежащую в основе восприятия музыки. Реконструкция стимула состоит в регистрации нейронной активности популяции нейронов, вызванной стимулом, а затем в оценке того, насколько точно этот стимул может быть реконструирован из нейронной активности с помощью моделей декодирования на основе регрессии.

В качестве методологической базы использовался поход, применяемый в реконструкции речи. Музыка и речь — это сложные акустические сигналы, основанные на многопорядковой иерархической информационной структуре — фонемы, слоги, слова, семантика и синтаксис для речи; ноты, мелодия, аккорды и гармония для музыки. Идея о том, что музыка может быть реконструирована с использованием того же регрессионного подхода, что и применительно к речи, подтверждается прошлыми исследованиями, показывающими функциональное перекрытие структур мозга, участвующих в обработке и речи, и музыки.

Ранее уже были достигнуты весьма впечатляющие результаты в реконструкции речи по нейронным реакциям, записанным с помощью внутричерепной электроэнцефалографии (iEEG от intracranial electroencephalography). iEEG особенно хорошо подходит для изучения слуховой обработки благодаря высокому временному разрешению и отличному соотношению сигнал/шум. IEEG также обеспечивает прямой доступ к высокочастотной активности (HFA от high-frequency activity; от 70 до 150 Гц), что является показателем неколебательной нейронной активности, отражающей локальную обработку информации и связанный с единичным возбуждением и fMRI BOLD* сигналом.

fMRI* (от functional magnetic resonance imaging) — фМРТ (функциональная магнитно-резонансная томография).

BOLD* (от blood-oxygen-level-dependent imaging) — визуализация в зависимости от уровня кислорода в крови.

Ученые создали набор данных iEEG от 29 нейрохирургических пациентов, которые пассивно слушали популярную песню «Another Brick in the Wall, Part 1» (Pink Floyd), в то время как их нейронная активность регистрировалась в общей сложности с 2668 электродов, непосредственно лежащих на поверхности их коры (EcoG от electrocorticography, т. е. электрокортикография).

Пассивное прослушивание особенно подходит для выбранного подхода к реконструкции стимулов, поскольку активные задачи, включающие обнаружение целей или перцептивные суждения, хоть и необходимы для изучения ключевых аспектов слухового познания, но все же могут запутать нейронную обработку музыки с принятием решений и двигательной активностью, добавляющими шум в процесс реконструкции.

Ученые исследовали, в какой степени слуховая спектрограмма песенного стимула может быть реконструирована из активного HFA с использованием регрессионного подхода. Также была проведена количественная оценка влияния трех факторов на точность реконструкции:

  1. Тип модели (линейная или нелинейная);
  2. Плотность электродов (количество электродов, используемых в качестве входных данных в моделях декодирования);
  3. Продолжительность набора данных, чтобы обеспечить как методологическое, так и фундаментальное понимание процесса реконструкции.

Затем ученые проверили, можно ли объективно идентифицировать реконструированную песню, следуя классификационному подходу.

В дополнение к реконструкции стимула был также использован метод кодирования, дабы проверить, распространяются ли недавние открытия в области распознавания речи на восприятие музыки.

Модели кодирования предсказывали нейронную активность на одном электроде по представлению стимула. Эти модели были успешно использованы для доказательства ключевых нейронных свойств слуховой системы. В области музыки модели кодирования показали частичное совпадение между нейронной активностью, лежащей в основе музыкальных образов, и восприятием музыки.

Недавние исследования речи показали, что STG был парцеллирован вдоль передне-задней оси. В ответ на речевые предложения задняя STG демонстрировала временное увеличение HFA в начале предложения, в то время как передняя STG демонстрировала устойчивый ответ HFA на протяжении всего предложения. В данном же исследовании ученые хотели узнать, будут ли наблюдаться аналогичные профили активности HFA, а именно начальный и устойчивый, в ответ на музыкальный стимул.

В завершение был выполнен анализ абляции — метод, похожий на создание виртуальных повреждений, путем удаления наборов электродов из входных данных моделей декодирования. Этот метод позволил оценить важность анатомических и функциональных наборов электродов с точки зрения того, сколько информации они содержат о песенном стимуле, и является ли эта информация уникальной или избыточной для разных компонентов музыкальной сети.

Таким образом, ученые использовали модели декодирования на основе регрессии для реконструкции слуховой спектрограммы песни по нейронной активности, записанной с 2668 ECoG электродов, имплантированных 29 нейрохирургическим пациентам. Также была проведена количественная оценка влияние 3 факторов на точность декодирования и исследование нейронной динамики и области, лежащие в основе восприятия музыки.

Результаты исследования


Изображение №1

Чтобы идентифицировать электроды, кодирующие акустическую информацию о песне, ученые подобрали спектрально-временные рецептивные поля (STRF от spectrotemporal receptive field) для всех 2379 свободных от артефактов электродов в наборе данных, оценив, насколько хорошо HFA, записанный в этих местах, может быть линейно предсказан на основе слуховой спектрограммы песни (изображение №1).


Изображение №2

Из плотного, двустороннего, преимущественно лобно-височного покрытия (2A) было определено 347 электродов со значительным STRF (2B). Было обнаружено, что большая доля электродов, реагирующих на песню, находились в правом полушарии. В левом полушарии было 199 значимых электродов из 1479, а в правом — 148 из 900 (2B; 13.5% против 16.4% соответственно).

Большинство из 347 значимых электродов (87%) были сосредоточены в 3 областях: 68% в билатеральных верхних височных извилинах (STG от superior temporal gyri); 14.4% в билатеральных сенсомоторных корах (SMC от sensorimotor cortices) и 4.6% в билатеральных нижних лобных извилинах (IFG от inferior frontal gyri) (2C). Доля чувствительных к песне электродов на регион составила 55.7% для STG (236 из 424 электродов), 11.6% для SMC (45 из 389) и 7.4% для IFG (17 из 229). Остальные 13% значимых электродов располагались в супрамаргинальных извилинах и других лобных и височных областях.

Чтобы выяснить, была ли более высокая доля реагирующих на песню электродов в правом полушарии обусловлена разным неравномерным покрытием обоих полушарий (например, более плотным покрытием неслуховых областей в левом полушарии, чем в правом полушарии), ученые ограничили свой анализ тремя основными регионами, реагирующими на песню (STG, SMC и IFG). Была обнаружена более высокая доля чувствительных к песне электродов в этих правых чувствительных к песне областях: 133 значимых электрода из 374 в целом по сравнению со 165 из 654 в соответствующих левых областях (35.6% против 25.3%). Анализ точности предсказания STRF (r Пирсона) выявил основной эффект латеральности (2D) с более высокими коэффициентами корреляции в правом полушарии, чем в левом (MR = 0.203, SDR = 0.012; ML = 0.17, SDL = 0.01).

Также был обнаружен основной эффект областей коры (F (3, 346) = 25.09, p < 0.001) с самой высокой точностью прогноза в STG (тест Тьюки-Крамера; MSTG = 0.266, SDSTG = 0.007; MSMC = 0.194, SDSMC = 0.017, pSTGvsSMC < 0.001; MIFG = 0.154, SDIFG = 0.027, pSTGvsSMC < 0.001; Mother = 0.131, SDother = 0.016, pSMCvsSMC < 0.001). Кроме того, была обнаружена более высокая точность прогноза в SMC по сравнению с группой, не включающей STG и IFG (MSMC = 0.194, SSMC = 0.017; Mother = 0.131, SDother = 0.016, pSMCvsOther = 0.035).


Изображение №3

Далее ученые приступили к проверке реконструкции песни по нейронной активности. Также оценивалось и то, как методологические факторы (количество электродов, продолжительность набора данных или тип используемой модели) повлияли на точность декодирования.

Был проведен бутстрап-анализ, во время которого выполнялась подгонка модели линейного декодирования к подмножествам электродов, случайно выбранных из всех 347 значимых электродов у 29 пациентов, независимо от анатомического расположения. Это выявило логарифмическую зависимость между тем, сколько электродов использовалось в качестве предикторов в модели декодирования, и результирующей точностью предсказания (3A). Например, 80 % точность предсказания (с использованием всех 347 значимых электродов) была получена при использовании 43 (или 12.4 %) электродов. Такая же зависимость наблюдалась и на уровне одного пациента для моделей, обученных на значимых электродах каждого пациента, хотя и с более низкой точностью декодирования (43 электрода обеспечили 66 % точности прогноза).

Наблюдалась аналогичная логарифмическая зависимость между продолжительностью набора данных и точностью прогноза с использованием бутстрап-анализа (3B). Например, 90 % точность предсказания (использование всей песни, т. е. 190.72 секунд) была получена с использованием 69 секунд (или 36.1 %).

Что касается типа модели, линейное декодирование обеспечивало среднюю точность декодирования 0.325 (медиана эффективного r-квадрата 128 моделей; IQR 0.232), в то время как нелинейное декодирование с использованием двухслойной полностью связанной нейронной сети дала среднюю точность 0.429 (IQR 0.222). Это 32-процентное увеличение эффективного r-квадрата (+0.104 по сравнению с 0.325) было значимым (двусторонний парный t-критерий, t(127) = 17.48, p < 0.001). В соответствии с этим более высоким эффективным r-квадратом для MLP, декодированные спектрограммы выявили различия между типами моделей, при этом нелинейная реконструкция (внизу на 3C) показала более тонкие спектрально-временные детали по сравнению с линейной реконструкцией (по центру на 3C).

Аудио №1

В целом линейная реконструкция (аудио №2) звучала приглушенно с сильными ритмическими намеками на присутствие элементов переднего плана (вокал и ноты соло-гитары); ощущение спектральной структуры, лежащей в основе тембра и высоты тона соло-гитары и вокала; чувство гармонии (переход аккордов от Dm к F, C и Dm); но ограниченное чувство паттерна ритм-гитары.

Аудио №2

Нелинейная реконструкция (аудио №3) обеспечила узнаваемую песню с более богатыми деталями по сравнению с линейной реконструкцией. Качество восприятия спектральных элементов, таких как высота тона и тембр, было особенно улучшено, а идентичность фонем стала заметной. Также было более сильное чувство гармонии и появление паттерна ритм-гитары.

Аудио №3

Реконструкция стимула также была применена к пациенту с высокой плотностью электродов (3 мм между электродами). Были использованы нелинейные модели для реконструкции песни из 61 значимого электрода пациента P29 (3D). Эти модели работали лучше, чем линейная реконструкция на основе электродов от всех пациентов (эффективный r-квадрат 0.363), но точность декодирования была ниже, чем при использовании 347 значимых электродов от всех пациентов.

С точки зрения восприятия, эти модели на основе одного пациента обеспечивали уровень спектрально-временной детализации, достаточно высокий для распознавания песни (аудио №4).

Аудио №4

Чтобы оценить нижнюю границу декодирования на основе одного пациента, ученые реконструировали песню по нейронной активности трех дополнительных пациентов (P28, P15 и P16) с меньшим количеством электродов (23, 17 и 10 соответственно, в отличие от 61 электрода у пациента P29) и более низкой плотности (расстояние между центрами электродов 1 см, 6 мм и 1 см соответственно, в отличие от 3 мм у пациента P29).

Нелинейные модели реконструировали спектрограмму песни с эффективным r-квадратом 0.207, 0.257 и 0.166 соответственно. Из реконструированных волновых форм (аудио №5, №6 и №7) был извлечен частичный вокал (например, в P15 «all», «was» и «just a brick» были единственными распознаваемыми слогами) и чувство гармонии, хотя и с разным фокусом узнаваемости.

Аудио №5

Аудио №6

Аудио №7


Изображение №4

Затем была проведена количественная оценка узнаваемости декодированной песни посредством сопоставления фрагментов исходной и декодированной спектрограмм песни. Как линейная (4A), так и нелинейная (4B) реконструкции обеспечили высокий процент правильных идентификаций (32/38 и 36/38 соответственно) и значимые средние процентили идентификации (95.2% и 96.3% соответственно).


Изображение №5

Ученые проанализировали коэффициенты STRF для всех 347 значимых электродов, чтобы оценить, как различные музыкальные элементы кодируются в разных областях мозга. Этот анализ выявил множество паттернов спектро-временной настройки (5A). Чтобы полностью охарактеризовать взаимосвязь между спектрограммой песни и нейронной активностью, был проведен анализ независимых компонентов (ICA от independent component analysis) для всех значимых STRF. Были определены 3 компонента с различными спектрально-временными паттернами настройки, каждый из которых объясняет более 5% дисперсии и вместе объясняет 52.5% дисперсию (5B).

Первый компонент (28% объясненной дисперсии) показал кластер положительных коэффициентов (красный цвет в верхнем ряду на 5B), распространяющихся в широком диапазоне частот от примерно 500 Гц до 7 кГц и в узком временном окне с центром около 90 мс до наблюдаемого HFA (расположенный во временной задержке = 0 мс, на правом краю всех STRF). Этот компонент, называемый «компонентом начала», был обнаружен исключительно в электродах, расположенных в билатеральной задней STG (верхний ряд на 5C).


Изображение №6

В верхнем ряду на 6C красным цветом показаны части песни, вызывающие наибольшее увеличение HFA в электродах, обладающих этим начальным компонентом. Эти части соответствовали началу мотивов соло-гитары или синтезатора (синие и фиолетовые полосы соответственно на 6A; ), воспроизводимых каждые 2 такта (зеленые полосы на 6A), и началу слогов в вокале (оранжевые полосы на 6A; 6D).

Второй компонент (14.7% объясненной дисперсии) показал группу положительных коэффициентов (красный в среднем ряду на 5B), распространяющихся на все 750-мс временного окна и на узкий частотный диапазон примерно от 4.8 до 7 кГц. Этот компонент, называемый «устойчивым компонентом», был обнаружен в электродах, расположенных в билатеральной средней и передней STG и в билатеральной SMC (средний ряд на 5C). Кроме того, этот компонент лучше всего коррелирует с частями песни, содержащими вокал, что указывает на настройку на речь (красный в среднем ряду на 6C; 6D).

Третий компонент (9.8% объясненной дисперсии) показал аналогичный паттерн настройки, что и начальный компонент, только с более длительной задержкой около 210 мс до наблюдаемого HFA (нижний ряд на 5B). Этот компонент, именуемый в дальнейшем «компонентом с поздним началом», был обнаружен в двусторонней задней и передней STG, соседствующих с электродами, представляющими компонент начала, и в двустороннем SMC (нижний ряд на 5C). Как и компонент начала, этот компонент позднего начала больше всего коррелировал с началом мотивов соло-гитары и синтезатора, а также ядер слогов в вокале, только с более длительной задержкой (нижний ряд на 6C; 6D, ).

Четвертый компонент был найден путем вычисления временных модуляций и извлечения максимального коэффициента при частоте 6.66 Гц для всех 347 STRF (красный прямоугольник на 5D). Эта скорость соответствовала 16-м нотам ритм-гитары, распространенной на протяжении всей песни, при темпе песни 99 ударов в минуту. Это было переведено в STRF как небольшие кластеры положительных коэффициентов, разнесенные на 150 мс (1/6.66 Гц) друг от друга (например, электрод 5 на 5A). Этот компонент, называемый «ритмическим компонентом», был обнаружен в электродах, расположенных в билатеральной средней части STG (5E).


Изображение №7

Чтобы оценить роль различных областей коры и функциональных компонентов в представлении музыкальных особенностей, ученые провели анализ абляции с использованием моделей линейного декодирования.

Сначала были вычислены модели линейного декодирования для каждого из 32 частотных интервалов спектрограммы песни, используя HFA всех 347 значимых электродов в качестве предикторов. Это дало среднюю точность предсказания 0.62 (коэффициент Пирсона; минимум 0.27 — максимум 0.81).

Затем были удалены анатомически или функционально определенные наборы электродов и проведены расчеты новой серии моделей декодирования, чтобы оценить, как каждое удаление повлияет на точность декодирования. В качестве базового уровня использовалась точность прогнозирования полной модели с 347 электродами. Затем была проведена серия апостериорных анализов для изучения влияния каждого набора электродов на точность прогноза.

Анатомические абляции (7A). Удаление всех электродов STG или всех правых электродов STG повлияло на точность прогноза при этом удаление всех электродов STG оказало наибольшее влияние по сравнению со всеми другими наборами электродов. Удаление правых электродов STG оказало более сильное влияние, чем удаление левых STG, и никакого влияния удаления левых электродов STG обнаружено не было.

В совокупности это говорит о том, что:

  • билатеральная STG представляла уникальную музыкальную информацию по сравнению с другими регионами;
  • правый STG имел уникальную информацию по сравнению с левым STG;
  • часть музыкальной информации в левом STG была избыточно закодирована в правом STG.

Удаление SMC, IFG или всех других областей не влияло на точность прогноза. Удаление либо всех левых, либо всех правых электродов значительно снизило точность прогноза. Эти результаты предполагают, что оба полушария представляют уникальную информацию и вносят свой вклад в декодирование песни.

Кроме того, тот факт, что удаление отдельных областей в левом полушарии не оказало никакого влияния, но удаление всех левых электродов оказывало, предполагает избыточность в левом полушарии, при этом музыкальная информация пространственно распределяется по областям левого полушария.

Функциональные абляции (7B). Удаление всех начальных электродов или правых начальных электродов повлияло на точность прогноза, с наибольшим влиянием для всех начальных (электродов относящихся к первому компоненту, называемому «компонентом начала»). Никакого влияния удаление начальных левых электродов не оказывало.

Это говорит о том, что правые электроды имели уникальную информацию по сравнению с левыми и что часть музыкальной информации в левых электродах избыточно кодировалась в правых.

Удаление всех ритмических или правых ритмических электродов значительно повлияло на точность декодирования, в то время как удаления левых ритмических электродов эффекта не имело. Разницы между удалением всех ритмических и правых ритмических электродов не было.

Это говорит о том, что правые ритмические электроды содержали уникальную информацию, ни одна из которых не была избыточно закодирована в левых ритмических электродах. Несмотря на значительное количество устойчивых электродов, удаление какого-либо набора не повлияло на результат.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог

В рассмотренном нами сегодня труде ученые провели любопытное наблюдение. Во время операции на мозге пациентам помещали набор электродов, которые должны были считывать нейронную активность мозга. Стимулом этой активности была песня группы Pink Floyd «Another Brick in the Wall, Part 1». Этим экспериментом ученые хотели добиться большего понимания того, какие именно области мозга отвечают за восприятие тех или иных элементов музыки — тон, ритм, гармонию и слова. Затем они хотели использовать записанную активность мозга для реконструкции песни.

Работа заняла порядка 10 лет, но результат был однозначно положительным. Имея в своем распоряжении лишь данные о нейронной активности ученым удалось восстановить то, что слышали пациенты во время опытов, а именно части песни «Another Brick in the Wall, Part 1». Конечно, реконструкция не соответствовала оригиналу на все 100 %, результат уже весьма впечатляющий.

По мнению ученых, их труд может быть использован для совершенствования технологий интерфейсов мозг-машина, которые применяются для людей с ограниченными возможностями. Проблема нынешних устройств такого типа в том, что воспроизводимые машиной предложения, которые формируются за счет считываемой активности мозга, звучат крайне роботизировано. Другими словами, они лишены мелодичности, акцентов и ударений, которые мы используем в нашей речи повсеместно. В будущем ученые намерены изучить мозговые цепи, которые позволяют некоторым людям с афазией из-за инсульта или повреждения мозга общаться с помощью пения, но не могут использовать обычную речь.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

 

Источник

Читайте также