Нейробиологи продолжают достигать ощутимых успехов в разработке технологий, превращающих сигналы мозга в синтетическую речь. Исследовательские группы Калифорнийского университета в Сан-Франциско (UCSF) и Беркли, а также компания Precision Neuroscience из Нью-Йорка сообщили о значительных достижениях в этой области. Их цель — предоставить возможность общаться людям, утратившим способность говорить.
В марте 2025 года команда Эдварда Чанга из UCSF представила в журнале Nature Neuroscience исследование с участием женщины с квадриплегией, которая в течение 18 лет не могла говорить после инсульта. Благодаря имплантам, внедрённым в речевые зоны коры головного мозга, пациентка тренировала модель глубокого обучения, мысленно «произнося» фразы из набора 1024 слов. Нейросеть анализировала узоры её мозговой активности и преобразовывала их в текст, впоследствии синтезируемый в аудио с помощью голосового интерфейса.

Им удалось сократить задержку между сигналами мозга и голосовым выводом с 8 секунд до 1 секунды, приблизившись к естественному интервалу в 100–200 мс. Скорость декодирования составила 47,5 слов в минуту, что примерно равно трети от обычной скорости разговора. «Наши алгоритмы становятся быстрее, и с появлением каждого нового участника мы учимся более точно интерпретировать сигналы», — отметил Чанг.
Компания Precision Neuroscience, конкурирующая с академическими инициативами, делает акцент на технологиях сбора данных. Их импланты, получившие 17 апреля 2025 года разрешение на использование в течение 30 дней, оснащены высокоплотными электродами, что, по утверждению CEO Майкла Магера, позволяет более детально фиксировать сигналы. «Через год мы создадим крупнейшее в мире хранилище высококачественных нейронных данных», — заявил он. Следующим шагом станет миниатюризация устройств и их долговременная имплантация.
Однако разработчики сталкиваются с трудностями. Например, системы требуют значительного времени на обучение: пациенты проводят десятки часов, мысленно повторяя тексты для настройки алгоритмов. Ник Рэмзи из Медицинского центра Утрехта подчёркивает, что ключевым вопросом остаётся универсальность паттернов моторной коры. Если они окажутся схожими у различных людей, это сможет ускорить адаптацию моделей для новых пользователей. Пока что все исследования сосредоточены именно на моторной коре, ответственной за движение мышц и речь, а не на «внутренний голос».
Сергей Ставицкий из Калифорнийского университета в Дэвисе отмечает несовершенство синтеза: даже при 98% точности декодирования текста голосовые модели не всегда точно передают интонации или тембр. «Пока неясно, смогут ли современные электроды обеспечить уровень детализации, необходимый для полного воссоздания человеческого голоса, включая пение», — говорит он.
Источник: iXBT



_large.jpg)