Нейросеть оценивает эмоциональную окраску 30-секундного фрагмента речи говорящего. Иллюстрация из предыдущей научной работы авторов
В последние годы машинное обучение всё чаще применяют как полезное средство диагностики. Существующие модели способны определять слова и интонации речи, которые могут указывать на депрессию. Но эти модели обычно работают только если пациент отвечает на конкретные вопросы врача: например, о его настроении, образе жизни, истории болезни и т. д. То есть работа нейросети в данном случае не отличается от работы обычного психотерапевта, который беседует с пациентом.
Но для медицины нового поколения гораздо эффективнее система, которая определяет депрессию на произвольном наборе слов, без конкретного набора вопросов. Теоретически, в этом случае можно автоматически отслеживать психическое здоровье всего населения в реальном режиме времени (весь голосовой трафик) — и оперативно госпитализировать больных. Модуль автоматического обнаружения депрессии можно внедрить в мобильные приложения и игры.
Такую модель разработали учёные из Массачусетского технологического института, пишет издание MIT News. Научная статья будет представлена на конференции Interspeech 2018, которая пройдёт 2−6 сентября в Индии.
«Если вы хотите развернуть модели [обнаружения депрессии] масштабируемым способом… то нужно свести к минимуму количество ограничений на используемые данные. Модель должна извлекать данные из любого обычного разговора и естественного взаимодействия между людьми», — говорит Тука Алханай (Tuka Alhanai), исследователь в лаборатории компьютерных наук и искусственного интеллекта (CSAIL) Массачусетского технологического института, ведущий автор научной работы.
Исследователи надеются, что новый метод будет использоваться для обнаружения признаков депрессии в естественном разговоре. Например, на основе модели можно разработать мобильные приложения, которые отслеживают текст и голос пользователя на предмет психических расстройств и отправляют оповещения. Это особенно полезно для тех, кто не может добраться до врача для первоначальной диагностики по причине отсутствия врача, высокой стоимости консультации или просто по незнанию, что у него проблема с психикой.
Депрессия — очень опасное психическое заболевание, которое сопровождается снижением самооценки, потерей интереса к жизни и привычной деятельности. В некоторых случаях человек, страдающий ею, может начать злоупотреблять алкоголем или иными веществами.
Ключевая инновация новой технологии заключается в её способности обнаруживать закономерности, указывающие на депрессию, а затем сопоставлять эти закономерности с новыми людьми без дополнительной информации, то есть без предварительного обучения на конкретном человеке. «Мы называем это работой „без контекста”, потому что вы не накладываете никаких ограничений на типы вопросов, которые ищете, и тип ответов на эти вопросы», — объясняет Альханай.
Для обучения нейросети использовалась техника под названием «моделирование последовательностей» (sequence modeling), которая часто используется для обработки речи. Модель обучается на последовательностях текстовых и звуковых данных из вопросов и ответов от людей с депрессией и без неё. Постепенно она выявляет общие закономерности, как некоторые слова связаны с разными звуками у здоровых и больных людей. Кроме того, люди с депрессией могут говорить медленнее и использовать более длинные паузы между словами. Эти текстовые и звуковые идентификаторы для психических расстройств были изучены в предыдущих исследованиях. В конечном счете, модель сама определяет, есть в речи признаки депрессии или нет.
Модель протестировали на наборе данных из 142 речевых фрагментов из корпуса Distress Analysis Interview Corpus (звук, текст, видео). Точность диагностирования составила 71% (то есть 29% ложноположительных результатов), а полнота выявления болезни — 83% от всех больных в выборке. В большинстве тестов точность превзошла показатели всех предыдущих моделей по диагностированию депрессии. Исследователи считают предварительные результаты весьма обнадёживающими.
В предыдущей научной статье от 2017 года авторы описывали нейросеть, которая распознаёт настроение говорящего по следующим признакам:
- характеристики голоса;
- набор слов;
- пульс.
На иллюстрации показано распределение эмоционального контента по пятисекундным интервалам. Негативными сегментами считаются те, где обнаружены признаки грусти, омерзения, злости, страха или скуки. Положительные сегменты содержат признаки счастья, заинтересованности или восторга.
Кроме депрессии, учёные намерены обучить нейросеть распознаванию и других психических состояний, таких как деменция.
Источник