На Хабре уже писали о научном конкурсе для математиков и разработчиков, который запустили создатели мобильного кардиографа CardioQVARK. Вкратце, суть соревнования заключается в создании алгоритма, который мог бы обнаружить курильщика среди некурящих людей на основе их кардиограмм.
Одним из лидеров соревнования стал к.т.н. Роман Исаков, доцент кафедры биомедицинских и электронных средств и технологий Института инновационных технологий Владимирского государственного университета имени А.Г. и Н.Г. Столетовых. Он разработал метод определения курильщика на основе RR-интервалограмм и искусственных нейронных сетей — о нем мы сегодня и поговорим.
Зачем искать курильщика
Существуют исследования специалистов по машинному обучению, которые показывают, что ЭКГ-сигнал несет в себе информацию о функционировании всех систем организма, а не только сердца. При этом каждое заболевание по-своему «модулирует» ЭКГ-сигнал, а значит знаки приращений интервалов и амплитуд последовательных кардиоциклов можно использовать для диагностики информации о возможных проблемах со здоровьем у человека, в том числе на ранних этапах их возникновения.
В докладе на V Международной конференции «математическая биология и биоинформатика» Константин Воронцов из из Вычислительного центра им. А. А. Дородницына РАН продемонстрировал различия в знаках приращения интервалов (dRn), амплитуд (dTn) и углов (dαn) кардиоциклов у здоровых и страдающих различными заболеваниями людей
Поиск курильщика по кардиограмме поможет добиться главной цели соревнования — получение результата, который бы продемонстрировал возможность или невозможность осуществления качественной диагностики с помощью ЭКГ и алгоритмов выявления в сигнале кардиограммы маркеров заболеваний различных органов.
Суть предложенного метода
Решение поставленной задачи основывалось на гипотезе о зависимости вариабельности ритма сердца (ВСР) от функционального состояния организма [Р.М.Баевский и др.] Данная модель включает в себя обратную связь посредством периферической нервной системы через головной мозг, позволяющую управлять потоком крови, в том числе путем динамического управления частотой ритма сердца.
Исходя из этого, основным сигналом для анализа была выбрана RR-интервалограмма. Этот сигнал содержит всю информацию о процессах управления ритмом сердца в конечном её проявлении.
Проблема в извлечении информации о влиянии никотина и других веществ на организм человека сводится к поиску параметров ВСР, обладающих наибольшей разделяющей способностью классов курящих и не курящих людей. Учитывая то, что характер взаимосвязи параметров может быть нелинейным, в основу классификатора была положена технология искусственных нейронных сетей.
Обучающая выборка кардиограмм для конкурса включала 100 записей курящих и некурящих людей с соотношением 50/50%. Также была представлена контрольная выбора, включающая 250 кардиограмм — в ней не было представлено аннотаций, поэтому использовать ее для исследования было невозможно.
Поэтому исследователю потребовалось разбить обучающую выборку на две равные «подвыборки»: обучающую и тестовую.
Отбор записей в тестовую и обучающую подвыборки осуществлялся произвольным образом, но с соблюдением условия равного соотношения курящих и не курящих людей в каждой из них. Так как количество записей в обучающей подвыборке оказалось слишком малым, то на финальном этапе после выбора лучшей модели пришлось также занять её «доучиванием» на записях тестовой подвыборки.
Не все так просто
Для сведения к минимуму явления переобучения из набора данных, используемого для
обучения, выделялся локальный валидационный набор (20%) в случайном порядке. Он не принимал участие в корректировке параметров модели и служил для мониторинга ошибки модели. При возрастании ошибки на валидационном наборе обучение прекращалось.
Существует вероятность попадания в класс «не курит», людей скрывших данный факт или пассивных курильщиков, а в класс «курит» — людей с незначительным «опытом» курения. Поэтому одно из исследований было произведено с модификацией обучающей базы данных на основе нейросетевого анализа выборки при помощи лучшей из полученных моделей. В результате, модифицировались те записи, расхождение с моделью которых было наибольшим. Данный подход показал небольшой рост эффективности на независимой (валидационной) выборке. Однако, можно предположить, что в ней также присутствуют ошибочные метки, что является ограничивающим фактором.
Обработка и анализ данных
Для формирования пространства признаков для модели распознавания курящего человека исследователь изучил различные известные статистические параметры, специальные параметры для оценки вариабельности ритма сердца, а также спектр и гистограмму ритма сердца.
Параметры разделялись на следующие группы:
- Энтропийные;
- Параметры временной области;
- Параметры частотной области;
- Параметры формы гистограммы.
Исследование заключалось в вычислении всего набора параметров для классов курящих и не курящих в записях обучающей базы и последующем совместном анализе их распределений. Выбирались только те параметры, плотности распределения которых имели значимые расхождения в какой-либо области.
Дополнительно исследовались спектры ритма сердца, выбирались диапазоны частот в которых наблюдалось наибольшее разделение двух классов. Затем производился кросскорреляционный анализ выбранных параметров для исключения сильных линейных связей в пространстве признаков.
В описание конкурсного решения исследователь отмечает, что производились параллельные исследования набора параметров без оптимизации корреляционным анализом и с использованием отсчетов спектра ритма сердца. Результаты данных в решении не приводятся, поскольку они не показали лучших результатов.
В результате был получен следующий набор параметров:
1) EnLog — Энтропия «логарифмической энергии» (Log Energy Entropy);
2) EnTrs — Пороговая энтропия (Threshold Entropy);
3,4) EnSamp — Две энтропии отсчетов (Sample Entropy) с параметром 1 и 5;
5) NN22 — Число последовательных RR-интервалов, различающихся больше чем на 22 мс;
6) HRVTi — Триангулярный индекс гистограммы ритма сердца;
7) LF/HF — Отношение мощности низкочастотной к высокочастотной части спектра (стандартный параметр оценки ВСР);
8) LFn — Отношение мощности низкочастотной части спектра к сумме мощностей низкочастотной и высокочастотной частей спектра;
9) SBxn(4) — Отношение мощности спектра в диапазоне от 0.093 Гц по 0.125 Гц к общей мощности спектра (ТР). Данный параметр получен в результате специального спектрального анализа;
10) SB1n — Мощность спектра в диапазоне от 0.0039 Гц по 0.0391 Гц. Данный параметр получен в результате специального спектрального анализа.
Алгоритм обработки данных можно пошагово описать следующим образом:
На первом шаге осуществляется загрузка кардиоинтервалограммы (КИГ). Затем с помощью отсечения на уровне 1 СКО определяются выбросы. Далее они исключаются с помощью интерполяции медианой, проводится сплайн-интерполяция КИГ для получения эквидистанционно квантованного сигнала ритмограммы (РГ).
Для удаления постоянной составляющей проводилось вычитание из ритмограммы среднего значения, после чего она обрабатывалась окном Тъюрки для подавления эффекта Гиббса. Впоследствии для обработанной ритмограммы осуществлялось быстрое преобразование Фурье, а благодаря вычислению абсолютного значения от комплексных значений этого преобразования удалось получить спектр ритма сердца.
Представленные выше параметры вычислялись с использованием КИГ (кроме спектральных параметров), а затем проводилось их нормирование для получения динамического диапазона от 0 до 1.
Модель удалось получить следующим образом:
Сначала осуществлялось обучение персептронных нейронных сетей (НС) с последовательно увеличивающимся количеством нейронов в скрытых слоях (по ранее описанной методике). В результате получается набор нейросетевых моделей разного размера, позволяющий выбрать оптимальный размер нейронной сети.
Далее анализировался набор НС на тестовой подвыборке и из него по параметру AUC вы
бирались лучшие.
Третьим шагом стала настройка порога отсечения выбранных моделей при помощи ROC-анализа путем балансировки Чувствительности и Специфичности для получения их минимальной разницы. Значения Чувствительности или Специфичности менее 50% отбраковывались.
По данной методике исследовались следующие структуры НС:
- двухслойная, с одним скрытым сигмоидальным слоем и сигмоидальным выходом (SS);
- трехслойная с двумя скрытыми сужающимися сигмоидальными слоями и сигмоидальным выходом (SSdS);
- трехслойная с двумя скрытыми сужающимися сигмоидальными слоями и линейным выходом (SSdP).
Результаты
Из результатов тестирования видно, что в среднем показатели эффективности классификатора находятся в районе 60-70%.
При этом, исследователь отмечает, что предоставленные на конкурс обучающие и тестовые выборки содержали ошибочные метки. Это снижает эффективность предложенных им моделей, а значит при использовании «чистых» данных можно ожидать увеличения эффективности созданного классификатора.
Кроме того, по мнению автора исследования, положительную роль может также сыграть увеличение размера обучающей базы данных.
На независимой выборке данных исследователю удалось добиться показателей Чувствительности на уровне 63% и Специфичности на уровне 71%.
Результат работ, проведенных в рамках научного конкурса, демонстрирует наличие теоретической и экспериментально подтвержденной связи между вариабельностью ритма сердца и функциональными изменениями организма, связанными с табакокурением.