200 таблиц медицинской статистики в одном дашборде

Хабровчане, приветствую! Меня зовут Андрей Иванов, я системный аналитик в сфере медицины и здравоохранения. До 2005 года работал врачом, потом руководил медицинским информационно-аналитическим центром. Спустя время возникла настоятельная потребность научиться делать самостоятельно то, чем прежде приходилось руководить, — так я поступил на курс «Системный аналитик» в Практикуме.

Возможно, это вступление показалось вам знакомым. В начале года я рассказывал про проект визуализации медицинских данных, который мы со студентами сделали в Мастерской Практикума. Сейчас — расскажу, как мы продолжили работу во второй Мастерской, и покажу, на что теперь способен наш инструмент.

О чём речь

Каждый год в общий доступ выгружаются гигабайты данных медицинской статистики: сотни и тысячи страниц с таблицами, цифрами и сплошным текстом. Изначальной целью нашего проекта было визуализировать эти данные в дашбордах — аналитических панелях, которые пользователь может настраивать, чтобы видеть именно то, что интересно его профессиональному глазу.

Выбор пал на отчёт главного онколога Министерства здравоохранения России — это 500-страничный документ, который выпускается ежегодно и содержит больше двух сотен таблиц: океан цифр и бесчисленное количество столбиков и строчек.

Мы захотели представить те же данные в дашбордах. С ними исследователь может быстро и без поиска нужной страницы в отчёте переходить к разным показателям, упорядочивать значения, обнаруживать зависимости и выдвигать гипотезы.

200 таблиц медицинской статистики в одном дашборде
Картины as is и to be: слева — случайная таблица из отчёта за 2021 год, справа — дашборд Надежды Ивановой, участницы Мастерской

Чтобы превратить «плоские» таблицы в функциональные дашборды, мы взяли отчёт онколога за 2021 год — он выходит в виде двух PDF-файлов на сайте Ассоциации онкологов России. Таблицы из отчёта мы оцифровали через конвертер. В результатах было много неточностей, которые 44 участника мастерской исправляли вручную. Чтобы ускорить работу, мы разделили таблицы на пять тематических групп и 30 отбросили как слишком сложные — задача объёмная, и было важно расставить приоритеты. Я был заказчиком проекта и консультировал участников по медицинским вопросам.

К концу Мастерской у нас получилось порядка 30 дашбордов в Yandex DataLens, каждый из которых представлял свою часть информации из отчёта. Дашборды не обладали общим стилем, но уже помогали лучше воспринимать медицинские данные и строить гипотезы.

Рассмотреть дашборды первой Мастерской можно в материале «Социальный проект: визуализация данных медицинской статистики» — в нём я более подробно раскрыл предысторию проекта и рассказал о первой итерации работы.

Новый подход — и новые дашборды

Во второй Мастерской участвовали 31 студент и ещё восемь человек — организаторы, кураторы и наставники. Многие студенты пришли из первой Мастерской.

Студенты второй Мастерской получили всю информацию из отчёта: мы не делили данные на группы и добавили те 30 таблиц, от которых отказались в прошлый раз. Всё было агрегировано в сводные таблицы — из 200 мы сделали 32. Например, раньше были отдельные документы по локализации: о заболеваемости в разных регионах раком молочной железы или о заболеваемости раком желудка. Теперь они переместились в одну таблицу. Всё это мы загрузили на MySQL-сервер на специально арендованном для этого проекта хостинге.

В качестве источника взяли те же данные за 2021 год. Обычно отчёты выходят не сразу. Например, данные за 2023 год мы ждём только к концу лета 2024-го. Сейчас есть данные за 2022 год, но на момент начала работы в Мастерской их ещё не опубликовали. 

В будущем мы хотели бы оперативно агрегировать показатели из новых отчётов, а также загрузить всю доступную статистику начиная с 2007 года. Но это настоящая каторга — распознавать таблицы конвертером, лепить огромные простыни руками… Мы хотим это оптимизировать — и сейчас работаем над созданием машинного алгоритма.

Дашборды во второй Мастерской стали универсальными. Это значит, что если раньше они были посвящены разбору тех или иных показателей, то теперь каждый из них включает все данные из отчёта сразу. Также мы отказались от идеи привести их к единообразию — по нескольким причинам.

  • Если теперь каждый дашборд содержит сразу всю информацию, значит, исследователю не нужно переключаться между разными ссылками. Стиль и единую логику в таком случае достаточно соблюдать внутри одного дашборда.

  • У каждого участника своё видение, и эта работа в определённой степени творческая. Не хотелось говорить кому-то, что и как должно выглядеть. Это убивает инициативу. Всё-таки студенты работают не по заказу и не за оплату, а участвуют в учебном проекте, во многом волонтёрском.

  • Сейчас нам трудно предположить, как именно нашими дашбордами могли бы пользоваться профессионалы. Поэтому мы даём больше выбора пользователю — если он хочет увидеть инструмент в определённом виде, значит, ему нужно дать возможность это сделать. Разнообразие вариантов тут только на руку.

Yandex DataLens предоставляет исследователю целый ряд высокопродуктивных, но не всегда очевидных инструментов, поэтому может быть важно «подсветить» возможности, которые могут остаться незамеченными.

У каждого чарта (так называются элементы дашборда, которые содержат графики и диаграммы), как правило, есть легенда — текстовое описание показателей. Показатели в легенде кликабельны. Пользователь может включать, выключать ряды отображаемых данных или выбирать несколько из них, зажав Ctrl или Cmd.

В левом верхнем углу некоторых чартов можно найти стрелочки «вверх» и «вниз». Это указывает на иерархическую структуру. Кликами по этим стрелкам можно, например, перемещаться с отображения показателей на уровне федеральных округов на уровень этих же показателей в областях, краях и республиках. Разумеется, легенда здесь тоже кликабельна, и эти возможности можно комбинировать, изучая иерархические данные по одному или нескольким выбранным федеральным округам или регионам.

Сводные таблицы могут содержать как числовые значения, так и визуальные представления показателей в виде баров — вертикальных или горизонтальных столбиков. Заголовки таких таблиц кликабельны и позволяют пересортировать значения в таблице по возрастанию или убыванию. И это касается не только числового содержимого. Буквенные строки, если нужно, можно упорядочить по алфавиту.

В некоторых таблицах вместо баров используется температурная заливка. Чем темнее оттенок, тем выше показатель.

В правом верхнем углу каждого чарта скрыто меню с дополнительными инструментами. Нажав на кнопку с тремя точками, можно открыть элемент в отдельной вкладке и исследовать его в полноэкранном режиме, выгрузить данные в таблицу (чтобы проверить на валидность или импортировать в Excel или другую программу) или сгенерировать ссылку на чарт с текущими настройками отображения. Также можно сгенерировать фрагмент HTML-кода для вставки в блог, статью или доклад.

Ещё один важный инструмент дашборда — это селекторы, также известные как комбобоксы, комбинированные поля или поля с выпадающим списком. Они не просто влияют на нижележащий чарт — чаще всего они управляют всей группой чартов и позволяют получить огромное количество вариантов отображения данных.

Почти всегда селекторы поддерживают возможность мультивыбора. В примере ниже можно выбрать одну локализацию опухолевого процесса. А можно выбрать все, кроме одной. Или группу с произвольным количеством локализаций. Например, сосредоточиться на опухолях системы пищеварения: печени, желудка, пищевода, кишечника и так далее.

В некоторых дашбордах используется оглавление слева страницы, с помощью которого можно перемещаться от чарта к чарту. А ещё вкладки сверху — каждая панель фактически состоит из нескольких экранов, между которыми можно переключаться.

Такие же вкладки могут содержать и отдельные чарты. То есть в чарте может находиться несколько диаграмм, каждая из которых будет чувствительна к состоянию селекторов выше.

Следуем традиции, заложенной в предыдущем материале, — и приглашаем «потрогать» дашборды самостоятельно. Вот несколько готовых вариантов:

С помощью нашего инструмента исследователь может обнаружить корреляции и выдвинуть гипотезы или обозначить вопросы, требующие решения. В первой статье я уже писал о своих самых «вопиющих» впечатлениях от визуализированных данных. И сейчас просто не в силах писать о других, которыми полны наши дашборды. Вопросы всё так же звучат риторически:

  • Почему в Дагестане в первой (самой начальной) стадии рака диагностируют 21,6% всех опухолей, а в Мурманской области почти в два раза больше (38,9%)?

  • Почему в Брянской области почти треть всех диагностируемых опухолей (28,6%) выявляют в четвёртой стадии, когда всё лечение может быть направлено только на облегчение страданий, а в Ленинградской области таких случаев в три раза меньше (8,7%)?

  • 1823 человека умерли от злокачественных новообразований в 2021 году в Свердловской области, не будучи на учёте у онколога. То есть 20,9% умерших не получали никакой онкологической помощи. Почему так?

Важное уточнение: мы IT-специалисты, а не профессиональные медицинские исследователи. Мы не претендуем на то, чтобы давать оценки, выявлять взаимосвязи и делать выводы, — а создаём инструмент, с помощью которого это будет проще делать профильным специалистам.

Риторика? Эти вопросы не могут звучать никак иначе в моём исполнении, потому что ответы на них предполагают наличие соответствующих компетенций, которые есть у врачей-онкологов, у чиновников из органов управления здравоохранением. Это их компетенция, их право и их обязанность. Именно ради них мы и инициировали наш проект, им мы адресуем свой труд. Мы хотим привлечь онкологическое сообщество к использованию созданных нами инструментов. Нам бы хотелось услышать с их стороны самую резкую и безжалостную критику содеянного нами, чтобы сделать инструмент ещё лучше.

Общая проблема и общая ответственность: обращение к участникам Мастерской

Особым впечатлением, приятным и неожиданным открытием для меня стала та степень ответственности, вовлечённости и самоотдачи, которую демонстрировали все участники проекта. Очень ясно чувствовалось, что они воспринимают проблему и рождённые ей задачи как глубоко личную миссию и ответственность. Я хочу сказать спасибо как студентам, так и команде проекта: Кириллу Рыжикову, Ольге Матушевич, Веронике Хитрой, Антону Ермолину, Олегу Юрьеву и Ризо Расулову. Пусть компетенции и задачи у всех разные, зато результат один на всех!

Я обратился к каждому участнику Мастерской с благодарственным письмом — и считаю справедливым повторить эту благодарность именно в тех же словах и выражениях на страницах Хабра.

Ваша работа на проекте была очень продуктивной и очень значимой. Безусловно, эта была сложная для реализации задача, и Вы справились с ней наилучшим образом.

Отдельно хочу отметить высочайшую социальную важность всего, что было сделано и лично Вами, и коллективным трудом команды. Тема, которой был посвящён этот проект, без всякого преувеличения, одна из важнейших проблем человечества на данный момент. И в то же время это глубоко личная проблема для каждого из нас. Ведь нет такой семьи и такого человека, у которых бы не было памяти о своей трагедии, своей утрате. У нас у всех свой личный счёт к этому недугу, к этому источнику страданий, горя и потерь. И потому Ваш подвижнический труд так важен и так почётен. Я благодарю Вас за этот труд от имени всех, кого это касается. И это как раз тот самый случай, когда уместно говорить (благодарить) от имени всех жителей планеты Земля.

Обработка и последующая визуализация данных в ходе проекта позволили дать в руки врачам — онкологам, чиновникам, организаторам здравоохранения совершенно новый механизм оценки качества организации онкологической помощи в стране и в каждом регионе в отдельности. Ваши результаты очень наглядны, очень значимы и очень полезны. Эти результаты, несомненно, будут использоваться и развиваться. Мы готовимся к следующему этапу развития нашего с Вами проекта.

Очень ценю то, что вы нашли время для участия в нашем проекте. Чрезвычайно признателен Вам за труд, усердие и компетенции. Очень доволен результатом. Дорожу нашим сотрудничеством и надеюсь на его продолжение!

Меня ничуть не смущает, что стиль этого благодарственного письма может многим показаться слишком возвышенным и вычурным. Пусть так. Главное, что это совсем не избыточные — искренние слова, сказанные от души, с надеждой на то, что участники проекта продолжат своё участие в нём. А ещё с надеждой, что к проекту захотят присоединиться новые участники: IT-специалисты, врачи, онкологи-исследователи, медицинские чиновники. Проблема исследования общественного здоровья — это, без всякого преувеличения, наша общая проблема, задача и ответственность.

Что дальше: выход в сообщество и планы на третью Мастерскую

Есть такое выражение: «Если ты создал хорошую информационную систему, можешь быть уверен, что сделал это слишком поздно». Не помню, кто автор, но это очень часто звучит в профессиональном окружении. Поэтому стремиться к далёкому идеалу «одним прыжком» мы не хотим — вместо этого планируем делать то, что реально. Где-то упрощать работу, дорабатывая инструмент в процессе и «имея в голове» тот самый идеал, который, подобно горизонту, по мере движения к нему тоже развивается и совершенствуется.

Мы не оставляем попыток выйти с нашим проектом в круги онкологов и других медицинских профессионалов. К сожалению, значимых результатов в этом у нас пока что нет. Но мы продолжаем работу и будем рады любому отклику, любому заинтересованному участнику и любому содействию нашему социально значимому проекту. Будь то участие действием, медийная поддержка или просто дружеский совет.

Сейчас мы активно работаем над оцифровкой отчётов главного онколога Минздрава России за 2007–2020 годы — и такого же отчёта за 2022 год, вышедшего уже после начала нашего проекта. Эти новые данные позволят не просто увидеть то, что мы уже визуализировали, но и понять динамику — где ситуация улучшается, а где, напротив, ухудшается. По этим новым данным мы тоже проведём Мастерскую. Возможно, не одну.

Также наш проект получил в каком-то смысле неожиданное, не вполне онкологическое развитие. Мы оцифровали аналитические сборники «Здравоохранение в России», которые издаются Росстатом с 2001 года. По этим данным уже запланирована Мастерская, которая пройдёт в конце мая или начале июня 2024 года. Мы непременно расскажем о результатах работы. Акцента на онкологии там будет меньше, но появится много другой информации, визуализация которой будет не менее полезна и интересна.

Мы готовимся к запуску сайта, на котором будут собраны лучшие дашборды. Мы надеемся, что он не просто продемонстрирует наши инструменты целевой аудитории, но и объединит эту аудиторию — станет площадкой для широкого обсуждения и коллективной оценки того, что получилось.

Амбициозные планы? Несомненно, да! Но именно здоровая конструктивная амбиция и была во все времена той самой движущей силой, которая собирала и объединяла неравнодушных людей. Заставляла их «поднимать паруса», идти «за три моря», открывать новые земли и непрерывно двигаться в своём стремлении сделать мир лучше.

 

Источник

Читайте также