Анализ данных по коронавирусу SARS-CoV-2 (2019-nCov)

В последнее время вижу много выпусков новостей о новом вирусе, но так ли всё плохо, прошёл ли пик эпидемии или всё ещё впереди. По большей части из новостных выпусков сложно сделать хоть какие-то выводы. В итоге решил разобраться сам, и вот, что из этого получилось.

Анализ данных по коронавирусу SARS-CoV-2 (2019-nCov)

Для того, чтобы разобраться в ситуации мне необходимо было раздобыть данных для анализа, найти их удалось на сайте Всемирной Организации Здарвоохранения (ВОЗ). Данные публикуются в виде pdf отчётов за каждый день начиная с 21 января 2020 года. Универсальный парсер написать не удалось, так как все отчёты разные, пришлось копировать данные из них вручную. В первую очередь меня интересовало количесто инфицированных и умерших человек, получив это я расчитал число инфицированных и умерших за день:

Отобразим на графике количестов умерших за каждый день:

На графике видны аномальные данные за 13 и 14 февраля, уточнив это в отчётах за указанные периоды я заметил опечатки, так за 14 и 15 февраля указано, что количество умерших в эти дни равно по 121 человеку, что не соответствует тому, что было расчитано ранее. В силу этого (хотя 13 февраля и совпадает с тем, что напечатано в отчёте), я за 13 и 14 февраля взял их среднее значение:

Далее отобразим на графике количество инфицированных человек за каждый день:

На этот раз аномальное значение получилось 17 февраля, проверив данные по отчётам за это число, я узнал, что до 17 февраля инфицированные люди и люди с симптомами вируса (т.е. случаи не подтвержённе лабораторно) велись отдельно, а после этой даты их объединили, из-за этого на графике такой скачок. Чтобы это исправить я за 17 ферваля взял среднее между 16 и 18 февраля:

Теперь графики больше похожи на правду, для наглядности я наложил графики друг на друга:

Из этих графиков можно сделать вывод, что пик и по количеству инфицированных и по количеству умерших прошёл, и хотя общее количество зараженных велико, всё же прослеживается позитивный прогноз. Приведенные графики были получены по данным из Китая, остальной мир я не стал брать, т.к. для статистики там мало данных. Выводы, которые я получил являются лишь мнением автора и ни на что не претендуют.

 

Источник

data mining, python, вирусы, здоровье, здоровье гика

Читайте также