Данные часто бывают неполными. В клинических испытаниях пациенты могут выбывать, респонденты пропускать вопросы в опросах, а школы и правительства — скрывать определённые результаты. Когда отсутствуют данные, стандартные статистические методы, такие как вычисление средних, становятся неэффективными.
«Мы не можем работать с отсутствующими данными так же, как не можем делить на ноль», — поясняет Стеф ван Бюрен, профессор из Университета Утрехта.
Представьте, что вы тестируете препарат для снижения давления. Вы собираете данные еженедельно, но часть участников уходит из исследования, разочарованные отсутствием улучшений. Можно исключить этих участников из анализа, оставив только тех, кто закончил исследование — это называется полным анализом случая. Однако это создаёт ошибку: исключение недовольных пациентов искажает результаты, заставляя лечение выглядеть более эффективным, чем оно есть на самом деле.
Избежать такой предвзятости сложно. Ранее исследователи применяли разные техники с серьёзными ограничениями. Но в 1970-х статистик Дональд Рубин предложил метод, который требовал больших вычислительных мощностей. Он предположил, что можно сделать несколько догадок о недостающих данных и использовать их для анализа. И хотя сначала идея вызвала сопротивление, она стала основным подходом к работе с неполными данными, и её популярность растёт благодаря современным методам машинного обучения.
Вне статистики «вменение» означает возложение ответственности. В статистике это относится к присвоению недостающих данных. Например, если человек не указал свой рост, ему может быть присвоен средний рост его пола. Этот метод, известный как однократное вменение, появился в 1930-х и стал предпочтительным к 1960-м. Рубин изменил этот подход, найдя в нём недостаток: чрезмерную уверенность в догадках.
Во время учёбы в Гарварде Рубин переключился с психологии на информатику и заинтересовался проблемой недостающих данных. Он заметил, что однократное вменение создаёт чрезмерную уверенность и недооценивает неопределённость. Статистики могли исправлять это, но решения были сложными и специализированными для каждой ситуации. Рубин стремился создать универсальный и точный метод.
После защиты диссертации в 1971 году Рубин начал работать в Принстоне. Когда ему поручили анализировать опрос с недостающими данными, он предложил многократное вменение — сделать несколько копий данных и для каждой из них случайно выбирать предположение о недостающих данных. Это позволило бы учитывать неопределённость в прогнозах.
Множественное вменение подразумевает создание нескольких версий набора данных и заполнение каждой из них случайными значениями из предположений. Затем можно анализировать каждую версию и получать разные прогнозы. Объединяя их с помощью специальных правил, можно получить более точные результаты и оценить неопределённость. Этот метод стал важным для регулирующих органов, таких как FDA.
Пример обработки табличных данных
Вы тестируете новый препарат для снижения кровяного давления. Каждую неделю вы измеряете кровяное давление (BP) пациентов, но некоторые перестают приходить на испытания. Что вы сделаете?
ПАЦИЕНТ |
НЕДЕЛЯ 1 |
НЕДЕЛЯ 2 |
НЕДЕЛЯ 3 |
---|---|---|---|
А |
137.7 |
135.3 |
134.1 |
B |
136.4 |
134.2 |
132.0 |
C |
138.9 |
138.7 |
Покинул исследование |
Вариант 1 – Полностью исключить пациента C из исследования
ПАЦИЕНТ |
НЕДЕЛЯ 1 |
НЕДЕЛЯ 2 |
НЕДЕЛЯ 3 |
---|---|---|---|
А |
137.7 |
135.3 |
134.1 |
B |
136.4 |
134.2 |
132.0 |
C |
138.9 |
138.7 |
Покинул исследование |
Вариант 2 – Предположить, что кровяное давление пациента C остаётся постоянным
ПАЦИЕНТ |
НЕДЕЛЯ 1 |
НЕДЕЛЯ 2 |
НЕДЕЛЯ 3 |
---|---|---|---|
А |
137.7 |
135.3 |
134.1 |
B |
136.4 |
134.2 |
132.0 |
C |
138.9 |
138.7 |
138.7 |
Вариант 3 – Предположить, что кровяное давление пациента C похоже на давление пациента A
ПАЦИЕНТ |
НЕДЕЛЯ 1 |
НЕДЕЛЯ 2 |
НЕДЕЛЯ 3 |
---|---|---|---|
А |
137.7 |
135.3 |
134.1 |
B |
136.4 |
134.2 |
132.0 |
C |
138.9 |
138.7 |
134.1 |
В начале 1970-х множественное вменение встретило скептицизм. Учёные задавались вопросом, почему они должны выбирать что-то, кроме наилучшего предположения. Кроме того, многократное вменение требовало больших вычислительных мощностей, что было проблематично в эпоху перфокарт.
Однако Рубин продолжал продвигать свою идею. Он консультировал правительственные агентства, которые могли себе позволить хранение больших объёмов данных. К 1990-м технология продвинулась, и множественное вменение стало доступно более широкому кругу исследователей. Одним из них был ван Бюрен, который выпустил программное обеспечение для использования этого метода.
В 2010 году FDA рекомендовало множественное вменение в медицинских исследованиях, сделав его стандартом в этой области. Несмотря на появление других методов, множественное вменение остаётся наиболее универсальным и применимым в различных ситуациях.
Современные программы, основанные на машинном обучении, расширили возможности множественного вменения, позволяя работать с более сложными данными. Однако некоторые учёные всё ещё сомневаются в строгости этих новых методов.
Тем не менее, подход Рубина остаётся основным инструментом анализа недостающих данных в различных областях, помогая исследователям точнее интерпретировать результаты и избегать искажения фактов.
Всё это и много другое — ТГ «Математика не для всех».