Август 2005 г.
Журнал: PLOS Medicine
Автор: профессор Стэнфордской школы медицины Джон Иоаннидис
Материал: эссе «Почему большинство опубликованных результатов исследований оказываются ложными».

Это эссе произвело настоящую революцию в научном сообществе, выявив масштабы проблемы ложноположительных результатов и став обязательным к прочтению каждому, кто публикуется в рецензируемых журналах.
Главная идея статьи заключается в том, что при традиционном подходе к статистическому анализу — особенно при ориентировании на порог p < 0,05 — большое число опубликованных «значимых» находок фактически не отражает реальных эффектов.
Проблема воспроизводимости исследований проявляется на трёх уровнях:
- отсутствие повторных проверок;
- когда попытки воспроизведения дают иные результаты;
- неудовлетворительная методическая проработка, делающая повторное испытание невозможным.
Из-за этой ситуации доверять любой отдельной публикации без дополнительных проверок нельзя.
Несмотря на резкий резонанс и критику идеи о «массовой лжи» в науке, не удалось опровергнуть саму концепцию Иоаннидиса — спор шел лишь вокруг числа ложноположительных находок. Одни исследователи оценивали долю таких результатов в биомедицине на уровне 14 %, другие — не выше 17 %.
Ключевые выводы, которые важно помнить:
- Одна публикация в журнале не является окончательным доказательством.
- Необходимо понимать механизмы искажения статистических выводов.
- Существуют простые признаки, указывающие на высокую вероятность ложного результата.
Иоаннидис, опираясь на работы Sterne, Davey Smith и др., критиковал практику утверждать об открытии только на основании единственного исследования с формальным критерием p < 0,05. Хотя этот порог часто интерпретируют как 95 % уверенности, фактически до 1 из 20 «значимых» находок может оказаться ложной.
По его расчётам, из ста проверенных по этой схеме ложных гипотез до пяти могут показать «статистически значимые» результаты и быть опубликованными. А если учесть, что отрицательные результаты обычно не публикуются, общее число ложноположительных публикаций возрастает многократно.

С ростом числа независимых групп, проверяющих одну и ту же гипотезу, общее число ложных «открытий» экспоненциально увеличивается, поскольку каждой группе достаточно одного «везучего» p < 0,05.
Пример «Лиги ленивых»: при 100 000 проверяемых гипотез с порогом 5 % ложноположительных выводов окажется 5 000, даже без всякого преднамеренного искажения данных. Истинные же находки (скажем, если их 10) теряются на фоне огромного «шума».
Пример «Стойких и смелых»: при ассоциативном геномном исследовании 100 000 полиморфизмов и истинной связи всего для 10 из них вероятность того, что «значимая» ассоциация действительно отражает реальность, остаётся крайне низкой, даже при мощном анализе и отсутствии предвзятости.

Иоаннидис выделял шесть факторов, уменьшающих вероятность того, что опубликованный результат окажется истинным:
- небольшое число независимых исследований;
- малый размер эффекта;
- большой объём и выбор проверяемых взаимосвязей;
- высокая гибкость дизайна и аналитики;
- финансовые или идеологические интересы;
- интенсивная конкуренция в области исследования.
Исходя из этих факторов, Иоаннидис пришёл к выводу, что в большинстве научных дисциплин вероятность истинности опубликованных данных едва превышает 50 %.
В заключение он предлагал меры для повышения достоверности публикаций:
- увеличение статистической мощности экспериментов;
- параллельная проверка разными группами с обязательной регистрацией протоколов;
- строгий отбор гипотез до начала исследования.
Впоследствии, участвуя в мета-аналитических проектах, Иоаннидис показал, что лишь 1 из 20 медицинских вмешательств в обзорах Cochrane подкреплён высококачественными доказательствами, и что эта ситуация со временем не улучшается.
P.S. В 2016 году он обозначил основные причины избытка ложноположительных результатов в клинических и биомедицинских исследованиях:
- работа в изоляции малыми группами с ограниченными выборками;
- отсутствие предварительной регистрации гипотез;
- ориентация на p < 0,05 как на ключевой критерий;
- отсутствие повторных исследований;
- недостаточный обмен данными между учёными.
P.P.S. Последний массовый всплеск интереса к этой теме произошёл в 2018 году, когда Ричард Хортон в колонке The Lancet отметил, что «значительная доля научной литературы, возможно, неверна», хотя сам не ясно выразил согласие с этой формулировкой.



