Почему в опубликованных исследованиях чаще всего оказываются неверные результаты?

Август 2005 г.
Журнал: PLOS Medicine
Автор: профессор Стэнфордской школы медицины Джон Иоаннидис
Материал: эссе «Почему большинство опубликованных результатов исследований оказываются ложными».

Почему в опубликованных исследованиях чаще всего оказываются неверные результаты?

Это эссе произвело настоящую революцию в научном сообществе, выявив масштабы проблемы ложноположительных результатов и став обязательным к прочтению каждому, кто публикуется в рецензируемых журналах.

Главная идея статьи заключается в том, что при традиционном подходе к статистическому анализу — особенно при ориентировании на порог p < 0,05 — большое число опубликованных «значимых» находок фактически не отражает реальных эффектов.

Проблема воспроизводимости исследований проявляется на трёх уровнях:

  • отсутствие повторных проверок;
  • когда попытки воспроизведения дают иные результаты;
  • неудовлетворительная методическая проработка, делающая повторное испытание невозможным.

Из-за этой ситуации доверять любой отдельной публикации без дополнительных проверок нельзя.

Несмотря на резкий резонанс и критику идеи о «массовой лжи» в науке, не удалось опровергнуть саму концепцию Иоаннидиса — спор шел лишь вокруг числа ложноположительных находок. Одни исследователи оценивали долю таких результатов в биомедицине на уровне 14 %, другие — не выше 17 %.

Ключевые выводы, которые важно помнить:

  • Одна публикация в журнале не является окончательным доказательством.
  • Необходимо понимать механизмы искажения статистических выводов.
  • Существуют простые признаки, указывающие на высокую вероятность ложного результата.

Иоаннидис, опираясь на работы Sterne, Davey Smith и др., критиковал практику утверждать об открытии только на основании единственного исследования с формальным критерием p < 0,05. Хотя этот порог часто интерпретируют как 95 % уверенности, фактически до 1 из 20 «значимых» находок может оказаться ложной.

По его расчётам, из ста проверенных по этой схеме ложных гипотез до пяти могут показать «статистически значимые» результаты и быть опубликованными. А если учесть, что отрицательные результаты обычно не публикуются, общее число ложноположительных публикаций возрастает многократно.

График вероятности ложноположительных результатов

С ростом числа независимых групп, проверяющих одну и ту же гипотезу, общее число ложных «открытий» экспоненциально увеличивается, поскольку каждой группе достаточно одного «везучего» p < 0,05.

Пример «Лиги ленивых»: при 100 000 проверяемых гипотез с порогом 5 % ложноположительных выводов окажется 5 000, даже без всякого преднамеренного искажения данных. Истинные же находки (скажем, если их 10) теряются на фоне огромного «шума».

Пример «Стойких и смелых»: при ассоциативном геномном исследовании 100 000 полиморфизмов и истинной связи всего для 10 из них вероятность того, что «значимая» ассоциация действительно отражает реальность, остаётся крайне низкой, даже при мощном анализе и отсутствии предвзятости.

Схема влияния смещения исследования

Иоаннидис выделял шесть факторов, уменьшающих вероятность того, что опубликованный результат окажется истинным:

  • небольшое число независимых исследований;
  • малый размер эффекта;
  • большой объём и выбор проверяемых взаимосвязей;
  • высокая гибкость дизайна и аналитики;
  • финансовые или идеологические интересы;
  • интенсивная конкуренция в области исследования.

Исходя из этих факторов, Иоаннидис пришёл к выводу, что в большинстве научных дисциплин вероятность истинности опубликованных данных едва превышает 50 %.

В заключение он предлагал меры для повышения достоверности публикаций:

  • увеличение статистической мощности экспериментов;
  • параллельная проверка разными группами с обязательной регистрацией протоколов;
  • строгий отбор гипотез до начала исследования.

Впоследствии, участвуя в мета-аналитических проектах, Иоаннидис показал, что лишь 1 из 20 медицинских вмешательств в обзорах Cochrane подкреплён высококачественными доказательствами, и что эта ситуация со временем не улучшается.

P.S. В 2016 году он обозначил основные причины избытка ложноположительных результатов в клинических и биомедицинских исследованиях:

  • работа в изоляции малыми группами с ограниченными выборками;
  • отсутствие предварительной регистрации гипотез;
  • ориентация на p < 0,05 как на ключевой критерий;
  • отсутствие повторных исследований;
  • недостаточный обмен данными между учёными.

P.P.S. Последний массовый всплеск интереса к этой теме произошёл в 2018 году, когда Ричард Хортон в колонке The Lancet отметил, что «значительная доля научной литературы, возможно, неверна», хотя сам не ясно выразил согласие с этой формулировкой.

Источник оригинального текста

 

Источник

Читайте также