Как 164 команды получили 164 уникальных ответа на один и тот же вопрос

16 минут назад

В научной среде хорошо известна «стандартная ошибка» — статистическая погрешность, обусловленная тем, что мы работаем не с генеральной совокупностью, а лишь с её фрагментом. Учёные умеют её вычислять и учитывать при интерпретации результатов.

Однако существует и куда менее обсуждаемый феномен — нестандартная ошибка.

Она порождается вариативностью методологических подходов: одни исследователи усредняют данные по дням, другие — по месяцам; кто-то отсекает выбросы, а кто-то сохраняет их в выборке. Единого канона проведения анализа не существует, а значит, нет и точки отсчета. Если бы методика была стандартизирована, этот показатель стремился бы к нулю.

Но на практике это невозможно.

Масштабный эксперимент: что будет, если дать всем одинаковые условия?

Авторы проекта FINance Crowd Analysis Project решили поставить эксперимент: предоставить большой группе учёных идентичный массив данных и одинаковый перечень вопросов, чтобы проследить масштаб расхождений в результатах. Материалом послужили 720 миллионов торговых записей по фьючерсам EuroStoxx 50 за 2002–2018 годы, предоставленные Deutsche Börse.

В исследовании приняли участие 164 команды и 34 независимых эксперта. Уровень участников был крайне высоким: у 31% команд имелись публикации в ведущих отраслевых журналах, в 52% случаев в состав входил профессор, а 65% имели опыт работы с «большими данными». К участию допускались только эксперты с ученой степенью и опытом в эмпирических финансах.

Задача состояла в оценке динамики шести рыночных индикаторов (эффективность рынка, спреды, клиентские объемы и т.д.). Авторы стремились не только выявить разброс, но и проверить, способствует ли его снижению внешняя обратная связь.

Процесс был разделен на четыре стадии. Сначала — полная изоляция без обмена опытом. Затем — обмен анонимными рецензиями. На третьем этапе участникам открыли доступ к лучшим работам коллег для возможной корректировки своих методов. Наконец, четвертый этап снял все ограничения, позволив командам заимствовать любые подходы. Всем участникам гарантировалось соавторство, что исключало мотивацию подгонять результаты под «нужный» ответ.

Результаты: неопределенность превышает ожидания

Разброс оказался пугающим, причем даже в очевидных вопросах.

*Каждая точка — одна команда, прямоугольник охватывает среднюю половину всех результатов*

Возьмем гипотезу о доле клиентского объема: медиана составила −3,3%, но крайние значения варьировались от −7% до +2%. Еще драматичнее ситуация с эффективностью рынка: при медиане в −1,1% диапазон разброса достиг 6,7 процентного пункта, а отдельные «выбросы» из-за специфических методологических решений достигали астрономических величин (+74 491%).

Статистический тест подтвердил: эти расхождения не являются случайным шумом. Вероятность того, что такой разброс возник случайно, меньше 0,01%. Разрыв абсолютно реален.

Анализ причин показал следующее: опыт и квалификация команды мало влияют на точность в пределах «среднего» диапазона, хотя сильные команды реже допускают радикальные отклонения. Воспроизводимость кода и оценки рецензентов, напротив, значимо снижают разброс. Качественные исследования имеют тенденцию «тянуться» друг к другу, минимизируя расхождения.

Обратная связь закономерно сократила разрыв вдвое, однако даже на финальном этапе он остался статистически значимым.

Первый этап — до любой обратной связи. Верхний график — разброс в середине распределения (средняя половина команд). Нижний — разброс на краях (почти весь диапазон)

Кульминация эксперимента — прогнозы самих исследователей. Большинство участников (опытные PhD!) критически недооценили масштаб расхождений, полагая, что коллеги придут к схожим выводам. Это объясняет, почему проблема «нестандартной ошибки» игнорировалась годами: ученые просто не подозревают о глубине методологической пропасти.

Дерево решений: природа ошибок

Каждый этап анализа — это «развилка», где исследователь принимает решение: стоит ли убирать торговые сессии открытия и закрытия? Как обрабатывать аномальные сделки? Какую частоту данных выбрать? Комбинации этих решений порождают тысячи вариантов анализа.

Цветные прямоугольники — разброс, который получается при систематическом переборе всех разумных методологических комбинаций. Серые — реальный разброс между командами

Ключевыми факторами разброса оказались выбор модели и частота данных. Например, использование «неравенства Йенсена» при перемножении краткосрочных относительных изменений на дневных данных приводит к накоплению катастрофических погрешностей, тогда как линейные модели нивелируют этот эффект. Кроме того, частота анализа меняла даже знак тренда: на микроуровне рынок казался менее эффективным, на макроуровне картина кардинально менялась.

Итоги

Это исследование демонстрирует неудобную правду: привычное указание погрешности (±X%) учитывает лишь случайную ошибку выборки, игнорируя «методологический произвол».

Научные результаты — это не истина в последней инстанции, а лишь одна из возможных реализаций в широком спектре вероятностей. Как удачно подметили авторы, данные — это свет, а методология — призма. Мы научились измерять дрожание источника света, но пока почти не умеем оценивать, как искажает картинку сама призма.

Источник

Как 164 команды получили 164 уникальных ответа на один и тот же вопрос

Масштабный эксперимент: что будет, если дать всем одинаковые условия?

Результаты: неопределенность превышает ожидания

Дерево решений: природа ошибок

Итоги

Читайте также

Паблик ВКонтакте

Последние посты