[Перевод] Как построить вероятностный микроскоп

14.02.2017

Если верить слухам, 20th Century Fox через пару лет выпустит римейк научно-фантастического фильма 1966 года «Фантастическое путешествие«. По сюжету протагонистов сжимают и вводят в человеческое тело, по которому они путешествуют на подводной лодке микроскопического размера. На таких масштабах ток крови превращается в опасную турбулентность, белые тельца могут поглотить корабль, а поверхностное натяжение капли превращается в непреодолимый барьер.

Изменение масштабов разрушает наше интуитивное понимание того, что для нас важно, что имеет силу и что опасно. Чтобы выжить, необходимо перенастроить интуицию. Даже если любым эффектом на привычных масштабах можно пренебречь, то чуть менее пренебрежимый эффект может стать невероятно важным на незнакомых масштабах.

Как нам понять, что может быть важным на незнакомых масштабах? Оказывается, существует математическая теория больших отклонений, работающая с вероятностями так же, как сработал уменьшающий луч с командой «Фантастического путешествия». В то время как классическая теория вероятности занимаются вероятностями обыкновенных событий, теория больших отклонений специализируется на чрезвычайно редких событиях, возникающих при слиянии нескольких довольно необычных. Она позволяет нам увеличить масштаб изображения в вероятностном микроскопе, чтобы определить наименее вероятные пути того, как может произойти крайне маловероятное событие.

С момента формулирования теории 50 лет назад математиком С.Р. Шринивасой Варадханом [S.R. Srinivasa Varadhan], её тщательно изучали и разрабатывали. Она показывает, как среднее поведение случайной системы может отклоняться от типичного. Тщательно сравнивая все редкие возможности, можно видеть, как мы часто недооцениваем вероятности необычных событий, когда мы ограничиваем наше внимание обычными способами того, как они могут произойти.

Отправимся же в путешествие с микроскопом в руках

Высокочастотный трейдер

Высокочастотный трейдер проводит длинные последовательности сделок. На каждой из них его состояние с начальным значением в $1 000 000 увеличивается на полпроцента или уменьшается на полпроцента, и вероятность любого исхода равна ½. Сколько денег у него вероятнее всего будет через миллион транзакций?

Он может рассуждать так: каждая транзакция идёт вверх или вниз на одну и ту же величину, поэтому в среднем сумма не изменится, и в итоге у него должен остаться $1 миллион.

А вот другое рассуждение: когда он выигрывает, его состояние умножается на 1,005. Когда проигрывает, то на 0,995. И то и другое умножает его на 1,005 x 0,995 = 0,999975. За миллион транзакций произойдет по 500 000 тех и других случаев, поэтому изначальный миллион превратится в $1 000 000 x (0,999975)^{500 000}, что примерно равно $3,73.

Какое рассуждение верно? Как ни странно, оба, но второе будет важнее. У трейдера, скорее всего, ничего не останется, но если мы увеличим тот набор маловероятных событий, в котором он остаётся в выигрыше, мы увидим такие варианты, в которых он сильно выигрывает. Ключевая функция тут – I(x), функция отношения, которая показывает, как вероятность получения результата х уменьшается с увеличением количества транзакций. Здесь х – это число, но в зависимости от задачи, это может быть случайная траектория, случайная структура сети или случайная геометрия вселенной. I(x) = 0 соответствует типичному случаю с не очень маленькой вероятность – в нашем случае это вариант, в котором состояние трейдера уменьшается с экспоненциальной скоростью. Большие значения I(x) соответствуют экспоненциально наименее вероятному х.

Среднее значение определяет компромисс между экспоненциально уменьшающейся вероятностью и экспоненциально увеличивающимся состоянием. Некоторые из х оказываются очень большими, несмотря на небольшую величину соответствующей им вероятности. Оптимизация этого компромисса подтверждает наивное интуитивное понятие о том, что средний результат торгов окажется равным $1 миллиону – даже несмотря на то, что можно быть уверенным в том, что практически все трейдеры потеряют почти всё. Если существует 1 млн трейдеров, и каждый из них делает по миллиону операций с капиталом в $1 млн, тогда средний результат действительно будет равен $1 млн. Но это среднее будет определяться 1-2 трейдерами, на счетах которых окажутся сотни миллиардов долларов. Большая часть денег окажется на счетах небольшого количества случайных трейдеров, а большая часть трейдеров потеряет всё.

Шансы выиграть, или остаться при своих, не превышают 1 из 100.

Телефонный узел

Основная проблема сетей связи – определение вероятности перегрузки. Буфер данных телефонного узла или сети интернет может обладать ёмкостью, достаточной для средней нагрузки, но недостаточной для обработки необычного количества одновременных запросов.

Математики из лаборатории Белла, Алан Вайс и Адам Шварц [Alan Weiss and Adam Shwartz] обозначили применение теории больших отклонений к сетям связи в 1995. По теории, вероятность редкого события экспоненциально уменьшается вместе с размерами системы. На языке математики, вероятность меняется, как e^-n*I(x), где n обозначает размер, x – путь к редкому событию, I – функция отношения, дающая относительную вероятность выбора этого пути. Редкие события обычно случаются предсказуемым образом – таким, который минимизирует функцию отношения – и происходят группами, разделёнными долгими временными интервалами.

В любой задаче трудность состоит в определении (и успешной интерпретации) функции отношения. Она даёт относительное правдоподобие всех последовательностей нагрузок, из которых можно вывести комбинации, приводящие к перегрузкам, и обладающие наименьшим значением функции отношения, то есть, наибольшей вероятностью. Эти комбинации определяют частоту перегрузок, а также их природу: сколько источников будет активно, какие это будут источники, и как быстро получится справиться с перегрузкой.

В качестве простого примера рассмотрим телефонную сеть, в которой каждый из большого числа пользователей – скажем, миллиона – соединяется в случайное время, так что в среднем они остаются на линии 1% времени. (Мы предполагаем, что они совершают звонки независимо друг от друга, и с равными шансами в любое время суток). Сети требуется 10 000 линий связи для удовлетворения средних запросов. Компания, используя большие отклонения, подсчитала, что при вводе 10 500 линий связи она будет находиться в состоянии перегрузки примерно 2 минуты в год.

Представьте, что в дополнение сеть начинают использовать полмиллиона игроков в приставки, находящиеся на линии 1 процент времени, но требующие большой пропускной способности – они забирают по 5 линий каждый. Новым пользователям также требуется 10 000 линий в среднем, поэтому компания решает удвоить ёмкость, до 21 000 линий. Но в результате сеть оказывается перегруженной несколько минут в неделю. Анализ функции отношения показывает, что игроки, использующие в среднем ту же ёмкость сетей, что и другие пользователи – во время перегрузки используют на 8% линий больше, и что дополнительные 250 линий восстановят бесперебойную работу сети. Если мы построим график загрузки сети за секунды до перегрузки, мы увидим, что он почти всегда идёт по определённому шаблону, плавно изгибаясь вверх перед тем, как резко упереться в потолок – и эту кривую тоже можно рассчитать, как минимизирующую функцию отношения.

В современных децентрализованных сетях, обменивающихся пакетами, функция отношения может помочь обнаружить ботнеты, сети заражённых вирусом компьютеров, которые хакеры-преступники используют для рассылки спама и атак на системы. Идея в том, чтобы определить управляющий ботнетом компьютер, который связывается с необычно большим количеством других компьютеров, и затем подтвердить идентификацию, найдя необычные корреляции у компьютеров, с которыми он связывается. Для этого исследователи из Бостонского университета использовали функцию отношения, которая могла бы описать, среди всех причин по которым маловероятно большой набор не связанных между собой компьютеров мог бы связываться с одним и тем же удалённым сервером, какие из вариантов корреляции их коммуникаций будут наиболее вероятными. (Wang, J. & Paschalidis, I.C. Botnet detection based on anomaly and community detection. IEEE Transactions on Control of Network Systems (2016). Retrieved from DOI:10.1109/TCNS.2016.2532804.)

Спящее семя

Диапауза – задержка биологического развития, часто наступающая на раннем этапе. Многие виды растений производят семена, не начинающие развиваться немедленно, но остающиеся в состоянии покоя долгое время, и формирующие стабильный запас. Если учесть, что битва за выживание обычно превращается в «кто доберётся туда первым и в большем количестве», случайная задержка развития – это небольшая загадка экологии.

Чтобы разобраться в ситуации, мы с Шрипадом Тулджапркаром [Shripad Tuljapurkar] в нашей совместной работе рассмотрели простую модель: вид с двухгодичным жизненным циклом, в котором первый год он вырастает из семечка во взрослую особь, а второй проводит в производстве семян. (Steinsaltz, D. & Tuljapurkar, S. Stochastic growth rates for life histories with rare migration or diapause. arXiv:1505.00116 (2015).) Мы задавались следующим вопросом: как повлияет на скорость роста то, что некоторая часть семян будет оставаться в спячке в течение года?

В случае, когда рост, выживание и производство семян из года в год остаются постоянными, ответ очевиден: задержка роста индивидуумов задерживает рост популяции. Но при переменных условиях окружающей среды всё оказывается иначе. Даже небольшая задержка приводит к резкому росту популяции.

Если 1% семян ждёт год, можно было бы ожидать, что типичная генеалогическая траектория испытает 1 задержку в 100 лет, и попадёт в типичные условия окружающей среды при взрослении. Но у последующих поколений семян будут и очень редкие траектории, задерживающиеся чаще, у которых эти задержки приходятся как раз на наихудшие годы, когда рост означает почти верную смерть или невозможность произвести семена. Эти траектории служат большими отклонениями – экспоненциально редкими – но со временем они производят экспоненциально больше потомков. Скорость роста популяции в итоге определяется этими маловероятными траекториями. Иначе говоря, если мы отследим назад траекторию индивида, живого сегодня, она будет выглядеть, как последовательность удачных случайностей.

Та же математика работает и для миграции, поддерживая важный принцип защиты ареала: вид выиграет от возможности перемещаться между двумя одинаково хорошими территориями, на которых погодные условия случайным образом меняются от года к году. Каждый индивид, отслеживая семейную историю, найдёт в ней предков, убежавших с одного места, по случайному совпадению, как раз перед наступлением катаклизма, или прибывших на другое место как раз тогда, когда там было в достатке еды. Это особый случай банальной эволюции: большая часть живших организмов умирает, не оставив потомства, но вы можете отследить ваших предков на миллиарды поколений, и не встретить ни одного такого неудачника. Везёт же вам!

Долгожители

Дожив до определённого возраста – который оказывается меньшим, чем думает большинство людей, поскольку вероятность того, что вы проживёте ещё год, испытывает максимум в 12 лет – вы столкнётесь с тем, что ваше физическое состояние и вероятность прожить ещё год всё время уменьшается, даже если на коротких периодах вы можете достичь улучшения. Демографы-теоретики рассматривали модели старения, в которых «живучесть» индивида служит случайной величиной, изменяющейся небольшими шагами, и которая с большей вероятностью меняется вниз, чем вверх, а вероятность смерти увеличивается тем сильнее, чем ниже опустилась живучесть.

Неудивительно, что следуя этой модели, можно вычислить, что средняя живучесть популяции уменьшается, как функция от возраста… до какого-то момента. Но до определённого возраста доживает малая часть популяции, и это исключительные индивиды. Возможно, им повезло выиграть в генетическую лотерею. Возможно, случайные тычки жизни направляли их в относительно положительную сторону.

Как бы там ни было, модель предсказывает, что живучесть выживших постепенно перестаёт уменьшаться. Каждый индивид по-прежнему уменьшается, но тех, кто уменьшился, забирает старуха с косой. Суммарная живучесть выживших достигает равновесия под названием «квазистационарное распределение», между индивидуальными траекториями, идущими вниз, и отсеиванием лишних особей в нижней части распределения живучести.

Говоря языком больших отклонений, есть функция отношения I(x) – где х это запись живучести за всю жизнь – которая равняется нулю для траекторий, остающихся близко к среднему. Те же, что сильно отклоняются от среднего, обладают положительной функцией отношения, то есть, их вероятность экспоненциально меньше. В типичной модели можно обнаружить, что среди всех жизненных путей, длящихся нехарактерно долго, наиболее вероятными будут те, которые случайно поддерживали живучесть на необычно высоком уровне, чем те, что следовали по обычной нисходящей траектории и случайно не умерли.

Из этого следует, что коэффициент смертности – вероятность умереть в следующий год для индивида определённого возраста – увеличивается во взрослом возрасте, а затем выравнивается в очень почтенном возрасте. Такая закономерность, «плато смертности», явно прослеживается у таких организмов, как дрозофилы и нематоды, если наблюдать их в больших количествах в одинаковых лабораторных условиях – коэффициент смертности выравнивается у самых распространённых лабораторных дрозофил, Drosophila melanogaster, уже в возрасте 4 недель. (Vaupel, J.W., et al. Biodemographic trajectories of longevity. Science 280, 855-860 (1998).)

Плато смертности у людей не проявлялось до тех пор, пока популяция не выросла, и здравоохранение не улучшилось настолько, чтобы достаточно много людей смогло доживать до 100 и более лет. В среднем коэффициент смертности у человека удваивается каждые 8 лет в промежутке от 30 с чем-то лет до 90 с чем-то лет. Если взять выборку американцев, родившихся в 1900-м, их коэффициент смертности в 90 лет составлял порядка 0,16, то есть 16% из них в этот год умерло. Он возрастает более чем в два раза к 98 годам, а потом уже никогда не удваивается. Самый высокий из зарегистрированных коэффициентов смертности составляет 0,62 в возрасте 108 лет. После этого данных становится очень мало, но тщательный анализ по людям старше 110 лет со всего мира достаточно убедительно показывает, что при текущих условиях коэффициент выровняется где-то в промежутке от 0,4 до 0,7. (Vaupel, J.W. & Robine, J.M. Emergence of supercentenarians in low-mortality countries. North American Actuarial Journal 6, 54-63 (2002))

Источник

математика, теория вероятностей