Обработку большого объема данных используют уже все кому не лень. Компании, которые работают с big data и умеют их анализировать, получают разные метрики, на основе которых принимают важнейшие управляющие решения. Будь то анализ данных «Честного знака» для построения маркетинговой стратегии по всей стране или анализ производства, в котором нужно снизить процент брака на основе десятков показателей датчиков и камер машинного зрения.
То же самое относится и к спорту. Но так было не всегда. Подход к анализу статистических показателей игры изменился в 2004 году, когда бейсбольный Boston Red Sox выиграли мировую серию впервые с 1918 года. Причина оказалась простой: они взяли на работу Билла Джеймса, который еще с 1980-х годов обивал пороги команд и пытался объяснить, насколько важно отслеживать метрики игроков (вплоть до роста, веса или скорости подачи), строя игру команд от этого. Чудаковатого гика никто не воспринимал всерьез, но спустя 30 лет его подход изменил индустрию спорта. Думаю, что многие видели замечательный фильм Moneyball с Брэдом Питтом по книге Майкла Льюиса, затрагивающий эту тематику.
Поэтому нет ничего удивительного, что и другие виды спорта в Америке стали применять этот подход. Давайте посмотрим на примере чуждого русскому глазу спорта — американского футбола, как команды НФЛ (национальная футбольная лига — высший дивизион, сродни НХЛ и НБА) используют big data и как это изменило игру. Но придется немного погрузиться в специфику игры, потому что мне кажется, мало кто на Хабре даже знает правила игры в амфут. Попробую кратко рассказать основы — заодно, надеюсь, подтолкну к просмотру этой замечательной игры тех, кто не решался из-за сложности.
Если вдруг вас посетил вопрос «Какая связь у футбола и Хабра» — отвечу, что в амфут играет достаточно много людей из IT. Например, в команде, в которой играю я, есть люди из Сбера, VK, HH и других IT-компаний.
Немного лирики от автора
Спойлер: если не любите ностальгические мысли ноунейма, смело пролистывайте этот раздел.
Что вы представляете себе при слове «футбол»? Для меня — это Андрей Аршавин, который в сольном проходе при счете 2:1 посылает мяч в «домик» легендарного Эдвина ван Дер Сара и выводит Россию в полуфинал чемпионата Европы. Ночь, мы с друзьями орем, обливаясь пивом и слезами счастья. Потом — незабываемые гуляния до утра со всем городом, словно бы незнакомые друг с другом жители вдруг стали близкими соседями; бегство от называемой тогда еще милицией за распитие в неположенном месте; неловкие попытки залезть через окно второго этажа общежития, минуя цербера-вахтершу… Аж ностальгия захватила!
Но для рядового американца слово «футбол» — это трясущиеся руки в ожидании невероятного шоу на Супербоуле и момента, когда квотербек Том Брэди почти в 40 лет официально станет лучшим спортсменом в истории американского спорта (да-да, даже впереди Тайгера Вудса и Майкла Джордана), выиграв свой седьмой кубок Винса Ломбарди.
Незнакомое для вас чувство, правда? Так было и для меня, пока поздней ночью 8 февраля 2021 года друг не позвал к себе на тот самый Супербоул со словами: «Ну а че, давай по приколу?». Играли Тампа-Бэй Бакканирс и Канзас-Сити Чифс — фиг его знает, что за команды.
Поначалу все это больше напоминало хаос, словно я смотрю бои бесстрашных гладиаторов в Колизее. Как-то слишком жестоко и непонятно. Но спустя несколько даунов и изучения правил в интернете во всем этом появился смысл.
Спустя еще час я поймал себя на мысли, что сижу и, словно завороженный, слежу за этим невероятным действием и сложнейшими тактическими построениями. Чувствовалось, что в брутальных блоках и яростной толкотне не было какой-то злобы, а была своя эстетика. Но особенно зацепили радиоуправляемые передачи старенького Тома Брэди, который больше напоминал малоподвижного паука, вальяжно плетущего свою паутину на поле. И даже другой гениальный и молодой квотербек Патрик Махоумс выглядел блекло на фоне легенды, получившей в тот вечер очередной MVP финала. Вот тут можно посмотреть краткий обзор происходившего.
Ну как, что-то поняли? Если нет, как и я когда-то, то давайте попробую рассказать «на пальцах» правила игры и интересные для американского футбола метрики. Сразу оговорюсь — 90% специфичной информации и терминов пришлось выкинуть, иначе статью пришлось бы разбивать частей на пять. Надеюсь, вы уловите суть (хотя на это потребуется время) и посмотрите несколько матчей на YouTube, чтобы закрепить результат.
Только после этого поговорим про анализ данных и — спойлер! — сотрудничество НФЛ и Amazon. Поехали!
Основы игры в американский футбол
Краткая суть игры. Как и в хоккее, в баскетболе и в европейском футболе (его американцы называют соккером), задача команды — набрать больше очков, чем команда противника за отведенное время.
В командах играют по 11 человек с четко оговоренными ролями и расстановкой на поле, как и в привычном нам соккере. Сначала нападает одна команда, пытаясь продвигать мяч, а другая — обороняется и мешает первой. Если нападающие упускают шанс или, напротив, набирают очки, роли команд меняются — недавние нападающие становятся защищающимися, и процесс повторяется.
Игра состоит из четырех четвертей, каждая по 15 минут. Между двумя четвертями проводится большой перерыв, длящийся те же 15 минут (на Супербоуле Джей Ло или Эминем выступают в этот момент). При этом считается реальное время, со всеми остановками (а из-за специфики игры их немало), во время которых показывают много рекламы — пусть вас не пугает, что матч может продлиться от двух до трех часов. Если основное время победителей не выявило, проводят овертайм — но это случается нечасто.
Поле для игры. По размерам поле напоминает привычное нам футбольное, но, естественно, все привязано к треклятым ярдам (почему в Америке не котируется метрическая система, для меня до сих большая загадка). Размеры поля составляют 120 ярдов (109,7 м) в длину и 53,3 ярда (48,7 м) в ширину. 100 ярдов — это игровая зона, где происходят основные события и толкотня, а 10 ярдов по краям — зачетная, обозначаемая оранжевыми столбиками. В нее надо забежать с мячом, чтобы на экране появилась та самая надпись TOUCHDOWN.
Поле делится поперечными линиями с интервалом 5 ярдов, а каждые 10 ярдов подписываются и указывается направление.
Еще есть ворота, напоминающий рогатину, приподнятую над землей. Высота перекладины — 10 футов (3 м), а расстояние между стойками — 18,6 фута (5,7 м). Если команда не может занести мяч в зачетную зону и получить 6 очков, то игрок может вдарить по нему ногой из любой точки поля и в случае попадания в створ ворот, команда зарабатывает очки (но меньше, чем в случае тачдауна — ведь это очевидно сложнее). Называется это field-goal.
Как зарабатывают очки. Итак, основной метод — это провести тачдаун. За него дают 6 очков. После этого команда может набрать дополнительные очки, выполнив PAT действия (points after touchdown), которые еще называют экстра-поинтами:
-
попытаться протащить мяч с отметки двух ярдов до зачетной зоны. Это даст 2 очка, но команда противника будет отчаянно сопротивляться — выше риск провала;
-
с отметки в 15 ярдов откинуть мяч назад и сделать так, чтобы игрок беспрепятственно ударил его ногой в ворота. За это дают 1 очко — безопасно и близко, поэтому команды обычно так и делают.
То есть обычно за розыгрыш команда стремится заработать 7 очков. Но если вдруг нападение чувствует, что может не суметь протащить мяч, то используют филд-гол. За него команда получает 3 очка — вдвое меньше, чем за тачдаун. Обычно его бьют, когда расстояние до ворот не более 40-50 ярдов и команда не выступает в роли догоняющей (иначе эффективнее делать упор на тачдауны). Вот тут можно посмотреть самый длинный филд-гол.
Есть еще так называемый safety, когда очки набирает защищающаяся команда. Для этого есть несколько условий, но обычно нужно сбить атакующего игрока в его зачетной зоне — за это команда получит 2 очка, а атакующие будут выбивать мяч с отметки в 20 ярдов, в качестве наказания за глупость. Но такое случается довольно редко.
Как проходит игра. Все начинается с того, что определенная по жребию команда вводит мяч в игру — это называется kickoff. Игрок бьет мяч с точки вперед на половину поля другой команды. Дальше так:
-
кто-то ловит мяч и начинает бежать к зачетной зоне противника. Где его остановят, там и будет начинаться атака.
-
никто не ловит мяч, тогда атака начинается с фиксированной отметки в 25 ярдов.
Иногда мяч могут подхватить и не просто пронести на какое-то расстояние, а добежать сразу до зачетной зоны противника. Посмотрите на подборку таких забегов — ну чем не искусство?
Дальше начинается основная игра: команды выстраиваются напротив друг друга. Атакующий игрок по центру откидывает мяч между своих ног назад квотербеку — это называется snap. Квотербек — главный мозговой центр нападения, принимающий решение о дальнейшем розыгрыше (микро факт — почти все успешные квотербеки в НФЛ белые). В его шлеме даже есть наушник, в который он получает подсказки от тренера в определенные моменты игры.
При розыгрыше у квотербека есть три варианта:
-
сделать пас вперед на любое расстояние — бегущий игрок может принять его на лету (reciever) и постараться добежать до зачетной зоны, либо же поймать мяч сразу в зачетной зоне (если квотербек добросит) и приземлиться двумя ногами. Разрешается делать только один продвигающий пас и сколько угодно поперек или назад. Самый эффективный и эффектный, но и самый рискованный вариант — если защита перехватит мяч, то они сразу станут нападающими и могут убежать заносить тачдаун.
-
сделать вынос — передать мяч в руки набегающему игроку (running back), чтобы тот продвинул его как можно дальше, вплоть до зачетной зоны, уворачиваясь от защитников, как уж на сковородке.
-
побежать самому — это делают только для элемента неожиданности, потому что квотербеки почти всегда субтильные. Если их снесет мощный мужик весом под 150 кг, будет очень больно.
Вот как выглядит игра моего любимого квотербека Патрика Махоумса:
У нападающей команды есть минимальная задача — продвинуть мяч на 10 ярдов за 4 попытки (down). Получилось на 10 ярдов или больше? Отлично, начинается новый розыгрыш — следующие 10 ярдов и следующие 4 попытки. Такими итерациями команда и двигается к зачетной зоне. В трансляциях НФЛ появляются подсказки для зрителей — так становится понятно, кто, куда и зачем бежит:
Защищающиеся, разумеется, мешают атакующим: пытаются сбить квотербека и отодвинуть фиолетовую линию (line of scrimmage) дальше, заблокировать раннер бэков и много чего еще. Если игрока с мячом завалили, мяч улетел в аут или упал на газон, то попытка заканчивается. То же самое, если игрок с мячом выбежал в аут. Не получилось уложиться в 4 попытки? Очень жаль, ребята, но шанс вы истратили, и теперь будете сами обороняться.
Последнее, что лучше будет запомнить — это панты (punt). Представьте, что команда нападения за 3 попытки не смогла продвинуться на 10 ярдов, и розыгрыш проходит в опасной близости от их зачетной зоны. Если за четвертую попытку продвинуться не получится, то можно быстро получить тачдаун. Чтобы не рисковать, мяч откидывается назад и либо выносится ногой подальше вперед, либо проводится попытка забить филд-гол. При этом часто используют остроумнейшие трюки.
Все, с основами закончили, и вы уже можете смотреть любой матч НФЛ, не чувствуя себя полным нубом. Чтобы было проще, собрал для вас таблицу с основными терминами:
Тачдаун |
Проход в зачетную зону, за который команда получает 6 очков. |
Филд-гол |
Когда игрок попадает мячом в ворота с помощью удара ногой. Команда получает 3 очка. |
Экстра-поинт (или PAT) |
После тачдауна команда набирает еще дополнительные 1 или 2 очка. |
Сэйфти |
Случай, при котором защищающаяся команда получает 2 очка, сбивая с ног атакующего в его зачетной зоне. |
Квотербек |
Разыгрывающий игрок атакующей команды. |
Ресивер |
Атакующий игрок, который с лету принимает мяч от квотербека на фланге. |
Раннингбэк |
Набегающий игрок, который получает мяч от квотербека из рук в руки. |
Кик-офф |
Ввод мяча в игру перед началом розыгрыша |
Снэп |
Игрок атакующей команды по центру построения откидывает мяч квотербеку |
Даун |
Попытка продвинуть мяч на 10 ярдов. У команды есть 4 таких попытки. |
Пант |
Вынос мяча ногой после третьей попытки, чтобы обезопасить свою зачетную зону от тачдауна |
Скриммэдж |
Воображаемая линия, на которую устанавливается мяч при каждом дауне |
Что запрещается в игре. Игра выглядит максимально брутально, и во многом так и есть: американский футбол, пожалуй, один из самых травмоопасных видов спорта (трусы не играют не только в хоккей). Посмотрите подборку лучших хитов НФЛ — слабонервным лучше пропустить.
Но лига понимает, что во всем должна быть мера, поэтому разработала огромный свод правил. Мне кажется, что он даже сложнее, чем в баскетболе — есть более 40 видов нарушений. По большей части все они наказываются отодвиганием линии на расстояние от 5 до 15 ярдов, в зависимости от тяжести нарушения.
Следит за дисциплиной не один, а семь (!!!) судей, имеющие всевозможные технологии для просмотра повторов или контроля положения мяча. Разберем буквально несколько нарушений для понимания, потому что подавляющее большинство болельщиков в США тоже не знают всех штрафов и нарушений.
Из легких, есть офсайд — это когда нетерпеливый игрок нападения пересекает линию ввода мяча раньше времени. Наказывается 5 ярдами штрафа. Аналогично, если команда не уложилось в 40 секунд на розыгрыш снэпа.
Из контактных, запрещено атаковать игрока без мяча (принимающего или отдавшего пас, вне зависимости от позиции) или игрока, который не успел продвинуться на расстояние 5 ярдов от линии розыгрыша (считается помехой). Можно врезаться защитой плеч в противника с мячом и толкать его ладонями, но нельзя:
-
хватать за маску и одежду;
-
тыкать руками в лицо;
-
толкать в спину при попытке блокировки;
-
бодаться верхней частью шлема (называется таргетинг — за такое не только ярды дают, но и удаляют провинившегося);
и так далее.
Вообще у судей в НФЛ много работы, поэтому остановки проходят довольно часто. Поэтому они прибегают к такой практике, как offset: когда нарушений слишком уж много, они взаимоуничтожаются, а розыгрыш просто переигрывается.
Роли игроков на поле. Для каждой ситуации на поле есть три вида построения команды: атакующая или защищающаяся. Иногда игроки совмещают роли, но чаще все же используется специалитет. Вот как выглядит стандартная схема:
Не пугайтесь, тут все достаточно просто. Разберем укрупненно, по отдельным линиям. Начнем с нападения:
-
Linemen — пять человек, основная задача которых состоит в защите квотербека и расчистки пути для раннинг бэков. Центр откидывает мяч квотербеку (напомню, что это называется снэп), после чего с гвардами и тэклами упираются и блокируют защищающихся. Самые огромные ребята на поле.
-
Backfield — группа из трех человек, которая является ядром команды. С квотербеком все понятно — это мозг, ответственный за розыгрыш комбинаций и слышащий подсказки тренера. Халфбэк и фулбэк, по сути, одно и то же — они запутывают прорвавшихся защитников и делают вынос: хватают мяч у квотербека и бегут с ним как можно дальше.
-
Receivers — фланговые игроки, которые врываются на огромной скорости и получают с лета мяч от квотербека. Часто их используют не просто для продвижения мяча на 10 ярдов, а для неожиданных прорывов до зачетной зоны. Еще есть тайт-энд: это полноценный универсал, который может и ресивером побыть, и блок от защиты для них организовать.
Теперь переходим к защите:
-
Defensive line — ломовая сила. Что тэклы, что энды делают одно и то же: тормозят бэков и стараются снести квотербека. Если это получается, то продвижение останавливается. Кстати, самый быстрый энд часто становится слева от квотербека, потому что для правши эта зона становится слепой.
-
Linebackers — по сути, зеркальная роль для backfield группы нападения. Их задача — раскусить задумку квотербека и перехватить передачу, либо остановить проход бэков и ресиверов. Главный в этой группе — миддл, который единственный из команды имеет в шлеме наушник (как и квотербек у нападающих). Аутсайды выполняют страхующую роль и чаще других выполняют перехваты пасов.
-
Defensive backfield — корнер бэки останавливают фланговые прорывы ресиверов к зачетной зоне. А вот сэйфти — последний рубеж обороны. Если вдруг ресиверы прорываются и пытаются получить пас в зачетной зоне, то сэйфти стремятся их остановить. Если провалились, то команда гарантированно получает тачдаун.
Вот, например, как выглядит игра одного из лучших сэйфти лиги — Тайрана Мэтью. Можете заметить, что у него очень много функций на поле.
Если говорить о схемах, то защита чаще всего использует два варианта:
-
3-4, когда впереди один тэкл и два энда, а сзади добавляется еще одна роль — nickelback, чем-то напоминает либеро в футболе (верно, как название рок-группы — только там оно образовано от значения «сдача денег»)
-
4-3, в точности как на схеме.
Осталось еще рассмотреть несколько специальных ролей, которые появляются на поле в особые моменты игры (кстати, замены в игре не ограничены, и состав команды иногда насчитывает 50+ человек в заявке):
-
Kicker – тот, кто бьет по мячу ногой. Напомню, в каких случаях это возможно при: 1) кик-оффе (вводе мяча в игру), 2) филд-голе (забивании мяча в ворота прямым ударом), 3) энд-поинте (когда команда зарабатывает 1 очко после тачдауна).
-
Punter — делающий пант. Снова напомню, что он вступает в дело, когда прошли 3 попытки (дауна), а продвижения нет. Его задача — поймать брошенный мяч и вынести его подальше от своей зачетной зоны.
-
Holder — держит мяч на земле, пока кикер разбегается и наносит удар.
-
Long snapper — откидывает мяч пантеру или холдеру. Для этого не подходит обычный центр, откидывающий мяч квотербеку — нужно запульнуть его достаточно далеко.
Разумеется, каждая роль на поле отрабатывается под разные схемы противника. Скажем, если квотербек захочет сделать пас вперед на врывающегося ресивера, то миддл даст подсказку корнер бэкам заранее блокировать зону прохода. Квотербек, напротив, может обозначить длинный пас, обманув миддла, а по факту пробежит 5 ярдов и сделает вынос на разогнавшегося раннинг бэка, который ворвется четко между тэклами и аутсайдами.
Ну как, не слишком сложно? С первого раза никому не заходит. Лично я во всех нюансах разобрался где-то на второй-третий матч: рекомендую посмотреть финалы Супербоулов разных годов. Поэтому передохните, выпейте чайку — дальше поговорим уже о ключевых метриках и перейдем к методам сбора big data, используемых в НФЛ.
Если хотите разобраться по всех нюансах правил американского футбола, рекомендую перевод Станислава Рынкевича книги «Футбол для чайников» — авторства знаменитого игрока «Лос-Анджелес Рейдерс» Хауи Лонга.
Какие метрики важны в американском футболе и почему
Как видите, задач у разных позиций игроков на поле великое множество. Каждое игровое действие можно оценить по каким-то критериям и сравнить с общими показателями по лиге или команде, чтобы понять эффективность игрока, подкорректировать его тренировочный процесс и даже сформировать состав на матч. Но не все так просто.
Давайте на примере. Возьмем условные команды А и В, которые в каждой игре продвигают мяч на некоторое количество ярдов. Чем больше ярдов проходят команды или отдельные игроки, тем выше вероятность, что они сделают больше тачдаунов, наберут больше очков и выиграют матч. Тогда мы можем просуммировать все ярды и поделить на количество игр, что даст универсальный показатель, сравнивающий силу команд. Верно?
Не совсем. Дело в том, что ярды имеют разный вес. Скажем, команда А продвигает мяч за 1-й или 2-й даун на 8-9 ярдов, но пройти последний ярд в поздних попытках часто не могут — противник сопротивляется сильнее, и эффективность пасов квотербека под прессингом падает. Команда В же продвигает мяч реже, но за раз проходит больше ярдов (особенно последние ярды на 3-м дауне, самом важном). Количество ярдов в среднем меньше, но они получаются эффективнее, чем у А. И даже один ярд может решить исход матча, как в знаменитом Супербоуле 2000 года.
Поэтому просто находить средние показатели недостаточно. Например, квотербек может бросать на большее количество ярдов в среднем по лиге, однако пас может часто перехватывать противник. Нужно учитывать дополнительные факторы и вводить комплексные показатели. Одним из важнейших на сегодняшний день в НФЛ является DVOA.
DVOA (Defensive-adjusted Value Over Average) — комплексный показатель от аналитиков Football Outsiders, который оценивает эффективность нападения и защиты. Он учитывает не просто пройденные ярды или набранные очки в розыгрышах, но и контекст.
Если кратко: у разных попыток розыгрыша есть свой вес. Выставляется норматив ярдов, которые команда должна пройти на 1-й, 2-й, 3-й и 4-й попытках. Процент прохождения этих ярдов говорит о реальной эффективности. Чем более поздняя попытка, тем более эффективным считается продвижение мяча. Дополнительно учитываются повышающий и понижающий коэффициенты, зависящие от:
-
места розыгрыша на поле — чем ближе к зачетной зоне, тем сильнее будет сопротивление;
-
текущей разницы в очках — ведь если у команды большой отрыв от соперника, то и мотивация к набору очков становится ниже;
-
турнирного положения — фавориты часто не напрягаются в регулярке, чтобы экономить силы на плей офф;
-
результата розыгрыша — привел ли он к тачдауну или перехвату (fumble);
-
коэффициента защиты — логично, что против элитных игроков намного сложнее продвигать мяч;
и так далее — факторов тут много.
Дальше результат сравнивают с розыгрышами других команд лиги только в аналогичных ситуациях, а не в произвольные моменты матча, по ходу всего сезона НФЛ. Итоговый результат измеряется в процентах относительно среднего показателя. Команда с DVOA +10% на 10 процентов лучше средней команды, а квотербэк с DVOA -20% — на 20 процентов хуже среднего квотербэка. Для защиты DVOA тем лучше, чем более отрицательное значение он имеет, а для нападения — наоборот.
Вот пример, насколько этот показатель неочевиден. В сезоне 2015-2016 годов Seattle Seahawks имели 20-й рейтинг нападения по расстоянию паса. Некоторые букмекеры по этой причине ставили довольно низкие коэффициенты на победу их соперников. Зато DVOA показывал, что их нападение было 2-м в лиге — +18,5%. Они не пасовали так много, как остальные команды, но их попытки были более удачными. С 2012 по 2015 год Seahawks регулярно имели самый высокий DVOA в НФЛ и за это время взяли один супербоул и трижды выходили в финал.
Процент Big-play. Этим термином обозначается количество выносов больше, чем на 10 ярдов и передач дальше, чем на 25 ярдов, деленное на общее число розыгрышей. Показатель говорит нам, насколько взрывается команда и получается ли это у нее эффективно. Грубо говоря, не «сколько ярдов мы прошли», а «как именно это случилось».
Допустим, какая-то команда уступает в матче. Насколько велика вероятность того, что она совершит камбэк? Что она сможет взорваться в какой-то момент и достигнуть успеха? Процент big play дает нам представление об этом.
«Токсичная разница». Это странное название показывает, насколько команда сбалансирована в целом. Считается так: считается разница между сделанными в нападении и пропущенными в защите розыгрышами на 20+ ярдов (теми самыми big play). Чем лучше этот показатель, тем бережнее команда обращается с мячом, вовремя делая big play сама и не допуская его у команды соперника.
В сезоне 2015-2016 года 10 команд из топ-12 рейтинга «токсичной разницы» вышли в плей-офф. Кажется, показатель можно считать достаточно полезным.
Подобных метрик еще много: взвешенная точность, процент успешных попыток выноса и так далее. Но в итоге изучение всех этих метрик в разной комбинации помогает всем участникам процесса:
-
тренер анализирует метрики своих игроков на тренировках и в официальных играх, а также показатели игроков-соперников. Из этого можно строить стратегию розыгрышей нападения или схемы защиты.
-
скауты анализируют данные молодых игроков в играх за школу или колледж и понимают, насколько будет перспективно выбрать их на драфте. Ну, или действующих игроков НФЛ для обмена;
-
продвинутые зрители лучше разбираются в игре любимых команд и предсказывают результаты игр. В результате получают больше удовольствия от игры или могут делать выгодные ставки и богатеть.
-
букмекерские конторы формируют рейтинг ставок более точно и выгодно для себя, заказывая данные у грамотных аналитических агентств или подключая собственных специалистов.
Теперь представьте, сколько нужно собирать данных по каждому матчу и игроку? Это же просто гигантское число показателей, которые нужно где-то хранить и в идеале еще и дать всем открытый доступ. Кто на это пойдет? Ответ простой — компания-гигант. Такая, как Amazon.
Как в НФЛ получают данные для этих метрик
Но обо всем по порядку. В 1988 году вышла книга «Скрытая игра в футбол», впервые описывающая базовые метрики и применение статистики. На тот момент никому и в голову не пришло, что тощие математики могут объяснить огромным дядям, как им надо бегать и сшибать людей с ног.
В 2003 году появилась книга Майкла Льюиса «Moneyball» про команду Oakland Athletics и генерального менеджера Билли Джеймса, который применил статистические методы при формировании состава команды и тактики на каждую игру. До этого подобного в спорте вообще никто не делал, а тут сразу же команда установила рекорд в 20 побед подряд в регулярке.
После победы Boston Red Sox в 2004 году в мировой серии мир спорта изменился, потому что идеи Билла Джеймса оказались рабочими. Бейсбол быстро адаптировался, со временем подключился и баскетбол: за 10 лет аналитика показала, что трехочковые броски эффективнее бросков со средней, и процент дальних увеличился на 77% (!!!). Сейчас игры НБА изменились до неузнаваемости.
Футбол же намного более консервативный, поэтому понимание важности статистики пришло значительно позже. Родоначальником расширенной аналитики стал Аарон Шац из Football Outsiders, создавший DVOA и базировавший свои идеи на книге «Скрытая игра в футбол». Поначалу никто не собирал данные, поэтому Шацу приходилось вручную составлять таблицы с данными игроков, на основе просмотров сотен игр за несколько лет.
Результаты были впечатляющими — статистика работала, а прогнозы на ее основе неплохо коррелировали с результатами команд. Однако ведущие менеджеры НФЛ опасались кардинально менять подход к игре. Как сказал бывший менеджер San Francisco 49ers Терри Донахью: «Самая большая проблема, с которой вы столкнетесь — это то, что придется иметь дело с кучей крупнейших специалистов по физкультуре».
Только в 2015 году команда Philadelphia Eagles взяла на работу аналитика данных Райана Паганетти. Он совместно с тренером Дагом Петерсоном принялся за работу, кропотливо собирая данные об игроках и командах лиги. В 2017 году в НФЛ, по сути, появилась новая команда, которая обновила состав и применила более агрессивную стратегию: разыгрывать 4-й даун (а не трусливо запускать пант) и набирать 2-х очковые экстра-поинты после тачдаунов. За основу взяли не DVOA, а другую метрику — EPA (Expected Points Added, по аналогии с xG в футболе), известную еще с 1970-х годов.
Результат — впервые в истории Philadelphia Eagles победила в конференции и в Супербоуле. Именно финальная игра сезона изменила подход других команд: за следующие несколько лет отказ от пантов в 4-х даунах и 2-х очковые розыгрыши выросли на 50% в среднем по всей НФЛ.
В том же 2017 году НФЛ поняла, насколько сбор и систематизация данных может быть полезна: даст дополнительные возможности командам для аналитики, что повысит зрелищность и результативность, а также улучшит ситуацию с безопасностью игроков. Поэтому был запущен масштабный проект совместно с подразделением Amazon — AWS (Amazon Web Service), получивший название NFL Next Gen Stats.
Для его реализации подключили компанию Zebra Motionwork Sports, которая разработала специальные сенсоры, встраивающиеся в наплечники игроков и в мяч.
Это RFID метки, сигнал с которых обновляется каждые 100 мс и поступают на приемные устройства, установленные по периметру площадки. Вот какие данные, благодаря этому, передаются обо всех 22 игроках на поле:
-
расположение на поле по осям Х и Y;
-
скорость и ускорение игроков;
-
направление перемещения игрока и ориентация тела.
Дополнительно по метке в мяче фиксируется скорость полета, информация о вращении (при броске квотербеки подкручивают мяч, что повышают точность) и высота. Все эти данные собираются в вычислительных серверах AWS, преобразуются в метрики и обновляются практически в реальном времени, по ходу любого матча. Данные доступны в открытом виде для всех желающих: пользуйся, как пожелаешь. Более подробно с тем, как НФЛ формирует одну из новых продвинутых метрик QB, можно прочитать в этой статье на сайте AWS.
А вот как обрабатывать эти данные и использовать, каждый решает сам для себя. Например, команда «Сиэтл Сихокс» использует Amazon SageMaker, полностью управляемый сервис машинного обучения, который помогает игрокам получать обучение, соответствующее их навыкам и потребностям. Допустим, у раннер бэка проблемы со стартовой скоростью на первых 10 ярдах? Отлично, вот такие упражнения, исходя из его веса, роста и конституции тела, нужно выполнять.
Чтобы дать еще больше возможностей для команд, НФЛ с 2018 года проводит Big Data Bowl — краудсорсинговое соревнование, спонсируемое AWS, которое объединяет специалистов по анализу данных и студентов. То есть любой желающий (пусть даже с Хабра) может предложить варианты использования данных из NFL Next Gen Stats, что будет полезно для команд или лиги. Например, в 2022 году НФЛ добавила две новые метрики, которые предложили участники конкурса: подсчет ожидаемых ярдов против разных защитных построений и после пробития пантов и кик-оффов. Часть из финалистов даже взяли на работу — дерзайте, хабровчане!
Что в итоге изменила аналитика
С момента начала сотрудничества с Amazon все 32 команды НФЛ используют продвинутую статистику и данные NFL Next Gen Stats. Аналитика привела еще к тому, что НФЛ ввело более 50 изменений в правила игры, основываясь на результатах машинного обучения AWS. Это позволило соотносить травмы с выбранной экипировкой, погодой, усталостью, состоянием газона и прочими факторами. Изменение правил и применение AI привело к внедрению новых типов шлемов и снижению на 25% количеств сотрясений мозга у игроков — самой распространенной травмы в амфуте.
То есть в целом важность анализа данных и статистики признают все: и лига, и тренеры, и болельщики. Однако хочу поделиться альтернативной версией: не всегда нужно слепо доверять статистике.
Представим ситуацию: есть квотербек, который имеет DVOA по сезону +24% и лучшие показатели по продвигающим пасам на 25 ярдов в концовке матчей. Идет финальный розыгрыш при равном счете, от которого зависит судьба плей-офф. Все говорит о том, что квотербек должен бросить мяч под набегающего раннера в зачетную зону — тот положит тачдаун и выиграет матч. Дополнительно квотербек слышит подсказку в шлем от тренера, который транслирует ему данные от аналитиков.
Но вдруг квотербек принимает решение не бросать, а отступить, выманить защитников и неожиданно рвануть вперед самому. Просто по наитию. По статистике вероятность успеха при проходе квотербека в 3 раза ниже. Но эти же данные есть и у команды противника: они не ждут такого хода, особенно в ключевой момент матча и сезона. В результате квотербек совершает проход и выигрывает матч, оставляя зрителей и аналитиков с разинутыми ртами.
Этот пример говорит о том, что статистика классно работает на дистанции. Но в конкретном матче и в конкретную секунду решение, которое принимает игрок на рефлексах, опираясь на свой опыт, может быть намного ценнее. Это хорошо иллюстрирует цитата из уже упомянутого в начале статьи фильма «Человек, который изменил все» (английский Moneyball):
Победа «Миннесоты» доказывает, что «Окленд Эйс» не были действительно крепкой бейсбольной командой. У них была несовершенная концепция, разработанная генеральным менеджером и группой экспертов, считавших, что они могут заново изобрести бейсбол. Нельзя подходить к бейсболу только со статистической точки зрения. Матч выигрывается на поле. Нужно красть базы, делать панты, нужно жертвовать, нужно выводить игроков на выигрышные позиции и помогать им набирать очки. И этого ни за что не добиться статистическими уловками. Нельзя изобрести игру заново»
Частично — это правда. Ведь любой спорт, как и американский футбол — это непредсказуемая игра, в которой условный андердог может выстрелить и разгромить фаворита, хотя все метрики кричат об обратном. Либо игрок, на котором все поставили крест, вдруг в одной игре установит рекорд по пасовым ярдам. Это и есть истинная красота и романтика, которая еще имеет место быть в мире статистики и цифр.
P.S. Если после прочтения вы заинтересовались игрой настолько, что хотели бы попробовать поиграть сами, то это можно сделать довольно просто — стоит только обратиться в один из клубов своего города или региона и прийти на пробную тренировку. Ваша комплекция при этом роли не играет🏈
НЛО прилетело и оставило здесь промокод для читателей нашего блога:
— 15% на все тарифы VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.