Каждый декабрь мы публикуем список событий, людей и явлений, ставших приметами уходящего года. Итоги — популярный жанр: их подводят в телепередачах, на новостных сайтах, в газетах. Особенность нашего списка в том, что он составлен не редакцией, а алгоритмами: в него попадают темы, которые в течение года вызвали у пользователей Яндекса наибольший всплеск интереса.
Логично предположить, что интерес к теме соотносится с количеством поисковых запросов. Но выявить темы, характерные для конкретного года, общее количество запросов не поможет. Список самых популярных тем остаётся примерно одинаковым из года в год: люди всегда много спрашивают о погоде или о пробках на дорогах.
Поэтому «Темы года» — это не то, о чём много спрашивали в целом. Это то, о чём в уходящем году стали спрашивать гораздо больше, чем раньше (например, криптовалюта), и новые вещи, вызвавшие большой интерес (например, новый iPhone). Резкий рост числа запросов на ту или иную тему мы называем всплеском.
Чтобы выявить актуальные темы и упорядочить их по важности, алгоритм проводит анализ всплесков. Сперва он выявляет запросы, которых в этом году стало гораздо больше, чем было в прошлом, а затем группирует их по темам. Это не так-то просто: ведь об одном и том же можно спросить совершенно по-разному.
Чтобы учесть все возможные формулировки запросов на одну тему, алгоритм смотрит на результаты поиска. Запросы, в ответ на которые выдаются одни и те же ссылки, скорее всего относятся к одной и той же теме — алгоритм находит такие запросы и объединяет. Так, в тему про блокчейн попадают [blockchain], [блок чейндж] и даже [,kjrxtqy].
Когда список тем готов, их ранжируют по силе всплеска — разнице между числом запросов в дни повышенного интереса к теме и средним числом запросов за последние два года. Полученный топ разделяют на несколько категорий, например события в России и мире, спорт, фильмы, женщины и мужчины
В этот раз в топы мужчин и женщин мы не включали людей, всплеск интереса к которым был вызван фактом их смерти.
.