Parole, paroes, *aroles…

02.12.2021

Частичные пароли: история о том, как задёшево вывести из себя пользователя и/или как вставить палки в колёса кейлоггерам.

Здравствуйте!

Что такое частичный пароль? Каковы достоинства и недостатки их использования в процессе аутентификации? В статье подробно рассматриваются математические основы, технические детали и практика применения частичных паролей. Предлагается порассуждать об их месте в современных цифровых системах.

Начнем, как принято, с определения: частичные пароли (от англ. partial passwords, pps) – это один из методов аутентификации, при котором у пользователя просят ввести некоторый случайный набор символов из пароля вместо полного пароля. Например, запрос может выглядеть следующим образом: «Пожалуйста, введите 2-й, 3-й и 6-й символ!». Я с удивлением обнаружил, что pps широко распространены на страницах многих зарубежных компаний, особенно в финансовом секторе. Однако, как пользователь, до недавнего времени я не был знаком с такой модификацией классической парольной защиты, но она показалась мне довольно занимательной. Источников на русском языке мне найти не удалось, поэтому я решил взять на себя ответственность рассказать читателям о pps, сопровождая материал пояснениями, формулами и картинками, помогающими понять суть вопроса. Приятного чтения!

Содержание:

Математический теорминимум
Контекст и мотивация к использованию pps
Детали реализации pps
Атаки на pps. Математические модели и некоторые численные результаты
Модельный пример реализации pps на языке python
Обсуждение и выводы

1. Математический теорминимум, иллюстрированный

Предполагая, что этот текст может быть интересен широкому кругу лиц, считаю необходимым привести некоторые элементарные факты из комбинаторики и теории вероятности, которые будут активно использоваться в статье.

(Если Вы без труда отличаете размещение без повторений от сочетаний с повторениями и помните, чем отличаются независимые события от несовместных, то можете пропустить этот раздел)

Много букв, еще больше картинок

Факториал натурального числа n
n!=n(n-1)...cdot2cdot1

Число перестановок без повторений из n

Найдем количество всевозможных способов расставить n различных элементов по n упорядоченным позициям. Их n! = P_n штук. Действительно, на первую позицию мы можем поставить любой из n элементов, на вторую — n-1 оставшийся и так далее, на последнюю, -ую позицию, остается лишь один оставшийся элемент.

Число перестановок с повторениями из n для m типов, :

Вновь имеем n упорядоченных позиций. В отличие от предыдущего случая, рассматриваются m различных типов элементов, в каждом из которых по k_1, k_2, … k_m элементов, k_1+...+k_m=n ). Внутри своего типа элементы неотличимы друг от друга. Найдем число вариантов перестановки этого набора элементов. Расположим произвольным образом все n элементов по n упорядоченным позициям. Теперь представим, что мы можем отличить все элементы друг от друга внутри каждого класса. Например, наклеим на каждый элемент ярлычок с его порядковым номером от до в соответствии с тем, как они были только что расставлены. Теперь найдем число их перестановок. Это P_n , ведь ярлычок помогает отличить каждый элемент друг от друга. На самом же деле нас интересуют перестановки различных типов элементов, ярлычки имеют вспомогательную функцию. Рассмотрим теперь первый тип: любые из P_n перестановок, где меняются местами лишь элементы первого типа, неотличимы друг от друга (то есть, фактически, меняются местами одинаковые элементы с разными ярлычками). Перестановок ярлычков среди элементов первого типа $P_{k_1}$ штук, то есть только каждая $P_{k_1}$ -ая перестановка из P_n уникальна, то есть всего перестановок становится $P_n/P_{k_1}$ . Проводя аналогичные рассуждения для второго, третьего, …, -ого класса, получаем $P_n/(P_{k_1}...P_{k_m}) =$ = P(k_1, k_2, …, k_m) перестановок. Это и есть количество перестановок с повторениями. При выборе k_1=k_2=...=k_m=1 (каждый тип имеет только по одному элементу) получаем перестановку без повторений P_n .

Число размещений из n по k без повторений

Найдем количество способов разместить из различных элементов по упорядоченным позициям. Оно равно: n(n-1)...(n-k+2)(n-k+1)=n!/(n-k)!=A_n^k . Справедливы те же рассуждения, что и в случае перестановок без повторений, но в распоряжении мы имеем уже n ge k элементов, так что у нас даже для последней позиции остается свобода выбора ( n-k+1 вариант).

Число размещений из n по k с повторениями

Имеем упорядоченных позиций и типов элементов, притом элементов каждого типа имеем в достатке, хотя бы по штук. На любую из позиций можем поставить любой элемент одного из типов. Получаем $n^k=bar{A_n^k}$ размещений.

Число сочетаний из n по k без повторений

В случае сочетаний изменим постановку задачи. Рассмотрим некоторое множество из различных элементов. Найдем число способов достать из него элементов, считая, что их порядок нам не важен. Иными словами, сколькими способами мы можем выбрать неупорядоченный набор из элементов из неупорядоченного набора из различных элементов (тогда после выбора элементов останутся n-k неупорядоченных элементов). Таким образом, мы легко свели вычисление к случаю размещений с повторениями c двумя типами: в первом типе имеем элементов (мы их выбираем), а во втором — n-k (мы их оставляем). Отсюда находим, что число сочетаний из по без повторений равно P(k, n-k) = n!/(k!(n-k)!) = C_n^k .

Очевидно, что $C_n^k=C_n^{n-k}$ . Оставим доказательство этого простого утверждения читателям в качестве упражнения (ну а как без этого).

Число сочетаний из n по k с повторениями

Сколько наборов камней можно купить на 5 монет, если имеется 3 типа камней стоимостью по 1 монете?

Что ж, пожалуй, это самая сложная часть в импровизированном теорминимуме. Эту задачу можно интерпретировать двумя эквивалентными способами. Один будет полезен в статье, а другой поможет вычислить количество сочетаний с повторениями.

Первый способ позволит нам легко найти значение величины $bar{C_n^k}$ . Для этого сменим пластинку: поговорим о том, сколькими способами можно разложить натуральное число в сумму из целых неотрицательных чисел (возможно, равных 0). Также будем считать, что порядок при суммировании имеет значение (от перемены мест слагаемых сумма не меняется, но вот наше разложение будет меняться). То есть, хоть 1+2+3 = 2+1+3, для нас это будут разные разложения. Для нахождения числа таких разложений провернем следующий трюк: запишем число в виде суммы из единиц. Разбросаем эти единички последовательно по слагаемым: первые m_1 единиц — это число m_1 , вторые m_2 — число m_2 и так далее вплоть до m_n . Легко видеть, что m_1+m_2+...+m_n=k , а это и есть нужное нам упорядоченное разложение! Теперь не составит труда найти число таких разложений. Введем для этого в игру n-1 разделитель: они будут отделять одно число в разложении числа от другого (их n-1 , а не ровно потому же, почему для разрезания ленты на частей нужен n-1 разрез). Легким движением мы свели задачу к размещению с повторениями из n-k+1 по 2 типам: единиц и n-1 разделитель. А это $P(k, n-1+k)=C_{n+k-1}^k$ . Таким образом, $bar{C_n^k}=C_{n+k-1}^k$ .

Второй способ, более нам интересный: пусть у нас есть различных типов элементов, элементы одного типа неотличимы друг от друга. Зададимся вопросом: сколькими способами можно выбрать неупорядоченный набор из элементов, считая, что имеется достаточное количество элементов каждого из типов (хотя бы по штук). Тогда представим, что число единиц от левого конца строки до первого разделителя — это число элементов первого типа, число единиц от первого разделителя до второго — второго типа и так далее, наконец, число единиц от последнего, (n-1) -ого разделителя до правого конца строки (до конца суммы) — это число элементов -ого типа. Если какой-либо из типов не попал в набор, то два соответствующих разделителя идут подряд, то есть между ним ноль единиц. Получили эквивалентный результат.

Вероятность (рекомендуется к ознакомлению, если читатель не помнит определения или не знаком с темой )

Теория вероятностей — раздел математики, изучающий случайные события, случайные величины, их свойства и операции над ними. Это один из самых молодых разделов математики, который получил свое строгое обоснование лишь в конце двадцатых годов прошлого века, в работах А.Н. Колмогорова. В наши дни теория вероятностей имеет одно из центральных мест во многих естественных и прикладных науках, начиная от социологии и лингвистики, заканчивая информатикой и квантовой механикой. «Нет почти ни одной естественной науки, в которой так или иначе не применялись бы вероятностные методы» (Вентцель Е. С.).

Теория вероятностей была известна еще в средние века, но не была оформлена как раздел математики, являясь более набором эмпирических фактов, которые часто формулировались в наглядных представлениях и задачах. В те стародавние времена двигателем прогресса в данном направлении были азартные игры.

В статье нам не понадобится ничего более, чем элементарные факты из теории вероятности, еще «доколмогоровской», скорее «средневеково-азартной», если позволите. Пусть какой-то «черный ящик» (рулетка) выдает случайное «нечто», только одно за раз . Назовем это экспериментом. Пусть число всевозможных «нечто», которые выдает рулетка, равно . Предположим, что все конкретные реализации этого «нечто» появляются одинаково часто (как орел и решка при подбрасывании монеты или как выпадение числа очков от 1 до 6 при бросании кости). Назовем такие реализации элементарными исходами. В таком случае определим вероятность некоторого интересующего нас набора из M le N конкретных реализаций (назовем набор событием, пусть будет носить имя ) как:

$0 le P(A)=frac{M}{N}le1$

Для экспериментов, где конечно (поставим такое условие, оно будет достаточным), оказывается, что P(A) имеет простую, частотную интерпретацию: это доля элементарных исходов из в общем числе возможных исходов, когда число повторений эксперимента очень велико. Из определения элементарных исходов ясно, что вероятность каждого из них равна 1/N

Введем понятие независимости. Это центральное понятие в теории вероятностей, которое в первую очередь отделило ее от смежных разделов математики. Пусть у нас есть другое событие и =AB (то есть элементарные исходы лежат и в , и в ). Они независимы, если вероятность события AB: P(AB) равна произведению вероятностей P(A) и P(B) , то есть P(AB)=P(A)P(B) . Если событий больше, чем 2 (пусть их ), то надо проверить уже вероятности всевозможных цепочек происходящих одновременно событий (длиной от 2 до ) на то, что вероятность их одновременного появления равно произведению вероятностей каждого события по отдельности. То есть все наборы из 2 событий, из 3 событий … из событий, происходящих одновременно. Важно, что недостаточно лишь попарной проверки.

Упражнение (со звездочкой): докажите, что число цепочек одновременных событий, необходимых для проверки независимости r событий (об этом написано выше), равно $bar{A}_2^r$ .

Однако для нас интересен самый легкий случай: конечный набор элементарных исходов. Для таких экспериментов независимость можно проверить до безобразия простым образом: важно, чтобы один элементарный исход принадлежал не более, чем одному событию. Можно проверить, что в этом случае определение эквивалентно данному выше.

Назовем события несовместными, если они не могут происходить одновременно.

Если события несовместны, то вероятность события A text{ или } B равняется:

Скажем также про условную вероятность. Условная вероятность события при условии (иными словами, какова вероятность события при условии, что произошло ) вычисляется по формуле:

$0le P(A|B)=dfrac{P(AB)}{P(B)}le1$

В этой формуле есть небольшая проблема: если событие имеет вероятность ноль, то у нас образуется ноль в знаменателе. Тогда примем, что условная вероятность в этом случае равна нулю, что выглядит естественно.

Осталось вспомнить формулу полной вероятности. Представим, что всевозможные элементарные исходы разбиваются на непересекающиеся события B_i («разбиваются» — в том смысле, что каждый элементарный исход лежит в каком-то из событий). Мы знаем все P(B_i) . Пусть нам известны все условные вероятности P(A|B_i) . Тогда вероятность события можно найти по формуле:

Для пояснения последней формулы стоит привести пример. Будем кидать игральный кубик (кубик честный, то есть выпадение каждой грани равновероятно и равно 1/6). Вероятность выпадения четного числа очков равна 1/2. Такая же вероятность и у нечетного числа очков на кубике. Два этих события — разбиение всех элементарных исходов 1-6. Вероятность выпадения числа, кратного 3, при условии выпадения четного числа очков — это 1/3 (только 6 из 2, 4, 6). Вероятность выпадения числа, кратного 3, при условии нечетного числа очков — это тоже 1/3 (только 3 из 1, 3, 5). Тогда вероятность выпадения кратного 3 числа очков на кубике равна: 1/2 * 1/3 + 1/2 * 1/3 = 1/3. Это так, ведь нам интересны числа 3 и 6 среди 1, 2, 3, 4, 5, 6.

Сделаю финальное замечание. Вероятность события — это вещественное число из отрезка от 0 до 1. В литературе, особенно математической, не принято записывать вероятность в процентах (можете назвать это снобизмом). Но для удобства изложения и краткости формулировок часто прибегают к использованию ‘%’, особенно в прикладных областях. Так что и здесь иногда будут использоваться проценты, за что перед особо впечатлительными я заранее извиняюсь.

На мой взгляд, это все, что было бы неплохо вспомнить из комбинаторики и математики перед основным текстом. Прошу прощения, если был излишне многословен.

2. Общие слова о pps

Вопрос обеспечения безопасности и эффективности процесса аутентификации пользователя на онлайн-ресурсе — крайне важная задача для компаний и организаций по всему миру, в эпоху бурного развития цифровых услуг, которая получила новый толчок к росту в последние полтора года, в период пандемии.

Существует множество различных методов аутентификации, такие как криптографические токены, биометрия и другие. Однако введение пароля остается наиболее общеупотребительной схемой аутентификации из-за своей простоты, эффективности и надежности (по крайней мере, теоретической). Однако же эта теоретическая, математическая надежность имеет множество «но», связанных с конкретными техническими реализациями процесса аутентификации, работой с реальным оборудованием, с реальным ПО и по реальным каналам связи, где могут возникнуть дополнительные уязвимости, снижающие безопасность системы. Конечно же, одной из центральных причин уязвимости схемы с паролями является человеческий фактор.

Теоретическая надежность паролей строится на его сложности, а точнее на его достаточной длине, достаточно большому алфавиту и независимости, случайности символов в нем. Это делает пароль более защищенным перед различными атаками, связанными со статистическим анализом языка, подбором наиболее употребительных паролей или его частей из утекших баз данных и тому подобных. В идеальной ситуации, пользователю бы следовало выбирать пароль максимальной длины с независимым друг от друга выбором символов из всего доступного алфавита. Само собой, это идет в категорический разрез с человеческой натурой, поэтому, перебрав с десяток паролей-мемов (по типу password, qwerty и т.п.), дат и строк из песен можно взломать множество аккаунтов, что подтверждают многочисленные утечки, одна из которых будет использована в статье.

«We are humans. And sometimes, very humans»

Кроме того, возможны атаки с использованием вредоносных программ, различных кейлоггеров или же атаки с использованием социальной инженерии, как в офлайне (подсматривание пароля, кража имущества с данными об аккаунте), так и в онлайне (вымогательство, введение в заблуждение). Таким образом, злоумышленник может получить данные об аккаунте в один шаг.

В связи с этим изучаются специальные способы идентификации, с помощью которых можно было бы избежать компрометирования пароля пользователя за один раз. Одно из направлений — использование различных запросов при входе в аккаунт, не требующие ввода пароля целиком [1], [2]. В частности, могут использоваться частичные пароли (partial passwords, pps): сервер запрашивает ввести некоторый случайный набор символов из пароля, указанный при регистрации. Использование pps — простой и эффективный способ противостоять некоторым типам атак, которые могут получить информацию о полном пароле. Утверждается, что такая схема более безопасна, ведь число возможных запросов растет быстро при правильном выборе параметров (об этом более подробно будет написано ниже). Так, для пароля длины n при запросе m символов получаем C_n^m вариантов запросов в случае, когда позиции не повторяются и $bar{A}_n^m=n^m$ , если допускается несколько одинаковых позиций в запросе.

Кроме того, запрос частичного пароля в виде раздельных окошек с вынесенным отдельно запросом может стать непреодолимой преградой для простых, распространенных вредоносных программ, что делает идею взлома таких аккаунтов более технически сложной задачей

Частичные пароли широко используются в банковском секторе, особенно в Великобритании (например: AIB, Standard Life, Barclays, HSBC, Bank of Ireland и др.), как часть двухэтапного (как минимум) процесса аутентификации [1]. Такое доверие к технологии, которая мало мало обсуждалась в научном сообществе и слабо изучена, может удивлять, как и ее широкое распространение лишь в нескольких странах в мире.

Поговорим об основных типах атак на pps. В большинстве своем, атаки на обычные и частичные пароли совпадают, за тем исключением, что злоумышленнику, как правило, требуется несколько перехватов информации о пароле, чтобы с большой вероятностью успешно ответить на очередной запрос сервера. Приведем основные типы атак:

Bruteforce: злоумышленник перебирает все возможные комбинации паролей в доступном алфавите. Далее он перебирает их по очереди, пока ответ на очередной запрос не будет успешным.
Атака с использованием словаря: при атаке используются статистические методы, основанные на частоте встречи букв в языке, характерных сочетаний букв и слов, распространенные виды паролей из скомпрометированных баз данных и т.п.
Кейлоггер (атаки с запоминанием): злоумышленник использует программу, чтобы отслеживать нажатия клавиш пользователем и использует накопленные данные для взлома всего пароля.

Разумеется, более эффективными являются комбинации описанных выше методов атак. Отдельно будет рассмотрена уязвимость pps, связанная с атакой не на конкретного пользователя, а на большую группу аккаунтов (trawling attack).

Вредные советы (перед прочтением сжечь)

Для желающих, в качестве теста, я ни при каких обстоятельствах не стал бы оставлять ссылку на сайт английского банка. На нем не советовал бы, введя случайные символы в качестве имени, увидеть пример интерфейса ввода частичного пароля (здесь – securecode, как дополнение к основному паролю). Now remember, I told you nothing, okay?

3. Детали реализации pps

Поговорим о том, как работают pps более подробно. Частичный пароль — это запрос ввода части символов из полного пароля. Протокол состоит из следующих этапов [2]:

Регистрация: пользователь выбирает пароль длины , состоящий из символов некоторого алфавита (например, цифры для PIN, цифры и буквы для буквенного пароля). Выбор в некотором формате сохраняется на сервере (об этом будет рассказано в чуть ниже).
Вход в систему: процесс аутентификации представляет собой последовательность вопрос-ответ:
1. Вопрос: сервер выбирает некоторое подмножество натуральных чисел из и отправляет запрос ввода пользователю
Ответ: пользователь отвечает на запрос в форме . Вход в систему производится только в случае $a_i=p_{i_j}$ для всех (то есть если предоставленные данные корректны).

Позиция	1	2	3	4	5	6	7	8	9	10
Пароль	s	e	s	a	m	e	o	p	e	n
Запрос (2,3,6)		e	s			e

Остается простор для выбора оптимальных параметров: какой размер пароля L+1 стоит выбрать? Какое число символов стоит запрашивать? Какое число попыток предоставлять пользователю? Допускать ли в запросе одинаковые позиции? Изменять ли запрос при неудаче и как часто? Попытаемся ответить на эти вопросы.

Интересным вопросом является то, каким образом стоит хранить пароли пользователей на стороне сервера. Как правило, в классических реализациях аутентификации с помощью пароля на стороне сервера достаточно хранить только хэш от пароля (еще почитать можно тут). В этом случае нахождение пароля по данному значению хеша (или другого пароля с таким же значением хэша) является вычислительно сложной задачей, допускающей полный перебор (впрочем, и тут есть некоторые уязвимости). Так что злоумышленник или нерадивый администратор, даже получив базу данных паролей с сервера, не сможет восстановить пароли по записанным там значениям хешей. В этом смысле такой подход значительно лучше, чем хранения пароля в виде текста. К примеру, широко распространены хеш функции семейства SHA (https://ru.wikipedia.org/wiki/SHA-2).

Однако в случае использования pps возникают некоторые сложности. Если вернуться к идее использования хешей, то нам придется хранить все возможные значения хеш-функции при выборе m из L+1 символов пароля. Так, при выборе позиций без повторений получаем $C_{L+1}^m$ комбинаций. Например, для L+1=10 — символьного пароля и запроса длины m=3 получаем $C_{10}^3=120$ значений, которые необходимо запомнить серверу. Для SHA-256 получаем 256 бит * 120 = 3.75КБ. Довольно много в сравнении с 1 хешем в классической схеме.

Можно здесь сделать также интересное замечание: возможно, подбор параметров pps многими банками как раз был связан с использованием всего множества значений хешей. Как правило, у них равно 2-3, а длина пароля L+1 довольно сильно ограничена, что сильно бьет по безопасности использования pps.

Что ж, не вернуться ли к идее хранения паролей в виде текста? На секунду может прийти такая мысль. От нее сразу же лучше отказаться: велика опасность компрометирования паролей пользователей. Это не вариант.

Другая возможная реализация заключается в следующем: пароль может храниться на сервере в зашифрованном виде с использованием какой-либо схемы симметричного шифрования, например AES. Тогда управление ключами может осуществляться с помощью оборудования, защищенного от несанкционированного доступа, например аппаратного модуля безопасности (Hardware security module, HSM) или отдельного сервера аутентификации с системами контроля доступа, чтобы избежать несанкционированного доступа третьих лиц к криптографическому ключу. Так мы получаем черный ящик для шифрования и проверки подстрок символов в пароле, а именно: введенные символы пароля передаются в приложение, далее на HSM или сервер аутентификации вместе с паролем в зашифрованном виде. Далее HSM может расшифровать пароль и подтвердить или опровергнуть правильность предоставленных пользователем символов. Недостатком этого метода является использование специального оборудования и серверов, что увеличивает накладные расходы. Кроме того, в процессе аутентификации все же происходит полная расшифровка пароля и при определенных обстоятельствах может произойти утечка всего пароля.

Схема разделения секрета

Наиболее естественной реализацией является использование схем разделения секрета (например, схема Шамира). Схема Шамира позволяет реализовать (k, n) — пороговое разделение секрета между сторонами таким образом, чтобы только любые или более сторон могли восстановить секрет. При этом, k-1 и менее сторон не могут получить никакой информации о секрете. В контексте pps секретом является пароль (точнее, хэш от пароля), n=L+1 — число символов в пароле, а k=m — число символов в запросе. Как раз такая схема будет использоваться в модельном примере в конце статьи.

Обсудим идею схемы Шамира. Она довольно проста: для того, чтобы однозначно интерполировать многочлен степени k-1 требуется не менее точек. Так, для восстановления прямой нужно хотя бы 2 точки, а для параболы — хотя бы 3. Оказывается, что при меньшем числе точек однозначная интерполяция принципиально невозможна. Если нам требуется разделить секрет между людьми так, чтобы восстановить его могли только любые или более человек, то мы используем его в качестве слагаемого в многочлене k-1 степени. Восстановить же многочлен можно при наличии минимум точек. На практике используются не вещественные числа, а конечные поля (удобны для использования в оборудовании), так что, в отличие от непрерывного случая, число различных точек многочлена ограничивается размером конечного поля (а оно выбирается очень большим).

4. Виды атак на pps

Выбор между вероятной невозможностью и невероятной возможностью

Bruteforce

Обычная bruteforce-атака использует лишь информацию об алфавите (алфавит можно узнать при регистрации). Пусть размер алфавита равен . Предполагая, что символы пароля распределены равномерно (смелое предположение), вероятность полностью отгадать наугад выбранный пароль равна $1/bar{A}_N^n=1/N^n$ . Так, для шестизначного PIN (пароль из цифр) это будет $10^{-6}$ , а для десятизначного пароля из латинских букв и цифр (будем называть его для краткости просто пароль) вероятность будет порядка $10^{-12}$ . Вероятность отгадать частичный пароль равна $1/bar{A}_N^m=1/N^m$ . Для PIN при m=2 это пугающие 0.01 , а для пароля при m=3 это около $2cdot10^{-5}$ . Такие параметры паролей были выбраны, так как они наиболее распространены в реальных системах [1].

Скажем, что при регистрации пользователю предоставляется попыток ввода частичного пароля. При превышении этого числа налагаются какие-либо санкции (временная или постоянная блокировка аккаунта). Понятно, что в случае неизменного запроса вероятности угадывания увеличиваются в раз (до $g/bar{A}_N^m$ ), что еще сильнее упрощает взлом пароля. Это открывает просторы для так называемых trawling attacks (переведем как ковровый взлом), когда осуществляется попытка взлома не конкретного аккаунта, а большого набора аккаунтов с целью взломать некоторую их долю.

Между делом хочу еще раз напомнить, что pps часто используются в комплексе с другими средствами безопасности, такими как: запрос дополнительных данных о пользователе, двухфакторная аутентификация (почта, сообщения) и другими.

Само собой, атаки с полным перебором — это самый примитивный вариант для взлома. Однако если бы все пользователи выбирали пароли со случайным набором символов, то ничего лучше предложить злоумышленнику в этом случае и не получилось. Но люди используют некоторые устойчивые конструкции языка, слова, благозвучные комбинации букв, даты и тому подобное. Поэтому можно придумать что-то получше. Чуть более сложный вариант взлома паролей — использование данных о частоте встречи букв на определенных позициях. Так и назовем следующих подраздел.

Атака с использованием данных о частоте появления отдельных символов на определенных позициях

Теперь будем не просто случайно подбирать символы на каждую позицию, а использовать то, насколько часто тот или иной символ встречается в языке или, что еще лучше, в паролях, украденные базы с которыми были выложены в общий доступ. В работе рассматривается утечка базы RockYou, которая произошла в 2009 году. Это 32 миллиона паролей от сайта с приложениями, которые попали в сеть и теперь доступны всем желающим, в том числе и для научных изысканий. Приведем графики, на которых изображена зависимость частоты появления цифр в зависимости от позиции в шестизначных паролях из цифр (алфавит размера N=10 , верхний график) и тот же график для паролей из букв и цифр из 8 символов (алфавит размера N=36 , нижний график):

Так, на графике видно, что буква ‘a’ встречается в среднем в 8% случаев в каждой позиции в 8-буквенных паролях, но на 2-ой позиции появляется в 18% случаев. То же и про цифры: так, в 6-значных PIN цифра ‘1’ встречается в 17% случаев в каждой позиции, но в 40% случаев на 1-ой позиции (вероятно, связано с датами и «123456»).

Теперь попробуем провести эту атаку на саму же базу, работающую с pps, используя информацию о частоте появления букв в каждой из позиций (пароли будем выбирать случайно). Размеры PIN все те же 6 цифр, запрос m=2 цифры; размер пароля равен 8 цифр или букв, запрос m=3 . Графики зависимости вероятности взлома случайно выбранного частичного пароля от числа попыток ввода g приведены ниже (слева — PIN, справа — пароль):

Заметим, что на левом графике 15 линий (ведь есть C_6^2=15 возможных запроса pps), а на правом — 56 ( C_8^3=56 запросов). Черная сплошная линия указывает среднюю по типу запроса вероятность правильно ответить на запрос при доступных попытках. Для PIN получаем вероятность 0.17 (17%) ответить на запрос при 6 попытках, а для пароля имеем вероятность 0.0003 (0.3%) при 10 попытках. Мы можем назвать эти величины вероятностями, ведь мы считаем, что запрашиваемые позиции были распределены равномерно, а аккаунты для взлома выбирались случайным образом.

Уже намного лучшие показатели, но язык не состоит из всевозможных сочетаний букв. Одни сочетания букв встречаются часто (например, «ing» или «con»), другие не встречаются вовсе (к примеру, «aaa» или «ww»). Поговорим далее об использовании сочетаний букв из английского языка для взлома pps.

Атака с использованием данных о частоте сочетаний символов на определенных позициях. Подбор пароля.

Теперь будем использовать данные о частоте встречи сочетаний букв в языке. Так, при запросе частичного пароля, будем принимать во внимание частоту появлений символов одновременно на запрашиваемых позициях.

Было взято 11600 8-буквенных слов английского языка (из словаря ubuntu). Для запроса 2,3,6 позиций оказалось 2736 возможных ответа (16% от 26^3 возможных) и 1793 для позиций 1,2,3 (10%). Ниже приведена таблица с самыми распространенными сочетаниями символов для соответствующих запросов. Так, для запроса 2,3,6 первые 5 вариантов покрывают 2.87% от общего числа возможных слов, для запроса 1,2,3 получаем 3.74%. При g=10 получаем значения 5.1% и 6.3% соответственно.

Для запроса 6,7,8 получаем около 30%! Результат оказывается таким большим из-за распространенного окончания «ing». Построим графики зависимости доли взломанных pps для всех возможных запросов и среднее значение доли успехов:

Доля взломанных паролей от числа попыток ввода

Видим, что для того, чтобы практически в 100% случаев взломать pps требуется порядка g=3000-4000 попыток. Для случайного подбора символов потребовалось бы до N^m=17576 попыток (в среднем, порядка 8000-9000).

Использовать сочетания букв из словаря — хорошая идея. Но что будет, если учиться на базах данных взломанных паролей?

Атака с использованием данных о частоте сочетаний символов на определенных позициях в реальных паролях

Можно проделать те же рассуждения, но основываясь на утечках из баз данных паролей. Вновь обратимся к базе RockYou. Так, 5 самых популярных 8-символьных паролей покрывают около 3% от всех паролей, что выглядит удручающе. Для PIN первые 6 охватывают 15.3% от общей доли, притом 12.8% (!) приходится на «123456». Хочется надеяться, что пользователи выбирают пароли для аккаунтов в финансовых и государственных учреждениях, соцсетях более осознанно, чем на сайтах игр, но все новые и новые сливы баз паролей, к сожалению, говорят об обратном.

Доля взломанных pps от числа попыток ввода

Источник

Атака	Параметр	Вероятность взлома
Атака	Параметр	PIN	пароль
Кейлоггинг + bruteforce		0.411 (0.838)	0.096 (0.691)
Кейлоггинг + словарь		0.602 (0.904)	0.252 (0.812)

Parole, paroes, *aroles…

1. Математический теорминимум, иллюстрированный

2. Общие слова о pps

3. Детали реализации pps

4. Виды атак на pps

5. Модельный пример реализации pps на python

6. Обсуждение и некоторые выводы

Читайте также

Паблик ВКонтакте

Последние посты

Parole*, paro*es, *aroles…

1. Математический теорминимум, иллюстрированный

2. Общие слова о pps

3. Детали реализации pps

4. Виды атак на pps

5. Модельный пример реализации pps на python

6. Обсуждение и некоторые выводы

Читайте также

Паблик ВКонтакте

Последние посты

Parole, paroes, *aroles…