Ознакомительная версия. Доступно 19 страниц из 92
нам P(наблюдаемые данные | доля), и мы переводим их в P(доля | наблюдаемые данные). Это очень полезный трюк, который в бета-распределении уже выполнен за нас.
Еще один момент, прежде чем продолжить: не кажется ли вам диапазон от 5,3 до 52 % широким? Тут стоит учитывать, что в выборке было всего шесть человек, а ваш предыдущий диапазон был еще шире (90 %-ный ДИ при равномерном распределении от 0 до 100 % составляет от 5 до 95 %). Все, что требуется для дальнейшего уменьшения диапазона, – продолжать делать выборки, и каждая выборка будет немного изменять диапазон. Распределение можно получить, даже если в трех выборках у вас будет ноль попаданий, при условии что начали вы с априорного распределения.
Если необходимы дополнительные примеры, чтобы лучше понять сказанное, рассмотрим один из тех, что приводил Хаббард в книге «Как измерить все, что угодно. Оценка стоимости нематериального в бизнесе». Представьте урну, наполненную красными и зелеными шариками. Допустим, мы считаем, что доля красных шариков может составлять от 0 до 100 % (это наше априорное значение). Чтобы оценить долю генеральной совокупности, отбираются шесть шариков, один из которых оказывается красным. Оценив результат, как в примере с соблюдением протоколов безопасности, мы бы получили диапазон от 5,3 до 52 %. Ширина диапазона объясняется тем, что из шести шариков можно получить один красный при многих значениях доли генеральной совокупности. Такой результат возможен, как если красных шариков всего 7 %, так и если половина всех шариков являются красными. Давайте посмотрим теперь, как экстраполировать разобранные примеры на нарушения кибербезопасности.
Применение бета-распределения к нарушениям кибербезопасности
Думайте о нарушении как о вытаскивании красного шарика из урны. Каждая компания в вашей отрасли ежегодно случайным образом вытягивает что-то из «урны нарушений». Некоторым компаниям достается красный шарик, указывающий на наличие нарушения кибербезопасности. Таких компаний могло быть и больше, а могло быть и меньше. Вам точно неизвестно, с какой частотой происходят нарушения (т. е. доля шариков красного цвета), но можно использовать наблюдаемые нарушения для ее оценки.
Итак, у вас есть список известных нарушений кибербезопасности из отчета Verizon DBIR, но он не указывает на величину совокупности. Иначе говоря, известно, что в урне есть 100 красных шариков, но, не зная общего количества шариков, нельзя определить, какую долю генеральной совокупности они составляют. Однако все еще можно произвольно отобрать несколько шариков и просто сравнить количество красных шариков в выборке с размером самой выборки, а не с неизвестным общим размером совокупности. Аналогичным образом знание, что в данной отрасли произошло X нарушений, поможет только в случае, если известен размер отрасли. Так что придется взять другой источник, не отчет Verizon DBIR, чтобы узнать перечень компаний розничной торговли. Это может быть список Fortune 500 или, возможно, список от ассоциации компаний розничной торговли. В любом случае он не должен зависеть от того, сталкивалась ли организация с нарушениями кибербезопасности, о которых сообщается в отчете Verizon DBIR, и, следовательно, большинство компаний списка не будут фигурировать в отчете. Список – это ваша выборка (сколько шариков вытаскивается из урны). Некоторые компании из него, однако, окажутся упомянуты в отчете Verizon DBIR как жертвы нарушений кибербезопасности (т. е. они вытянули красный шарик).
Допустим, в списке нашлось 60 подходящих компаний розничной торговли. Из этой выборки в 60 объектов за период с начала 2014 по конец 2015 года выявлено два сообщения о крупных утечках данных. Так как оценивается вероятность возникновения нарушения в течение года, необходимо количество лет в имеющихся данных умножить на количество фирм. Подведем итоги:
• размер выборки: 120 единиц данных (60 компаний × 2 года);
• попадания: 2 взлома за указанный период времени;
• промахи: 118 единиц данных, в которых не было крупных нарушений;
• альфа: априорное значение + попадания = 1 + 2 = 3;
• бета: априорное значение + промахи = 1 + 118 = 119.
Добавив эти данные в электронную таблицу, получим распределение, подобное представленному на рис. 9.3.
Считайте наблюдаемые нарушения примером того, что могло бы произойти. Если вытянуто 120 шариков и два из них оказались красными, это еще не означает, что ровно 1,67 % шариков в урне – красные. Вытащив шарики из урны в указанном количестве, можно было бы оценить с вероятностью 90 %, что истинная доля красных шариков в урне составляет от 0,7 до 5,1 %.
Рис. 9.3. Частота утечек данных в год для указанной отрасли
Аналогичным образом, имея только два нарушения кибербезопасности в списке из 60 компаний за два года (120 единиц данных), нельзя утверждать, что ежегодная частота нарушений составляет ровно 1,67 %. Мы лишь оцениваем вероятность различной частоты из нескольких наблюдений. В следующем году нам может повезти больше или меньше, даже если в долгосрочной перспективе частота и останется такой же.
Даже среднее значение бета-распределения не составляет ровно 1,67 %, так как среднее значение бета-распределения равно α / (α + β), или 2,46 %. Причина различий в значениях в том, что на бета-распределение влияет априорное распределение. Даже при отсутствии случаев утечек данных α бета-распределения была бы равна 1, а β – 121 (120 промахов + 1 для априорного значения β), и тогда среднее значение было бы 0,8 %.
Другая удобная особенность бета-распределения заключается в легкости обновления. Каждый проходящий год, а по сути, и каждый проходящий день, независимо от наличия факта взлома, может обновлять параметры α и β распределения нарушений кибербезопасности в соответствующей отрасли. Для любой компании, в которой в течение указанного периода произошло заданное событие, обновляется параметр α, а для компаний, в которых не произошло, – параметр β. Даже если ничего не происходило в течение целого года, параметры β все равно обновляются, а следовательно, и наша оценка вероятности события.
Обратите внимание, что неинформативное априорное распределение вроде равномерного распределения использовать не обязательно. Если даже до изучения новых данных у вас есть основания полагать, что одни значения частот гораздо менее вероятны, чем другие, то можно так и указать. Можно формировать какие угодно априорные распределения, пробуя
Ознакомительная версия. Доступно 19 страниц из 92