Ознакомительная версия. Доступно 19 страниц из 92
априорная вероятность. Если условие повышает вероятность, то противоположное условие должно ее уменьшать, и наоборот (кстати, именно поэтому правильным ответом в вопросе на проверку статистической грамотности в табл. 5.4 главы 5 является ответ А).
Таким образом, мы продемонстрировали, как можно применить байесовский анализ для обновления априорной вероятности крупной утечки данных, основываясь на результатах наблюдаемого теста на проникновение. Чтобы максимально упростить процесс, все расчеты представлены в электронной таблице, которую, как обычно, можно найти на сайте www.howtomeasureanything.com/cybersecurity. Начали мы с применения теста на понятность к трем переменным (УЭУ, КУД и ПТП), но это лишь отправная точка для продвинутых моделей, объединяющих суждения с доказательствами с целью уменьшения неопределенности.
Примечание
1. Dennis V. Lindley, Understanding Uncertainty (Hoboken, NJ: John Wiley & Sons, 2006).
Глава 9. Эффективные методы на основе формулы Байеса
Если не указывать априорную информацию, то выводы будут столь же некорректны, как если бы они вообще ни на чем не основывались… В реальности, когда требуется сделать выводы, как правило, имеется убедительная априорная информация, непосредственно связанная с заданным вопросом. Не принимать ее в расчет – значит допустить самую очевидную непоследовательность в рассуждениях, что может привести к абсурдным или вводящим в опасное заблуждение результатам.
Эдвин Томпсон Джейнс (1922–1998), американский специалист по статистической физике
Напомним, что в нашем опросе 23 % респондентов согласились с утверждением «Вероятностные методы непрактичны, так как вероятности требуют вычисления точных данных, а у нас их нет». Их меньшинство, но даже те, кто не согласен с утверждением, скорее всего, попадали в ситуации, когда казалось, что данных слишком мало для формулирования полезных выводов. Именно поэтому, видимо, большинство участников опроса также ответили, что порядковые шкалы уместны при измерении неопределенности. Возможно, им удобно использовать крайне неточные и произвольные значения вроде «высокий, средний, низкий» для передачи информации о риске, но при этом, по иронии судьбы, они верят и в количественные подходы. Те же, кто всецело доверяет количественным методам, полностью отвергают порядковые шкалы при измерении крайне неопределенных величин. При высокой степени неопределенности вы используете вероятности и диапазоны, активно заявляя о своей неуверенности, особенно когда полагаетесь на знания экспертов. Из результатов исследований, описанных ранее, вам уже известно, как даже субъективные оценки можно разложить на составляющие и сделать более согласованными, прежде чем применять новые «объективные» данные, и как использовать для обновления оценки всего одну точку данных (например, результат одного теста на проникновение).
Теперь, когда заложена основа эмпирических байесовских методов с помощью, пожалуй, чрезмерно упрощенного примера, можно перейти к решению более сложных – и более реалистичных – проблем.
Вычисление частоты с помощью (очень) малого количества точек данных: бета-распределение
Есть чуть более сложная производная от формулы Байеса, о которой стоит чаще вспоминать в сфере кибербезопасности. Допустим, вы представляете одну из крупнейших компаний розничной торговли, о которых говорилось в главе 6, и вам снова требуется оценить вероятность утечки данных. Но в этом случае новые эмпирические данные являются не результатом теста на проникновение, а наблюдаемыми (точнее, широко освещенными в СМИ) крупными утечками данных. Естественно, вам бы захотелось использовать новостные репортажи для оценки вероятности подобного нарушения в вашей организации. В идеальном мире у вас была бы актуарная таблица для сферы кибербезопасности вроде тех, что применяются при оценке страхования жизни, здоровья и имущества. Тысячи компаний в отрасли прилежно сообщали бы данные в течение многих десятилетий. А вы бы на их основе вычисляли «интенсивность» или «частоту» утечек данных, отражающую процент компаний, в которых произойдет утечка в конкретном году. Как и в страховании, частоту можно было бы использовать в качестве косвенного показателя вероятности того, что у вас произойдет такое же событие.
Но в реальности для вашей актуарной таблицы взломов не так уж много информации. К счастью, много данных и не понадобится, если задействовать статистический инструмент, известный как бета-распределение. С его помощью можно делать выводы о годовой частоте нарушений даже в случае, когда данных очень мало.
К тому же, как уже не раз отмечалось, у вас больше данных, чем кажется. При оценке ущерба репутации, например, странно говорить о недостатке сведений о крупных утечках данных, поскольку, по сути, есть вся нужная информация. Ведь каждая масштабная утечка в крупных компаниях розничной торговли, повлекшая за собой огромные убытки, активно освещалась. Собственно говоря, многие убытки возникли лишь потому, что утечка получила широкую огласку (если была крупная утечка данных, которая почему-то до сих пор не обнародована, то такой компании розничной торговли удалось избежать части или большинства основных убытков, связанных с утечкой).
Изучив отчет компании Verizon о расследовании утечек данных – Data Breach Investigations Report (DBIR), а также другие источники сведений о нарушениях, можно узнать количество утечек в каждой отрасли. Однако сама по себе эта информация не сообщает нам, какова вероятность возникновения утечки в отдельной компании отрасли. Если в такой-то отрасли в указанном году произошло пять утечек данных, то в масштабах отрасли это 30 % или 5 %? Для ответа потребуется узнать (разложить) размер совокупности, из которой были взяты компании, включая те, где утечек не было.
Именно на этом этапе некоторые эксперты по кибербезопасности (те, кто помнит из области статистики ровно столько, чтобы истолковать все неправильно) сдаются, говоря, что несколько утечек не являются «статистически значимыми» и не позволяют делать какие-либо выводы. Другие (особенно те, кто, как мы надеемся, прочитает эту книгу) не отступят так легко. Ведь у нас, повторимся, больше данных, чем кажется, а нужно нам меньше, чем кажется, особенно при наличии доступа к бета-распределению.
Расчеты с помощью бета-распределения
С бета-распределением удобно определять долю генеральной совокупности – часть совокупности, попадающую в определенную категорию. Если только 25 % сотрудников правильно выполняют какую-либо процедуру, доля генеральной совокупности составит 25 %. Теперь предположим, мы не знаем, составляет ли она ровно 25 %, но хотели
Ознакомительная версия. Доступно 19 страниц из 92