Ознакомительная версия. Доступно 19 страниц из 92
чтоб они прошли наш тест на понятность), загрузили вышеупомянутую электронную таблицу и внесли в нее эти термины надлежащим образом.Определение бинарных терминов
Познакомимся с идеей изменения вероятности на основе условия. То есть у вас есть вероятность того, что событие произойдет, вы узнаёте что-то новое и обновляете эту вероятность. На самом деле это такой способ еще немного разложить вероятность, указав, что само условие может быть неопределенным состоянием, которое также обусловлено чем-то еще.
В нашем простом примере анализ будет сведен к трем дискретным бинарным состояниям, каждое из которых является либо истинным, либо ложным. Три определяемых нами термина следующие:
• возникновение в данном году крупной утечки данных (КУД);
• существование пока неизвестной, но возможной удаленно эксплуатируемой уязвимости (УЭУ);
• результат теста на проникновение, который указывает на наличие некой удаленно эксплуатируемой уязвимости, т. е. положительный тест на проникновение (ПТП).
Предположим, что КУД, УЭУ и ПТП были определены для нас в однозначной форме, они понятны, наблюдаемы и полезны для принятия практических решений. В этом примере генеральный директор и другие заинтересованные стороны (лица, принимающие решения) хотят оценить риск возникновения КУД, подобной тем, о которых они читают в новостях. Они согласились, что для признания утечки данных крупной необходимо, чтобы количество похищенных записей составляло не менее 1 млн. Кроме того, они согласовали конкретное определение значения УЭУ, определив типы слабых мест в своих веб-приложениях, облачной инфраструктуре и/или действий с системой безопасности, которые позволят внешнему злоумышленнику украсть данные удаленно. Наконец, тест на проникновение – это определенная кампания с потенциальными результатами, и значение этих результатов четко определено.
Когда наши заинтересованные стороны точно знают, что означают эти термины, как их увидеть и какие последствия они будут иметь для работы компании, тогда проблема разложена так, что с ней удобно работать. Попытавшись разложить этот риск на «злоумышленника уровня спецслужбы крупной страны и владеющего „уязвимостью нулевого дня“», мы бы совершили ошибку бесполезных разложений, и в этом случае наши действия и способы получения достоверной информации оказались бы неприменимы.
Байесовский пример, который мы собираемся описать, включает в себя две стадии анализа. Наличие удаленно эксплуатируемой уязвимости изменяет вероятность крупной утечки данных. А результат теста на проникновение изменяет вероятность удаленной эксплуатации уязвимости. Таким образом проводится простое разложение на составляющие вероятности крупной утечки данных. Но в целом этот пример придуман для того, чтобы максимально упростить байесовское решение.
Краткое знакомство с байесовским подходом и теорией вероятности
Часто справедливо утверждается, что уравнение Эйнштейна E = mc2 имеет первостепенное значение, поскольку на нем основано многое в физике… Я бы утверждал, что формула Байеса не менее важна, потому что она описывает, как следует реагировать на получение новой информации.
Деннис В. Линдли (1923–2013), английский статистик, специалист по теории принятия решений1
Наша модель началась с суждений руководителя отдела информационной безопасности о ключевых переменных и их взаимосвязи. В частности, он предоставил калиброванную оценку вероятности масштабной утечки данных в свете существования удаленно эксплуатируемой уязвимости.
Язык вероятностей: базовый словарь
Введя несколько условных обозначений, мы сможем избежать более длительных и потенциально более запутанных словесных объяснений. Некоторым читателям они, возможно, хорошо знакомы, но на случай, если вы что-то подзабыли, просмотрите эту статью, чтобы освежить в памяти, как писать на языке вероятностей. А начнем мы с нескольких практичных правил из теории вероятностей. Это не полный список фундаментальных аксиом и определенно не всеобъемлющий перечень всех теорем, которые могут оказаться полезными, однако, чтобы разобраться в материале главы, их будет достаточно.
1. Правило записи вероятности.
P(A) = вероятность события A. P(A) принимает некоторое значение между 0 и 1 включительно.
P(~A) = вероятность того, что событие A не наступит. Читайте знак «~» как «нет», «не» или «не будет».
Если P(КУД) – вероятность крупной утечки данных в указанном году, то P(~КУД) – вероятность, что крупной утечки данных не произойдет.
2. Правило «Какое-то суждение должно быть истинным, но противоречащие суждения не могут быть истинными одновременно».
Вероятности всех взаимоисключающих и совместно исчерпывающих событий или состояний должны в сумме давать 1. Если есть только два возможных исхода, скажем, А или не А, тогда:
P(A) + P(~A) = 1.
Например, крупная утечка данных либо произойдет, либо нет. Если мы однозначно определили термин (а по нашему предположению, в этом случае так и есть), то может быть либо один вариант, либо другой, но не оба одновременно (т. е. КУД может произойти или НЕ произойти).
3. Правило записи вероятности наступления более одного события.
P(A,B) означает, что верны и A, и B. Если A и B «независимы», т. е. вероятность одного не зависит от другого, тогда P(A,B) = P(A)P(B). Поскольку в случае КУД, УЭУ и ПТП это может быть не так, нельзя говорить, что P(КУД, УЭУ, ПТП) = P(КУД)P(УЭУ)P(ПТП).
4. Правило записи и вычисления вероятности в ситуации «это зависит от» (условная вероятность).
P(A | B) = условная вероятность A при заданном B. Например, P(КУД | УЭУ) – так можно записать вероятность возникновения крупной утечки данных при наличии удаленно эксплуатируемой уязвимости. Также верно, что P(A | B) = P(A,B) / P(B). Изменение A в зависимости от двух или более событий записывается как P(A | B,C).
5. Правило разложения вероятности наступления более одного события на ряд вероятностей «это зависит от».
Применив правило 4, можно превратить совместную вероятность двух событий в P(A,B) = P(A |
Ознакомительная версия. Доступно 19 страниц из 92