много явлений можно описать нормальным распределением.
Стандартный разброс при нормальном распределении
Таким образом, если вы остановите на улице случайную женщину, можно использовать эти факты, чтобы довольно точно угадать ее рост. Вариант 5 футов 4 дюйма (162 сантиметра) подойдет лучше всего, потому что это норма. Кроме того, вы можете с вероятностью приблизительно 2: 1 угадать, что ее рост будет от 5 футов 1 дюйма (156 см) до 5 футов 7 дюймов (170 см). Это связано с тем, что стандартный разброс для женского роста составляет чуть меньше 3 дюймов (8 см), поэтому около двух третей женщин будут примерно такого роста (в пределах одного отклонения от стандарта). Напротив, женщины ниже 4 футов 10 дюймов (147 см) или выше 5 футов 10 дюймов (178 см) составляют менее 5 % всех женщин (за пределами двух отклонений от стандарта).
Распределение вероятностей
Распределение вероятностей, блог Cloudera Engineering, Шон Оуэн, 3 декабря 2015 года.
Существует много других распределений вероятности помимо нормального распределения, которые используются в различных обстоятельствах. Некоторые из них изображены выше.
Но мы назвали этот раздел «Кривая нормального распределения», поскольку нормальное распределение особенно полезно благодаря одному из самых практичных результатов во всей статистике, который называется центральной предельной теоремой. Эта теорема утверждает, что когда числа взяты из одного и того же распределения, а затем усреднены, полученный средний результат примерно соответствует нормальному распределению. Так получается даже тогда, когда изначальные числа взяты из совершенно иного распределения.
Чтобы понять эту теорему и ее пользу, вспомните известный опрос о рейтинге одобрения[65]. Механика проведения таких опросов очень проста – человека спрашивают, одобряет он, например, политическую партию или нет. Это значит, что каждая точка данных сводится всего лишь к «да» и «нет».
Такой тип данных совершенно не похож на нормальное распределение, потому что каждая точка может иметь лишь одно из двух возможных значений. Подобные бинарные данные часто анализируются через другое распределение вероятностей, которое называется распределением Бернулли. Оно представляет собой результат одного эксперимента или вопроса типа да/нет, например в анкете. Такое распределение полезно в самых разных ситуациях, например при анализе рекламных кампаний (купили ли товар), в клинических испытаниях (подействовало ли лечение) и в А/В-тестировании (нажали ли кнопку).
Оценочный рейтинг одобрения – это среднее значение всех отдельных ответов (1 – одобрение, 0 – нет). Например, если было опрошено 1 000 человек и 240 ответили одобрительно, то рейтинг одобрения будет 24,0 %. Центральная предельная теорема сообщает, что это среднее статистическое значение (норма выборки) приблизительно нормально распределено (при условии, что в опросе приняло участие достаточно людей). График ниже наглядно показывает, как это работает с распределением Бернулли и двумя другими, которые тоже изначально совершенно не похожи на нормальное распределение.
Центральная предельная теорема
Марк Л. Беренсон, Дэвид М. Левин и Тимоти К. Кребиэль. Базовая бизнес-статистика: концепции и приложения. Upper Saddle River, N.J.: Prentice Hall, 2006.
Центральный столбец показывает, что распределение нормы выборки из распределения Бернулли представляет собой серию единиц и нулей и в конце концов принимает вид колокола. Первая строка показывает распределение с 75 % шансом неодобрения (пик на 0 слева) и 25 % шансом одобрения (пик на 1 справа). Этот 25 % шанс основан на рейтинге одобрения по всей стране, если бы опросили всех до единого. Каждый человек в опросе входит в распределение населения.
Принимая участие в опросе, вы получаете лишь приблизительную оценку общего рейтинга одобрения (как приблизительные 24 %, упомянутые ранее). Когда вы так делаете, вы берете выборку из всего населения (например, опрашиваете 1 000 человек) и находите средний результат, чтобы сделать приблизительный подсчет. Эта норма также имеет распределение, которое называется распределением выборки и описывает шансы получить каждый возможный рейтинг одобрения из нее. Представим это распределение в виде графиков разных рейтингов одобрения (норм выборки), полученных из большого количества опросов.
Во второй строке показан график примера этого распределения выборки для рейтинга одобрения на основании опроса двух случайно выбранных людей. График отличается от изначального распределения, но все же совершенно не похож на нормальное, поскольку у него может быть только три результата: два одобрения (пик на 1), два неодобрения (пик на 0) либо одно одобрение и одно неодобрение (пик на 0,5).
Если вы опросите 5 человек, распределение выборки станет уже больше похоже на колокол с шестью возможными результатами (третья строка). Если опросить тридцать человек (31 результат, 4 строка), график начнет приобретать характерную форму кривой нормального распределения.
Чем больше людей вы опросите, тем больше распределение выборки будет походить на нормальное распределение с нормой в 25 % – тем самым рейтингом одобрения из распределения населения. Как и в случае с температурой тела или ростом, пока эта величина остается самой вероятной по результатам опроса. Величины, близкие к ней, будут также оставаться вероятными, например 24 %. Величины дальше и дальше от нее будут все менее вероятны, и их вероятности будут распределяться нормально.
Но насколько точна эта меньшая вероятность? Зависит от того, сколько человек вы опросите.
Чем больше будет опрошенных, тем выше будет распределение. Чтобы передать эту информацию, такие опросы обычно указывают погрешность.
Статья, описывающая результаты опроса, может включать подобный текст: «Рейтинг одобрения Конгресса составляет 24 % с погрешностью ±3 %»[66]. Эти «±3 %» и есть предел погрешности, но откуда берется эта погрешность и что это вообще такое, редко объясняют. Теперь вы знаете!
На самом деле допустимая погрешность – это тип доверительного интервала, приблизительного ряда чисел, которые, по вашему мнению, включают в себя истинное значение изучаемого параметра, например рейтинга одобрения. Этот диапазон обладает соответствующим уровнем доверия тому, что истинное значение параметра входит в интервал, который вы приблизительно вычислили. Например, уровень доверия 95 % подразумевает, что если вы проведете опрос много раз и подсчитаете много уровней доверия (по одному для каждого опроса), в среднем 95 % из них будет включать себя истинный рейтинг одобрения (то есть 25 %).
В большинстве сообщений СМИ не упоминают уровень доверия для вычисления погрешности, но обычно можно предположить 95 %. Напротив, в научных публикациях куда яснее пишут, какой уровень доверия был взят, чтобы показать неопределенность подсчетов (опять же, как правило, хоть и не всегда, это 95 %).
Для оценки рейтинга одобрения этот диапазон вычисляется с учетом центральной предельной теоремы: норма выборки приблизительно нормально распределена, поэтому следует ожидать, что 95 % возможных значений окажется в пределах двух отклонений от стандарта истинной нормы (то есть истинного рейтинга одобрения).
До сих пор мы не объяснили, что отклонение от стандарта