Плосковершинное и островершинное распределения
Когда экономисты говорят, что у распределения «толстые» или «тяжелые» хвосты, они имеют в виду, что кривые в далеких от среднего областях проходят выше, то есть на большем удалении от горизонтальной оси, чем кривая нормального распределения, как если бы у госсетовских животных хвосты были толще средних. Эти кривые описывают распределения, в которых крайние события более вероятны, чем в случае нормального распределения. Например, если вариации в цене акций имеют толстые хвосты, это означает, что вероятность резкого падения или, наоборот, резкого роста этих акций в цене больше, чем в случае нормального распределения. По этой причине иногда довольно безрассудно предполагать колоколообразную кривую там, где распределение имеет толстые хвосты.
В своем бестселлере «Черный лебедь»[68] экономист Нассим Николас Талеб утверждает, что нам свойственна тенденция к недооценке размера и важности хвостов кривых, описывающих распределения. Его аргумент состоит в том, что колоколообразная кривая — это исторически дефективная модель, потому что она не позволяет предсказывать ни появление очень редких, крайних событий, ни производимый ими эффект, — а к таким событиям могут относиться ключевые научные открытия, подобные изобретению Интернета, или нападение террористов, подобное атаке и сентября 2001 года. Вездесущность нормального распределения не относится к числу свойств окружающего мира, утверждает он, — тут проблема нашего восприятия, порожденная тем, как мы смотрим на те или иные явления.
Желание всюду усматривать колоколообразную кривую, пожалуй, сильнее всего проявляется в образовании. Расстановка оценок от А до F на экзаменах[69] в конце учебного года основана на том, как набранные учащимися баллы ложатся на колоколообразную кривую, — причем предполагается, что она и в самом деле будет аппроксимировать полученные оценки. Затем данная кривая разбивается на участки, и оценка А выставляется тем, чьи баллы попали в самый верхний участок, В — в следующий и т. д. Во избежание резких встрясок образовательной системы важно, чтобы из года в год процент учащихся, получающих оценки от А до F, оставался примерно постоянным. Если в какой-то год получается слишком много оценок А или слишком много оценок F, то потом на некоторых курсах окажется слишком много или слишком мало студентов, что, в свою очередь, повлечет изменение требований к преподавательскому составу. Экзамены целенаправленно устроены таким образом, чтобы распределение результатов по возможности наилучшим образом ложилось на колоколообразную кривую, независимо от того, насколько точно это отражает реальный уровень знаний.
Высказывалось мнение, что почтение, питаемое некоторыми учеными к колоколообразной кривой, поощряет небрежность в работе. Из нашего примера с квинканксом мы видели, что случайные ошибки распределены нормально. Так что чем больше случайных ошибок мы сможем внести в измерение, тем более вероятно, что данные будут описываться колоколообразной кривой — даже если измеряемые явления сами по себе не распределены нормально. Когда же нормальное распределение обнаруживают в наборе данных, причина этого может состоять просто в том, что измерения делались недостаточно тщательно.
* * *
Что и возвращает нас к багетам. Действительно ли их веса были распределены нормально? Был ли хвост распределения узким или широким? Как вы помните, я взвесил в общей сложности 100 багетов. Результаты продемонстрировали определенные обнадеживающие тенденции: среднее оказалось равным примерно 400 граммам, а разброс был более или менее симметричным — между 380 и 420 граммами. Если бы я был неутомим в той же степени, что и Анри Пуанкаре, я продолжил бы эксперимент и взвешивал багеты в течение года, получил бы 365 (плюс-минус несколько штук с учетом тех дней, когда пекарня закрыта) весов, которые мог бы сравнивать. При наличии большего объема данных характер распределения был бы яснее. И тем не менее моя скромная выборка оказалась достаточной, чтобы примерно представить себе, как формируется результат. Я использовал трюк, состоящий в «сжатии» полученных данных: нарисовал график, на котором сгруппировал багеты по весу со шкалой не в 1 грамм, а в 8 граммов. Вот что у меня получилось:
Нарисовав это, я почувствовал облегчение, поскольку и в самом деле было похоже, что в моем эксперименте с багетами веса укладываются на колоколообразную кривую. Но при ближайшем рассмотрении оказалось, что график вовсе не является колоколообразной кривой. Да, веса группировались вокруг среднего значения, но кривая с очевидностью не обладала симметрией. Левая ее сторона оказалась не такой крутой, как правая, словно какой-то невидимый магнит немного вытягивал кривую влево.
Отсюда следовало два возможных вывода. Или веса багетов от «Греггса» не распределены нормально, или же они распределены нормально, но в ход моего эксперимента вкралась какая-то систематическая ошибка. У меня были определенные соображения, что это могла быть за ошибка. Несъеденные багеты скапливались у меня на кухне, и теперь я решил взвесить один из них. К моему удивлению, в нем был всего 321 грамм — существенно меньше, чем самый малый из весов, что появлялся в ходе моего эксперимента. И тут меня осенило: вес багета — величина не постоянная, багет становится легче по мере высыхания! Я снова отправился в магазин и выяснил, что багет теряет около 15 граммов веса за время от 8 утра до полудня.
Мне стало ясно, что мой эксперимент далеко не идеален. Я не учитывал время дня, в которое осуществлял свои измерения. Вне всякого сомнения, именно это внесло систематическую ошибку в распределение весов. Чаще всего я приходил в магазин к открытию и взвешивал свой хлеб около 8:10 утра; но иногда я вставал поздно. Эта случайная переменная не распределена нормально, потому что среднее время попадает куда-то между 8 и 9 утра, но нет никакого хвоста, описывающего период до 8 утра, поскольку магазин в это время еще закрыт. Зато с другой стороны хвост тянулся до самого обеда. И тогда мне пришло в голову кое-что еще. А как обстояло дело с окружающей температурой? Я начал свои опыты в начале весны, а закончил их в начале лета, когда стало существенно теплее. Я взглянул на цифры и обнаружил, что веса моих багетов в целом уменьшались по мере приближения к концу эксперимента. Летняя жара, заключил я, способствовала их более быстрому высыханию. И опять же, этот фактор мог влиять на вытягивание кривой влево.