Таблица 9.1. Количественная оценка неопределенности посредством определения вероятности
В то время как каждый из нас может выбрать такую вероятность ошибки, с которой лично ему комфортно, в мире профессиональной науки ответ в настоящее время ясен и однозначен. В контексте примера с честной монетой вероятность ошибки составляет 5 %[202]. Чтобы понять, откуда взялось 5%-ное отсечение, необходимо рассмотреть происхождение этого определения. Р. А. Фишер был известным статистиком, который разработал большую часть современных взглядов на статистический анализ исследований. Фишер и выдвинул идею о том, что ошибка 5 % в наших результатах достаточно хороша для того, чтобы можно было принять, что наблюдаемая связь реальна (то есть что разница не наблюдалась только случайно, когда реальной разницы не было).
Рассмотрим пример, в котором сравнивались две группы (например, пациенты, получающие новое тестируемое лекарство, и пациенты, получающие старый препарат), чтобы увидеть, дает ли новое лекарство результат, отличный от старого лекарства. В этом примере у группы пациентов, получавших новое лекарство, наблюдалось лучшее лечебное воздействие, чем у пациентов, получавших старое лекарство. Основная проблема заключается в том, что наблюдаемая разница возникла случайно и что в действительности не было никакой разницы между лекарствами (или новое лекарство дало еще худший результат). Фишер и его современники придумали методики, которые приводят к вычислению того, что называется «P-значением». Значение P = 0,05 указывает на то, что наблюдаемая разница будет возникать только в 5 % случаев случайно, если на самом деле такой разницы не было (в терминологии статистики это ошибка типа I, или неправильное отклонение нулевой гипотезы). И наоборот, отмеченная разница будет отражать реальную разницу в 95 % случаев.
Эта концепция может сбивать людей с толку. Что значит «разница была обнаружена случайно, хотя на самом деле разницы не было»? Как может не быть разницы, если разница наблюдалась? Объяснение состоит в том, что значения P используются для выборок, отражающих большую совокупность данных. Если провести испытание лекарства на 1000 пациентов (500 пациентов, получающих лекарство, против 500 пациентов, получающих плацебо), то обе эти группы представляют собой выборки пациентов, которые страдают этим заболеванием. Вопрос в том, насколько вероятно улучшение состояния у тех пациентов, которые получают лекарство, по сравнению с теми, кто его не получает, если на самом деле лекарство не принесло пользы, но случайно получилось так, что пациенты, у которых течение болезни облегчилось само по себе, попали в группу, получившую экспериментальный препарат. В таком случае вы заметили разницу в выборке, но нет никакой разницы в генеральной совокупности, из которой вы отбираете выборку, вы просто случайно получили нерепрезентативную выборку[203].
Существует ряд факторов, которые могут влиять на расчеты значения P, включая степень наблюдаемой разницы, распределение данных, количество пациентов в каждой группе и другие более тонкие характеристики данных. Соответственно, существует множество различных методов расчета значения P с различными допущениями по умолчанию. Чтобы правильно найти количественную оценку неопределенности, нужно использовать метод, который подходит для вашего набора данных. Итак, по словам Фишера, если орел выпадает при каждом подбрасывании, после пятого подбрасывания вы должны купить монету. Это первое подбрасывание, при котором орел выпадает случайно менее чем в 5 % случаев (в данном случае в 3,1 %).
Так почему же Фишер выбрал значение P = 0,05? Было ли какое-то объективное основание для выбора этого числа? Была ли озабоченность осуществимостью того, сколько событий вы можете наблюдать или насколько большая разница будет значимой? Ответ — нет. Фишер предложил это значение, потому что считал его разумным, и другие статистики и ученые согласились. Со временем критерий P = 0,05 стал стандартом значимости в науке, глубоко укоренился и догматически закрепился в ткани научных исследований. В той мере, в какой это правило соблюдается, оно придает научным наблюдениям объективный характер, поскольку ученым, проводящим исследование, не нужно задумываться, что делает наблюдение «значимым». Ведь значение P = 0,05 было заранее определено как приемлемая мера степени ошибки.
Несмотря на объективный характер заранее определенного и строгого критерия для вывода, который принимается как статистически значимый (реальный) по сравнению с тем, который является незначительным (не принимается), значение P = 0,05, тем не менее, было получено в результате существенно субъективного процесса: Р. А. Фишер предложил его, а остальные согласились. Каковы практические последствия использования значения P = 0,05 в качестве критерия значимости? Короче говоря, это означает, что не более, чем в 5 % случаев мы будем наблюдать явление, когда на самом деле никакого явления нет, или, другими словами, до 1 из каждых 20 наблюдаемых различий между группами не будет «реальным» различием. Я говорю про ошибочное обнаружение причинной связи, которая в действительности не существует (как сказано ранее, ошибка типа I). Однако может возникнуть и обратная ошибка, когда реальная связь существует, но не обнаруживается в собранных данных (часто называемая ошибкой типа II). Существует ряд методов для вычисления вероятности совершения ошибки типа I или типа II с любым заданным набором данных; однако значение P = 0,05 остается «золотым стандартом» для ошибок типа I[204].