Глава 12. Когда дела идут не так
Существует ли экстрасенсорное восприятие (ЭСВ)?
В 2011 году выдающийся американский социальный психолог Дэрил Бем опубликовал в известном психологическом журнале важную статью, описывающую следующий эксперимент. Перед экраном компьютера с двумя шторками усадили сто человек, которые выбирали, какая из них – левая или правая – скрывает какое-то изображение. Затем шторки «открывались», чтобы проверить правильность выбора, и все повторялось для серии из 36 изображений. Подвох был в том, что участники не знали главного: положение картинки определялось наугад после того, как испытуемый делал выбор, поэтому любое превышение числа правильных выборов над тем, что можно было бы ожидать при выборе наугад, приписывалось умению предвидеть, где появится картинка.
Бем сообщал, что вместо ожидаемой доли успехов 50 % (при нулевой гипотезе об отсутствии предвидения) участники правильно выбирали в 53 % случаев, когда показывали эротическое изображение (P = 0,01). В статье описывались результаты еще восьми экспериментов по предвидению, проводившихся в течение 10 лет и включавших свыше 1000 участников. Автор наблюдал статистически значимые результаты в пользу предвидения в восьми из девяти исследований. Можно ли считать это убедительным доказательством существования экстрасенсорного восприятия?
Надеюсь, эта книга проиллюстрировала некоторые способы приложения статистики к решению реальных проблем, при этом практики пользуются этими методами умело и осторожно, помня об ограничениях и потенциальных ловушках. Однако реальный мир не всегда достоин восхищения. Пришло время посмотреть, что происходит, когда наука и искусство статистики не столь хороши. А затем я расскажу, как была воспринята и оценена статья Бема.
Существует причина, почему сегодня так много внимания уделяется ненадлежащей статистической практике: то, в чем ее обвиняют, известно как кризис воспроизводимости в науке.
Кризис воспроизводимости
В главе 10 мы упоминали о сделанном в 2005 году печально известном заявлении Джона Иоаннидиса, что большинство опубликованных результатов исследований ложны. С тех пор многие ученые утверждают, что в опубликованной научной литературе наблюдается фундаментальная нехватка достоверности. Ученые не могут воспроизвести эксперименты, выполненные их коллегами, а это наводит на мысль, что оригинальные исследования не так надежны, как считалось ранее. Несмотря на то что изначально эти обвинения сосредоточились на медицине и биологии, впоследствии они распространились на психологию и другие социальные науки, хотя фактическая процентная доля преувеличенных или ложных утверждений оспаривается.
Исходное заявление Иоаннидиса основывалось на теоретической модели, но в качестве альтернативного подхода можно взять прошлые исследования и попробовать повторить их, то есть провести аналогичные эксперименты и посмотреть, дадут ли они сходные результаты. Был инициирован запуск крупного совместного проекта «Воспроизводимость»[239], в рамках которого проверялись результаты 100 психологических исследований, но с большим размером выборок, чтобы точно обнаружить эффект, если он существует. Хотя в 97 из 100 исходных исследований сообщалось о статистически значимых результатах, в повторных экспериментах они подтвердились только в 36 % случаев[240].
К сожалению, это почти везде преподносилось как то, что оставшиеся 64 % «значимых» исследований оказались ложными заявлениями. Однако здесь мы попадаем в ловушку строгого разделения исследований на значимые и незначимые. Выдающийся американский статистик и блогер Эндрю Гельман заявлял, что «различие между значимым и незначимым само по себе не может считаться статистически значимым»[241]. Фактически только у 23 % исходных и повторных исследований результаты значимо отличались друг от друга, и это, возможно, более удачная оценка для доли оригинальных экспериментов с преувеличенными или ложными заявлениями.