Рис. 17. Возможные комбинации орлов (H) и решек (T), выпадающие при различном количестве бросков монеты, до четырех бросков включительно. Справа от разделительной линии показаны результаты, когда решки выпадают по крайней мере в 75 % случаях, слева – когда они выпадают реже
По мере увеличения размера выборки уменьшается разброс вокруг среднего значения (в данном случае средним значением будет 50 % решек); становится все труднее убедить кого-то в том, что это неправда. Поэтому достоверность представленных в рекламе L’Oreal результатов, которые были получены на выборке всего 34 человека, не может не вызывать определенные сомнения.
Как правило, рекламные объявления, основанные на результатах «исследований» с небольшой выборки, сообщают о своих достижениях в процентах (82 % имеют удивительно гладкую кожу), а не в сравнительных долях (кожа стала удивительно гладкой у 28 из 34 участников), чтобы скрыть досадно малый размер выборки. При этом совпадение хотя бы двух показателей (как и в рекламе Genifique, где два показателя были одинаковыми: «удивительную гладкость» и «общее улучшение» отметили по 82 % участников) недвусмысленно свидетельствует о ее скромной величине. Более того, у маленькой выборки респондентов и выбор ответов невелик, если производитель хочет убедить потенциальных покупателей, что товар хорош, но опасается переборщить с его расхваливанием (позитивные оценки в диапазоне от 95 до 100 % могут выглядеть подозрительно). При большом размере выборки вероятность того, что на два разных вопрос в одинаково положительные ответы даст равное количество людей, гораздо меньше.
Рис. 18. Чем чаще мы подбрасываем настоящую «правильную монету», тем быстрее тают шансы убедить кого-то в том, что она «предвзята» в пользу решки
В 2014 году Федеральная торговая комиссия (ФТК) направила компании L’Oreal предупреждение об использовании недостоверной информации в рекламе линейки продуктов Genifique [113]. ФТК утверждала, что цифры на диаграммах объявлений были «ложными или вводящими в заблуждение» и не подтверждены научными исследованиями. В ответ L’Oreal согласилась прекратить «заявления об этих продуктах, искажающие результаты любых тестов или исследований».
Достоверность исследования продуктов линейки Genifique, по всей видимости, была скомпрометирована не только отклонением малой выборки, но и такими погрешностями отбора, как умышленные ошибки в ответах или пристрастный выбор респондентов. Если L’Oreal набирала участников исследования, например, через объявление на своем сайте, то на это объявление, скорее всего, отреагировали женщины, изначально благосклонно настроенные к продуктам L’Oreal и готовые высоко их оценить (умышленные ошибки в ответах). Или же компания намеренно выбирала для участия в тесте тех женщин, кто и раньше давал хорошие отзывы о продуктах L’Oreal (пристрастный выбор респондентов).
Существуют и еще более сомнительные способы, с помощью которых при опросе, исследовании или политическом обращении можно получить выгодные цифры. Если первое исследование, в котором приняли участие 34 человека, не дает желаемого результата, то почему бы не провести еще одно? Рано или поздно очередная попытка принесет нужные впечатляющие ответы. Или же можно провести более масштабное испытание, выбрав затем наиболее предпочтительные ответы из общей массы. Это называется манипуляцией данными или, менее формально, подтасовкой. Распространенным примером таких махинаций является предвзятое изложение фактов. Ученые, изучающие псевдонаучные явления, такие как альтернативная медицина или экстрасенсорные способности, часто сетуют на необъективность поклонников этих сомнительных практик. Недобросовестные исследователи представляют только положительные результаты (например, отклики лишь о пользе лечения или записи, как «экстрасенс» безошибочно выбирает правильный цвет карты в перетасованной колоде), отбрасывая большинство отрицательных, что делает их выводы неоправданно благоприятными. Как убедились редакторы журнала Literary Digest, при объединении двух или более типов ошибок случайной выборки полученные результаты могут сильно отличаться от ожидаемых при выборке беспристрастной.
Неперевариваемый
В преддверии президентских выборов 1936 года в США редакторы авторитетного ежемесячного журнала Literary Digest решили провести опрос, чтобы предсказать победителя. Кандидатами были действующий президент Франклин Рузвельт и претендент от республиканцев Альфред Лэндон. В Literary Digest гордились тем, что верно предсказывали каждого следующего президента, начиная с 1916 года. Четырьмя годами ранее, в 1932 году, они предсказали, что Рузвельт победит с отрывом в пределах одного процентного пункта [114]. В 1936 году их опрос должен был быть таким же масштабным и дорогостоящим, как и все прежние. В Literary Digest на основе регистрационных записей автомобилей и телефонных справочников был составлен список, куда вошло около десяти миллионов человек (примерно четверть проголосовавшего населения). В августе они разослали бюллетени неофициального опроса общественного мнения всем зарегистрированным и провозгласили со своих страниц: «…исходя из нашего прошлого опыта, страна будет знать фактический исход народного голосования сорока миллионов [избирателей] с точностью до 1 процента» [115].
К 31 октября редакция получила обратно и обработала более 2,4 миллиона бюллетеней. Literary Digest был готов объявить результаты. Заголовок статьи гласил: «Лэндон – 1 293 669; Рузвельт – 972 897»[116]. Согласно Literary Digest, Лэндон должен был победить с большим отрывом: 55 % голосов избирателей против 41 % (третий кандидат, Уильям Лемке, – 4 %) и набрать 370 из 531 голосов выборщиков. Всего четыре дня спустя реальные результаты выборов шокировали редакторов Literary Digest: в Белый дом на второй срок отправился Рузвельт, победив вчистую. Он набрал 60,8 % голосов избирателей, что стало наибольшей долей с 1820 года. Он получил 523 голоса выборщиков против восьми, которыми довольствовался Лэндон. В своем прогнозе Literary Digest ошибся почти на 20 процентных пунктов. Такой разброс результатов можно было бы ожидать при небольшом размере выборки, но в опросе Literary Digest приняли участие 2,4 миллиона человек. Откуда же такая масштабная ошибка при такой огромной выборке?