При использовании статистики для сравнения двух выборок или чтобы получить информацию о целостной группе (например, по всем своим клиентам) на основании одной выборки (по данным от тех клиентов, кто согласился принять участие в вашем опросе), самое важное – понимать, что вы сравниваете подобное с подобным.
Если у вас есть данные опроса 200 клиентов, насколько репрезентативной можно считать вашу выборку? Эта проблема часто поднимается после политических выборов, когда заявляют, что прогнозы, которые делались на основании опросов общественного мнения и публиковались в прессе накануне выборов, были неточными. Очень сложно найти 1000 взрослых, мнение которых полностью отражало бы мнение всего электората. Эти респонденты должны быть из разных частей страны, у них должен быть такой же уровень квалификации, дохода, личных предпочтений, как у населения страны в целом. При этом могут возникнуть самые разные проблемы, о которых речь пойдет ниже.
• Нередко опросы проводятся в интернете. Люди с невысоким достатком и пожилые пользуются интернетом реже, поэтому в выборке будет присутствовать больше молодых и относительно состоятельных людей.
• Участие в опросах, как правило, добровольное. В этом случае в выборку попадают более инициативные люди с активной жизненной позицией.
• Иногда вам говорят то, что вы хотите услышать, а затем делают совершенно другое.
• Иногда люди участвуют в опросах ради получения подарка или бонуса. Тогда их волнуют не столько вопросы, на которые им предлагают ответить, сколько подарок по окончании опроса.
Давайте вернемся к графику. Что с ним не так? Сложно делать выводы, если только речь не идет об одних и тех же компаниях и в той и в другой выборке. Не вызывает сомнения только факт, что они сотрудничают с C Space. Это может быть частью истории, но право на существование имеют и альтернативные версии, которые могут оказаться правдой (или нет).
• Показатели компаний, получающих большую прибыль, лучше показателей по рынку в целом. Эти организации в состоянии выделить больше средств на привлечение внешних консультантов, поэтому более прибыльные компании в среднем могут оказаться в индексе C Space.
• Возможно, C Space специально отбирает более успешные компании для сотрудничества, потому что они быстрее оплачивают счета за услуги.
• Может быть, с C Space сотрудничают компании из определенной отрасли и именно эта область сейчас больше всего интересует инвесторов.
Не менее важно применять этот подход и при анализе собственных данных. Специалисты по маркетингу часто рассылают опросы по электронной почте: «Пожалуйста, выскажите свое мнение…» Такие компании, как Survey Monkey[19], очень быстро делают красивые исследования, и, возможно, вы даже получаете по два-три еженедельно. Представим, что вы проводите опрос по электронной почте среди руководителей бизнеса, которых тщательно отобрали из вашего списка рассылки, что они думают о вашей компании и готовы ли потратить больше на ваши продукты в будущем. Получив ответы, вы узнаете, что 72 % респондентов считают, что вы великолепно справляетесь с работой, и 67 % опрошенных готовы потратить больше на ваши продукты в будущем.
Проанализируем эти результаты с позиции логики и здравого смысла.
• Сколько успешных руководителей бизнеса из тех, кого вы знаете, располагают временем отвечать на электронные опросы? Более вероятно, что вы получили ответы от большого числа не слишком эффективных руководителей или же тех, которые поручили помощнику отвечать на несрочные письма.
• Представьте, что большинство руководителей не вполне довольны качеством ваших услуг или даже не могут толком вспомнить вашу компанию. Они просто проигнорируют опрос, хотя для вас это была бы важная информация.
• Не упоминали ли вы (пусть даже мимоходом), что за положительный отзыв вы готовы предоставить скидку или расширить спектр предлагаемых услуг? Тогда вы получили больше всего ответов от тех, кто надеется заработать скидку и, скорее всего, сказал вам то, что вы надеялись услышать.
Так что не делайте крупных ставок на информацию такого рода. Хотя она может послужить как рекомендация при необходимости сузить выбор или как стимул к проведению более тщательного исследования. Дешевая колбаса очень похожа на элитную, а графики и диаграммы, построенные на основании искаженных данных, выглядят не менее убедительно, чем те, которые были построены на основании достоверной информации. Но с графиками, как и с колбасой, важно то, из чего они сделаны, а не то, как они выглядят.
20. Корреляция не гарантирует причинно-следственную связь
Обычно данные не отвечают на вопрос «почему?», а только на вопрос «что?».
Возможно, вам доводилось слышать это утверждение ранее, но вы не вполне понимаете его смысл. Тогда скажем иначе: если кто-то утверждает, что нет дыма без огня, он ошибается.
Корреляция между двумя явлениями означает, что, если мы стали чаще видеть одно из них, мы также отмечаем изменение частоты, с которой встречаем второе. Причинно-следственные отношения гораздо сильнее. При этом, если мы отмечаем одновременное изменение двух количественных показателей и предполагаем, что один из них стал причиной второго, это предположение вполне может оказаться ошибочным.
Следующие три примера иллюстрируют корреляцию: ваш индекс массы тела и вероятность инфаркта; количество сообщений в твиттере о телевизионной программе и число зрителей этой программы; потребление сыра на душу населения и число смертельных случаев, когда люди умирают, запутавшись в простынях в собственной кровати. Какие из этих отношений также относятся к числу причинно-следственных? Для нас чрезвычайно важно это знать, так как процесс принятия решений – это давление на воображаемые рычаги. Нажимая на них, мы должны знать, что случится в итоге. При этом мы часто получаем чудовищные советы от людей, которые путают причинно-следственные отношения и корреляцию.
Давайте разберемся с каждым из приведенных примеров в обратном порядке. Последний пример сначала кажется полным абсурдом. Это одна из корреляций, созданных Тайлером Вигеном на его весьма забавном сайте Spurious Correlations («Ложные взаимосвязи»), где еще много подобных примеров сочетания вещей, которые, кажется, не имеют между собой ничего общего. Это результат доступности данных в современном обществе. Мы измеряем тысячи трендов, и вдруг оказывается, что у явлений, никак между собой не связанных, в точности совпадает динамика изменений. Этого можно избежать, если выдвинуть гипотезу, которую вы хотите протестировать, прежде чем изучать корреляции. Об этом речь в книге пойдет далее.
Ложные корреляции – это то, что получается, когда вы просто собираете большой массив данных и начинаете копаться в них в поисках взаимосвязей. Вы обнаружите несколько важных причинно-следственных отношений и целый ряд бессмысленных взаимосвязей. Компании постоянно отвлекаются на этот процесс. Конечно, в приведенном примере вы вряд ли поверили, что между этим двумя явлениями может быть причинно-следственная связь, но как быть в других ситуациях, когда наличие подобной связи кажется вполне возможным?