Нет никаких сомнений в том, что большие данные окружены столь же большой рекламной шумихой. Организации должны разобраться с обманами и сосредоточиться на действительно важном, чему может способствовать ряд методов, предложенных в этом разделе. Ни в коем случае мы не намерены преуменьшать важность или ценность больших данных. Наша цель – вернуть большие данные к реальности. Формирование реалистичных ожиданий должно стать первым шагом в процессе работы с большими данными.
Определение больших данных? Не нужно!
Один из первых вопросов, который мне часто задают клиенты: «Что такое большие данные, Билл? Вы можете дать им определение?» По-видимому, оно очень заботит людей{9}. Чтобы убедиться в этом воочию, посетите некоторые группы на LinkedIn, посвященные большим данным. В каждой группе вы столкнетесь с вопросом определения больших данных, который задается в той или иной форме на протяжении последних нескольких лет. На одном из форумов, где я был вовлечен в дискуссию, размещались не то что десятки, а сотни ответов на вопрос: «Каково определение больших данных?» И это на форуме, где любой пост собирал в лучшем случае пару откликов. По мере развертывания дискуссии ее участники пытались превзойти друг друга, добавляя всё новые нюансы, подходящие или не подходящие к определению. Мне это занятие показалось глупым и заумным.
Люди чересчур озабочены определением больших данных. Лично я всегда предпочитал самое короткое из всех существующих определений. Пусть оно противоречит остальным, зато состоит всего из двух слов: «Не нужно!» Поначалу такой ответ может показаться вам экстремальным. С чего я это взял? Позвольте объясниться.
Если главная задача организации – решить некую бизнес-проблему путем внедрения операционной аналитики, ее не должно волновать определение больших данных. И вот почему. Схема действий, которой должна следовать организация и которой она, вероятно, следовала много лет в прошлом, очень проста. Если у вас есть проблема, требующая решения, вы должны посмотреть вокруг и задать себе вопрос: «Какие данные, если их собрать, организовать и использовать для аналитического процесса, помогут нам решить эту проблему?» Когда вы определите, что это за данные, вы должны придумать, как их собрать, организовать и включить в аналитику. Но тут возникает ключевой момент. Вопрос «Полезны ли эти данные для моего бизнеса?» не имеет абсолютно никакого отношения к определению больших данных. Полезными для бизнеса могут оказаться большие данные, малые данные или же ряд электронных таблиц.
Если же организация придет к пониманию, что ей необходимо использовать нечто похожее на большие данные, то беспокоиться насчет определения будет уже поздно: нужны будут данные как таковые. Они могут быть не очень хорошо структурированными и в переизбытке. Они могут просто соответствовать знаменитой концепции «трех V»: Volume, Variety, Velocity (объем, многообразие, скорость), выведенной исследовательской компанией Gartner{10}. Однако знание того, что нужные вам данные соответствуют концепции «трех V», бесполезно, поскольку в момент, когда данные вам понадобятся, не останется иного выбора, кроме как придумать способ их использования, – и совершенно не важно, являются ли они большими данными. Я всегда считал, что в концепции не хватает самой важной V, которая часто упускается из виду, а именно Value, т. е. ценности больших данных{11}. Можно добавить и прочие характеристики, если веришь, что в данных есть ценность, и считаешь, что усилия по их сбору и анализу того стоят.
Важно не определение, а результат
Даже если бы существовало общепринятое и единственное определение больших данных, это ничем бы не способствовало решению проблем бизнеса. Попытка дать определение большим данным – занятное теоретическое упражнение, но если вы узнáете, что конкретный источник данных официально относится (или нет) к категории больших данных, то в этом не будет никакого проку. Когда потребуется проанализировать источник данных, вам придется найти для этого способ вне зависимости от того, какой ярлык вы к нему прикрепите.
Поймите мои слова правильно. Если организация имеет дело с данными, подпадающими под типичные определения больших данных, это, безусловно, будет влиять на выбор тех методов и инструментов, которые она должна использовать для включения больших данных в аналитические процессы. Однако выбор методов и инструментов относится уже к области тактики, и в этом важное отличие. В первую очередь нужно ответить на стратегический вопрос: «Содержат ли эти данные важную для нас информацию?» Только получив на него положительный ответ, организация может приступить к запуску данных в работу.