Эти экспертные системы датафицируют функции, которые раньше относились к области человеческих навыков, например набор текста и перевод. Признайтесь, вам нравится перепечатывать тексты? Качество оборудования, распознающего речь, стало гораздо выше, но не потому что мы изобрели новые принципы работы программного обеспечения этого типа, а потому что компьютеры применяют большие данные для самостоятельного обучения. Обучение экспертных систем происходит за счет введения аудиозаписей, отобранных из интернета, вместе с расшифровкой, после чего система анализирует их и самостоятельно «обучается». Если вы не используете ПО для переформатирования аудиозаписей в текст, потому что вы попробовали это в 1990-х годах и получилась полная ерунда (а так оно и было), протестируйте современные онлайн-приложения, например Transcribe, и вы будете поражены. Эти сервисы бесплатны или предлагают свои услуги за символическую стоимость. В основе их работы лежат большие данные, а вы пользуетесь только конечным результатом. Можете ли вы использовать большие данные как-то еще? Да и нет.
Есть два способа, как большие данные могут стать хорошей инвестицией даже для компаний малого бизнеса. Во-первых, исследование их можно применить для улучшения собственных данных: примерами могут быть оценка внешней кредитоспособности или способность автоматически отслеживать лоты, когда они выставляются на продажу на онлайн-аукционах. Это делается в интернете, и существует специальная платформа под названием Kaggle для исследователей разных уровней, которые занимаются поиском решения разных задач на основе больших данных. Компании предлагают различные задачи и назначают вознаграждение, а гики со всего мира борются за него, предлагая собственные варианты решения проблемы. Одной из последних предложенных задач был поиск оптимальных способов работы по управлению клиентскими рекламациями от компании BNP Paribas[7] (вознаграждение $30 000) и определение самых довольных клиентов компании Santander[8] (вознаграждение $60 000).
Возможно, вы не готовы тратить такие суммы. Действительно немногие компании идут на это. Располагая более скромным бюджетом, можно, например, нанять специализированную организацию и исследовать тренды Facebook. Однако вам все равно придется платить за результат, так что это не быстрое решение. Для начала тщательно обдумайте, за информацию какого рода вы готовы заплатить и как вы будете применять ее в дальнейшем в вашей работе. Согласно данным компании Insite Consulting, примерно половина полученной информации остается никак не задействованной в процессе дальнейшего принятия решений. Это в буквальном смысле пустая трата денег.
Вы также можете решить работать с данными самостоятельно. Насколько это сложно? Очень сложно. Вы можете получить нужную вам информацию, в открытом доступе находятся структурированные большие данные, полученные в результате обязательного сбора открытых данных или их анализа и обработки. В Великобритании ведущей организацией, представляющей эту информацию, стал Институт открытых данных (Open Data Institute). Правительство Великобритании публикует информацию по самым разным темам, начиная от планов по производству дорожных работ до статистики по ожирению. В других странах национальная статистика становится все более доступной для пользователей, которые хотят ее получить. Таким образом, доступными становятся огромные массивы данных. Однако главная ценность заключается в их анализе.
А это не так-то просто. На протяжении последних 20 лет миллиарды долларов были впустую потрачены компаниями, которые вкладывались в область данных, но получили больше вопросов, чем ответов. Согласно аналитическим данным компании Ovum[9], в 1998 году четыре из пяти проектов первой волны, связанных с большими данными, потерпели полный провал. Основная причина заключалась в том, что они не были уверены, насколько полученные ими выводы могли способствовать повышению эффективности ведения бизнеса, даже если сами эти выводы были верны. Поэтому они не знали, следует ли инвестировать в проекты, и не понимали, можно ли принимать бизнес-решения на основе этих фактов.
Как ни парадоксально, иногда от больших данных можно получить результат лучше, если начать с малого: использовать бесплатные или почти бесплатные сервисы для повышения эффективности бизнес-процессов, прежде чем делать в эту область крупные финансовые вложения.
Часть 2
Пять основных принципов работы с данными
6. Поддерживайте удобство использования данных
После того как вы собрали данные, они должны храниться у вас в цифровом, а не текстовом формате.
Однажды мне довелось беседовать с руководителем отдела компьютерной графики одной из газет о том, как ей удается превращать сложные визуальные данные в аккуратные графики и диаграммы. Я неосмотрительно упомянул формат PDF.
«Я бы просто запретила использование этого формата, – заявила Кэрол (назовем ее так), вскипая. – Не представляете, сколько времени я убила впустую из-за того, что мне присылают файлы в формате PDF и говорят [здесь Кэрол намеренно стала говорить с дурацкой интонацией]: “Кэрол, ты не можешь сделать график из этого?” НЕТ, Я НЕ МОГУ».
Итак! У вас собран определенный массив данных. Как его хранить? Подсказка: не в PDF. Чаще всего объем нужной информации может храниться в двух местах: базе данных и таблице. Эти файлы могут быть в компьютере, на серверах или в облачном приложении, однако важно, чтобы эти данные хранились в таком формате, с которым вы сможете работать.
Для хранения больших массивов информации используются базы данных. Детали организации этого процесса слишком сложны с технической точки зрения, так что я не буду погружаться в них сейчас, можете выдохнуть с облегчением. Вероятно, вы больше знакомы с тем, как работают таблицы. Если вам приходится работать с бюджетом, или с расписанием, или другими небольшими по масштабу данными, скорее всего, вы уже активно используете какую-то из таблиц, и могу предположить, что это Microsoft Excel.
У баз данных и таблиц есть общая черта: информация организована в виде строк и столбцов. Таблицы – это просто гениальное изобретение человеческой мысли, изначально они использовались в бумажном варианте бухгалтерами, но, когда в 1979 году была разработана первая электронная таблица для персональных компьютеров VisiCalc, приложения для работы с ними стали неотъемлемой частью компьютерного ПО.
Прелесть таблицы в том, что сначала вы можете работать с данными, например, создав строку, дополняющую остальные. Цифры и названия в таблице составляют массив данных. В форматах PDF или Word данные словно перестают существовать: чтобы воспользоваться этой информацией, ее нужно заново набрать или, если повезет, скопировать и вставить. Если с цифрами производились математические операции (например, складывались промежуточные результаты), при переводе этих данных в PDF или Word ссылки, скорее всего, окажутся нерабочими.