Ранее я упоминал, что меры по снижению риска часто способны ограничить деятельность гораздо больше, чем требуется законодательно. Почему так происходит?
Начнем с простого примера. У многих специалистов по работе с данными, например технических специалистов и администраторов баз данных, имеется доступ к сырым данным о пользователях. Эти данные могут включать имя, адрес, номер телефона, электронную почту и другую информацию, идентифицирующую человека. Закон это разрешает. Такой доступ им предоставляется потому, что они выполняют свои функциональные обязанности, обеспечивая правильный сбор и хранение данных, чтобы организация могла выполнять свои обязательства по деловым сделкам.
Теперь представим специалиста по анализу, который должен проанализировать количество проданных единиц товара в разные дни. Законодательно ничего не мешает этому аналитику получить доступ к сырым данным о пользователях. Однако действительно ли ему требуется такой уровень детализации? Требуется ли ему доступ к этим данным для проведения своего анализа? Фактически ему не обязательно знать, что набор садовой мебели заказала именно Белинда Смит, проживающая по такому-то адресу, с таким-то номером телефона и адресом электронной почты. Все, что нужно знать этому аналитику, — то, что торговая единица 123456 была продана в определенный день.
В большинстве случаев при анализе данные агрегируются, и информация, идентифицирующая пользователей, не требуется.
В своей книге Dataclysm сооснователь сервиса для знакомств OKCupid Кристиан Раддер представляет ряд примеров анализа на основе данных с сайта. За исключением данных медицинского характера вы вряд ли найдете где-то более точную информацию о пользователях, чем на сайте знакомств. В профилях посетителей сайта есть фотографии, указан пол, возраст, сексуальные предпочтения, сферы интересов и другая очень личная информация. Кристиан Раддер рассказывает (с. 233), как он работал с данными:
Любой тип анализа проводился анонимно, а данные агрегировались. Я очень внимательно отнесся к исходным данным. Ни в одних данных не содержалось информации, идентифицирующей пользователя… Там, где использовалась персональная информация, данные шифровались. Кроме того, при любом типе анализа объем данных был ограничен только до необходимых переменных, так что не было никакой возможности связать что-то с конкретными людьми.
Все эти меры предосторожности Кристиан предпринимал по нескольким причинам. Во-первых, он не хотел, чтобы какая-то информация повлияла на объективность результатов анализа. Любой аналитик стремится к тому, чтобы результаты его анализа были максимально объективными. Дополнительная информация может исказить интерпретацию. Например, если вы увидите, что имя пользователя Гертруда, как вам кажется, она молодая или старая? Старая, верно?[262] Эти предположения формируются у вас неосознанно. Вы снизите риск неосознанных предположений, отказавшись от включения дополнительных переменных, и повысите шанс обнаружения истинных закономерностей в агрегированных данных.
Во-вторых, аналитики часто копируют данные для проведения анализа и разработки моделей с помощью других инструментов. Так что иногда, когда один аналитик пользуется инструментом бизнес-аналитики для агрегирования данных, другому аналитику может быть необходимо обработать эти данные в Python или R для разработки сложных прогностических моделей. Часто это означает необходимость экспортирования данных из основного источника хранения данных в файлы на ноутбуке. Каждая копия помимо основного источника данных увеличивает риск для компании. Ноутбук можно украсть или взломать. Аналитик, работающий на своем ноутбуке в зале аэропорта или в кафе Starbucks, подвергается риску, что кто-то увидит информацию на мониторе. Так что чем меньше информации он хранит таким образом и чем больше уровней защиты, тем лучше.
Именно по этим причинам многие компании предпочитают обезличивать информацию, которая отображается в базах данных и инструментах бизнес-анализа для составления отчетов и проведения анализа. Имена, адреса, адреса электронной почты полностью скрываются или зашифровываются.
Например, адрес электронной почты [email protected] с помощью хеша SHA-256 можно зашифровать как f7bf49636a69c6ed45da8dc8d3f445a8a5e6bcc2e08c9a6b2bb66446c402f75c.
(Это действует в одном направлении: можно очень просто превратить адрес электронной почты в зашифрованную последовательность символов, но крайне сложно, если возможно вообще, выделить адрес электронной почты из этой последовательности.). Опять-таки, в большинстве случаев законодательно компании не обязаны это делать, но это явно имеет смысл.
Чем больше количество копий, тем выше риск. Чем больше количество файлов для чтения человеком, тем выше риск. Чем больше передвижений и интеграций разных источников данных — что характерно для компании с управлением на основе данных, в которой продвигается обмен информацией, — тем выше риск. Треть руководителей[263] признались, что «в их компании не удается внедрить управление на основе данных частично из-за вопросов конфиденциальности и безопасности, которые возникают при обмене информацией».
Мы можем сделать заключение в виде принципов, перечисленных ниже.
• Каждый сотрудник, которому требуется доступ к данным для выполнения своих профессиональных обязанностей, имеет этот доступ.
• Каждый сотрудник имеет доступ только к тем данным, которые требуются ему для выполнения профессиональных обязанностей.
• К персональной информации, такой как данные о пользователях и рекомендации, следует относиться с повышенным вниманием: доступ к ней должен быть максимально ограничен, информация должна быть обезличена и зашифрована.
Обеспечение исполнения
По заявлению Федеральной комиссии по торговле, «согласно общему мнению, основные принципы защиты конфиденциальности могут быть эффективны только в том случае, если присутствует механизм обеспечения их исполнения».
Конечно, сегодня многие нормативные акты регулируют процессы сбора и использования данных, а также вопросы конфиденциальности. В числе примеров Закон о защите личных сведений детей в интернете (COPPA), Закон США о сохранении медицинского страхования и персонифицированном учете в здравоохранении (HIPAA), совместимость со стандартом безопасности PCI при проведении платежей.