с Friendster, специализированное программное обеспечение, которое сейчас используется для проведения A/B-тестирования, было недоступно, а создание собственного инструментария потребовало бы привлечения большого количества ценных инженерных ресурсов. Поэтому я просто провел сравнение значений улучшаемой метрики по состоянию на «до и после», и получил прекрасный результат. Современные технологии позволяют с легкостью проводить A/B-тестирование для каждой из реализуемых идей по улучшению продукта. Запуск обновленной версии одновременно со старой помогает исключить влияние на результат каких-либо посторонних факторов.
Важным понятием в A/B-тестировании является степень статистической достоверности, которая зависит от различий в характеристиках сравниваемых вариантов и от размера выборки. Существуют онлайн-инструменты, которые помогают рассчитать значение показателя статистической достоверности для любого теста. Соответственно, вам не требуется владеть методикой его расчета, но важно понимать, что статистическая достоверность выше при существенных различиях в характеристиках и при больших размерах выборки. Если размер выборки слишком мал, вы не получите статистически значимых результатов. Если объектами тестирования являются два очень схожих по характеристикам варианта, может потребоваться очень большой размер выборки, чтобы выявить хоть какие-то статистически значимые различия показателей.
Арсенал инструментов для проведения A/B-тестирования отличается большим разнообразием и включает в себя такие приложения, как Optimizely, Unbounce, KISSmetrics, Visual Website Optimizer и Google Content Experiments (в составе Google Analytics). Многие компании предпочитают создавать собственные платформы для A/B-тестирования. Все эти инструменты позволяют взять один или несколько подлежащих проверке вариантов (например, целевой страницы) и затем случайным образом распределить между ними пользовательский трафик. Далее происходит отслеживание результатов по интересующему вас показателю, что в итоге обеспечивает понимание того, как работает каждый из протестированных вариантов с указанием степени статистической достоверности, рассчитанной на основании размера выборки.
Многие компании включают A/B-тестирование в качестве обязательного этапа процесса разработки своих продуктов, особенно при внесении в них серьезных изменений. Вместо того чтобы сразу заменять прежнюю версию продукта новой, они оставляют ее в работе для большей части своих клиентов и дают доступ к обновленной версии лишь небольшому проценту пользователей. Затем они сравнивают полученные в ходе этого эксперимента значения ключевых показателей для существующей и обновленной версий. Прежде чем увеличить процент пользователей, которые получают доступ к новой версии, команда разработчиков хочет убедиться в том, что предполагаемые улучшения, которые и являлись целью создания обновления, действительно имеют место, при том что другие ключевые показатели продукта существенно не ухудшились. Такой процесс, иногда называемый дросселированием, является отличным способом применения принципов бережливого производства для снижения рисков, возникающих после запуска продукта. На заключительном этапе, если отслеживаемые показатели выглядят хорошо, 100 % пользователей переводят на новую версию продукта, а старая просто уходит в небытие.
Компания Netflix славится своей приверженностью A/B-тестированию, причем как на маркетинговом, так и на продуктовом направлениях. В ответ на вопрос «Для каких функций, помимо процедуры регистрации, Netflix проводит A/B-тестирование?», заданный на веб-сайте Quora, директор по продуктам Netflix Нил Хант ответил: «Если коротко, то почти для всех». Далее он рассказал, что Netflix проводит сравнительное тестирование различных вариантов пользовательского интерфейса, алгоритмов рекомендаций, расположения и размеров кнопок, времени загрузки страниц и уровней качества кодирования потокового видео. Свой ответ Хант завершил словами:
«Мы очень гордимся своей ориентацией на эмпирические данные, потому что это говорит о нашей скромности – мы отдаем себе отчет в том, что в большинстве случаев не знаем заранее о том, чего на самом деле захотят клиенты. Отзывы, полученные в результате тестирования, быстро наводят нас на правильные мысли и помогают убедиться, что наши усилия действительно направлены на оптимизацию того, что положительно влияет на качество предлагаемых клиентам продуктов».
A/B-тестирование – это все, что нам нужно?
Метод A/B-тестирования – это основной инструмент для формирования решений в отношении продукта, основанных на фактических данных. Эти данные отражают поведение большого числа пользователей, поэтому в данном случае не возникает риска расхождения между тем, что говорят участники тестирования, и тем, что они реально делают. В этот момент вы не сидите с ними рядом, поэтому не должно быть никаких опасений по поводу того, что присутствие модератора может повлиять на результаты теста. Конечно, разработчики не должны полагаться исключительно на количественные исследования – не стоит забывать и об Опре. Во многих случаях количественное тестирование должно быть дополнено качественным исследованием, способным объяснить причины, стоящие за поведением пользователей.
Команды, которые в процессе разработки достигли такого уровня, когда они могут насладиться процессом быстрого итеративного A/B-тестирования, прошли до этого момента долгий путь, принимая решения в условиях недостатка точных данных. Некоторые разработчики могут поддаться соблазну пропустить этап качественных исследований и сразу перейти к A/B-тестированию своего кандидата в MVP на соответствие рынку. Но такой подход почти наверняка приведет к напрасному расходованию ресурсов и провалу. В этом случае проведенное A/B-тестирование, скорее всего, закончится достижением низкого локального максимума, на котором они и застрянут в значительном отдалении от соответствия рынку.
Давайте вернемся к пирамиде соответствия продукта рынку, снова показанной на Рисунке 14.7. Гипотезы, которые вы выдвигаете на одном слое, влияют на все слои, находящиеся выше. Гипотезы, относящиеся к уровню пользовательского опыта, являются наименее затратными для внесения изменений. Изменение набора функций продукта также возможно, но потребует уже больших усилий. Что же касается основополагающих элементов соответствия продукта рынку – представление о целевых клиентах, их недостаточно удовлетворенных потребностях, а также ценностное предложение, – то их будет очень сложно изменить после того, как вы создадите свой продукт. Как только вы сформулируете свои гипотезы, соответствующие этим слоям пирамиды, они становятся похожи на взаимосвязанные тектонические плиты. Если вы сдвинете хотя бы одну из них после завершения разработки, созданный вами продукт в значительной мере утратит свою актуальность и устойчивость – эффект будет подобен тому, как землетрясение превращает здание в руины. Когда это происходит, человеческая природа заставляет нас стремиться к сохранению и повторному использованию как можно большей части результатов уже проделанной работы. Но это может добавить обременительные ограничения в пространство решений, что еще больше осложняет ситуацию в условиях, когда изменение гипотез происходит в пространстве проблем. В таких случаях бывает проще начать строительство с нуля, уже на новом фундаменте.
Рисунок 14.7. Пирамида соответствия продукта рынку
Последовательность шагов в процессе разработки бережливого продукта выстроена таким образом, чтобы ключевые гипотезы подвергались проверке в том порядке, который в наибольшей степени снижает риски и увеличивает шансы на достижение соответствия продукта рынку. Проблемное пространство не настолько пригодно для использования метода A/B-тестирования, как пространство решений. На трех нижних уровнях пирамиды соответствия продукта рынку требуется проведение качественных исследований, чтобы вы