Статистическая значимость и ошибки в оценках эффективности ключевых слов?
На рынке появилось много сервисов сквозной аналитики рекламы, вычисляющих очень детализированную статистику. Появляется непреодолимое желание использовать функционал таких сервисов максимально полно. Оказывается, мы можем увидеть, какое именно ключевое слово приводит больше всего клиентов. На основе такой статистики, начинаем отключать неэффективные ключевые слова и повышать ставки на эффективные.
Оценка CTR, полной конверсии, ROI и подобных показателей качества, измеренных на малой выборке (например: по статистике одного ключевого слова), приводит к серьезным ошибкам в выводах об эффективности тех или иных ключевых слов. Эти ошибки напрямую связаны со статистической значимостью сделанных предположений.
Что такое статистическая значимость?
Это хорошо можно понять на примере A/B тестов рекламных объявлений.
Допустим, у нас имеется два объявления на группу ключевых слов. Вначале мы собрали статистику по двум объявлениям. Выяснили, что конверсия этих объявлений отличается. Допустим, что объявление A является более эффективным. Теперь остается понять, является ли этот вывод статистически значимым (можно ли ему доверять). По другому можно сказать, с какой вероятностью наше предположение будет верным, а верным оно будет, если в 95% случаев результат будет именно таким. Зависит это от количества показов и конверсии каждого объявления.
В реальности, часто принимается решение без учета этого фактора. Там где и так результат был статистически значимым (чаще всего на высокочастотных запросах), на глазок принимается верное решение. Но в тех случаях, в которых эта статистической значимости не было, принимается решение сравнимое с подбрасыванием монеты.
Оценка эффективности по каждому ключевому слову, входящему в семантическое ядро, чаще всего является не статистически значимой. Решения, принятые на основе такой статистики, будут с большой вероятностью ошибочны.
Как рассчитать статистическую значимость?
Возьмем для этого пример упомянутый выше. Есть два объявления для одной и той же группы запросов. Хотим выяснить, какое объявление имеет большую конверсию. Проведем расчет для двух случаев (используется проверка через t-критерий Стьюдента):
1) Первое объявление показывалось 40 раз и было 5 конверсий. Второе объявление показывалось 35 раз и было 12 конверсий.
Объявление A | |
Показы | 40 |
Клики | 5 |
Среднее значение выборки | 12.5% |
Стандартное отклонение выборки | 0.335 |
Количество степеней свободы | 70 |
t-критерий Стьюдента A/B | 2,46 |
t-критерий Стьюдента | 1.99 |
Вероятность достоверности | 98.3% |
Объявление B | |
Показы | 32 |
Клики | 12 |
Среднее значение выборки | 37.5% |
Стандартное отклонение выборки | 0.492 |
Доверительные интервалы для 95% вероятности:
Полученный результат является статистически значимым. С вероятностью 98,4% вариант B имеет большую конверсию.
2) Первое объявление показывалось 40 раз и было 5 конверсий. Второе объявление показывалось 40 раз и было 8 конверсий.
Объявление A | |
Показы | 40 |
Клики | 5 |
Среднее значение выборки | 12,5% |
Стандартное отклонение выборки | 0.335 |
Количество степеней свободы | 78 |
t-критерий Стьюдента A/B | 0,90 |
t-критерий Стьюдента | 1,99 |
Вероятность достоверности | 63,0% |
Объявление B | |
Показы | 40 |
Клики | 8 |
Среднее значение выборки | 20,0% |
Стандартное отклонение выборки | 0.405 |
Доверительные интервалы для 95% вероятности:
Полученный результат не является статистически значимым. Так как лишь с вероятностью 63,3% вариант B имеет большую конверсию.
Объявление A | |
Показы | |
Клики | |
Среднее значение выборки | 12,5% |
Стандартное отклонение выборки | 0.335 |
Количество степеней свободы | 78 |
t-критерий Стьюдента A/B | 0,907 |
t-критерий Стьюдента | 1,991 |
Вероятность достоверности | 98,4% |
Объявление B | |
Показы | |
Клики | |
Среднее значение выборки | 20,0% |
Стандартное отклонение выборки | 0.405 |
Доверительные интервалы для 95% вероятности:
Полученный результат не является статистически значимым. Так как лишь с вероятностью 63,3% вариант B имеет большую конверсию.
Как добиться статистически значимых выводов?
Прежде всего, необходимо группировать схожий трафик и за счет большей выборки получать статистически значимый результат в сравнении групп запросов между собой. Про группировку и кластеризацию семантического ядра читайте тут.
Стараться перед тестом выдвигать гипотезу и проверять ее, а не действовать случайными тестами. Гипотеза должна быть понятной, измеримой и обязательно учитывать особенности вашей сферы бизнеса.
При проведении A/B тестов постараться сделать варианты максимально противоположными, таким образом удастся не допустить перекрытие доверительных интервалов двух вариантов. Если используете тестирование с разделением по времени, то стараться, чтобы временные интервалы теста не находились слишком далеко друг от друга. В противном случае, за этот период времени, может многое поменяться (тип клиентов, активность клиентов, активность конкурентов и т.п.), что приведет к неверным выводам.
Обязательно проводить исследование на предмет статистической значимости.
Что еще нужно знать о поведении ваших пользователей?
Пользователи вводят не один запрос, прежде чем что-то купить. Вначале пользователь может ввести общий запрос, далее более уточненный, а в конце снова выбрать более общий запрос и компанию, с которой он уже познакомился на предыдущих шагах. Во многих сферах пользователи не принимают решение здесь и сейчас, этот процесс может растянуться во времени.
Интересный случай из практики.
Проводилась сквозная аналитика для тестирования рекламной кампании. Клиент совершил 3 клика по рекламе, и 3 звонка в течении 15 минут. Как оказалось, два дополнительных клика он совершил, так как у него были дополнительные вопросы к компании. Видимо, он каждый раз закрывал сайт компании, потом снова ее находил в рекламе и смотрел номер телефона (скорее всего звонил с городского телефона). Виноват в этом сам менеджер, так как поторопился и не задал клиенту всех необходимых вопросов. В результате, стоимость привлечения данного клиента была сильно завышена.
Когда речь идет о тестировании каналов привлечения клиентов, не лишним будет вспомнить о таком явлении, как модель потребительского поведения (модель дистрибуции).
Выводы
Гонка в функциональности сервисов между собой, приводит к наполнению сервисов все большей детализированной информацией. Но заботы о достоверности этих данных не наблюдается. Будьте бдительны и не спешите с выводами, лучше обращайтесь к специалистам.