Отправить заявку на SEO-продвижение сайта от Ant-Team.ru

Заказать

Эксперимент и количественная оценка поисковой оптимизации страниц

Использование рыночного подхода для измерения эффективности целевой страницы сайта Airbnb

Перевод статьи Airbnb с сайта medium.com

Рис.1. В нашей штаб-квартире в Сан-Франциско присутствует все: от уютных уголков до грандиозных видов на окрестности. Это идеальное место для специалистов по работе с данными, чтобы провести мозговой штурм по поводу грядущего эксперимента!

Для многих потенциальных гостей нашего сайта планирование поездки начинается с использования поисковой системы. Поэтому компания Airbnb хочет, чтобы нашим сайтом могли с комфортом пользоваться старые клиенты, и чтобы новые клиенты легко могли его найти. Поэтому для улучшения своего сайта, а именно целевой страницы поиска, мы используем поисковую оптимизацию (SEO), чтобы быть уверенными в том, что когда путешественник будет искать съемное жилье на срок своей будущей поездки, сайт Airbnb будет в топе результатов поисковых запросов в выбранной им поисковой системе.

Рис.2. Наша команда SEO-специалистов ориентируется на то, чтобы сайт Airbnb был первым по результатам поисковых систем, например, в Google.

Поисковые системы, такие как Google, Yahoo, Naver и Baidu, разворачивают в Интернете целую армию своих «ботов», чтобы создавать карту сети и собирать (или индексировать) информацию со всех посещаемых страниц. При индексации страниц сайтов и ранжировании их по конкретным запросам поисковые системы учитывают множество факторов, включая релевантность, производительность и авторитетность сайта. В целях повышения рейтинга мы можем вносить в страницы некоторые изменения, такие как уточнение цели контента (релевантность), уменьшение времени загрузки страницы (производительность) или увеличение количества качественных ссылок, указывающих на наш сайт (авторитетность). Это лишь немногие из способов, которыми мы можем оптимизировать сайт для повышения рейтинга.

Например, в конце 2017 года мы создали новую целевую страницу с рабочим названием «Волшебный ковер» (Magic Carpet) для замены стандартной целевой страницы поисковых запросов. На странице был большой заголовок с изображением и поисковой строкой, а также дополнительным контентом, таким как обзоры и список предложений.

Рис.3. Старая целевая страница сайта.

 Рис.4. Новая целевая страница сайта («Волшебный ковер»).

Мы предположили, что релевантность новой целевой страницы повысится благодаря более понятному содержанию. Кроме того, упрощенная структура кода помогает странице быстрее загружаться, а ряд других преимуществ делает ее значительно более удобной в использовании. Следовательно, все эти улучшения должны привести к повышению рейтинга страницы в результатах поиска и к увеличению ее посещаемости.

Но поскольку точно узнать место в выдаче не представляется возможным, мы полагаемся на трафик как показатель повышения рейтинга. Иными словами, если позиция нашей поисковой страницы в Сан-Франциско повысится, это будет говорить и об увеличении трафика со стороны поисковых систем. Однако как мы сможем измерить этот эффект?

Ограничения A/B тестирования

Фактически при каждом изменении продукта наша команда по внедрению в значительной степени опирается на итерационный эксперимент, чтобы быть уверенными в том, что мы сможем измерить его эффективность и учиться в процессе. Большинство специалистов по работе с данными могут эффективно использовать традиционное A/B-тестирование на уровне устройства или пользователя на всех этапах эксперимента. В такой схеме всех участников тестирования случайным образом делят на тестовые группы, и в дальнейшем их результаты можно напрямую сравнивать с результатами группы, которая считается контрольной.

 Рис.5. A/B-тестирование. 

 A/B-тестирование обладает очень хорошей статистической мощностью и позволяет проводить полную рандомизацию. В случае сайта Airbnb этот метод помог выявить, как повлияли условия эксперимента на показатели, относящиеся к вовлеченности и конверсии пользователей. Это те события, которые регистрируются на сайте Airbnb, и мы можем легко измерить прирост этих показателей с помощью среднего критерия разности, например, t-критерий Стьюдента.

Тем не менее в случае нашей новой страницы «Волшебный ковер», A/B-тестирование не позволит измерить увеличение трафика, вызванное изменением рейтинга во внешней поисковой системе. Данная страница будет выглядеть по-разному для роботов разных поисковых систем, и поэтому мы не можем изучить влияние «Волшебного ковра» на наш рейтинг.  

Таким образом, количественная оценка вклада подобного изменения в продукте требует более сложного подхода.

Использование рыночного подхода

Ключевым моментом в эксперименте является тот факт, что страница сайта с результатами поиска не является единственной. На самом деле, у нее существует множество разных версий для каждого города и региона. У всех этих страниц есть так называемый уникальный «основной URL», и поисковые системы могут выдавать более 100 000 таких адресов! 

Поэтому вместо того, чтобы назначать одного посетителя тестовой или контрольной группы, мы можем установить конкретный основной URL в качестве единицы рандомизации. 

Затем мы измерим эффект, используя вид анализа, обычно применяющийся в экспериментах на уровне рынка или кластера.

Например, мы выбрали для эксперимента страницу результатов поиска в Сан-Франциско и применили к ней новый дизайн «Волшебный ковер». Между тем страница в контрольной группе, посвященная Парижу, останется прежней. Это случайное назначение будет по-прежнему применяться к каждому из более чем 100 000 URL-адресов. Таким образом, когда робот поисковой системы будет извлекать данные с нашего сайта, он будет постоянно показывать каждую страницу в таком же дизайне, и рейтинг этой страницы будет обновляться соответствующим образом.

 Рис.6. Тестирование на уровне URL.

Однако в этом случае потребуется более детальный статистический анализ, поскольку не получится сделать прямое сравнение между показателями трафика тестовых и контрольных URL. Это связано с тем, что основной трафик между разными URL-адресами может существенно различаться. Разница при анализе их показателей посещаемости может быть во много раз больше, чем эффект от нововведения, который мы хотим отследить. Например, страница Сан-Франциско может иметь такой же объем трафика, что и страница Парижа. Но, вероятно, ее показатели трафика будут в 2 раза выше, чем у страницы менее населенного города, такого как Новый Орлеан. Это очень затрудняет измерение небольшого роста трафика, например, если показатель посещаемости увеличится на 2%!

По этой причине необходим механизм для учета внутренних различий, существующих между этими URL-адресами, а именно сравнение с прежними показателями трафика до того, как изменение дизайна вступило в силу.

Разработка модели: метод сравнения разностей

Концепция метода сравнения разностей служит для использования данных, предшествующих эксперименту, чтобы отследить базовую разницу показателей при отсутствии посторонних вмешательств. Мы можем использовать этот метод для оценки эффективности внесенных изменений и их статистической значимости с помощью нормирующей функции из линейной модели, где каждая страница — это i, а день — это t:

 Рис.7. Нормирующая функция из линейной модели. 

Значения основных переменных:

  • trafficit= количество показов целевой страницы i в день t. Мы применяем логарифм к этой выходной переменной, чтобы учесть ее сдвиг вправо и упорядочить гетероскедастичность, обычно присутствующую в показателях трафика.
  • экспериментᵢ = показатель экспериментальной группы (равен 1 в экспериментальной группе, 0 — в противном случае).
  • postt= индикатор до/после периода (равен 1 после периода, 0 — в противном случае).

Тем не менее в наших данных о трафике по-прежнему много различий во времени и сегментах рынка, что может помешать оценить результаты эксперимента. Метод сравнения разностей позволяет изящно решить эту проблему. Мы можем просто добавить в нашу модель ковариаты, чтобы контролировать различные эффекты:

  • aᵢ = фиксированный эффект (или среднее значение) для страницы сайта, чтобы обеспечить гибкий перехват каждого URL.
  • t = временной индекс для учета общих временных тенденций.
  • dowⱼ = индикаторы дней недели, чтобы учесть недельную сезонность посещаемости.

Поскольку нам хотелось бы узнать результат анализа тестовой группы после периода, коэффициент b₂ отражает сравнение разностей и, следовательно, эффект от изменения дизайна, который мы хотим оценить.

Проще говоря, мы пытаемся узнать степень влияния на тестовую группу после начала эксперимента.

Рис.8. Эксперимент поисковой оптимизации: сравнение разностей. 

Тем не менее это обычная ошибка, которая приводит к завышению статистической значимости при анализе данных временных рядов в рамках сравнения разностей. Это происходит потому, что без каких-либо исправлений стандартных среднеквадратических отклонений мы в основном предполагаем, что каждый дополнительный день сбора показателей трафика страницы не зависит от предыдущих значений. Однако это предположение неверно, так как мы ожидаем, что трафик будет иметь высокую последовательную корреляцию в определенном сегменте рынка с течением времени.

Поэтому во избежание так называемой ошибки первого рода, в нашей модели мы группируем стандартные ошибки на уровне URL для исправления этой последовательной корреляции, где наша матрица дисперсий и ковариаций для коэффициентов модели рассчитывается следующим образом:

Рис.9. Формула расчета матрицы дисперсий и ковариаций для коэффициентов модели.

Где nᵤ — количество URL-адресов, а eᵢ — необработанный остаток для i-ого наблюдения. При наличии корреляции показателей трафика внутри основных URL-адресов по дням это приводит к увеличению стандартных ошибок наших коэффициентов. Поэтому мы эффективно ужесточаем критерий, чтобы объявить эксперимент статистически значимым. В результате мы можем быть уверенными в том, что эксперименты со статистически значимыми оценками с большей вероятностью будут истинно положительными.

Измерение статистической мощности

Перед началом эксперимента важно понять нашу статистическую мощность. Так как мы в основном заботимся только о нормирующей функции b₂, по сути, проводится проверка гипотез:

где статистическая мощность (power) определяется как:

Другими словами, нам необходимо узнать вероятность того, что мы сможем обнаружить эффект от внесенных изменений, если он действительно есть. Если статистическая мощность нашего эксперимента очень мала, то он может оказаться бесполезным, если в его ходе не получится осуществить каких-либо значимых измерений.

Существует несколько способов оценки статистической мощности, и одним из наиболее распространенных является оценка на основе моделирования.

Рис.10. Оценка статистической мощности на основе моделирования.

Используя динамику показателей трафика, мы можем запустить набор симуляций, в которых мы случайным образом назначаем основные URL-адреса для тестовых и контрольных страниц сайта и применяем различные уровни подъема трафика для тестовой группы в предварительно заданный период времени. Затем мы можем запустить нашу модель на основе этих данных и посмотреть, сколько раз мы можем обнаружить эффект роста посещаемости с определенной степенью статистической значимости.

Используя эти смоделированные результаты анализа, мы можем затем построить график, который покажет, сколько раз модель измерила статистически значимую разницу между различными эффектами от внесенных изменений:

Рис.11. График измерения статистически значимой разницы между эффектами от внесенных изменений.

Учитывая, что в идеале показатель статистической мощности должен быть не менее 80%, наш эксперимент, скорее всего, обладает достаточной мощностью в ситуациях, где эффект составляет около 2% роста посещаемости или более. Это довольно точное различие, которое можно обнаружить. И учитывая, что ожидаемый эффект «Волшебного ковра» будет порядка нескольких процентных пунктов, мы приходим к выводу, что у этой модели достаточно статистической мощности для проведения полноценного эксперимента на уровне URL.

Запуск эксперимента

После того как мы настроили нашу модель с соответствующими допущениями и заявили, что у нас достаточно мощности для начала тестирования, мы запустили эксперимент «Волшебный ковер» и случайным образом присвоили новый дизайн половине целевых страниц. Тестирование длилось три недели, в течение которых мы наблюдали видимый подъем показателей трафика:

Рис.12. Динамика трафика при эксперименте “Волшебный ковер”.

Когда мы запустили нашу модель сравнения разностей, был обнаружен статистически значимый положительный результат:

Рис.13. Статистически значимый положительный результат.

Поскольку мы применили логарифмическое преобразование к нашей исходной переменной трафика, это позволило нам интерпретировать наш коэффициент в процентах: коэффициент b₂, равный 0,0346, означает, что «Волшебный ковер» привел к (1 — e ^ (. 0346)) = 3,52 % увеличению трафика. На первый взгляд, рост посещаемости может показаться небольшим, но учтите, что речь идет о десятках миллионов новых посетителей в день! После этого периода тестирования мы решили запустить «Волшебный ковер» на всех наших целевых страницах, и в течение последнего года мы постоянно улучшаем дизайн, используя описанные выше методы.

Заключение

В ходе эксперимента с поисковой оптимизацией целевых страниц сайта с использованием рыночных подходов, они доказали свою применимость для оценки эффективности внесенных изменений, с точки зрения рейтинга в поисковых системах. Фактически мы смогли масштабировать эти подходы с помощью нашего открытого планировщика Airflow, чтобы автоматизировать анализ более чем 20 экспериментов, начиная от радикальных изменений дизайна и заканчивая небольшими изменениями HTML.

Но как известно, нет предела совершенству. Инвестирование в отслеживание нашего точного рейтинга в поисковых системах (вместо использованного нами анализа трафика) позволило бы включить в модель более точные выходные переменные. Кроме того, существует множество других моделей, используемых в экспериментах с применением рыночных подходов, таких как синтетический контроль, которые могут рассматриваться за пределами нашего подхода сравнения разностей.

Однако независимо от используемой модели, из эксперимента можно извлечь следующие важные уроки. Делая выводы о конкретном эффекте от внесенных изменений, мы должны убедиться в нескольких вещах:

  1. В нашей экспериментальной модели учтены все допущения, особенно если их игнорирование может привести к ошибке второго рода.
  2. Тестирование обладает достаточной статистической мощностью, чтобы обнаружить эффект от изменений, что, в свою очередь, поможет снизить вероятность ошибки первого рода. 

Когда подобные модели используются корректно, они могут стать мощным инструментом для анализа посещаемости.

Особая благодарность Лилэй Сюй за разработку оригинальной модели и помощь со статистическим анализом, а также Роберту Чану за ценные замечания и рекомендации на протяжении всего процесса анализа.

Автор: Брайан Де Луна

Ссылка на оригинал статьи: https://medium.com/airbnb-engineering/experimentation-measurement-for-search-engine-optimization-b64136629760

Чтобы первыми узнавать обо всех наших новых материалах, подписывайтесь на наш telegram-канал: t.me/seoantteam 
Никакого спама. Только полезная информация по теме SEO.