Учитывает ли Google показатель кликабельности и поведение пользователей при ранжировании

Представители Google много раз говорили о том, что поисковик не учитывает показатель кликабельности при ранжировании выдачи. Но недавно корпорация Google получила патент на механизм отслеживания показателя кликабельности и других данных о поведении пользователей, и их использовании при формировании результатов поиска.

Патент сообщает, что на результаты ранжирования может влиять продолжительность времени, которое пользователь тратит на просмотр страницы. После этого веб-страница получает в выдаче более высокие позиции:

Это может быть реализовано путем определение меры релевантности документа относительно поискового запроса. А также сравнения более длительных просмотров с общим числом просмотров

Это сложнее, чем простое определение времени просмотра документов. Патент также предполагает, что категории поисковых запросов могут изменять степень влияния времени просмотра и показателя кликабельности:

Нам сообщают о преимуществах, которые могут дать процессы, описанные в патенте:

  1. Подсистема ранжирования может включать в себя механизм модификаторов рейтинга. Он использует неявную обратную связь с пользователем, чтобы вызвать повторное ранжирования и улучшить качество результатов поиска.
  2. Сохраненные данные о кликах могут использоваться для переоценки будущих результатов поиска.
  3. Для конкретного запроса могут быть определены пользовательские предпочтения по отдельной веб-странице.
  4. Мера релевантности может быть независимой от релевантности других результатов, возвращаемых в ответ на поисковый запрос.

Новейшую версию патента на показатель кликабельности для конкретного пользователя можно найти по адресу:

Изменение ранжирования в результатах поиска на основе неявной информации от пользователей.
Изобретатели: Хьюнь-Йин Ким, Саймон Тонг, Ноам М. Шазир и Микеланджело Дилигенти.
Правопреемник: Google LLC.
Патент США: 10 229 166

Получен: 12 марта 2019 года.
Подан: 25 октября 2017 года.

Аннотация:

Описание включает в себя системы и способы ранжирования выдачи по поисковому запросу. Этот механизм может быть реализован в методе, который включает в себя определение меры релевантности

конкретной веб-страницы  в контексте поискового запроса.

Определения из этого патента дают представление о том, как Google может отслеживать взаимодействия пользователей с результатами поиска.

Патент сообщает нам о «Журнале выбора результатов». А также о том, какая информация хранится в этом журнале и как ее можно измерить.

Он вносит некоторые изменения в традиционную модель ранжирования. В документе говорится о ранжировании, основанном на оценке поиска информации и авторитетной оценки с использованием PageRank. Но он основан на PageRank, который учитывает ссылки на страницу с других релевантных веб-страниц:

Поисковая система может включать в себя механизм ранжирования документов, связанных с запросом пользователя. Оно может выполняться с использованием традиционных методов поиска информации среди проиндексированных документов с учетом заданного запроса. Соответствие документа конкретному поисковому запросу может быть определено любым подходящим способом.

Например, количество обратных ссылок на документ, которые содержат совпадения по поисковому запросу, может использоваться для определения релевантности документа. В частности, если документ связан со многими другими документами, которые также содержат совпадения по поисковым терминам, то он является максимально релевантным.

Если ссылающиеся документы являются целями ссылок с других релевантных документов, их также можно считать релевантными. Но первый документ можно считать наиболее релевантным, поскольку на него ссылаются другие (менее подходящие) веб-страницы.

Патент вводит механизм модификаторов рейтинга, который также предусматривает другие способы измерения релевантности.

Чтобы улучшить традиционные методы ранжирования, нужно учитывать дополнительный сигнал от механизма модификаторов рейтингов. Этот механизм устанавливает несколько «мерил» релевантности документов, которые могут использоваться при ранжировании для улучшения результатов поиска.

Механизм модификатора рейтинга может выполнять одну или несколько операций оценки релевантности.

Факторы, в соответствии с которыми механизм оценки ранжирует результаты

  1. Контентные факторы, которые связывают запрос с результатами поиска.
  2. Независящие от запроса факторы, которые обычно указывают на качество выдачи.
  3. Компонент отслеживания может использоваться для записи информации об отдельных пользовательских результатах, представленных в рейтинге. Например, в компонент отслеживания может быть встроен JavaScript- код, включенный в выдачу веб-страниц. Он идентифицирует выбор пользователя (клики) отдельных сниппетов. А также фиксирует, когда пользователь возвращается на страницу результатов.

Отслеживаемая информация, которая хранится в журналах выбора результатов

Эта информация может включать в себя записи журнала, которые сохраняются для каждого выбора пользователя:

  • Запрос (Q);
  • Документ (D);
  • Время (T) для документа;
  • Язык (L) пользователя;
  • Страна (C), в которой находится пользователь;
  • Влияние негативного фактора, если пользователь не выбрал документ;
  • IR оценки выбранных результатов;
  • IR оценки всех результатов, показанных до клика;
  • Заголовки и сниппеты, показанные пользователю до клика;
  • Cookie пользователя;
  • IP адрес;
  • Браузер пользователя.

Информация из журналов выбора результатов может быть использована для последующего улучшения выдачи для других пользователей.

Могут быть отслежены и посещения других наборов документов, результатов поиска, включая время между переходами к документам.

Время, затрачиваемое на конкретные документы, может расцениваться как более длинные клики или более короткие клики. Причем более длинные клики являются общим показателем качества клика по результату поиска.

Различное время просмотра страницы

Патент содержит сведения о том, что может означать различная длительность просмотра:

Например, короткий клик может считаться показателем плохой страницы и, следовательно, передает малый вес (например, -0,1 за клик). Средний клик может считаться показателем потенциально полезной страницы и передавать больший вес (например, 0,5 за клик). Длинный клик может считаться показателем хорошей страницы и иметь больший вес (например, 1,0 за клик).

Последний клик (после которого пользователь не возвращается на страницу результатов поиска) может считаться показателем хорошей страницы и иметь вес 0,9.

Вместо того чтобы просто учитывать отрезки времени, можно рассмотреть и дополнительную информацию:

Различные периоды времени, используемые для классификации коротких, средних и длинных кликов, могут быть определены для поисковой системы путем сравнения исторических данных из журналов выбора пользователя.

Защита от недостоверной информации

Патент говорит нам, как безопасно использовать информацию, получаемую от пользователей:

Могут быть приняты меры защиты от спамеров (пользователей, которые генерируют клики для повышения позиций определенных результатов поиска). Это обеспечит высокую точность данных о выборе пользователя

Эти меры могут включать в себя модель, которая описывает, как пользователь должен вести себя в течение определенных промежутков времени. Если пользователь не соответствует этой модели, его данные о кликах могут быть проигнорированы. 

Релевантность определяется по длительности просмотров. Но нам говорят, что время, в течение которого посетители просматривают результаты, может указывать на то, насколько быстро они находят нужную страницу. Фраза «предвзятость представления» используется для описания того, как это может работать:

Предвзятость представления включает в себя такие аспекты отображения результатов, как привлекательный заголовок или сниппет с более высокой позицией в выдаче.

Пользователи кликают по результатам с качественными сниппетами или с более высоким рейтингом независимо от релевантности документа запросу.

Патент предоставляет несколько примеров навигационных и информационных запросов:

Категории запросов могут классифицироваться как «навигационные» и «информационные». Навигационным запросом является тот, для которого требуется определенная целевая страница или сайт. Например, такой запрос, как «BMW».

Информационный запрос – это тот, на который может ответить множество страниц. Например, «День рождения Джорджа Вашингтона».

Эти категории также могут быть разбиты на подкатегории быстрый информационный запрос и медленный информационный запрос. Пользователю может потребоваться лишь несколько секунд, что узнать дату рождения Джорджа Вашингтона».

Этот патент также рассказывает, как учитывать такие показатели, Dwell time, когда речь идет о поведении пользователя:

Категории запросов могут быть определены путем анализа баллов IR или истории кликов. Например, если несколько документов имеют более высокий приоритет по сравнению с другими, то запрос является навигационным.

Определенная категория запроса может быть идентифицирована, набор таких запросов может быть найден и извлечен из исторических данных по кликам. А также может быть выполнен регрессионный анализ для определения одного или нескольких показателей, которые идентифицируют этот тип запроса. Например, среднее время пребывания (Dwell time) для навигационных запросов по сравнению с другими категориями запросов. Dwell time  - это время, потраченное на просмотр результата поиска документа.

Различные типы пользователей, шаблоны и клики

В патенте также поясняется, как идентифицировать пользователей на основании того, как быстро они кликают и на что они кликают:

Типы пользователей могут быть определены путем анализа шаблонов кликов. Например, опытные пользователи часто кликают быстрее, чем менее опытные пользователи. На основании этого пользователям может быть установлен разный «вес» в зависимости от их поведения при клике.

Например, можно определить среднюю продолжительность клика и частоту кликов для каждого отдельного пользователя. А пороговое значение показателей для каждого пользователя может быть скорректировано.

Пользователи также могут объединяться в группы на основе различных моделей поведения клика.

Обратная информация, полученная от некоторых пользователей, может быть более ценной, чем от других. Например, для хороших кликов пользователя, который почти всегда кликает по результату с наивысшим рейтингом, может быть назначен меньший вес, чем для хороших кликов пользователя, который чаще кликает по результатам с более низким рейтингом.

Также пользователь может быть классифицирован на основе поступающего от него потока запросов. Пользователи, которые направляют большое количество запросов по теме T, могут рассматриваться  как обладающие высокой степенью компетентности в данной теме T. Поэтому данные об их кликах могут быть соответствующим образом взвешены для других их запросов по теме T.