Как Google выявляет дублированный контент?

Представители корпорации Google рассказали о том, как ведущая поисковая система определяет дублированный контент, а также осуществляет каноникализацию.

Как же Google определяет дублированный контент?

Как оказалось Google создает контрольную сумму (checksum) для каждой конкретной веб — страницы. Во много контрольная сумма похожа на уникальный отпечаток веб-документа, базирующийся на словах, присутствующих на веб-странице.

С практической точки зрения это означает, что если существуют две веб-страницы с идентичной контрольной суммой, то Google расценивает их как дублированный контент.

Что касается самой контрольной суммы, она представляет собой значение, полученное из блока цифровых данных с целью выявления ошибок, которые могли возникнуть во время их передачи или хранения.

Также стоит отметить, что контрольные суммы достаточно часто используются для проверки целостности данных.

С целью максимально эффективного расчета контрольной суммы применяется так называемый «центральный элемент страницы» – её основное содержимое (за исключением колонтитулов и боковых панелей).

После завершения расчета всех необходимых контрольных сумм, а также создания кластера дубликатов, поисковая система Google должна будет выбрать один веб-документ, который и будет демонстрироваться в результатах поиска.

Что такое каноникализация?

По словам представителей поисковой системы Google в первую очередь необходимо выявить дубли, сгруппировать их надлежащим образом, заявить о том, что все выявленные веб-страницы являются дубликатами друг друга. И только после этого найти главную веб-страницу для всех имеющихся дубликатов.

Благодаря подобному подходу поисковая система Google действительно эффективно выявляет не только полные, но и частичные дубликаты.

Зачем Google выявляет дублированный контент?

Вполне логично, что пользователи не любят когда в результатах поиска появляется очень похожий контент. Кроме того стоит понимать, что свободное пространство в поисковом индексе не является бесконечным.

Как происходит определение канонической веб-страницы?

После того как поисковая система Google выявит все возможные дубликаты наступает время каноникализации – выбора главной веб-страницы в каждом конкретном кластере.

С целью максимально достоверного определения канонической веб-страницы Google использует более 20 разнообразных сигналов. Среди них – контент, Page Rank, атрибут rel=canonical, переадресация, использование защищенного протокола HTTPS и многие другие.

Еще одним важным моментом является то, что вес всем этим сигналам присваивается с помощью машинного обучения.

Каноникализация и ранжирование

Как оказалось каноникализация не имеет какого-либо отношения к ранжированию. На практике веб-страница, выбранная в качестве главной для конкретного кластера, будет ранжироваться, но это произойдет на основании многих других сигналов, а не тех, которые учитываются при каноникализации.

Меню