Распространенные проблемы SEO, связанные с файлом Robots.txt

Файлы Robots.txt — это инструмент, ограничивающий для сканеров поисковых систем доступ к определенным страницам сайта. В этой статье мы поделимся рекомендациями, касающиеся файла robots.txt.

Содержание

Что такое файл Robots.txt?

Файл robots.txt сообщает поисковым роботам, какие веб-страницы сайта они могут просматривать. Бот поисковой системы (например, Googlebot) читает файл robots.txt перед началом сканирования вашего сайта, чтобы узнать, с какими веб-страницами он должен работать.

Вот так выглядит файл robots.txt.

Что такое файл Robots.txt?

Когда боты и другие сканеры попадают на сайт, они могут использовать большой объем серверных мощностей. Это может замедлить ваш сайт. Robots.txt решает эту проблему.

Ниже приведен пример файла Robots.txt от Google, в котором для Googlebot заблокирован доступ к определенным каталогам, разрешен доступ к /directory2/subdirectory1/. Но для других сканеров заблокирован весь сайт.

Что такое файл Robots.txt? - 2

Пользовательские агенты перечислены в «группах». Каждая группа указана в отдельных строках по типу сканера. Она содержит перечень файлов, к каким он может и не может получить доступ.

Почему файлы Robots.txt важны?

Информирование поискового сканера о том, какие страницы сайта нужно сканировать, а какие нет, позволяет лучше контролировать краулинговый бюджет сайта, направляя поисковых роботов к наиболее важным его страницам.

Файла robots.txt также позволяет избежать перегрузки сервера сайта разнообразными запросами. Например, в приведенном выше примере robots.txt есть файлы, которые хранятся в папке /cgi-bin. Их блокировка в Robots.txt дает сканерам понять, что в этой папке нет ресурсов, которые нужно индексировать.

Предупреждение: веб-страницы, заблокированные в robots.txt, могут отображаться в результатах поиска Google, но без описания.

Почему файлы Robots.txt важны?

Чтобы предотвратить отображение URL-адреса в результатах поиска Google, необходимо защитить файлы на сервере паролем, использовать метатег noindex или заголовок ответа.

Если веб-страницы заблокированы для сканирования в robots.txt, то любая информация об индексировании или служебных директивах не будет найдена и будет игнорироваться.

Поисковым роботам следует разрешить сканировать важные ресурсы, необходимые для отображения содержимого страниц сайта.

Рекомендованные практики Google для файлов Robots.txt

1. Блокировать определенные веб-страницы

Файл Robots.txt можно использовать для блокирования доступа поисковых сканеров к определенным веб-страницам сайта.

Совет: для блокировки сканирования и индексации используйте директиву noindex на уровне конкретной веб-страницы. Но лучше добавить эту директиву глобально с помощью HTTP-заголовка X-Robots-Tag.

2. Медиа-файлы

Используйте файл robots.txt для предотвращения отображения в поисковой выдаче изображений, видео и аудио файлов. Но это не помешает другим веб-страницам или пользователям ссылаться на эти ресурсы. Если другие веб-страницы или сайты ссылаются на этот контент, он все равно может появиться в результатах поиска.

3. Файлы ресурсов

Используйте robots.txt, чтобы заблокировать второстепенные ресурсы. Но если их отсутствие затрудняет понимание краулером конкретных веб-страниц, то не следует их блокировать.

Как работать с атрибутами Noindex

Google не рекомендует добавлять в файл robots.txt директиву noindex, потому что она будет игнорироваться. Вместо этого используйте одно из следующих решений:

1. Метатег Robots: <meta name=«robots» content=«noindex» />

Приведенный выше пример тега указывает поисковым системам не показывать веб-страницу в результатах поиска. Значение атрибута name= «robots» указывает, что директива применяется ко всем сканерам. Чтобы обратиться к определенному сканеру, замените значение robots атрибута name на имя сканера.

Совет: данный метатег должен указываться в разделе <head>. Если нужно заблокировать определенные страницы сайта от сканирования или индексации, используйте директиву no index.

2. Настройте HTTP-заголовок X-Robots-Tag.

X-Robots-Tag можно использовать как элемент ответа HTTP-заголовка для конкретного URL-адреса. Любая директива метатега robots также может быть указана в X-Robots-Tag. Ниже приведен пример HTTP-ответа с X-Robots-Tag, который указывает поисковым сканерам не индексировать страницу:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(...)
X-Robots-Tag: noindex
(...) 

Чтобы использовать одновременно несколько директив, их нужно указать через запятую.

Совет: мы рекомендуем использовать этот метод для блокировки любого контента. X-Robots-Tag с HTTP-ответами позволяют указать директивы сканирования, которые применяются на сайте глобально.

14 распространенных проблем с Robots.txt

1. Отсутствует файл Robots.txt

Сайт без файла robots.txt, метатегов robots или HTTP-заголовков X-Robots-Tag обычно сканируется и индексируется нормально.

Возможная причина проблемы: Файла robots.txt повышает уровень контроля над контентом и файлами сайта, которые может сканировать и индексировать поисковый бот. Его отсутствие означает, что Google будет индексировать весь контент сайта.

2. Добавление строк Disallow для блокировки конфиденциальной информации

Добавление строки Disallow в файл robots.txt также представляет собой угрозу безопасности. Так как определяет, где хранится закрытый от пользователей контент.

В чем проблема: Используйте проверку подлинности на стороне сервера, чтобы заблокировать доступ к личному контенту.

3. Добавление Disallow для предотвращения дублирования контента

Сайты должны быть просканированы, чтобы определить их канонический индекс. Не блокируйте содержимое с помощью robots.txt вместо canonical.

В чем проблема: В некоторых CMS достаточно сложно добавлять пользовательские теги canonical. В этом случае можно попробовать другие методы.

4. Добавление Disallow для кода, размещенного на стороннем сайте

Чтобы удалить контент со стороннего сайта, вам необходимо связаться с его владельцем.

В чем проблема: Это может привести к ошибке, когда сложно определить исходный сервер для конкретного контента.

5. Использование абсолютных URL-адресов

Директивы в файле robots.txt (за исключением «Sitemap:») действительны только для относительных путей.

В чем проблема: Сайты с несколькими подкаталогами могут использовать абсолютные адреса, но действительны только относительные URL.

6. Robots.txt размещен не в корневой папке сайта

Файл Robots.txt должен быть размещен в самом верхнем каталоге сайта.

В чем проблема: Не помещайте файл robots.txt в какую-либо другую папку.

7. Обслуживание разных файлов Robots.txt

Не рекомендуется обслуживать различные файлы robots.txt в зависимости от агента пользователя или других атрибутов.

В чем проблема: сайты всегда должны использовать один и тот же файл robots.txt для международной аудитории.

8. Добавлена ​​директива для блокировки всего содержимого сайта

Часто владельцы сайтов оставляют файл robots.txt, который может содержать строку disallow, блокирующую все содержимое сайта.

В чем проблема: Это происходит, когда на сайте используется версия robots.txt по умолчанию.

9. Добавление ALLOW вместо DISALLOW

На сайтах не обязательно указывать директиву allow. Директива allow позволяет переопределять директивы disallow в том же файле robots.txt.

В чем проблема: В случаях, когда директивы disallow похожи, использование allow может помочь в добавлении нескольких атрибутов, чтобы их различать.

10. Неверное расширение типа файла

В разделе справки Google Search Console рассказывается, как создавать файлы robots.txt. После того, как вы создали этот файл, можно будет проверить его с помощью тестера robots.txt.

В чем проблема: Файл должен иметь расширение .txt и создаваться в кодировке UTF-8.

11. Добавление Disallow для папки верхнего уровня, где размещаются веб-страницы, которые нужно индексировать

Запрет на сканирование веб-страниц может привести к их удалению из индекса Google.

В чем проблема: При добавлении перед именем папки звездочки (*) это может означать что-то промежуточное. Когда она добавлена после, это указывает на необходимость заблокировать все, что включено в URL-адрес после /.

12. Блокировка доступа ко всему сайту во время разработки

Можно временно приостановить поисковое сканирование, вернув код HTTP 503 для всех URL-адресов, включая файл robots.txt. Файл robots.txt будет периодически проверяться, пока он будет недоступен.

В чем может быть проблема: При перемещении сайта или массовых обновлениях robots.txt может быть пустым по умолчанию для блокировки всего сайта. В данном случае он должен оставаться на месте и не быть удален во время технического обслуживания.

13. Написание директив заглавными или прописными буквами

Директивы в файле robots.txt являются чувствительными к регистру.

В чем проблема: Некоторые CMS автоматически устанавливают URL-адреса для отображения содержимого файла robots.txt в верхнем и нижнем регистре. Директивы должнысоответствовать фактической структуре URL-адресов со статусом 200.

14. Использование кодов состояния сервера (например, 403) для блокировки доступа

Чтобы заблокировать сканирование сайта, файл robots.txt должен возвращаться в обычном режиме (то есть с HTTP-кодом «200» «ОК»).

В чем проблема: при перемещении сайта robots.txt может оказаться пустым или удаленным. Рекомендуется, чтобы он оставался на месте и не был удален во время технического обслуживания.

Как проверить, используется ли сайте X-Robots-Tag?

Чтоб проверить заголовки сервера, используйте инструмент просмотреть как робот Google в Search Console.

Заключение

Проверьте весь сайт, чтобы определить веб-страницы, которые следует заблокировать с помощью директив disallow. Убедитесь в том, что на сайте не используется автоматическое перенаправление и не изменяется файл robots.txt. Оцените эффективность сайта до и после изменений.

Пожалуйста, оставляйте свои отзывы по текущей теме материала. За комментарии, лайки, отклики, дизлайки, подписки низкий вам поклон!

Пожалуйста, опубликуйте ваши комментарии по текущей теме статьи. За комментарии, отклики, дизлайки, подписки, лайки низкий вам поклон!

Вадим Дворниковавтор-переводчик статьи «14 Common Issues with the Robots.txt File in SEO (and How to Avoid Them)»