Файл robots.txt - шпаргалка для начинающих

Любой человек, тем более тот, который только начинает свой путь вебмастера, не может сделать идеальный сайт для раскрутки в интернете и получения прибыли с него, если не знает предназначения основных файлов движка, который он использует. Однако существуют однотипные файлы, которые используют все CMS — системы.

Один из таких файлов является robots.txt. Именно ему и посвящена данная статья. Здесь мы рассмотрим правильное составление этого файла и расскажем о некоторых нюансах упрощения составления списка запрещенных страниц для собственного сайта.

Что представляют собой файлы robots.txt

Robots.txt – текстовый файл, открываемый обычным блокнотом. Находится он в корневом каталоге любого движка и состоит из списка запрещенных для отображения в поисковой выдаче страниц.

Robots.txt

Каждая строка этого файла представляет собой ссылку на запрещенную к индексации поисковыми системами страничку. Иногда приходится запретить к показу несколько однотипных страничек.

Допустим, что у вас на сайте присутствуют теги, которые создаются как отдельная страничка с выдачей. Естественно, поисковым системам незачем отображать эту информацию, так как вы не только задублируете информацию, но и создадите совсем ненужную ссылку в поисковой выдаче.

Для более наглядного понимания стоит привести пример:

Site.com/tags/1
Site.com/tags/2
…

Таких тегов могут быть тысячи, чтобы не дублировать каждый тег новой строкой, можно ввести всего одну строку следующего вида:

Disallow: /tags/*

Это значит, что в вашем домене будут заблокированы для выдачи в поиске все странички, имеющие в своем адресе фразу «tags» на втором уровне (сразу после доменного имени).

Зачем вообще нужен файл robots.txt

Главная идея этого файла состоит в том, чтобы запретить роботам поисковых систем отображать в поиске странички, которые будут либо дублировать информацию, либо отображать личную информацию пользователей сайта без предварительной регистрации.

Во-первых, это не позволяет получить пользователям интернета личную информацию пользователей ресурса, во-вторых, в поиске будут отображаться только необходимые вам страницы.

принцип robots.txt

Это основные принципы, которыми руководствуются создатели сайтов, редактируя текстовый файл robots. Правильно оформив данный файл, вы позволите поисковым роботам индексировать только качественный контент со своего сайта.

Как проверить правильность файла robots.txt

Проверка на правильность оформления файла robots.txt для поисковых систем – одно из необходимых правил, если вы до этого ни разу не пользовались движком, не знаете всей его структуры или просто хотите лишний раз проверить свои знания, и убедиться в том, что ваш robots.txt правильный.

Провести проверку можно в специальных разделах для вебмастеров в самих поисковых системах. В Google Webmaster подобный инструмент находится во вкладке «Состояние» —> «Заблокированные URL». В окно вставьте строки вашего файла robots.txt и в нижнем окне введите ссылки на различные данные на вашем сайте для проверки блокировки.

На самом деле данная проверка не так проста, как вам кажется, ведь по сути придется проверить элементы «разных типов» сайта, например: категории, теги, странички, странички с параметрами и т.д. В результатах проверки вы увидите, какие странички разрешены для отображения в поисковых системах, а какие запрещены.

В Яндекс Вебмастере все абсолютно аналогично, за исключением того, что можно не вставлять строки в поле, а выгрузить сам файл непосредственно с сайта.

Как вариант, можно просмотреть карту сайта и с карты сайта «повытаскивать» несколько примеров ссылок для проверки на блокировку.

Пример правильного файла robots.txt для WordPress

Если у вас нет времени на составление собственного файла robots.txt для поисковиков, можете воспользоваться стандартным списком и по необходимости дополнить его.

Пример правильного файла robots для wordpress:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: site.com

Также в конце файла не забудьте указать ссылку на карту сайта:

Sitemap: http://site.com/sitemap.xml

robots.txt для joomla

Также в конце файла не забудьте указать ссылку на карту сайта:

Sitemap: http://site.com/sitemap.xml

Обратите внимание! Данный список является самым оптимальным вариантом, но подходит только для типичных сайтов без вмешательства в глобальный код движка/шаблона.

Как создать правильный robots.txt?

Учитывая факт, что идеальный вариант этого файла нужен каждому сайту, многие разработчики модулей и плагинов уже позаботились об его автоматическом создании. Сейчас вы можете без проблем найти специальный генератор в интернете. Один из наиболее простых и удобных в использовании находится здесь.

Сервисы подобные этому проводят тщательный анализ вашей карты сайта и составляют список дублей и ненужных страничек, делая идеальный robots.txt для вашего сайта. После генерации вам остается лишь скопировать строки в ваш файл, расположенный на сервере и все.

Файл Robots.txt

Обратите внимание! Файл Robots.txt не предназначен для полного сокрытия страниц от поисковых систем! Google, Yandex и прочие поисковые системы просто не выносят запрещенные страницы в поиск и не добавляют их в количество проиндексированных, но все равно сканируют их.

Если, к примеру, вы решите загнать в скрытую от индексации страницу какой-нибудь вирус или вредоносный скрипт, поисковая система все равно признает сайт вредоносным и возможно заблокирует доступ к нему.

Хотим обратить ваше внимание на то, что даже самый лучший генератор не способен сделать список блокируемых страниц идеальным. Максимально правильно может составить список блокируемых ссылок только владелец сайта или опытный специалист по SEO.

Поэтому, если в индексе поисковых систем появились нежелательные страницы вашего ресурса или вы не знаете, как правильно их скрыть, лучше всего обратиться за помощью к SEO-специалистам или попросить помощи на специализированном форуме, предоставив всю необходимую информацию.

Напоследок хотелось бы добавить, что действующие в данный момент алгоритмы Google проверяют правильное создание файла robots.txt, это в свою очередь влияет на релевантность выдачи сайта по запросам в поисковой системе Google.

Если вы начинающий вебмастер, не стоит спешить с оформлением или тупым копированием строк. Для начала изучите как можно больше информации и только потом приступайте к составлению файла robots.txt.

Удачного продвижения!