Новый стандарт для директивы Allow файла robots.txt

Яндекс.Поиск сообщил о новых правилах обработки директивы Allow текстового файла robots.txt, которая разрешает доступ поискового робота к некоторым частям или сайту целиком.

Отныне для корректной обработки директивы Allow ее необходимо прописывать с учетом следующего порядка: если для данной страницы сайта подходит несколько директив, то поисковый робот выберет первую в порядке появления в выбранном User-agent блоке.

Уже через несколько недель Яндекс внедрит изменения в обработке поисковым роботом директивы allow и откажется от учета порядка. С этого момента директивы станут сортироваться по длине префикса URL’а (от меньшего к большему) и применяться последовательно. Подобное изменение позволит соответствовать международным принципам применения директивы. Благодаря этому, как у российских, так и у иностранных веб — мастеров не будет возникать каких-либо трудностей при составлении файла robots.txt для различных поисковых систем.

Всем веб-мастерам, на чьих сайтах в файлах robots.txt присутствуют директивы allow и disallow, крайне рекомендуется проверить их на соответствие новым стандартам.

Примечательно, что независимые эксперты уже сейчас говорят о том, что на сегодняшний день имеет место существенный разрыв между тем, каким хотят видеть файл robots.txt разработчики Яндекса, и тем, каким его создают веб-мастера. Эксперты считают, что последовательность команд — это то, о чём большинство веб-мастеров и владельцев сайтов задумываются в последнюю очередь.

Согласно результатам независимых исследований сам файл robots.txt присутствует только чуть более чем на половине сайтов в Рунете. Формирование директив Disallow и user-agent вызывает у веб-мастеров и владельцев сайтов существенные сложности. Вполне возможно, что Яндексу стоило бы добавить в панель инструментов для веб-мастеров специальное уведомление о том, что количество страниц в индексе поисковой системы значительно снизилось из-за запрета индексации в файле robots.txt.