Ошибки в файле robots.txt и как их избежать

Как обнаружить и исправить ошибки в файле robots.txt

Каждый уважающий себя веб-мастер должен иметь хотя бы общее представление о том, как управлять процессом индексации страниц и файлов сайта в поисковых системах.
Не будем тянуть резину и сразу отметим, что для нахождения общего языка с поисковыми роботами достаточно правильно настроить robots.txt. Ключевое слово – «правильно». Ведь если допустить в robots.txt ошибки, последствия могут быть довольно неприятными.

Самые частые ошибки файла robots.txt

  1. Перепутанные значения директив (по незнанию или по недосмотру).
  2. Перечисление нескольких URL в одной директиве Disallow.
  3. Название файла robots.txt с ошибками.
  4. Пустое поле в User-agent.
  5. URL с указанием протокола передачи данных в директиве Host.
  6. Отсутствующая директива Disallow.
  7. Неправильный формат URL в директиве Disallow.Ошибка в файле robots.txt на левой половине скриншота приведет к тому, что от индексации будут закрыты все страницы и файлы, в начале URL которых содержится «admin».Все будет указано правильно, если использовать символы «$» и «/» для указания «разрыва».
  8. Перечисление всех файлов директории. В принципе это не совсем ошибка. Просто рациональнее в этом случае закрыть от индексации всю директорию целиком.

 
Принципы, которым нужно следовать, чтобы предотвратить ошибки в файле robots.txt

  1. Прописанные в robots.txt директивы являются рекомендациями, которых придерживаются лишь роботы крупных поисковых систем. Сторонние боты чаще всего на них внимания не обращают. Поэтому их лучше блокировать по IP.
     
  2. Заблокированные в robots.txt страницы все еще продолжают быть доступными интернет-пользователям. Поэтому если цель – скрыть веб-страницу не только от роботов, но и от пользователей, на нее нужно установить пароль.
     
  3. Поддомены рассматриваются поисковиками как отдельные сайты. Поэтому рекомендации по их индексации следует прописывать в отдельных robots.txt в корне каждого поддомена.
     
  4. robots.txt нечувствителен к регистру. Поэтому директивы можно писать как строчными, так и прописными. Но имена файлов и директорий должны прописываться только так, как они выглядят в адресной строке браузера.
     
  5. Указанный в директиве User-agent реагирует на все указанные под ним директивы вплоть до следующей строки с User-agent. Поэтому не стоит надеяться, что директивы под вторым User-agent будут выполнены роботом, указанным в первом User-agent. Для каждого робота указания нужно дублировать.
     

Проверка robots.txt на ошибки

Чтобы проверить robots.txt на ошибки, проще всего воспользоваться предназначенными для этого инструментами от поисковых систем.

В случае с Google нужно зайти в Search Console/Сканирование и выбрать «Инструмент проверки файла robots.txt».


Под окном с содержимым искомого файла можно увидеть количество ошибок и предупреждений.

В Яндекс.Вебмастере имеется аналогичный функционал (Инструменты/Анализ robots.txt).


Также имеется возможность узнать, сколько в проверяемом robots.txt ошибок.

Правда, если обе проверки покажут, что ошибок нет, это еще не повод радоваться. Это лишь значит, что прописанные в файле инструкции соответствуют стандартам.

Но в нем вполне могут быть многие из вышеописанных ошибок, которые приведут к проблемам с индексацией сайта. Поэтому при проверке robots.txt на ошибки не стоит полагаться лишь на подобные автоматизированные инструменты – нужно и самому все внимательно проверять.

 

Рекомендуемые статьи этой категории
Бесплатный аудит
Вашего сайта в 1 клик
Введите ссылку на Ваш сайт и мы за 21 секунду проанализируем его на ошибки, изменив которые, Вы можете увеличить посещаемость сайта на 200 - 400%