8 частих помилок в robots.txt, про які всі забувають

17707
Час прочитання: 4 хвилин

зміст:

Отримати безкоштовну консультацію від фахівця з вашого проекту

Як виявити і виправити помилки в файлі robots.txt

Кожен поважаючий себе веб-майстер повинен мати хоча б загальне уявлення про те, як управляти процесом індексації сторінок і файлів сайту в пошукових системах.
Не будемо тягнути гуму і відразу відзначимо, що для знаходження спільної мови з пошуковими роботами досить правильно налаштувати robots.txt. Ключове слово – « правильно ». Адже якщо допустити в robots.txt помилки, наслідки можуть бути досить неприємними.

Отримати безкоштовну консультацію від фахівця з вашого проекту

Найчастіші помилки файлу robots.txt

Переплутані значення директив ( через незнання або через недогляд ).
Перерахування кількох URL в одній директиві Disallow.
Назва файлу robots.txt з помилками.
У назві файлу robots.txt присутні великі літери.
Порожнє поле в User-agent.
Відсутня директива Disallow.

Неправильний формат URL в директиві Disallow.Ошібка в файлі robots.txt на лівій половині скріншота призведе до того, що від індексації будуть закриті всі сторінки і файли, на початку URL яких міститься « admin ».Все буде вказано правильно, якщо використовувати символи « $ » і « / » для вказівки « розриву ».

Перерахування всіх файлів директорії. В принципі це не зовсім помилка. Просто раціональніше в цьому випадку закрити від індексації всю директорію цілком.

Принципи, яким потрібно слідувати, щоб запобігти помилкам у файлі robots.txt

Прописані в robots.txt директиви є рекомендаціями, яких дотримуються лише роботи великих пошукових систем. Сторонні боти найчастіше на них уваги не звертають. Тому їх краще блокувати по IP.
Заблоковані в robots.txt сторінки все ще продовжують бути доступними інтернет-користувачам. Тому якщо мета – приховати веб-сторінку не тільки від роботів, але і від користувачів, на неї потрібно встановити пароль.
Піддомени розглядаються пошуковими системами як окремі сайти. Тому рекомендації по їх індексації слід прописувати в окремих robots.txt в корені кожного піддомену.
robots.txt нечутливий до регістру. Тому директиви можна писати як малими, так і прописними. Але імена файлів і директорій повинні прописуватися тільки так, як вони виглядають в адресному рядку браузера.
Зазначений в директиві User-agent реагує на всі зазначені під ним директиви аж до наступного рядка з User-agent. Тому не варто сподіватися, що директиви під другим User-agent будуть виконані роботом, зазначеним в першому User-agent. Для кожного робота вказівки потрібно дублювати.

Перевірка robots.txt на помилки

Щоб перевірити robots.txt на помилки, найпростіше скористатися призначеними для цього інструментами від пошукових систем.

У випадку з Google потрібно зайти в Search Console / Сканування і вибрати « Інструмент перевірки файлу robots.txt ».

Під вікном з вмістом шуканого файлу можна побачити кількість помилок і попереджень.

У Яндекс.Вебмастере є аналогічний функціонал ( Інструменти / Аналіз robots.txt ).

Також є можливість дізнатися, скільки в перевіряється robots.txt помилок.

Правда, якщо обидві перевірки покажуть, що помилок немає, це ще не привід радіти. Це лише означає, що прописані в файлі інструкції відповідають стандартам.

Але в ньому цілком можуть бути багато хто з вищеописаних помилок, які приведуть до проблем з індексацією сайту. Тому при перевірці robots.txt на помилки не варто покладатися лише на подібні автоматизовані інструменти – потрібно і самому все уважно перевіряти.

Рекомендовані статті цієї категорії