Как на сайт добавить робот тхт


Robots.txt - Как создать правильный robots.txt

Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации и переиндексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован. Следовательно, не будет искаться в Яндексе, Google и других поисковых системах. Давайте разберемся во всех нюансах правильной настройки robots.txt.

Для начала короткое видео, которое создаст общее представление о том, что такое файл robots.txt.

Как влияет robots.txt на индексацию сайта

Поисковые роботы будут индексировать ваш сайт независимо от наличия файла robots.txt. Если же такой файл существует, то роботы могут руководствоваться правилами, которые в этом файле прописываются. При этом некоторые роботы могут игнорировать те или иные правила, либо некоторые правила могут быть специфичными только для некоторых ботов. В частности, GoogleBot не использует директиву Host и Crawl-Delay, YandexNews с недавних пор стал игнорировать директиву Crawl-Delay, а YandexDirect и YandexVideoParser игнорируют более общие директивы в роботсе (но руководствуются теми, которые указаны специально для них).

Подробнее об исключениях:
Исключения Яндекса
Стандарт исключений для роботов (Википедия)

Максимальную нагрузку на сайт создают роботы, которые скачивают контент с вашего сайта. Следовательно, указывая, что именно индексировать, а что игнорировать, а также с какими временны́ми промежутками производить скачивание, вы можете, с одной стороны, значительно снизить нагрузку на сайт со стороны роботов, а с другой стороны, ускорить процесс скачивания, запретив обход ненужных страниц.

К таким ненужным страницам относятся скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и т.д., формы заказа и корзина со всеми шагами оформления покупки, функционал поиска, личный кабинет, админка.

Для большинства роботов также желательно отключить индексацию всех JS и CSS. Но для GoogleBot и Yandex такие файлы нужно оставить для индексирования, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования (пруф Google, пруф Яндекс).

Директивы robots.txt

Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. Однако не все поисковые системы и роботы поддерживают те или иные директивы. В связи с этим для нас полезнее будет знать не стандарт, а то, как руководствуются теми или иными директивы основные роботы.

Давайте рассмотрим по порядку.

User-agent

Это самая главная директива, определяющая для каких роботов далее следуют правила.

Для всех роботов:
User-agent: *

Для конкретного бота:
User-agent: GoogleBot

Обратите внимание, что в robots.txt не важен регистр символов. Т.е. юзер-агент для гугла можно с таким же успехом записать соледующим образом:
user-agent: googlebot

Ниже приведена таблица основных юзер-агентов различных поисковых систем.

Бот Функция
Google
Googlebot основной индексирующий робот Google
Googlebot-News Google Новости
Googlebot-Image Google Картинки
Googlebot-Video видео
Mediapartners-Google Google AdSense, Google Mobile AdSense
Mediapartners Google AdSense, Google Mobile AdSense
AdsBot-Google проверка качества целевой страницы
AdsBot-Google-Mobile-Apps Робот Google для приложений
Яндекс
YandexBot основной индексирующий робот Яндекса
YandexImages Яндекс.Картинки
YandexVideo Яндекс.Видео
YandexMedia мультимедийные данные
YandexBlogs робот поиска по блогам
YandexAddurl робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
YandexFavicons робот, индексирующий пиктограммы сайтов (favicons)
YandexDirect Яндекс.Директ
YandexMetrika Яндекс.Метрика
YandexCatalog Яндекс.Каталог
YandexNews Яндекс.Новости
YandexImageResizer робот мобильных сервисов
Bing
Bingbot основной индексирующий робот Bing
Yahoo!
Slurp основной индексирующий робот Yahoo!
Mail.Ru
Mail.Ru основной индексирующий робот Mail.Ru
Rambler
StackRambler Ранее основной индексирующий робот Rambler. Однако с 23.06.11 Rambler перестает поддерживать собственную поисковую систему и теперь использует на своих сервисах технологию Яндекса. Более не актуально.

Disallow и Allow

Disallow закрывает от индексирования страницы и разделы сайта.
Allow принудительно открывает для индексирования страницы и разделы сайта.

Но здесь не все так просто.

Во-первых, нужно знать дополнительные операторы и понимать, как они используются — это *, $ и #.

* — это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
$ — показывает, что символ перед ним должен быть последним.
# — комментарий, все что после этого символа в строке роботом не учитывается.

Примеры использования:

Disallow: *?s=
Disallow: /category/$

Следующие ссылки будут закрыты от индексации:
http://site.ru/?s=
http://site.ru/?s=keyword
http://site.ru/page/?s=keyword
http://site.ru/category/

Следующие ссылки будут открыты для индексации:
http://site.ru/category/cat1/
http://site.ru/category-folder/

Во-вторых, нужно понимать, каким образом выполняются вложенные правила.
Помните, что порядок записи директив не важен. Наследование правил, что открыть или закрыть от индексации определяется по тому, какие директории указаны. Разберем на примере.

Allow: *.css
Disallow: /template/

http://site.ru/template/ — закрыто от индексирования
http://site.ru/template/style.css — закрыто от индексирования
http://site.ru/style.css — открыто для индексирования
http://site.ru/theme/style.css — открыто для индексирования

Если нужно, чтобы все файлы .css были открыты для индексирования придется это дополнительно прописать для каждой из закрытых папок. В нашем случае:

Allow: *.css
Allow: /template/*.css
Disallow: /template/

Повторюсь, порядок директив не важен.

Sitemap

Директива для указания пути к XML-файлу Sitemap. URL-адрес прописывается так же, как в адресной строке.

Например,

Sitemap: http://site.ru/sitemap.xml

Директива Sitemap указывается в любом месте файла robots.txt без привязки к конкретному user-agent. Можно указать несколько правил Sitemap.

Host

Директива для указания главного зеркала сайта (в большинстве случаев: с www или без www). Обратите внимание, что главное зеркало указывается БЕЗ http://, но С https://. Также если необходимо, то указывается порт.
Директива поддерживается только ботами Яндекса и Mail.Ru. Другими роботами, в частности GoogleBot, команда не будет учтена. Host прописывается только один раз!

Пример 1:
Host: site.ru

Пример 2:
Host: https://site.ru

Crawl-delay

Директива для установления интервала времени между скачиванием роботом страниц сайта. Поддерживается роботами Яндекса, Mail.Ru, Bing, Yahoo. Значение может устанавливаться в целых или дробных единицах (разделитель — точка), время в секундах.

Пример 1:
Crawl-delay: 3

Пример 2:
Crawl-delay: 0.5

Если сайт имеет небольшую нагрузку, то необходимости устанавливать такое правило нет. Однако если индексация страниц роботом приводит к тому, что сайт превышает лимиты или испытывает значительные нагрузки вплоть до перебоев работы сервера, то эта директива поможет снизить нагрузку.

Чем больше значение, тем меньше страниц робот загрузит за одну сессию. Оптимальное значение определяется индивидуально для каждого сайта. Лучше начинать с не очень больших значений — 0.1, 0.2, 0.5 — и постепенно их увеличивать. Для роботов поисковых систем, имеющих меньшее значение для результатов продвижения, таких как Mail.Ru, Bing и Yahoo можно изначально установить бо́льшие значения, чем для роботов Яндекса.

Clean-param

Это правило сообщает краулеру, что URL-адреса с указанными параметрами не нужно индексировать. Для правила указывается два аргумента: параметр и URL раздела. Директива поддерживается Яндексом.

Пример 1:

Clean-param: author_id http://site.ru/articles/

http://site.ru/articles/?author_id=267539 — индексироваться не будет

Пример 2:

Clean-param: author_id&sid http://site.ru/articles/

http://site.ru/articles/?author_id=267539&sid=0995823627 — индексироваться не будет

Яндекс также рекомендует использовать эту директиву для того, чтобы не учитывались UTM-метки и идентификаторы сессий. Пример:

Clean-Param: utm_source&utm_medium&utm_campaign

Другие параметры

В расширенной спецификации robots.txt можно найти еще параметры Request-rate и Visit-time. Однако они на данный момент не поддерживаются ведущими поисковыми системами.

Смысл директив:
Request-rate: 1/5 — загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 — загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Закрывающий robots.txt

Если вам нужно настроить, чтобы ваш сайт НЕ индексировался поисковыми роботами, то вам нужно прописать следующие директивы:

User-agent: *
Disallow: /

Проверьте, чтобы на тестовых площадках вашего сайта были прописаны эти директивы.

Правильная настройка robots.txt

Для России и стран СНГ, где доля Яндекса ощутима, следует прописывать директивы для всех роботов и отдельно для Яндекса и Google.

Чтобы правильно настроить robots.txt воспользуйтесь следующим алгоритмом:

  1. Закройте от индексирования админку сайта
  2. Закройте от индексирования личный кабинет, авторизацию, регистрацию
  3. Закройте от индексирования корзину, формы заказа, данные по доставке и заказам
  4. Закройте от индексирования ajax, json-скрипты
  5. Закройте от индексирования папку cgi
  6. Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google
  7. Закройте от индексирования функционал поиска
  8. Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов)
  9. Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS)
  10. Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения
  11. Закройте от индексирования страницы с параметрами UTM-меток и сессий
  12. Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
  13. Укажите Sitemap и Host
  14. По необходимости пропишите Crawl-Delay и Clean-Param
  15. Проверьте корректность robots.txt через инструменты Google и Яндекса (описано ниже)
  16. Через 2 недели перепроверьте, появились ли в поисковой выдаче новые страницы, которые не должны индексироваться. В случае необходимости повторить выше перечисленные шаги.

Пример robots.txt

# Пример файла robots.txt для настройки гипотетического сайта https://site.ru
 User-agent: *
 Disallow: /admin/
 Disallow: /plugins/
 Disallow: /search/
 Disallow: /cart/
 Disallow: */?s=
 Disallow: *sort=
 Disallow: *view=
 Disallow: *utm=
 Crawl-Delay: 5
 
 User-agent: GoogleBot
 Disallow: /admin/
 Disallow: /plugins/
 Disallow: /search/
 Disallow: /cart/
 Disallow: */?s=
 Disallow: *sort=
 Disallow: *view=
 Disallow: *utm=
 Allow: /plugins/*.css
 Allow: /plugins/*.js
 Allow: /plugins/*.png
 Allow: /plugins/*.jpg
 Allow: /plugins/*.gif
 
 User-agent: Yandex
 Disallow: /admin/
 Disallow: /plugins/
 Disallow: /search/
 Disallow: /cart/
 Disallow: */?s=
 Disallow: *sort=
 Disallow: *view=
 Allow: /plugins/*.css
 Allow: /plugins/*.js
 Allow: /plugins/*.png
 Allow: /plugins/*.jpg
 Allow: /plugins/*.gif
 Clean-Param: utm_source&utm_medium&utm_campaign
 Crawl-Delay: 0.5
 
 Sitemap: https://site.ru/sitemap.xml
 Host: https://site.ru

Как добавить и где находится robots.txt

После того как вы создали файл robots.txt, его необходимо разместить на вашем сайте по адресу site.ru/robots.txt — т.е. в корневом каталоге. Поисковый робот всегда обращается к файлу по URL /robots.txt

Как проверить robots.txt

Проверка robots.txt осуществляется по следующим ссылкам:

Типичные ошибки в robots.txt

В конце статьи приведу несколько типичных ошибок файла robots.txt

  • robots.txt отсутствует
  • в robots.txt сайт закрыт от индексирования (Disallow: /)
  • в файле присутствуют лишь самые основные директивы, нет детальной проработки файла
  • в файле не закрыты от индексирования страницы с UTM-метками и идентификаторами сессий
  • в файле указаны только директивы
    Allow: *.css
    Allow: *.js
    Allow: *.png
    Allow: *.jpg
    Allow: *.gif
    при этом файлы css, js, png, jpg, gif закрыты другими директивами в ряде директорий
  • директива Host прописана несколько раз
  • в Host не указан протокол https
  • путь к Sitemap указан неверно, либо указан неверный протокол или зеркало сайта

P.S.

Если у вас есть дополнения к статье или вопросы, пишите ниже в комментариях.
Если у вас сайт на CMS WordPress, вам будет полезна статья «Как настроить правильный robots.txt для WordPress».

P.S.2

Полезное видео от Яндекса (Внимание! Некоторые рекомендации подходят только для Яндекса).

Объяснение и иллюстрация файла robots.txt

"Используйте файл robots.txt на своем веб-сервере.

- из руководства Google для веб-мастеров 1

Что такое файл robots.txt?

  • Файл robots.txt - это простой текстовый файл, размещаемый на вашем веб-сервере, который сообщает веб-сканерам, таким как робот Googlebot, следует ли им обращаться к файлу или нет.


Базовые примеры robots.txt

Вот несколько распространенных роботов.txt (они будут подробно описаны ниже).

Блокировать одну папку

User-agent: *
Disallow: / folder /

Блок одного файла

User-agent: *
Disallow: /file.html

Зачем вам нужен файл robots.txt?

  • Неправильное использование файла robots.txt может снизить ваш рейтинг
  • Файл robots.txt управляет тем, как пауки поисковых систем видят ваши веб-страницы и взаимодействуют с ними.
  • Этот файл упоминается в нескольких рекомендациях Google.
  • Этот файл и боты, с которыми они взаимодействуют, являются фундаментальной частью работы поисковых систем.

Совет: чтобы узнать, есть ли ваш robots.txt блокирует любые важные файлы, используемые Google, используйте инструмент рекомендаций Google.

Пауки поисковых систем

Первое, на что паук поисковой системы, такой как робот Googlebot, обращает внимание при посещении страницы, - это файл robots.txt.

Он делает это, потому что хочет знать, есть ли у него разрешение на доступ к этой странице или файлу. Если в файле robots.txt указано, что он может входить, паук поисковой системы переходит к файлам страниц.

Если у вас есть инструкции для робота поисковой системы, вы должны сообщить ему эти инструкции.Вы делаете это с помощью файла robots.txt. 2

Приоритеты вашего сайта

Есть три важных вещи, которые должен сделать любой веб-мастер, когда дело касается файла robots.txt.

  • Определите, есть ли у вас файл robots.txt
  • Если он у вас есть, убедитесь, что он не вредит вашему рейтингу и не блокирует контент, который вы не хотите блокировать
  • Определите, нужен ли вам файл robots.txt

Определение наличия файла robots.txt

Вы можете ввести веб-сайт ниже, нажать «Перейти», и он определит, есть ли на сайте файл robots.txt, и отобразит то, что написано в этом файле (результаты отображаются здесь, на этой странице) .

Если вы не хотите использовать вышеуказанный инструмент, вы можете проверить его в любом браузере. Файл robots.txt всегда находится в одном и том же месте на любом веб-сайте, поэтому легко определить, есть ли он на сайте. Просто добавьте «/robots.txt» в конец имени домена, как показано ниже.

www.yourwebsite.com/robots.txt

Если у вас есть файл, то это ваш файл robots.txt. Вы либо найдете файл со словами, либо найдете файл без слов, либо вообще не найдете файл.

Определите, блокирует ли ваш robots.txt важные файлы

Вы можете использовать инструмент рекомендаций Google, который предупредит вас, если вы блокируете определенные ресурсы страницы, которые необходимы Google для понимания ваших страниц.

Если у вас есть доступ и разрешение, вы можете использовать консоль поиска Google для тестирования своих роботов.txt файл. Инструкции для этого можно найти здесь (инструмент не общедоступен - требуется логин) .

Чтобы полностью понять, не блокирует ли ваш файл robots.txt что-либо, вы не хотите, чтобы он блокировал, вам необходимо понять, о чем он говорит. Мы рассмотрим это ниже.

Вам нужен файл robots.txt?

Возможно, вам даже не понадобится иметь файл robots.txt на вашем сайте. На самом деле, зачастую он вам не нужен.

Причины, по которым вы можете захотеть иметь robots.txt файл:

  • У вас есть контент, который вы хотите заблокировать для поисковых систем
  • Вы используете платные ссылки или рекламу, требующую специальных инструкций для роботов
  • Вы хотите настроить доступ к своему сайту для надежных роботов
  • Вы разрабатываете действующий сайт, но не хотите, чтобы поисковые системы еще индексировали его
  • Они помогают следовать некоторым рекомендациям Google в определенных ситуациях.
  • Вам нужно частично или полностью из вышеперечисленного, но у вас нет полного доступа к вашему веб-серверу и его настройке

Каждой из вышеперечисленных ситуаций можно управлять другими методами, но не с помощью robots.txt - хорошее центральное место для заботы о них, и у большинства веб-мастеров есть возможность и доступ, необходимые для создания и использования файла robots.txt.

Причины, по которым вы можете не иметь файл robots.txt:

  • Просто и без ошибок
  • У вас нет файлов, которые вы хотите заблокировать для поисковых систем.
  • Вы не попадете ни в одну из перечисленных выше причин, по которым у вас есть файл robots.txt.

Не иметь роботов - это нормально.txt файл.

Если у вас нет файла robots.txt, роботы поисковых систем, такие как Googlebot, будут иметь полный доступ к вашему сайту. Это нормальный и простой метод, который очень распространен.

Как сделать файл robots.txt

Если вы умеете печатать или копировать и вставлять, вы также можете создать файл robots.txt.

Файл представляет собой просто текстовый файл, что означает, что вы можете использовать блокнот или любой другой текстовый редактор для его создания. Вы также можете сделать их в редакторе кода. Вы даже можете «скопировать и вставить» их.

Вместо того чтобы думать: «Я создаю файл robots.txt», просто подумайте: «Я пишу заметку», это в значительной степени один и тот же процесс.

Что должен сказать robots.txt?

Это зависит от того, что вы хотите.

Все инструкции robots.txt приводят к одному из следующих трех результатов

  • Полное разрешение: все содержимое может сканироваться.
  • Полное запрещение: сканирование контента невозможно.
  • Условное разрешение: директивы в файле robots.txt определяют возможность сканирования определенного контента.

Давайте объясним каждый.

Полное разрешение - все содержимое можно сканировать

Большинство людей хотят, чтобы роботы посещали все на их веб-сайтах. Если это так, и вы хотите, чтобы робот индексировал во всех частях вашего сайта есть три варианта, чтобы роботы знали, что им рады.

1) Нет файла robots.txt

Если на вашем сайте нет файла robots.txt, вот что происходит ...

В гости приходит робот вроде Googlebot. Ищет файл robots.txt. Он не находит его, потому что его там нет. Затем робот чувствует бесплатно посещать все ваши веб-страницы и контент, потому что это то, на что он запрограммирован в данной ситуации.

2) Создайте пустой файл и назовите его robots.txt

Если на вашем веб-сайте есть файл robots.txt, в котором ничего нет, то вот что происходит ...

В гости приходит робот вроде Googlebot.Ищет файл robots.txt. Он находит файл и читает его. Читать нечего, поэтому После этого робот может свободно посещать все ваши веб-страницы и контент, потому что именно на это он запрограммирован в данной ситуации.

3) Создайте файл с именем robots.txt и напишите в нем следующие две строки ...

Если на вашем веб-сайте есть файл robots.txt с этими инструкциями, происходит следующее ...

В гости приходит робот вроде Googlebot. Он ищет роботов.txt файл. Он находит файл и читает его. Читает первую строку. Затем это читает вторую строку. Затем робот может свободно посещать все ваши веб-страницы и контент, потому что это то, что вы ему сказали (я объясню это ниже).

Полное запрещение - сканирование содержимого невозможно

Предупреждение. Это означает, что Google и другие поисковые системы не будут индексировать или отображать ваши веб-страницы.

Чтобы заблокировать доступ всех известных "пауков" поисковых систем к вашему сайту, в вашем файле robots.txt:

Не рекомендуется делать это, поскольку это не приведет к индексации ни одной из ваших веб-страниц.

Инструкции robot.txt и их значение

Вот объяснение того, что означают разные слова в файле robots.txt

Пользовательский агент

Часть «User-agent» предназначена для указания направления к конкретному роботу, если это необходимо. Есть два способа использовать это в ваш файл.

Если вы хотите сообщить всем роботам одно и то же, поставьте «*» после «User-agent». Это будет выглядеть так...

Вышеупомянутая строка говорит: «Эти указания применимы ко всем роботам».

Если вы хотите что-то сказать конкретному роботу (в этом примере роботу Google), это будет выглядеть так ...

В строке выше говорится, что «эти указания относятся только к роботу Googlebot».

Запрещено:

Часть «Запретить» предназначена для указания роботам, в какие папки им не следует смотреть. Это означает, что если, например, вы не хотите, чтобы поисковые системы индексировали фотографии на вашем сайте, вы можете поместить эти фотографии в одну папку и исключить ее.

Допустим, вы поместили все эти фотографии в папку под названием «фотографии». Теперь вы хотите запретить поисковым системам индексировать эту папку.

Вот как должен выглядеть ваш файл robots.txt в этом сценарии:

User-agent: *
Disallow: / photos

Две вышеуказанные строки текста в файле robots.txt не позволят роботам посетить папку с фотографиями. "Пользовательский агент *" часть говорит, что «это относится ко всем роботам». В части «Запретить: / фотографии» указано «не посещать и не индексировать папку с моими фотографиями».

Инструкции для робота Googlebot

Робот, который Google использует для индексации своей поисковой системы, называется Googlebot. Он понимает еще несколько инструкций, чем другие роботы.

Помимо «Имя пользователя» и «Запретить» робот Googlebot также использует инструкцию Разрешить.

Разрешить

Инструкции «Разрешить:» позволяют сообщить роботу, что можно видеть файл в папке, которая была «Запрещена». по другим инструкциям. Чтобы проиллюстрировать это, давайте возьмем приведенный выше пример, когда робот не посещает и не индексирует ваши фотографии.Мы поместили все фотографии в одну папку под названием «фотографии» и создали файл robots.txt, который выглядел так ...

User-agent: *
Disallow: / photos

Теперь предположим, что в этой папке есть фотография с именем mycar.jpg, которую вы хотите проиндексировать роботом Googlebot. С Разрешить: инструкции, мы можем сказать Googlebot сделать это, это будет выглядеть так ...

User-agent: *
Disallow: / photos
Allow: /photos/mycar.jpg

Это сообщит роботу Googlebot, что он может посещать mycar.jpg "в папке с фотографиями, хотя в противном случае папка" фото " не входит.

Тестирование файла robots.txt

Чтобы узнать, заблокирована ли отдельная страница файлом robots.txt, вы можете использовать этот технический инструмент SEO, который сообщит вам, блокируются ли файлы, важные для Google, а также отобразит содержимое файла robots.txt.

Ключевые концепции

  • Если вы используете файл robots.txt, убедитесь, что он используется правильно
  • Неправильный robots.txt может заблокировать индексирование вашей страницы роботом Googlebot
  • Убедитесь, что вы не блокируете страницы, необходимые Google для ранжирования ваших страниц.

Патрик Секстон


.

WordPress Руководство Robots.txt - что это такое и как его использовать

Навигация
  • Планы
  • Характеристики
  • Клиенты
  • Связаться с нами
  • Забронировать демо
Авторизоваться Блог Кинста Брайан Джексон, 309 Акции .

Как правильно настроить robots.txt: полное руководство

Если у вас есть веб-сайт с чистым HTML + CSS, то есть вы вручную конвертируете каждую страницу в HTML, не используйте скрипты и базы данных (100-страничный веб-сайт является 100 HTML-файлов на вашем хостинге), пропустите эту статью. На таких сайтах нет необходимости управлять индексированием.

Но у вас нет простого сайта-визитки с парой страниц (хотя такие сайты уже давно созданы на CMS вроде Wordpress / MODx и других), и вы работаете с любой CMS (что означает языки программирования, скрипты, базы данных, и т.п.)) - тогда вам попадутся такие "атрибуты" как:

  • дубликатов страниц;
  • мусорных страниц;
  • страниц низкого качества и многое другое.

Основная проблема заключается в том, что в индекс поисковой системы попадает то, чего там не должно быть, например, страницы, которые не приносят никакой пользы людям и просто забивают поиск.

Существует также такое понятие, как краулинговый бюджет, который представляет собой определенное количество страниц, которые робот может сканировать одновременно.Он определяется для каждого сайта индивидуально. С кучей непокрытого мусора страницы могут индексироваться дольше, потому что у них недостаточно бюджета для сканирования.

.

Руководство для начинающих по вашему Robots.txt

  1. WooRank
  2. Руководства по SEO
  3. Роботы и вы: руководство по robots.txt

Файл robots.txt - это простой текстовый файл, в котором указывается, должен или не должен сканер получать доступ к определенным папкам, подпапкам или страницам, а также к другой информации о вашем сайте.В файле используется стандарт исключения роботов - протокол, установленный в 1994 году для связи веб-сайтов со сканерами и другими ботами. Крайне важно, чтобы вы использовали простой текстовый файл: создание файла robots.txt с использованием HTML или текстового процессора будет включать код, который сканеры поисковых систем будут игнорировать, если они не могут его прочитать.

Как это работает?

Сканеры

- это инструменты, которые анализируют ваши веб-страницы и могут использоваться для выявления проблем. Сканирование сайта WooRank делает это, чтобы помочь веб-мастерам находить и исправлять ошибки сканирования.

Когда владелец сайта хочет дать какие-то указания поисковым роботам, они помещают свой файл robots.txt в корневой каталог своего сайта, например https://www.example.com/robots.txt. Боты, которые следуют этому протоколу, получат и прочитают файл перед загрузкой любого другого файла с сайта. Если на сайте нет файла robots.txt, сканер предположит, что веб-мастер не хотел давать никаких конкретных инструкций, и продолжит сканирование всего сайта.

Robots.txt состоит из двух основных частей: User-agent и директив.

Пользовательский агент

User-agent - это имя паука, к которому обращаются, в то время как строки директив предоставляют инструкции для этого конкретного user-agent. Строка User-agent всегда идет перед строками директив в каждом наборе директив. Самый простой файл robots.txt выглядит так:

  Пользовательский агент: Googlebot Запретить: /  

Эти директивы предписывают роботу-пользователю Googlebot, роботу Google, держаться подальше от всего сервера - он не будет сканировать никакие страницы на сайте.Если вы хотите дать инструкции нескольким роботам, создайте набор директив user-agent и disallow для каждого из них.

  Пользовательский агент: Googlebot Запретить: / Пользовательский агент: Bingbot Запретить: /  

Теперь и пользовательские агенты Google и Bing знают, что нужно избегать сканирования всего сайта. Если вы хотите установить одинаковые требования для всех роботов, вы можете использовать так называемый подстановочный знак, обозначенный звездочкой (*). Итак, если вы хотите разрешить всем роботам сканировать весь ваш сайт, ваш файл robots.txt должен выглядеть так:

  Агент пользователя: * Запретить:  

Стоит отметить, что поисковые системы будут выбирать наиболее конкретные директивы пользовательского агента, которые они могут найти. Так, например, предположим, что у вас есть четыре набора пользовательских агентов: один с использованием подстановочного знака (*), один для робота Googlebot, один для робота Googlebot-News и один для Bingbot, и ваш сайт посещает пользователь Googlebot-Images- агент. Этот бот будет следовать инструкциям для робота Googlebot, поскольку это наиболее конкретный набор директив, которые к нему применяются.

Наиболее распространенные пользовательские агенты поисковых систем:

Пользовательский агент Поисковая система Поле
байдаспайдер Baidu Общие
изображение baiduspider Baidu Изображения
baiduspider-mobile Baidu мобильный
baiduspider-news Baidu Новости
байдуспайдер-видео Baidu Видео
бингбот Bing Общие
msnbot Bing Общие
msnbot-media Bing Изображения и видео
adidxbot Bing Объявления
Googlebot Google Общие
Googlebot-Image Google Изображения
Googlebot-Mobile Google мобильный
Googlebot-News Google Новости
Googlebot-Video Google Видео
Mediapartners-Google Google AdSense
AdsBot-Google Google AdWords
хлеб Yahoo! Общие
яндекс Яндекс Общие

Запретить

Вторая часть роботов.txt - запрещающая строка. Эта директива сообщает паукам, какие страницы им нельзя сканировать. У вас может быть несколько запрещающих строк для каждого набора директив, но только один пользовательский агент.

Не нужно указывать значение для директивы disallow; боты интерпретируют пустое значение запрета как то, что вы ничего не запрещаете, и будут иметь доступ ко всему сайту. Как мы упоминали ранее, если вы хотите запретить доступ ко всему сайту боту (или всем ботам), используйте косую черту (/).

Вы можете получить подробную информацию с помощью директив disallow, указав определенные страницы, каталоги, подкаталоги и типы файлов.Чтобы заблокировать доступ сканеров к определенной странице, используйте относительную ссылку этой страницы в строке запрета:

  Агент пользователя: * Запретить: /directory/page.html  

Аналогично заблокировать доступ ко всем каталогам:

  Агент пользователя: * Запретить: / folder1 / Запретить: / folder2 /  

Вы также можете использовать robots.txt, чтобы заблокировать сканирование ботами определенных типов файлов, используя подстановочный знак и тип файла в строке запрета:

  Агент пользователя: * Запретить: / *.ppt Запретить: /images/*.jpg Запретить: /duplicatecontent/copy*.html  

Хотя протокол robots.txt технически не поддерживает использование подстановочных знаков, боты поисковых систем могут их распознавать и интерпретировать. Таким образом, в приведенных выше директивах робот автоматически расширяет звездочку, чтобы она соответствовала пути имени файла. Например, он сможет определить, что www.example.com/presentations/slideshow.ppt и www.example.com/images/example.jpg запрещены, а www.example.ru / Presentations / slideshowtranscript.html - нет. Третий запрещает сканирование любого файла в каталоге / duplicatecontent /, который начинается с «copy» и заканчивается на «.html». Итак, эти страницы заблокированы:

  • /duplicatecontent/copy.html
  • /duplicatecontent/copy1.html
  • /duplicatecontent/copy2.html
  • /duplicatecontent/copy.html?id=1234

Тем не менее, он не запрещает любые экземпляры «copy.html», хранящиеся в другом каталоге или подкаталоге.

Одна проблема, с которой вы можете столкнуться с вашим файлом robots.txt, заключается в том, что некоторые URL-адреса содержат исключенные шаблоны в URL-адресах, которые мы действительно хотели бы сканировать. Из нашего предыдущего примера Disallow: /images/*.jpg , этот каталог может содержать файл с именем «description-of-.jpg.html». Эта страница не будет сканироваться, потому что она соответствует шаблону исключения. Чтобы решить эту проблему, добавьте символ доллара ($), чтобы обозначить, что он представляет собой конец строки. Это укажет сканерам поисковых систем избегать только файлов, заканчивающихся шаблоном исключения.Итак, Disallow: /images/*.jpg$ блокирует только файлы, оканчивающиеся на «.jpg», но разрешает файлы, содержащие «.jpg» в заголовке.

Разрешить

Иногда может потребоваться исключить все файлы в каталоге, кроме одного. Вы можете сделать это сложным способом, написав запрещающую строку для каждого файла, кроме того, который вы хотите просканировать. Или вы можете использовать директиву Allow. Он работает примерно так, как вы ожидаете: Добавьте строку «Разрешить» в группу директив для пользовательского агента:

  Агент пользователя: * Разрешить: / папка / подпапка / файл.html Запретить: / папка / подпапка /  

Подстановочные знаки и правила сопоставления с образцом работают для директивы Allow так же, как и для Disallow.

Нестандартные директивы

Есть еще несколько директив, которые можно использовать в файле robots.txt, которые не всегда распознаются поисковыми системами. Один из них - это директива Host. Это признано Яндексом, самой популярной поисковой системой в России, и работает как разрешение www. Однако, поскольку кажется, что Яндекс - единственная крупная поисковая система, которая поддерживает директиву Host, мы не рекомендуем ее использовать.Лучший способ справиться с разрешением www - использовать 301 редирект.

Другая директива, поддерживаемая некоторыми поисковыми системами, - это задержка сканирования. Он определяет числовое значение, которое представляет количество секунд - линия задержки сканирования должна иметь вид crawl-delay: 15 . Yahoo !, Bing и Яндекс по-разному используют его. Yahoo! и Bing используют это значение как время ожидания между действиями сканирования, в то время как Яндекс будет использовать его как время ожидания для доступа к вашему сайту. Если у вас большой сайт, вы, вероятно, не захотите использовать эту директиву, поскольку она может серьезно ограничить количество сканируемых страниц.Однако, если у вас мало или совсем нет трафика от этих поисковых систем, вы можете использовать задержку сканирования для экономии полосы пропускания.

Вы также можете установить задержку сканирования для определенных пользовательских агентов. Например, вы можете обнаружить, что ваш сайт часто сканируется средствами SEO, что может замедлить работу вашего сайта. Вы также можете заблокировать их все вместе, если не чувствуете, что они вам помогают.

Наконец, вы можете использовать свой файл robots.txt, чтобы сообщить поисковым системам, где найти карту сайта, добавив строку Sitemap: в любом месте файла.Эта директива не зависит от пользовательского агента, поэтому боты смогут интерпретировать ее, где бы вы ее ни поместили, но лучше всего поместить ее в конце, чтобы упростить себе жизнь. Создайте новую строку карты сайта для каждой карты сайта, которая у вас есть, включая карты сайта изображений и видео или файл индекса карты сайта. Если вы предпочитаете, чтобы местоположение вашей карты сайта было недоступно для всеобщего обозрения, вы можете не указывать это и вместо этого отправлять карты сайта напрямую в поисковые системы.

Узнайте больше о том, как создать и оптимизировать карту сайта XML здесь.

Почему вы хотите?

Если весь смысл SEO заключается в том, чтобы сканировать, индексировать и ранжировать ваш сайт в результатах поиска, зачем вам вообще исключать файлы с вашего сайта? Есть несколько причин, по которым вы хотите заблокировать доступ ботов к разделам вашего сайта:

  • У вас есть личные папки, подпапки или файлы на вашем сайте - просто имейте в виду, что любой может прочитать ваш файл robots.txt, поэтому выделение местоположения частного файла с помощью директивы disallow откроет его миру.

  • Блокируя менее важные страницы на своем сайте, вы устанавливаете приоритет бюджета сканирования ботов. Это означает, что они будут тратить больше времени на сканирование и индексирование ваших самых важных страниц.

  • Если вы получаете большой трафик от других сканеров, не являющихся поисковыми системами (например, инструментов SEO), сэкономьте полосу пропускания, запретив их пользовательские агенты.

Вы также можете использовать robots.txt, чтобы поисковые системы не индексировали дублированный контент. Если вы используете параметры URL, которые приводят к тому, что ваш сайт содержит одно и то же содержимое на нескольких страницах, используйте подстановочные знаки, чтобы исключить эти URL:

  Агент пользователя: * Disallow: / *?  

Это предотвратит доступ сканеров к любым страницам с вопросительными знаками в URL-адресе, что часто является способом добавления параметров.Это особенно полезно для сайтов электронной коммерции, которые заканчиваются множеством параметров URL-адресов, вызывающих массу дублированного контента из-за фильтрации и сортировки продуктов.

Лучше всего заблокировать доступ к вашему сайту при изменении дизайна или миграции, о чем мы подробно говорили ранее. Заблокируйте доступ ко всему новому сайту, чтобы он не ассоциировался с дублирующимся контентом, что помешает его ранжированию в будущем.

Распространенные проблемы с файлом robots.txt и способы их устранения

Чтобы проверить, есть ли у вас проблемы с robots.txt, откройте Google Search Console. Проверьте отчет "Статистика сканирования", чтобы увидеть, не сильно ли снизилось количество страниц, сканированных за день; это может указывать на проблему с вашим файлом robots.txt.

Возможно, самая большая проблема с файлами robots.txt - это случайный запрет страниц, которые вы действительно хотите сканировать. Эту информацию можно найти в отчете об ошибках сканирования GSC. Найдите страницы, которые возвращают код ответа 500. Этот код часто возвращается для страниц, заблокированных файлом robots.txt.

Проверьте все URL-адреса, которые возвращают код ошибки 500, на соответствие директивам disallow в файле robots.txt.

Некоторые другие распространенные проблемы с файлами robots.txt:

  • Случайное добавление косой черты в конце имен файлов. Даже если ваш канонический URL-адрес может содержать завершающую косую черту, добавление его в конец строки в robots.txt приведет к тому, что боты будут интерпретировать его как каталог, а не файл, блокируя каждую страницу в папке.Дважды проверьте запрещенные строки на предмет наличия в конце косой черты, которой не должно быть.

  • Блокировка ресурсов, таких как коды CSS и JavaScript, с помощью файла robots.txt. Однако это повлияет на то, как поисковые системы будут видеть вашу страницу. Некоторое время назад Google заявил, что запрет на использование CSS и Javascript будет засчитываться против вашего SEO. Google может читать ваш код CSS и JS и использовать его, чтобы делать выводы о вашем сайте. Когда он видит такие заблокированные ресурсы, он не может правильно отобразить вашу страницу, что помешает вам достичь такого высокого рейтинга, как в противном случае.

  • Использование более одной директивы User-agent в строке. Поисковые системы игнорируют директивы, содержащие более одного пользовательского агента в строке, что может привести к неправильному сканированию вашего сайта.

  • Неправильное использование заглавных букв в именах каталогов, подкаталогов и файлов. Хотя фактические директивы, используемые в robots.txt, не чувствительны к регистру, их значения. Итак, поисковые системы видят Disallow: page.html , Disallow: Page.html и Disallow: page.HTML в виде трех отдельных файлов. Если ваш файл robots.txt включает директивы для «Page.html», но ваш канонический URL-адрес написан только в нижнем регистре, эта страница будет просканирована.

  • Использование директивы noindex. Ни Google, ни Bing не поддерживают использование noindex в файлах robots.txt.

  • Противоречие вашей карте сайта в файле robots.txt. Это наиболее вероятно, если вы используете разные инструменты для создания файлов Sitemap и robots.txt. Противоречие самому себе перед поисковиками - всегда плохая идея.К счастью, это довольно легко найти и исправить. Отправьте и просканируйте карту сайта через GSC. Он предоставит вам список ошибок, который затем вы сможете проверить в файле robots.txt, чтобы убедиться, что вы исключили его из него.

  • Запрещение страниц в вашем файле robots.txt, которые используют метатег noindex. Сканеры, которым заблокирован доступ к странице, не смогут увидеть тег noindex, который может привести к тому, что ваша страница появится в результатах поиска, если на нее есть ссылка с другой страницы.

Также часто возникают проблемы с синтаксисом robots.txt, особенно если у вас нет большого технического образования. Одно из решений - попросить кого-нибудь, кто знаком с протоколом роботов, просмотреть ваш файл на предмет синтаксических ошибок. Другой и, возможно, лучший вариант - пойти прямо в Google для тестирования. Откройте тестер в Google Search Console, вставьте файл robots.txt и нажмите «Тест». Что действительно удобно, так это то, что он не только найдет ошибки в вашем файле, но и вы сможете увидеть, запрещаете ли вы страницы, проиндексированные Google.

При создании или изменении файла robots.txt вы действительно должны тщательно протестировать его с помощью этого инструмента. Добавление файла robots.txt с ошибками может серьезно повлиять на способность вашего сайта сканироваться и индексироваться, что может привести к его выпадению из результатов поиска. Вы даже можете заблокировать весь свой сайт от появления в результатах поиска!

Правильно ли реализован ваш файл robots.txt? Проведите аудит своего сайта с помощью WooRank, чтобы убедиться, что вы оптимизированы по более чем 70 критериям, в том числе по страницам, техническим и местным факторам.

.

Смотрите также

Поделиться в соц. сетях

Опубликовать в Facebook
Опубликовать в Одноклассники
Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий