Как закрыть от индексирования сайт


Как закрыть сайт или его страницы от индексации: подробная инструкция

Что нужно закрывать от индексации

Важно, чтобы в поисковой выдаче были исключительно целевые страницы, соответствующие запросам пользователей. Поэтому от индексации в обязательном порядке нужно закрывать:

1. Бесполезные для посетителей страницы. В зависимости от CMS, это могут быть:

  • страницы административной части сайта;
  • страницы с личной информацией пользователей, например, страницы аккаунтов в блогах и на форумах;
  • дубли страниц;
  • формы регистрации, заказа, страницу корзины;
  • страницы с неактуальной информацией;
  • версии страниц для печати;
  • RSS-ленту;
  • медиа-контент;
  • страницы поиска и т.д.

2. Страницы с нерелевантным контентом на сайте, который находится в процессе разработки.

3. Страницы с информацией, предназначенной для определенного круга лиц, например, корпоративные ресурсы для взаимодействий между сотрудниками одной компании.

4. Сайты-аффилиаты.

Если вы закроете эти страницы, процесс индексации других, наиболее важных для продвижения страниц сайта ускорится.

    Способы закрытия сайта от индексации

    Закрыть сайт или страницы сайта от поисковых краулеров можно следующими способами:

    1. С помощью файла robots.txt и специальных директив.
    2. Добавив метатеги в HTML-код отдельной страницы.
    3. С помощью специального кода, который нужно добавить в файл .htaccess.
    4. Воспользовавшись специальными плагинами (если сайт сделан на популярной CMS).

    Далее рассмотрим каждый из этих способов.

    С помощью robots.txt

    Robots.txt — текстовый файл, который поисковые краулеры посещают в первую очередь. Здесь для них прописываются указания — так называемые директивы.

    Этот файл должен соответствовать следующим требованиям:

    • название файла прописано в нижнем регистре,
    • он имеет формат .txt,
    • его размер не превышает 500 КБ,
    • находится в корне сайте;
    • файл доступен по адресу URL сайта/robots.txt, а при его запросе сервер отправляет в ответ код 200 ОК.

    В robots.txt прописываются такие директивы:

    • User-agent. Показывает, для каких именно роботов предназначены директивы.
    • Disallow. Указывает роботу на то, что некоторое действие (например, индексация) запрещено.
    • Allow. Напротив, разрешает совершать действие.
    • Sitemap. Указывает на прямой URL-адрес карты сайта.
    • Clean-param. Помогает роботу Яндекса правильно определять страницу для индексации.
    • Crawl-delay. Позволяет задать роботу Яндекса диапазон времени между окончание загрузки одной страницы и началом загрузки другой. Измеряется в секундах.
    Имейте в виду: поскольку информация в файле robots.txt — это скорее указания или рекомендации, нежели строгие правила, некоторые системы могут их игнорировать. В таком случае в индекс попадут все страницы вашего сайта.
    Полный запрет сайта на индексацию в robots.txt

    Вы можете запретить индексировать сайт как всем роботам поисковой системы, так и отдельно взятым. Например, чтобы закрыть весь сайт от робота Яндекса, который сканирует изображения, нужно прописать в файле следующее:

    User-agent: YandexImages 
 Disallow: / 

    Чтобы закрыть для всех роботов:

    User-agent: * 
 Disallow: / 

    Чтобы закрыть для всех, кроме указанного:

    User-agent: * 
 Disallow: / 
 User-agent: Yandex 
 Allow: / 

    В данном случае, как видите, индексация доступна для роботов Яндекса.

    Запрет на индексацию отдельных страниц и разделов сайта

    Для запрета на индексацию одной страницы достаточно прописать ее URL-адрес (домен не указывается) в директиве файла:

    User-agent: *
 Disallow: /registration.html

    Чтобы закрыть раздел или категорию:

    User-agent: *
 Disallow: /category/ 

    Чтобы закрыть все, кроме указанной категории:

    User-agent: *
 Disallow: /
 Allow: /category

    Чтобы закрыть все категории, кроме указанной подкатегории:

    User-agent: *
 Disallow: /uslugi
 Allow: /uslugi/main 

    В качестве подкатегории здесь выступает "main".

    Запрет на индексацию прочих данных

    Чтобы скрыть директории, в файле нужно указать:

    User-agent: *
 Disallow: /portfolio/ 

    Чтобы скрыть всю директорию, за исключением указанного файла:

    User-agent: *
 Disallow: /portfolio/
 Allow: avatar.png 

    Чтобы скрыть UTM-метки:

    User-agent: *
 Disallow: *utm= 

    Чтобы скрыть скриптовые файлы, нужно указать следующее:

    
 User-agent: * 
 Disallow: /scripts/*.ajax
 

    По такому же принципу скрываются файлы определенного формата:

    User-agent: *
 Disallow: /*.png

    Вместо .png подставьте любой другой формат.

    Запрет на индексацию через HTML-код

    Кроме файла robots.txt, запретить индексировать страницу можно с помощью мета-тегов в блоке <head> в HTML-коде.

    Директивы:

    • Noindex – контент страницы, кроме ссылок, закрыт от индексации.
    • Nofollow – контент сканировать разрешается, но ссылки не индексируются.
    • Index – индексирование содержимого разрешено.
    • Follow – ссылки индексировать разрешено.
    • All – все содержимое страницы подлежит индексации.

    Разрешается открывать/закрывать индексацию для отдельно взятого поисковика:

    • Yandex – обозначает всех роботов Яндекса.
    • Googlebot – аналогично для Google.
    Также есть тег meta refresh, страницы на которых он расположен поисковая система Google, как правило не индексирует. Но закрывать страницы с помощью него неправильно.

    Пример мета-тега, который запрещает индексировать страницу, на которой он размещен:

    <html>
 <head>
 <meta name="robots" content="noindex, nofollow" />
 </head>
 <body>...</body>
 </html>

    Директивы для определенных роботов:

    Для краулера Google:
 <meta name="googlebot" content="noindex, nofollow"/>
 Для Яндекса:
 <meta name="yandex" content="none"/>

    Запрет на уровне сервера

    Бывают ситуации, когда поисковики не реагируют на прочие запреты и продолжают индексировать закрытые данные. В таком случае, рекомендуется попробовать ограничить посещение отдельных краулеров на уровне сервера. Делается это следующим кодом, который следует добавить в файл .htaccess (находится в корневой папке сайта):

    SetEnvIfNoCase User-Agent "^Googlebot" search_bot # для Google
 SetEnvIfNoCase User-Agent "^Yandex" search_bot # для Яндекса

    Закрытие сайта от индексации на Wordpress

    В готовых CMS для сайтов присутствуют страницы, и даже целые директории, попадание в индекс которых крайне нежелательно. Этот нюанс также относится к популярнейшей CMS Wordpress.

    Весь сайт через админку

    Закрыть весь сайт от краулеров можно через админку: «Настройки – Чтение». Отметить пункт «Попросить поисковые системы не индексировать сайт», после чего система сама отредактирует robots.txt нужным образом.


    Закрытие сайта через панель в WordPress «Настройки – Чтение»

    Отдельные страницы с помощью плагина Yoast SEO

    Установив и активировав плагин Yoast SEO, можно закрыть от индексации как весь ресурс, так и отдельно взятые страницы или записи. Сам плагин является мощным комбайном, помогающим в SEO-продвижении сайта.

    Для того, чтобы запретить поисковым ботам индексировать определенную страницу или запись:

    • Открываем ее для редактирования и пролистываем вниз до окна плагина.
    • На вкладке «Дополнительно» настраиваются режимы индексации (полный ее запрет, закрытие всех ссылок – nofollow).


    Закрытие от индексации с помощью плагина Yoast SEO


    Настройка индексации через Yoast SEO

    Запретить индексировать отдельные страницы или директории для Wordpress можно также через файл robots.txt. Применяются аналогичные директивы, перечисленные выше. Хочется отметить, что готовые CMS системы требуют отдельного подхода к редактированию robots.txt, т.к. в этом случае требуется закрывать различные служебные директории: страницы рассылок, админки, шаблоны и многое другое. Если этого не сделать, то в поисковой выдаче могут появиться нежелательные материалы, а это негативно отразится на ранжировании всего сайта.

    Как узнать, закрыт ли сайт от индексации?

    Чтобы проверить закрыт ли сайт или отдельная страница от индексации существует множество способов, рассмотрим самые простые и удобные из них.

    Через Яндекс.Вебмастер

    Для проверки возможности индексации страницы, необходимо пройти верификацию в Яндексе, зайти в Вебмастер, в правом верхнем углу найти «Инструменты - Проверка ответа сервера».


    Проверка индексации страницы через Яндекс.Вебмастер

    На открывшейся странице вставляем URL интересующей страницы. Если страница не допущена к индексации, то появится соответствующее уведомление.


    Пример уведомления о запрете индексации страницы

    Таким образом можно проверить корректность работы robots.txt или плагинов для CMS.

    Через Google Search Console

    Зайдите в Google Search Console, выберите «Проверка URL» и вставьте адрес вашего сайта или отдельной страницы.


    Проверка индексации через Google Search Console

    С помощью операторов в поисковике

    Если сайт проиндексирован Яндексом, то вбив в его поисковую строку специальный оператор + URL интересующего сайта/страницы, можно понять проиндексирован он или нет (для сайта отобразится количество проиндексированных страниц).


    Проверка индексации сайта в Яндексе с помощью специального оператора


    Проверка индексации отдельной страницы

    С помощью такого же оператора проверяем индексацию в Google. 

    Плагины для браузера

    Отличным плагином для проверки индексации страницы в поисковиках, является RDS-bar. Он показывает множество SEO показателей сайта, в том числе статус индексации текущей страницы в основных поисковиках.


    Плагин RDS-bar

    Итак, мы рассмотрели основные ситуации, когда сайт или его отдельные страницы должны быть закрыты от индексации, рассказали как это сделать и проверить, надеемся наша статья была вам полезной.

    Отключить индексацию поисковой системой | Webflow University

    Запретить поисковым системам индексировать страницы, папки, весь ваш сайт или только ваш субдомен webflow.io.

    В этом видео используется старый интерфейс. Скоро выйдет обновленная версия!

    В этом видео используется старый интерфейс. Скоро выйдет обновленная версия!

    Вы можете указать поисковым системам, какие страницы сканировать, а какие не сканировать на вашем сайте, написав файл robots.txt. Вы можете предотвратить сканирование страниц, папок, всего вашего сайта.Или просто отключите индексацию своего поддомена webflow.io. Это полезно, чтобы скрыть такие страницы, как ваша страница 404, от индексации и включения в результаты поиска.

    В этом уроке

    Отключение индексации субдомена Webflow

    Вы можете запретить Google и другим поисковым системам индексировать субдомен webflow.io, просто отключив индексирование в настройках вашего проекта.

    1. Перейдите в Настройки проекта → SEO → Индексирование
    2. Установите Отключить индексирование поддоменов на «Да»
    3. Сохраните изменения и опубликуйте свой сайт

    Уникальный robots.txt будет опубликовано только на поддомене, указав поисковым системам игнорировать домен.

    Создание файла robots.txt

    Файл robots.txt обычно используется для перечисления URL-адресов на сайте, которые вы не хотите, чтобы поисковые системы сканировали. Вы также можете включить карту сайта своего сайта в файл robots.txt, чтобы сообщить сканерам поисковых систем, какой контент они должны сканировать .

    Как и карта сайта, файл robots.txt находится в каталоге верхнего уровня вашего домена.Webflow сгенерирует файл /robots.txt для вашего сайта, как только вы заполните его в настройках своего проекта.

    1. Перейдите в Настройки проекта → SEO → Индексирование
    2. Добавьте нужные правила robots.txt (см. Ниже)
    3. Сохраните изменения и опубликуйте свой сайт
    Создайте Файл robots.txt для вашего сайта, добавив правила для роботов, сохранив изменения и опубликовав свой сайт.

    Robots.txt rules

    Вы можете использовать любое из этих правил для заполнения роботов.txt файл.

    • User-agent: * означает, что этот раздел применим ко всем роботам.
    • Disallow: запрещает роботу посещать сайт, страницу или папку.
    Чтобы скрыть весь сайт

    User-agent: *
    Disallow: /

    Чтобы скрыть отдельные страницы

    User-agent: *
    Disallow: / page-name

    Чтобы скрыть всю папку страниц

    User-agent: *
    Disallow: / folder-name /

    Чтобы включить карту сайта

    Sitemap: https: // your-site.com / sitemap.xml

    Полезные ресурсы

    Ознакомьтесь с другими полезными правилами robots.txt

    Необходимо знать
    • Содержимое вашего сайта может индексироваться, даже если оно не было просканировано. Это происходит, когда поисковая система знает о вашем контенте либо потому, что он был опубликован ранее, либо есть ссылка на этот контент в другом контенте в Интернете. Чтобы страница не проиндексировалась, не добавляйте ее в robots.txt. Вместо этого используйте метакод noindex.
    • Кто угодно может получить доступ к robots вашего сайта.txt, чтобы они могли идентифицировать ваш личный контент и получить к нему доступ.
    Лучшие практики

    Если вы не хотите, чтобы кто-либо мог найти определенную страницу или URL на вашем сайте, не используйте файл robots.txt, чтобы запретить сканирование URL. Вместо этого используйте любой из следующих вариантов:

    Попробуйте Webflow - это бесплатно

    .

    html - Как запретить поисковым системам индексировать одну страницу моего сайта?

    Переполнение стека
    1. Около
    2. Товары
    3. Для команд
    1. Переполнение стека Общественные вопросы и ответы
    2. Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
    3. Вакансии Программирование и связанные с ним технические возможности карьерного роста
    4. Талант Нанимайте технических специалистов и создавайте свой бренд работодателя
    .

    Изменений для предотвращения индексации сайтов поисковыми системами. - Сделайте WordPress Core

    В WordPress 5.3 метод, используемый для предотвращения индексации, будет изменен на сайтах, включив опцию «препятствовать индексированию этого сайта поисковыми системами» на панели управления WordPress. Эти изменения были внесены как часть заявки, созданной как для отчетов об ошибках, так и для разработки функций в системе отслеживания ошибок. # 43590.

    Эти изменения предназначены для того, чтобы лучше препятствовать поисковым системам перечислять сайт, а не только предотвращать сканирование сайта.

    Файл robots.txt изменен.

    В предыдущих версиях WordPress Disallow: / был добавлен в файл robots.txt для предотвращения сканирования сайта поисковыми системами. Это было удалено для закрытых веб-сайтов в WordPress 5.3.

    Как пишет Йуст де Валк в объяснении исключения из поисковых систем, запрет сканирования может привести к разрешению индексации сайта:

    Чтобы сайт был в списке, его не нужно [сканировать].Если ссылка указывает на страницу, домен или другое место, Google перейдет по этой ссылке. Если файл robots.txt в этом домене предотвращает [сканирование] этой страницы поисковой системой, он все равно будет показывать URL. Определенный веб-адрес веб-сайта или веб-страницы в Интернете, например URL-адрес веб-сайта www.wordpress. org в результатах, если он сможет собрать… на это стоит взглянуть.

    Мета Мета - это термин, относящийся к внутренней работе группы. Для нас это команда, которая работает над внутренними сайтами WordPress, такими как WordCamp Central и Make WordPress.tag Каталог в Subversion. WordPress использует теги для хранения одного снимка версии (3.6, 3.6.1 и т. Д.), Что является обычным условием использования тегов в системах контроля версий. (Не путать с тегами постов.) Изменения.

    Сайты с включенной опцией «препятствовать индексированию этого сайта поисковыми системами» будут отображать обновленный метатег robots, чтобы сайт не отображался в поисковых системах: .

    Этот метатег запрашивает у поисковых систем исключение страницы из индексации и препятствует дальнейшему сканированию сайта.

    Исключение серверов разработки из поисковых систем.

    Самый эффективный метод исключения сайтов разработки из индексации поисковыми системами - это включить HTTP. HTTP - это аббревиатура от Hyper Text Transfer Protocol. HTTP - это базовый протокол, используемый Всемирной паутиной, и этот протокол определяет, как сообщения форматируются и передаются, и какие действия веб-серверы и браузеры должны выполнять в ответ на различные команды. Заголовок Заголовок вашего сайта - это обычно первое, с чем сталкиваются люди.Заголовок или заголовок, расположенный в верхней части страницы, является частью внешнего вида вашего веб-сайта. Это может повлиять на мнение посетителей о вашем контенте и о бренде вашей организации. Он также может выглядеть по-разному на экранах разных размеров. X-Robots-Tag: noindex, nofollow при обслуживании всех ресурсов вашего сайта: изображений, PDF-файлов, видео и других ресурсов.

    Как большинство языков разметки гипертекста, отличных от HTML. Язык семантических сценариев, который в основном используется для вывода контента в веб-браузерах.ресурсы обслуживаются непосредственно веб-сервером на сайте WordPress, ядро ​​Core - это набор программного обеспечения, необходимого для работы WordPress. Основная команда разработчиков создает WordPress. программное обеспечение не может установить этот заголовок HTTP. Вам следует проконсультироваться с документацией вашего веб-сервера или вашего хоста, чтобы убедиться, что эти ресурсы исключены на сайтах разработки.

    # 5-3, # dev-notes

    .

    staging - Могу ли я запретить поисковым системам индексировать весь каталог на моем веб-сайте?

    Переполнение стека
    1. Около
    2. Товары
    3. Для команд
    1. Переполнение стека Общественные вопросы и ответы
    2. Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
    .

    Смотрите также

    Поделиться в соц. сетях

    Опубликовать в Facebook
    Опубликовать в Одноклассники
Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий