Как проверить дубли страниц на сайте


как найти и удалить дубли страниц

Автор Алексей На чтение 7 мин. Просмотров 246 Опубликовано Обновлено

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства.

Что такое дубли страниц?

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Дубли:

  • с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.
  • со слешем в конце, например, site.ru/seo/ и site.ru/seo
  • с .php или .html в конце, site.ru/seo.html и site.ru/seo.php

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Какими бывают дубликаты?

Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют: 

  • Полные дубли — когда одна и та же страница размещена по 2-м и более адресам. 
  • Частичные дубли — когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Влияние дублей на продвижение сайта

  • Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Как найти дубли страниц

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/. Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.

Программа Netpeak Spider (платная с триалом)

Ссылка на программу Netpeak Spider. Еще один программный сканер для анализа ссылок сайта с подробным отчетом.

Яндекс Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

 

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске > Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и метаописания. Вероятнее всего это дубли (частичные или полные).

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google и Yandex) и поискать дубли «глазами».

Сервисы онлайн

Есть сервисы, который проверяют дубли страниц на сайте онлайн. Например, сервис Siteliner.com (http://www.siteliner.com/). На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Удаление дублей страниц сайта

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:

  1. Их физическому удалению — хорошее решение для статических дублей.
  2. Запрещению индексации дублей в файле robots.txt — подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
  3. Настройке 301 редиректов в файле-конфигураторе «.htaccess» — хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
  4. Установке тега «rel=canonical» — лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.
  5. Установке тега «meta name=”robots” content=”noindex, nofollow”» — решение для печатных версий, табов с отзывами на товарах.

Чек-лист по дублям страниц

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Запомните следующее:

  1. Полные дубли — это когда одна и та же страница размещена по 2-м и более адресам. Частичные дубли — это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
  2. Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.
  3. Полные дубликаты не трудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.
  4. Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.
  5. Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.
  6. Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name=”robots” content=”noindex, nofollow”».

 

Как проверить дублированный контент: обзор и инструменты

Вы, наверное, знаете, что ваш сайт всегда должен содержать оригинальный контент. Если ваш сайт содержит дублированный контент, это огромная ошибка, которая может навредить вашему рейтингу и репутации. Плагиат или выдача чужой работы за свою без разрешения недопустимы как в Интернете, так и в автономном режиме. За дублированный контент вы можете быть оштрафованы Google, понизив рейтинг вашей страницы или полностью исключив вашу веб-страницу из результатов поиска.Это вообще противоречит цели публикации контента.

Другая возможность, которую вы должны принять во внимание, - это то, что другие могут дублировать контент на вашем сайте и пытаться использовать его без вашего разрешения. Эти недобросовестные маркетологи могут откровенно использовать контент, созданный вами на их веб-сайтах, даже не спрашивая вас и не сообщая вам об этом, и в конечном итоге они могут превзойти вас в рейтинге поисковых систем.

Как определяется повторяющийся контент?

Дублированный контент - это контент, который появляется более чем в одном месте в Интернете, то есть на разных веб-сайтах.Если вы публикуете свой собственный контент более чем в одном месте, у вас будет дублированный контент. Если вы копируете чужой контент на свой сайт или они публикуют ваш контент на своем сайте, это дублированный контент.

Поисковым системам может быть трудно определить, какой контент более релевантен запросу в поисковой системе, когда контент слишком похож. Цель поисковых систем - предоставить пользователям наилучшие возможные результаты при поиске определенного термина. Google и другие поисковые системы могут исключить повторяющийся контент из своих поисковых запросов.

Некоторые причины дублирования содержимого

Во многих случаях использование дублированного содержимого не является преднамеренным или преднамеренным. Google обращается к дублированному контенту как к блокам текста, которые идентичны или существенно похожи внутри или между доменами. Примеры не вредоносного дублированного контента включают описания товаров в магазине и версии веб-страниц только для печати.

Умышленное дублирование контента - другое дело. Когда один и тот же контент используется в нескольких доменах в попытке увеличить трафик или манипулировать рейтингом в поисковых системах, это может расстраивать людей, которые пытаются искать информацию и в конечном итоге получают один и тот же контент в нескольких местах.Вот почему поисковые системы делают все возможное, чтобы воспрепятствовать этой практике.

Бесплатные инструменты для проверки дублированного контента

При написании контента вы можете непреднамеренно сделать его слишком похожим на уже опубликованный контент. Всегда полезно дважды проверять все, что вы пишете, с помощью средств проверки на плагиат, чтобы убедиться, что ваш контент рассматривается как уникальный. Некоторые из этих инструментов доступны бесплатно.

Вот несколько хороших бесплатных инструментов, которые можно использовать для проверки дублированного контента:

Copyscape - этот инструмент может быстро проверить контент, который вы написали, относительно уже опубликованного контента за считанные секунды.Инструмент сравнения выделит контент, который отображается как повторяющийся, и сообщит вам, какой процент вашего контента соответствует уже опубликованному контенту.

Plagspotter - этот инструмент может определять повторяющиеся страницы контента в Интернете. Это отличный инструмент для поиска плагиатов, укравших ваш контент. Это также позволяет вам еженедельно автоматически отслеживать ваши URL-адреса для выявления дублирующегося контента.

Duplichecker - Этот инструмент быстро проверяет оригинальность контента, который вы планируете разместить на своем сайте.Зарегистрированные пользователи могут выполнять до 50 поисков в день.

Siteliner - это отличный инструмент, который может проверять весь ваш сайт один раз в месяц на наличие дублированного контента. Он также может проверять неработающие ссылки и определять страницы, наиболее заметные для поисковых систем.

Smallseotools - Доступны различные инструменты SEO, в том числе средство проверки на плагиат, которое определяет фрагменты идентичного контента.

И если хотите копнуть глубже, эти ссылки также предлагают больше инструментов по доступной цене.

Премиум-инструменты для проверки на плагиат

Премиум-программы для проверки на плагиат имеют возможность проверять дублированный контент с помощью передовых алгоритмов. Они дают вам уверенность в том, что ваша работа не будет приписана тому, кто ее не писал.

Премиум-инструменты для борьбы с плагиатом обычно предлагают отчеты, которые могут подтвердить подлинность. Будущие выводы о том, что ваша работа не является оригинальной, могут противоречить этим отчетам, которые можно сохранить в формате PDF.

Примеры дополнительных инструментов для проверки дублированного контента:

Grammarly - их премиальный инструмент предлагает как средство проверки на плагиат, так и проверку грамматики, выбора слов и структуры предложения.

Plagium - Предлагает бесплатный быстрый поиск или расширенный глубокий поиск.

Plagiarismcheck.org - обнаруживает точные совпадения и перефразированный текст.

Ваш контент был очищен?

Содержимое вашего веб-сайта должно быть полностью оригинальным, и указанные выше инструменты могут помочь вам убедиться, что вы случайно не сделали свой контент слишком похожим на контент, который появляется на чужом веб-сайте.

Другая причина постоянно проверять дублирующийся контент - это веб-сайты, которые намеренно крадут контент из чужого блога, чтобы использовать его самостоятельно. Обычно это делается с помощью автоматизированного программного обеспечения. Если у вас есть привычка проверять контент на своем собственном сайте, вы можете обнаружить, что часть его была очищена. Как можно ловить парсеры контента? Что делать, если вы обнаружите, что ваш контент дословно опубликован на чужом сайте?

Способы обнаружения парсеров контента

Регулярное использование премиальных инструментов для борьбы с плагиатом может помочь вам найти контент, который вы написали на чужом сайте.Есть еще несколько способов отловить скопированный контент.

Обратные ссылки в Wordpress могут отображаться в спаме, если вы используете Askimet. Если в вашем контенте всегда есть ссылки на некоторые из ваших постов, вы сможете найти парсеры контента таким образом.

Воспользуйтесь инструментами для веб-мастеров и проверьте ссылки на свой сайт. Когда у вас есть большое количество ссылок с определенного сайта, вы можете обнаружить, что часть вашего контента была скопирована на их. Единственный способ быть уверенным - это посетить их сайт и проверить, какие страницы ссылаются на ваш сайт.Вы можете найти свой собственный контент на их сайте.

Используйте Google Alerts, чтобы получать уведомления, если какие-либо заголовки ваших сообщений появляются в сети после того, как ваш контент уже был опубликован.

Чем больше вы зарекомендуете себя в качестве авторитета в своей нише, тем больше вы можете обнаружить, что те, кто еще не установил свой собственный голос или авторитет, хотят позаимствовать ваш. Это позволяет им предоставлять авторитетную информацию в своем блоге, не прилагая усилий для создания качественного контента.

Что делать со скребками содержимого

Очистка содержимого неэтична. Как только вы обнаружите, что ваш контент был очищен, у вас есть несколько вариантов того, что вам следует делать.

Свяжитесь с владельцем веб-сайта, на котором опубликовано ваше содержимое, и сообщите ему, что вы нашли свое содержимое на его сайте. Владелец сайта может не знать, что на его сайт был добавлен украденный контент, поэтому дайте ему возможность сомневаться. Вы можете связаться с ними через их контактную форму или через любую из социальных сетей, в которых они участвуют.

Если это качественный сайт, дайте им возможность поддерживать содержание в актуальном состоянии, указав вас как автора и ссылку на ваш сайт. Другой вариант - предложить написать исправленную статью в обмен на ссылку. Если это некачественный сайт, сообщите им, что вы хотите, чтобы ваш контент был немедленно удален.

Если нет очевидного способа связаться с владельцем веб-сайта, выполните поиск Whois. Это, вероятно, позволит вам узнать, кто они, если только он не зарегистрирован в частном порядке. Если вы все еще не можете узнать, кто является владельцем сайта, вы сможете узнать, кто его размещает, с помощью бесплатного инструмента Whoishostingthis.com. Свяжитесь с хостинговой компанией и сообщите им, что владелец веб-сайта публикует контент, защищенный авторским правом. Компании, предоставляющие услуги веб-хостинга, серьезно относятся к подобным жалобам и своевременно предлагают помощь.

Защита контента с помощью DMCA

Вы обладаете авторскими правами на любой исходный контент, который вы публикуете на своем сайте. Один из способов защитить себя - разместить на своем сайте значок DMCA. DMCA гласит, что они будут удалять бесплатно, если ваш контент будет украден, будучи защищенным одним из их значков.

DMCA помогает сдерживать воров и предлагает инструменты, которые помогут вам найти несанкционированные копии вашего контента на чужом сайте. Они быстро удалят плагиат, включая изображения и видео.

Заключительные мысли о повторяющемся содержании

Люди, которые выходят в Интернет для получения информации, ожидают найти оригинальный и полезный контент, и именно это они должны быть в состоянии найти. По возможности следует избегать дублирования контента. Контент должен быть хорошо написан и уникален, чтобы у читателей был лучший опыт работы в сети.

Изучите инструменты и технологии, необходимые для решения задач завтрашнего дня, с дипломом Professional в области цифрового маркетинга . Загрузите брошюру сегодня!

.

7 способов избавиться от этого

Часто в дискуссионных сообществах по SEO вы сталкиваетесь с вопросами от веб-мастеров, которые спрашивают: «Если я сделаю XYZ, это вызовет штраф за дублированный контент?» Распространенное заблуждение с тех пор, как Google выпустила обновление Panda, заключается в том, что существует штраф за дублирование контента и вы рискуете удалить свой сайт из индекса Google, если на разных страницах вашего сайта будет одинаковое содержание. В какой-то момент во время создания контента вашего сайта вы могли подумать о дублировании контента; использование одних и тех же изображений несколько раз на сайте или, если это сайт электронной коммерции, беспокойство о том, что страницы категорий появляются в нескольких URL с одним и тем же продуктом и описанием, или что ваши статьи дословно синдицируются на другом места.Итак, сколько и о чем вам действительно нужно беспокоиться с точки зрения дублирования контента? Начнем с основ.

Если вы не будете осторожны, вы можете непреднамеренно опубликовать дублированный контент несколькими способами:

Хорошая новость в том, что есть некоторые методы на странице, которые можно использовать для избавления от дублированного контента на своем сайте. Они известны как rel = "canonical", hreflang и rel = "prev" / rel = "next" (разбиение на страницы).

Что такое дублированный контент?

Любой контент, идентичный другому контенту, существующему на том же или другом веб-сайте.

Примеры:

  • Содержимое вашего блога скопировано (скопировано) на другой веб-сайт.
  • Если на вашей домашней странице несколько URL-адресов, обслуживающих одно и то же содержимое, например: http://yoursite.com , http://www.yoursite.com и http://www.yoursite.com/index .htm .
  • Страницы, которые были дублированы из-за идентификаторов сеанса и параметров URL, например http://yoursite.com/product и http://yoursite.com/product?sessionid=5486481 .
  • Страницы, на которых есть параметры сортировки по времени, дате, цвету или другим критериям сортировки, могут создавать повторяющиеся страницы, например http://yoursite.com/category и http://yoursite.com/category?= sort = средний .
  • Страницы с кодами отслеживания и партнерскими кодами, например http://yoursite.com/product и http://yoursite.com/product?ref=name .
  • Удобные для печати страницы, созданные вашей CMS, которые имеют точно такое же содержание, что и ваши веб-страницы.
  • Страницы, которые являются http перед входом в систему и https после.

Что не является повторяющимся содержимым?

Примеры:

  • Цитаты с других сайтов при модерации на вашей странице в кавычках. Желательно, чтобы они были связаны со ссылкой на источник.
  • Изображения с других сайтов или изображения, повторяющиеся на вашем собственном сайте (ах). (Это не считается дублированным контентом, поскольку поисковые системы не могут сканировать изображения).
  • Инфографика передается через коды для встраивания.

Штраф за дублирование контента не существует. У вас есть доказательства прямо из уст Google здесь и здесь. Но это не означает легкого отношения к проблеме дублирования контента. Последствия дублирования контента на ваших веб-страницах - потеря трафика просто потому, что вы «исключены из результатов поиска». Это верно, вас не деиндексируют и не наказывают, но дублирующийся контент просто не отображается пользователям в результатах поиска. В Google вы можете найти сообщение, подобное показанному ниже:

Если пользователь щелкает ссылку, чтобы повторить поиск, он натолкнется на эти отсутствующие страницы с дублированным содержанием.Однако вероятность того, что пользователь действительно щелкнет по этой ссылке, в основном равна нулю, поскольку сообщение отображается на последней странице поиска - да, на странице 8042 или на любом количестве страниц, которые может вернуть поиск. Кроме того, если у вас есть одна версия контента, зачем вам повторять? Это один из способов, с помощью которого Google улучшает пользовательский опыт своей поисковой системы, и это правильно. Итак, как это повлияет на ваш сайт? Способ обработки дублированного контента Google может повлиять на ваш сайт по-разному:

  • Потерять исходный контент из-за пропущенных результатов : Если ваш исходный блог был синдицирован на многих сторонних веб-сайтах без обратной ссылки на ваш контент, есть большая вероятность, что ваш исходный контент будет опущен и заменен его контентом .Это особенно верно, если сторонний сайт имеет более высокий PageRank, большее влияние и / или более качественные обратные ссылки, чем ваш сайт.
  • Пустая трата времени на индексацию для ботов : При индексировании вашего сайта боты поисковых систем рассматривают каждую ссылку как уникальную и индексируют контент по каждой из них. Если у вас есть повторяющиеся ссылки из-за идентификаторов сеанса или любой из причин, упомянутых выше, боты тратят свое время на индексацию повторяющегося контента, а не на индексирование другого уникального контента на вашем сайте.
  • Множественные повторяющиеся ссылки означают разбавленный ссылочный сок : Если вы создаете ссылки, указывающие на страницу, имеющую несколько URL-адресов, передаваемый ссылочный вес распределяется между ними.Если все страницы объединены в одну, ссылочный вес также будет объединен, что может повысить поисковый рейтинг веб-страницы. Для получения дополнительной информации см. SEO Guide to The Flow Link Juice.
  • Потеря трафика : Очевидно, что если ваш контент не той версии, которую Google выбирает для отображения в результатах поиска, вы потеряете ценный трафик на свой сайт.

Как вы можете обнаружить дублирующийся контент на своем сайте?

Самый простой и логичный метод - скопировать и вставить фрагмент вашего контента в поиск Google и посмотреть, отображается ли какая-либо другая страница с точно таким же содержанием.Есть и другие способы, а именно:

1. Консоль поиска Google:

Дублированный контент не ограничивается контентом, представленным на веб-странице, но также может быть контентом, видимым в поисковых фрагментах, например мета-заголовками и метаописаниями. Дублирование такого контента можно легко обнаружить с помощью консоли поиска Google в разделе Оптимизация> Улучшения HTML, как показано на скриншоте выше.

2. Внешние инструменты:

Copyscape.com - отличный инструмент для проверки дублированного контента на вашем сайте.Это бесплатный инструмент, доступный как для Mac, так и для ПК.

3. «Сайт:» Оператор поиска:

Введите свой сайт в поиск, используя оператор site: search вместе с частью содержимого страницы, а именно:

сайт: www.yoursite.com [часть содержимого скопировано с вашего сайта здесь]

Если вы видите сообщение от Google, в котором говорится об пропущенных результатах (как показано на первом снимке экрана в этом блоге), это означает, что на вашем сайте дублированный контент присутствует на сайте или за его пределами.

Итак, последний вопрос…

Как избавиться от дублирующегося контента? Вот 8 способов:

Удаление дублирующегося контента с вашего сайта возможно, и стоит потратить время и усилия, чтобы сделать ваш сайт максимально удобным для поисковых систем. Об удалении дублированного контента с других сайтов, которые объединяют ваш исходный контент, следует позаботиться так, как вы предпочитаете; либо отправив им вежливое электронное письмо, либо упоминание в их комментариях к блогам с указанием кредита и ссылкой на ваш исходный контент.

Ниже приведены способы справиться с дублированием контента, созданного на вашем собственном сайте:

1. Rel = «canonical»:

Если вы используете систему управления контентом, объединяете контент или имеете сайт электронной коммерции, легко получить несколько URL-адресов или доменов, указывающих на один и тот же контент. Чтобы бороться с этим, сообщите поисковым системам, где они должны найти оригинал, используя тег rel = "canonical". Когда поисковая система видит эту аннотацию, она знает, что текущая страница является копией и где найти канонический контент.

Как мне это сделать?

Начните с решения, какой URL-адрес вы хотите сделать каноническим. В общем, вы должны выбрать наиболее оптимизированный URL-адрес в качестве канонического URL-адреса.

Чтобы правильно сообщить поисковой системе, что контент скопирован с вашего канонического URL-адреса, поместите аннотацию rel = "canonical" в своей страницы. Должно получиться так:

Если у вас есть версия документа, отличная от HTML (например, PDF-файл, доступный для загрузки), вы можете включить каноническую ссылку в заголовок HTTP следующим образом: Ссылка: ">; rel =" canonical "

Что могло пойти не так?

Несмотря на то, что тег rel = "canonical" кажется достаточно простым для реализации, неправильная его реализация может существенно повлиять на производительность поиска. Существует несколько распространенных случаев неправильного применения канонизации, которых следует избегать:

  • Содержимое с разбивкой на страницы, все указывающее на страницу 1: когда вы добавляете каноническую аннотацию к содержимому с разбивкой на страницы, сопоставьте URL-адрес страницы 1 с URL-адресом канонической страницы 1, страницы 2 со страницей 2 и т. Д.Позже мы рассмотрим это более подробно.

  • Канонические URL-адреса, которые не являются на 100% точными. Если на вашем сайте используются ссылки, относящиеся к протоколу, отказ от http / https все равно приведет к тому, что поисковые системы увидят дублированный контент по этим двум адресам. Всегда делайте предпочтительные URL-адреса на 100% точными.

  • Указание на канонические URL-адреса, возвращающие ошибку 404: поисковые системы будут игнорировать теги, указывающие на мертвую страницу.

Несколько канонических тегов: поисковые системы поддерживают только одну аннотацию rel = "canonical" на странице.Вы можете получить несколько, если веб-мастер копирует шаблон страницы, который уже включает rel = "canonical", или плагин автоматически вставляет rel = "canonical". В случае наличия нескольких канонических тегов Google просто проигнорирует их все.

2. Hreflang

Тег hreflang, введенный Google в 2011 году, позволяет сообщать поисковой системе, что страница связана с другими страницами на разных языках и / или в разных регионах. Если ваш веб-сайт https://example.com, и у вас есть такая же страница на испанском языке на [https: // example.com / es [https://example.com/], используйте тег hreflang, чтобы указать поисковым системам показывать эту страницу испаноязычным поисковикам.

Важно отметить, что hreflang является фактором, а не директивой в результатах поиска. Поэтому, если у вас есть слишком похожие страницы (например, страницы на английском языке, ориентированные на США и Канаду), вы рискуете получить неверный рейтинг версии для поискового запроса. Многоязычные сайты должны быть частью вашей общей маркетинговой стратегии.

Как мне это сделать?

Аннотация hreflang реализована в разделе

HTML-страницы.Для страниц, отличных от HTML, тег можно разместить в заголовке HTTP. Если все сделано правильно, тег hreflang должен выглядеть так:

Вы должны включать ссылки на каждую версию своей страницы. Если у вас есть копии на английском, испанском и французском языках, поместите ссылки на все три на странице

.

Если у вас есть две или более страниц на одном языке, но ориентированные на разные регионы (например, США, Канада и Великобритания), вы можете расширить переменную hreflang, включив код страны следующим образом:

Если у вас есть не-HTML-страница на нескольких языках, разделите каждую аннотацию hreflang запятыми, например:

ссылка: << https://www.example.com/ >>; rel = "альтернативный"; hreflang = "en-us",

ссылка: << https: // www.example.com/> ca />; rel = "альтернативный"; hreflang = "en-ca",

ссылка: << https://www.example.com/> uk />; rel = "альтернативный"; hreflang = "en-gb",

Существует также третий вариант реализации тегов hreflang: ваша карта сайта XML. Вместо того, чтобы добавлять разметку на свои страницы, включите иностранные языковые версии ваших URL-адресов в карту сайта. Как и в случае с другими аннотациями, включите URL-адрес для каждого языка.

Что могло пойти не так?

Распространенной проблемой при вставке аннотаций hreflang являются «Ошибки возврата тегов."Эти ошибки происходят из-за аннотаций hreflang, которые не связаны друг с другом. Аннотации - это улица с двусторонним движением; если ваша английская страница ссылается на вашу немецкую страницу, ваша немецкая страница должна ссылаться на вашу английскую страницу. Возможно, наиболее распространенный возврат Ошибка тега не включает ссылку на себя - ваша английская страница должна ссылаться на себя.

Чтобы проверить наличие ошибок тегов возврата, просмотрите данные международного таргетинга Google Search Console в разделе "Поисковый трафик". Это сообщит вам, сколько тегов hreflang обнаружил Google и в скольких есть ошибки.

Другой распространенной проблемой при реализации аннотаций hreflang является неправильный код языка или страны. Значение hreflang должно быть в формате ISO 639-1 для языка и в формате ISO 3166-1 Alpha 2 для страны. Использование слова «uk» для Соединенного Королевства является наиболее частой причиной; в этой системе значение должно быть «gb» для Великобритании. Обратите внимание, что значение hreflang должно начинаться с кода языка, а таргетинг на этот регион ограничен странами - например, нельзя настроить таргетинг на Европейский Союз или Северную Америку.

3. 301 перенаправления:

Вы можете использовать переадресацию 301 на повторяющихся страницах, которые создаются автоматически и не являются обязательными для просмотра пользователем. Добавление тегов rel = «canonical» к повторяющимся страницам сохраняет страницу видимой для пользователей, в то время как переадресация 301 направляет роботов поисковых систем и пользователей только на предпочтительную страницу. Это должно быть сделано специально для URL-адресов домашней страницы от URL-адреса WWW до URL-адреса, отличного от WWW, или наоборот, в зависимости от того, какой URL-адрес используется чаще всего. Точно так же, если у вас есть дублированный контент на нескольких веб-сайтах с разными доменными именами, вы можете перенаправить страницы на один URL-адрес, используя перенаправление 301. ПРИМЕЧАНИЕ. Перенаправления 301 являются постоянными, поэтому будьте осторожны при выборе предпочтительного URL.

4. Тег Meta Robots

Вы можете использовать метатег robots с атрибутами nofollow и noindex, если вам нужно предотвратить индексирование повторяющейся страницы поисковой системой. Просто добавьте на дублированную страницу следующий код:

    

Есть еще один способ исключить повторяющиеся страницы из индексов поисковой системы, а именно запретить ссылки со специальными символами в файле robots.txt файл. Примечание. Google посоветовал не запрещать страницы из-за дублирования контента с использованием robots.txt, потому что, если URL-адрес полностью заблокирован, есть вероятность, что роботы поисковых систем могут найти URL-адреса за пределами веб-сайта через ссылки и могут рассматривать их как уникальные страницы. Это означает, что поисковые системы, вероятно, выберут эту страницу в качестве предпочтительной среди всех дубликатов, даже если это не было вашим намерением.

5. Консоль поиска Google:

Вы можете настроить параметры URL для удаления повторяющихся страниц из индексации Google-ботом.Этот параметр также доступен в разделе «Конфигурация» в подразделе «Параметры URL», однако использование этого параметра может привести к деиндексации важных страниц, если оно не настроено должным образом, поэтому не рекомендуется, если вы не совсем уверены, как это сделать. Узнайте больше о параметрах URL-адресов в нашем блоге Чистые URL-адреса для SEO и удобства использования.

6. Отслеживание хэш-тегов:

Вместо использования параметров отслеживания в URL-адресах (что создает повторяющиеся страницы с одинаковым содержанием) попробуйте использовать метод отслеживания хэш-тегов.Параметры отслеживания используются для отслеживания посещений вашего сайта с определенных сайтов, например с сайта аффилированного маркетолога. Эти параметры обычно присутствуют после вопросительного знака (?) В URL-адресе. С помощью метода хэш-тега мы удаляем вопросительный знак и используем хеш-тег (#). Зачем? Что ж, боты Google обычно игнорируют все, что присутствует после хэш-тега. Так, например, у вас могут быть повторяющиеся URL-адреса, такие как http://yoursite.com/product/ и http://yoursite.com/product/#utm_source=xyz .Когда вы используете хэш-тег, Google видит обе ссылки как http://yoursite.com/product/ . Для этого используйте метод _setAllowAnchor, как показано здесь.

7. Контент для конкретных страновых доменов верхнего уровня:

Когда у вас есть компании, разбросанные по всему миру, естественно иметь несколько доменов для каждого местоположения, и, вероятно, невозможно создать уникальный контент для каждого из этих сайтов, когда продукт / услуга одинаковы. Как вы справляетесь с дублированием контента в доменах вашей страны? Для начала перейдите в Google Search Console> Конфигурация> Настройки в каждом из доменов для конкретной страны и выберите страну целевой аудитории для каждого сайта.

  • Если возможно, используйте локальный сервер для каждого национального домена.
  • Введите местные адреса и номера телефонов на каждом из сайтов для конкретной страны.
  • Используйте геометатеги. Эти теги могут не использоваться Google, поскольку вы уже установили параметр целевых пользователей в консоли поиска Google, но они могут пригодиться, чтобы вторичные поисковые системы, такие как Bing, знали, что ваш сайт нацелен на определенную страну.
  • Используйте rel =" alternate "hreflang =" x " , чтобы роботы Google знали больше о ваших зарубежных страницах с таким же содержанием и чтобы показать, какая страница должна быть возвращена
.

Как выявлять и исправлять проблемы с дублирующимся содержимым

Другой способ исправить дублирование - это тег rel "canonical". В отличие от редиректа 301, мы используем канонический тег, когда дублирующаяся страница требуется и не может быть удалена. Итак, предположим, что у нас есть две похожие страницы со списком сандалий, исходная страница - это страница, на которой не используется сортировка, а дубликаты - это страницы, на которых сандалии сортируются от низкой цены к высокой и наоборот. Ну, конечно, все эти страницы необходимы, но, как мы уже знаем, дубликаты вредят нашему SEO.Вот тут-то и пригодится "канонический" тег. Он лучше всего подходит для:
Вернемся к примеру с нашей страницей сандалий. Вам нужно поместить


на страницу

https://onlinestore.com/shoes/sandals /? sort_min_price

Таким образом, когда сканер посещает страницу, где сандалии сортируются с помощью фильтра «от низкой к высокой цене», он понимает, что страница категории является предпочтительной, и вы избежите проблемы дублирования контента.

.

Использование средства проверки дублированного содержимого для поиска скрытых проблем на сайте

Даже если вы думаете, что постоянно создаете уникальный контент, вам может понадобиться средство проверки дублированного контента. Многие веб-сайты непреднамеренно публикуют повторяющийся контент, и эта скрытая ошибка может привести к ухудшению пользовательского опыта и даже к снижению вашей позиции в поисковых рейтингах.

Поэтому используйте средство проверки дублированного контента, чтобы выяснить, где на вашем сайте может скрываться повторяющийся контент, и как его идентифицировать и удалить.

Используйте средство проверки дублированного контента, чтобы найти повторяющийся контент на вашем сайте и узнать, как его удалить.Нажмите, чтобы твитнуть

Зачем нужна программа проверки дублированного содержимого

Дублированный контент может существовать двумя способами:

  • Дублированный контент на сайте повторяется более чем на одной странице вашего сайта
  • Дублированный контент вне сайта - это когда один и тот же контент существует на разных сайтах

Повторяющееся содержимое может быть легко идентифицировано или менее заметно. Он может существовать как точная копия на целевой странице или в сообщении в блоге, или он может быть скрыт в коде страницы как повторяющиеся метаописания.Часто создается по:

  • Очевидные ошибки , например, скопированный или извлеченный контент
  • Непреднамеренные ошибки , например несколько вариантов одного и того же URL-адреса или отдельные версии вашего сайта, например www.sitename.com и sitename.com

Средство проверки дублированного содержимого может проверить наличие очевидных и не столь очевидных ошибок на вашем сайте, сканируя все страницы, включая элементы HTML, такие как теги заголовков и метаописания. Инструменты онлайн-плагиата могут помочь в выявлении дублированного контента за пределами сайта.

Хотя дублирующийся контент не приведет к штрафу за поиск, он может сбивать с толку как пользователей, так и поисковые системы. Y Вам следует использовать средство проверки дублированного контента, чтобы убедиться, что ваш контент уникален и оригинален, а также следовать передовым методам SEO. , и избегать:

  1. Обеспечение неудобств для пользователей, которые не хотят читать один и тот же контент дважды.
  2. Запутывает поисковые системы, которые не знают, как ранжировать страницы с одинаковым или очень похожим содержанием, что приводит к снижению рейтинга обеих страниц.

Почему существует повторяющееся содержимое?

Повторяющееся содержимое может быть использовано злонамеренно. Пытаясь заполнить сайт контентом, издатели «очищают» или копируют и вставляют контент с других сайтов. В других случаях издатели могут использовать дублированный контент SEO, чтобы попытаться манипулировать поисковыми системами и повысить рейтинг в поиске.

В то время как некоторые тактики черного SEO преднамеренно неправильно используют дублированный контент, в большинстве случаев публикация дублированного контента не является преднамеренным действием.Издатели не знают, что совершают ошибку.

Существуют также законные причины для публикации повторяющегося контента (повторная публикация на сайтах гостевых блогов, распространение контента, использование разных версий одной и той же копии и т. Д.). Вы можете использовать дублированный контент таким образом, если следуете передовым методам, которые позволяют поисковым системам знать, что он преднамеренный, например с помощью канонического тега.

Как проверить наличие дублированного контента на веб-сайте

Самый эффективный способ проверить страницы на дублирование контента - использовать программное обеспечение или инструменты SEO, которые могут обнаружить проблемы на вашем сайте.Поскольку дублированный контент иногда может скрываться там, где вы его не видите или не видите, автоматическая проверка дублированного контента может помочь вам обнаружить каждую строку идентичной копии.

Alexa предлагает автоматическую проверку дубликатов текста как часть нашего инструмента аудита SEO. Инструмент сканирует ваш сайт и выявляет любые экземпляры дублированного контента на нем.

Он также создает отчет с каждым URL-адресом, который включает случаи повторения содержимого, поэтому вы можете легко идентифицировать и исправлять страницы.

Инструмент также углубляется в ваш сайт и сообщает о повторяющихся мета-описаниях SEO. Он сканирует каждое мета-описание на вашем сайте и включает список всех URL-адресов, которые используют одну и ту же копию, чтобы помочь вам улучшить свой мета-тег SEO.

Если вы знаете, как проверять наличие дублированного контента на веб-сайте, следующим шагом будет решение этих проблем. В зависимости от ошибок вы можете исправить проблемы по:

  • Использование тегов rel + canonical
  • Использование 301 редиректа
  • Использование метатегов noindex
  • Установка предпочтительного домена в консоли Google
  • Настройка обработки параметров в Google Console
  • Изменение содержания

Отчеты Alexa содержат советы по устранению проблем, обнаруженных на вашем сайте.

Выявление дублирующегося содержания - это первый шаг в исправлении вашего сайта, чтобы он стал более привлекательным как для читателей, так и для поисковых систем. Поэтому используйте средство проверки дублированного контента, чтобы убедиться, что вы выявили все проблемы на своем сайте, а затем составьте план решения этих проблем.

Используйте средство проверки дублированного содержимого на своем сайте

Перестаньте задаваться вопросом, где на вашем сайте может скрываться дублированный контент. Получите доступ к проверке дублированного контента, а также к другим инструментам SEO-анализа, конкурентного анализа и исследования ключевых слов, воспользовавшись пробной версией расширенного плана Alexa.Подпишитесь на бесплатную пробную версию и получите доступ к инструменту SEO Audit Tool, который сканирует ваш сайт и создает отчет о любых случаях дублирования контента на вашем сайте.

.

Смотрите также

Поделиться в соц. сетях

Опубликовать в Facebook
Опубликовать в Одноклассники
Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий