Сайт дубликат как бороться


Полностью скопировали сайт и разместили на новом домене. Как бороться?

Привет, друзья! Расскажу вам сейчас интересную, хотя и не очень приятную историю. И если у вас возникнет такая же проблема, то возможно эта статья поможет вам ее решить. Или хотя бы поможет разобраться в некоторых моментах.

Дело было еще летом. Воскресение, утро. Я сделал себе кофе, включил ноутбук и уже как-то по привычке полез в Метрику смотреть статистику за вчерашний день. Зашел в раздел «Популярное» и честно говоря офигел. Рядом со своим сайтом (который имел уже хорошую посещаемость) я увидел еще несколько сайтов на похожим доменах (а один даже на таком же домене как мой, только зона другая).

Я перешел на один из сайтов и офигел еще больше! Это была точная копия моего сайта! Перешел на остальные сайты — тоже копии моего. Ну что, воскресение удалось!

Меня сразу посетила мысль, что меня взломали и выкачали сайт. Сразу сменил все пароли. Но потом погулил и понял, что весь сайт могут выкачать и без взлома, это не сложно.

Причем, не все копии были одинаковые. Я имею введу по времени создания.

Чего я боялся? Я боялся, что они попадут в индекс поисковых систем и моему сайту придет конец. Потом ничего и никому не докажешь.

Я начал копать. Для начала я сделал анализ этих копий. В индексе не было ни одного сайта. Но тут нет ничего странного. Домены совсем свежие, им было по несколько дней.

В такой ситуации только один способ — это писать регистратору этих доменов и в поддержку хостинга (лучше сразу на адрес для жалоб) на котором размещены сайты-копии. Ну и еще можно попробовать написать администратору этих доменов, конечно же, если его адрес не скрыт в whois доменов. Но в моем случае адрес электронной почты был скрыт.

Узнаем хостинг и регистратора домена

Для определения регистратора домена, на котором размещена копия моего сайта можно использовать любой сервис whois. Например http://pr-cy.ru/whois. Указываем домен и видим что-то типа этого:

Я проверил свой блог, как видите регистратор домена указан REG.RU, а хостинг ihc.ru.

Но по whois определить хостинг не всегда удается. Поэтому, для определения хостинга сайта лучше использовать сервис http://2ip.ru/guess-hosting/.

Если не получилось определить хостинг, то нажмите на кнопку «Получить» возле Информация об IP адресе. Там вы скорее всего увидите хостинг на котором размещен сайт.

Определил я тогда все хостинг-компании и регистраторов. Некоторые копии были на одном хостинге, или зарегистрированы у одного и того же регистратора. Я нашел майлы для жалоб, или просто поддержки и написал им жалобы. С просьбой заблокировать сайты-копии.

Кстати, первые копии были на буржуйском хостинге. Доменов зарегистрированных у русских регистраторов так же не было.

Вам наверное интересно, а почему же первые копии. Да потому, что после блокировки первых копий, почти каждый день начали появляться новые. За все время их было штук 20, если не больше.

Кстати зарубежные регистраторы только так блокируют домены на которых были копии. Но, ни один из русских регистраторов не заблокировал ни одного домена. Хорошо хоть хостеры помогали и блокировали сайты копии.

Месяцев два я воевал с этими копиями, уже надоело писать жалобы и просить о блокировке.

Однажды, проверяя whois одного из доменов, на котором была очередная копия, я увидел email администратора домена (наверное забыл скрыть). Я тут же написал ему письмо. Никаких угроз и т. п. (хотя, очень хотелось :)). Я просто спросил зачем он это делает и попросил удалить все копии.

Мне ответили. Парень извинился, сказал что тестирует скрип какой-то и что мол копии закрыты от индексации. Но фиг там, robots.txt например совсем не менялся.

Я ему снова отписал и попросил больше так не делать. И попросил убрать еще некоторые копии, которые на то время работали. Но он написал, что те копии не его. Вот так. Странно конечно же, но что ты ему сделаешь. А может и вправду не его.

Короче сейчас есть только две копии (ну по крайней мере о которых я знаю). Я эти копии уже месяц не могу убрать.

Хостинг — contabo.com, на жалобы не отвечает. Регистратор доменов r01.ru домены заблокировать не может. И что хочешь делай. А эти две копии уже почти все в индексе Яндекса. И насколько я понял, уже даже получают немного трафика. Не дают они мне сейчас покоя. Кстати домены этих копий очень похожи.

Очень переживаю за свой сайт.

Ах да, забыл написать. Я же в Яндекс сразу еще писал. Объяснил им проблему, но получи стандартный ответ. Что мол поисковая система Яндекс является лишь зеркалом интернета и т. п.

Если кто-то создал точную копию вашего сайта, вместе с дизайном и со всем, то определяйте хостера, регистратора доменов и пишите им жалобу. Так же напишите в Яндекс и в Google.

А еще лучше, постарайтесь связаться с человеком, который это делает и разобраться с ним.

Вот такие дела, жду ваших комментариев!

Работа с дублированным контентом

Слова «дублированный контент» вселяют страх в сердца многих веб-мастеров и оптимизаторов поисковых систем. Но правда в том, что не весь повторяющийся контент создается одинаково.

Поскольку контент является основным элементом хорошего SEO, многие пытались манипулировать результатом, используя старый подход «копировать и вставлять». Google наказывает этот метод, поэтому он должен вселять страх в ваше сердце.

Но если вы непреднамеренно создали дублированный контент на своем сайте, не волнуйтесь.Ниже мы рассмотрим, как Google обрабатывает повторяющиеся материалы, и я поделюсь несколькими советами, которые помогут вам сохранить актуальность и уникальность содержания вашего сайта.

Чтобы лучше понять, как Google обрабатывает дублированный контент, вам нужно прочитать их обзор здесь. Если вы боитесь наказания, позвольте мне помочь вам вздохнуть с облегчением с помощью этой цитаты из статьи выше.

«Дублированный контент на сайте не является основанием для действий на этом сайте, если только не выяснится, что цель дублированного контента состоит в том, чтобы вводить в заблуждение и манипулировать результатами поиска.»- Google

Хорошо, теперь вы знаете, что Google не пытается вас достать, но если у вас действительно есть дублированный контент, вам следует потратить некоторое время на его очистку. Дублирующийся контент обычно попадает в одну из трех категорий: точные дубликаты, почти дублированные и междоменные дубликаты.

  • Точный дубликат: Два URL-адреса имеют одинаковое содержание.
  • Рядом с дубликатами: У двух частей контента есть небольшие отличия.
  • Междоменные дубликаты: Точный или почти повторяющийся контент существует на нескольких доменах.

Дублирование содержимого может быть результатом множества различных факторов. В некоторых случаях веб-сайты лицензируют контент для использования в других местах; плохая архитектура сайта тоже может сыграть свою роль. Плагиат приводит к дублированию контента, и наиболее частой причиной, на мой взгляд, являются проблемы с CMS.

Хотя все это может создавать проблемы, мы должны решать каждую из них по-своему. Прежде чем перейти к советам, давайте рассмотрим последствия дублирования контента.

Последствия дублирования содержимого

Если вы разместили дублированный контент из-за недосмотра, поисковые системы в большинстве случаев просто отфильтруют его и отобразят то, что они считают лучшей версией в результатах поиска.

Иногда они просто отфильтровывают его, прежде чем вообще индексировать кусок. Пользователи хотят разнообразия результатов поиска. Так что гусеничные машины и двигатели делают все возможное, чтобы это обеспечить. Ниже приведены лишь некоторые из распространенных последствий, связанных с дублированием контента.

  • Полное сканирование: Поисковый бот приходит на ваш сайт с ограниченным бюджетом сканирования. Если у вас много дублированного контента, это расходует бюджет робота-робота, и меньше ваших уникальных хороших страниц будет просканировано и проиндексировано.
  • Бесполезное количество ссылок: Дублирующиеся страницы могут получить PageRank и ссылочный авторитет, но это не поможет, потому что Google не будет ранжировать дублированный контент. Это означает, что вы тратите свои ссылки с этих страниц.
  • Неправильный список в поисковой выдаче: Никто точно не знает, как работают алгоритмы поиска. Поэтому, если у вас есть несколько страниц с точной или почти повторяющейся информацией, вам не нужно решать, какие страницы будут отфильтрованы и какие страницы будут ранжироваться. Это означает, что версия, которую вы хотите оценить, может быть заблокирована.

Как избежать дублирования контента

Наличие дублированного контента на вашем сайте бесполезно ни для поисковых систем, ни для ваших конечных пользователей. Тем не менее, вы можете предотвратить негативное воздействие, позаботившись о проблеме.

Ниже приведены несколько способов устранения проблем с дублированием контента, с которыми вы сталкиваетесь.

Хотя дублирующийся контент является проблемой и может навредить вам в поисковой выдаче, это не так страшно, как многие думают. Если вы не пытаетесь злонамеренно манипулировать результатами выдачи, Google и другие поисковые системы, как правило, не наказывают вас.Но, как было сказано выше, наличие дублированного контента на вашем сайте по-прежнему имеет негативные последствия. Я рекомендую просканировать ваш сайт, а затем сделать все возможное, чтобы очистить и решить все проблемы. Сканеры и ваши пользователи будут вам благодарны!


Мнения, выраженные в этой статье, принадлежат приглашенному автору и не обязательно Search Engine Land. Здесь перечислены штатные авторы.



Об авторе

Райан в значительной степени обычный парень, за исключением средней части.Он является владельцем и основателем компании Shelley Media Arts LLC. Он с энтузиазмом помогает компаниям наладить более личную онлайн-связь со своими клиентами и перспективами. Райан активно влияет и продвигает человеческое SEO, персонализированный маркетинг и эмпатическое лидерство. Когда он не работает в «сарае», вы можете увидеть его висящим на пляже со своей семьей или играющим в игровой комнате со своими двумя маленькими сыновьями. Посетите блог SMA, чтобы узнать больше. .

7 скрытых типов дублированного контента (в том числе решения)

Автор: Евгений Хутарнюк,

9 октября 2018 г.

Дублированный контент - большая тема в сфере SEO. Когда мы слышим об этом, это в основном в контексте штрафов Google; но этот потенциальный побочный эффект дублирования контента не только преувеличен (Google почти никогда не наказывает сайты за дублированный контент как таковой), но и едва ли является самым серьезным последствием проблемы.Три гораздо более вероятных проблемы, которые могут быть вызваны дублированием страницы SEO, это следующие:

  • Потраченный впустую краулинговый бюджет. Если на вашем сайте происходит внутреннее дублирование контента, это гарантированно приведет к потере части вашего бюджета сканирования (то есть количества ваших страниц, сканированных поисковыми системами за единицу времени). Это означает, что важные страницы вашего сайта будут сканироваться реже.
  • Звено разведения сока. Как для внешнего, так и для внутреннего дублирования контента разбавление ссылочного веса является одним из самых больших недостатков SEO.Со временем оба URL-адреса могут создавать обратные ссылки, указывающие на них, и, если у одного из них нет канонической ссылки (или перенаправления 301), указывающей на исходный фрагмент, ценные ссылки, которые помогли бы повысить рейтинг исходной страницы, распределяются между ними обоими. URL-адреса.
  • Только одна из страниц ранжируется по целевым ключевым словам. Когда Google находит дублированный контент или скопированные экземпляры контента, он обычно показывает только один из них в ответ на поисковые запросы - и нет никакой гарантии, что это будет тот, который вы хотите ранжировать.

Но все эти сценарии можно предотвратить, если вы знаете, где может скрываться дублированный контент, как его обнаружить и как бороться с дублированным контентом. В этой статье я собираюсь, прежде всего, обрисовать «Что такое дублированный контент», а также 7 распространенных типов дублирования контента, а затем заняться дублированием контента.

1. Соскобленное содержание

По сути, скопированный контент - это неоригинальный фрагмент контента на сайте, который был скопирован с другого сайта без разрешения.Как я уже говорил ранее, Google не всегда может отличить исходный контент от дублированного, поэтому часто задача владельца сайта - следить за парсерами и знать, что делать, если их контент будет украден.

Увы, это не всегда легко и просто. Но вот небольшая хитрость, которую я использую лично.

Если вы отслеживаете, как ваш контент публикуется и ссылается на него в Интернете (а если у вас есть блог, вам действительно стоит) через приложение для мониторинга социальных сетей / веб-сайтов, такое как Awario, вы можете поразить здесь двух зайцев одним выстрелом.В инструменте мониторинга вы обычно используете URL-адрес и заголовок вашего сообщения в качестве ключевых слов в предупреждении. Чтобы также искать скопированные версии вашего контента, все, что вам нужно сделать, это добавить еще одно ключевое слово - выдержку из вашего сообщения. В идеале оно должно быть довольно длинным, например, одно-два предложения. Заключите фрагмент в двойные кавычки, чтобы убедиться, что вы ищете точное совпадение. Это будет выглядеть так:

Creating the first alert in Awario

При такой настройке приложение будет искать как упоминания вашей исходной статьи (например, публикации, ссылки и т. Д.), Так и потенциально скопированный или скопированный контент версий, найденных на других сайтах.

Если вы обнаружите дублированный контент веб-сайта, рекомендуется сначала связаться с веб-мастером и попросить его удалить этот фрагмент (или разместить каноническую ссылку на оригинал, если вам это подходит). Если это неэффективно, вы можете сообщить о парсере, используя отчет Google о нарушении авторских прав.

2. Синдицированный контент

Синдицированный контент - это контент, повторно публикуемый на другом веб-сайте с разрешения автора исходного материала. Это то, что обычно относится к дублированному контенту, поэтому, хотя это законный способ представить ваш контент новой аудитории, важно установить руководящие принципы для издателей, с которыми вы работаете, чтобы убедиться, что синдикация не превращает дублирующую страницу SEO. в проблему SEO.

В идеале издатель должен использовать тег rel = canonical в статье, чтобы указать, что ваш сайт является исходным источником контента, избегая штрафа за дублирование контента. Другой вариант - использовать тег noindex для синдицированного контента. Всегда лучше проверять это вручную, когда синдицированный фрагмент вашего контента размещается на другом сайте.

3. Страницы HTTP и HTTPS.

Одной из наиболее распространенных проблем внутреннего дублирования является идентичность URL-адресов HTTP и HTTPS на сайте, даже если оба содержат один и тот же исходный контент.Эти проблемы возникают, когда переход на HTTPS не выполняется с должным вниманием, которого требует процесс. Два наиболее распространенных сценария, когда это происходит:

1. Часть вашего сайта - HTTPS и использует относительные URL. Часто справедливо использовать одну защищенную страницу или каталог (например, страницы входа и корзины покупок) на любом другом HTTP-сайте. Однако важно помнить, что на этих страницах могут быть внутренние ссылки, указывающие на относительные URL-адреса, а не на абсолютные URL-адреса:

  • Абсолютный URL: https: // www.link-assistant.com//rank-tracker/
  • Относительный URL: / rank-tracker /

Относительные URL-адреса не содержат информации о протоколе; вместо этого они используют тот же протокол, что и родительская страница, на которой они находятся. Если поисковый бот найдет такую ​​внутреннюю ссылку и решит перейти по ней, он перейдет на URL-адрес HTTPS. Затем он может продолжить сканирование, перейдя по более относительным внутренним ссылкам, и может даже просканировать весь веб-сайт в защищенном формате и, таким образом, проиндексировать две полностью идентичные версии страниц вашего сайта.В этом сценарии вы хотите использовать абсолютные URL-адреса вместо относительных URL-адресов во внутренних ссылках. Если на вашем сайте уже есть повторяющиеся страницы HTTP и HTTPS, лучшим решением будет постоянное перенаправление защищенных страниц на правильные версии HTTP.

2. Вы переключили весь свой сайт на HTTPS, но его версия HTTP все еще доступна. Это может произойти, если есть обратные ссылки с других сайтов, указывающие на страницы HTTP, или из-за того, что некоторые внутренние ссылки на вашем сайте все еще содержат старый протокол, а незащищенные страницы не перенаправляют посетителей на безопасные.Чтобы избежать разбавления ссылочного веса и напрасной траты вашего краулингового бюджета, используйте переадресацию 301 на всех ваших HTTP-страницах и убедитесь, что все внутренние ссылки на вашем сайте указаны через относительные URL-адреса.

Вы можете быстро проверить, есть ли на вашем сайте проблема дублирования HTTP / HTTPS, с помощью веб-сайта SEO PowerSuite Auditor. Все, что вам нужно сделать, это создать проект для вашего сайта; Когда приложение завершит сканирование, нажмите «Проблемы с версиями сайта HTTP / HTTPS» в аудите своего сайта, чтобы узнать, где вы находитесь.

Auditing your sites HTTPS versions

4.WWW и не-WWW страницы

Одна из самых старых причин дублирования контента в книге - это когда доступны как WWW, так и не WWW версии сайта. Как и в случае с HTTPS, вызывающим дублирование внутреннего контента, этот дублированный контент обычно можно исправить, выполнив 301 редирект. Возможно, еще лучший вариант - указать предпочтительный домен в консоли поиска Google.

Чтобы проверить, есть ли экземпляры такого дублирования на вашем сайте, просмотрите фиксированные версии с www и без www версии (в рамках Redirects ) в вашем проекте WebSite Auditor.

Running an audit on different versions of your website

5. Динамически генерируемые параметры URL.

Динамически генерируемые параметры часто используются для хранения определенной информации о пользователях (например, идентификаторов сеансов) или для отображения немного другой версии той же страницы (например, с выполненными настройками сортировки или фильтрации). Это приводит к тому, что URL-адреса выглядят следующим образом:

  • URL 1: https://www.link-assistant.com//rank-tracker.html?newuser=true
  • URL 2: https: // www.link-assistant.com//rank-tracker.html?order=desc

Хотя эти страницы обычно содержат одинаковый (или очень похожий) контент, Google может сканировать обе эти страницы. Часто динамические параметры создают не две, а десятки различных версий URL-адреса, что может привести к потере огромных сумм краулингового бюджета напрасно.

Чтобы проверить, есть ли проблема на вашем сайте, перейдите в свой проект WebSite Auditor и щелкните Rebuild Project . На шаге 1 установите флажок Включить экспертные параметры.На следующем шаге выберите Googlebot , чтобы в Следуйте инструкциям robots.txt для параметра… .

Modifying crawler settings

Затем перейдите на вкладку Параметры URL-адреса и снимите флажок Игнорировать параметры URL-адреса .

Adjusting crawler settings

Эта настройка позволит вам сканировать свой сайт, как это сделал бы Google (следуя инструкциям robots.txt для робота Googlebot), и обрабатывать URL-адреса с уникальными параметрами как отдельные страницы. Щелкните Далее и выполните следующие шаги, как обычно, чтобы начать сканирование.Когда WebSite Auditor завершит сканирование, переключитесь на панель мониторинга Pages и отсортируйте результаты по столбцу страницы, щелкнув его заголовок. Это должно позволить вам легко обнаруживать повторяющиеся страницы или скопированный контент с параметрами в URL-адресе.

Understanding Audit results

Если вы обнаружите такие проблемы на своем сайте, обязательно используйте инструмент обработки параметров в Google Search Console. Таким образом, вы укажете Google, какие из параметров следует игнорировать при сканировании.

6.Подобный контент

Когда люди говорят о дублировании контента, они часто подразумевают полностью идентичный контент. Однако фрагменты очень похожего контента также подпадают под определение дублированного контента Google:

"Если у вас много похожих страниц, рассмотрите возможность расширения каждой страницы или объединения страниц в одну. Например, если у вас есть туристический сайт с отдельными страницами для двух городов, но с одинаковой информацией на обеих страницах, вы можете либо объединить страницы в одну страницу об обоих городах, или вы можете расширить каждую страницу, чтобы она содержала уникальный контент о каждом городе.«

Такие проблемы часто могут возникать на сайтах электронной коммерции, где описания аналогичных продуктов различаются только некоторыми характеристиками. Чтобы решить эту проблему и избежать проблем с рейтингом в поисковых системах, постарайтесь сделать страницы своих продуктов разнообразными во всех областях, кроме описания: отзывы пользователей - отличный способ добиться этого. В блогах аналогичные проблемы с контентом могут возникнуть, когда вы берете старую часть контента, добавляете некоторые обновления и переделываете ее в новый пост. В этом случае лучшим решением будет использование канонической ссылки (или перенаправления 301) на старую статью.

7. Удобные для печати страницы

Если на нескольких страницах вашего сайта есть версии для печати, доступные через отдельные URL-адреса, Google будет легко найти и просканировать их по внутренним ссылкам. Очевидно, что содержимое самой страницы и ее версии для печати будет идентичным, что снова приведет к потере вашего краулингового бюджета.

Если вы предлагаете пользователям сайта удобные для печати страницы, лучше всего закрыть их от роботов поисковых систем с помощью тега noindex.Если все они хранятся в одном каталоге, например https://www.link-assistant.com/news/print, вы также можете добавить правило запрета для всего каталога в свой robots.txt.

Последние мысли

Определенный дублированный контент SEO может быть проблемой для тех, кто работает с SEO, поскольку он разбавляет ссылочный вес ваших страниц (он же рейтинг) и истощает бюджет сканирования, предотвращая сканирование и индексирование новых страниц. Помните, что ваши лучшие инструменты для борьбы с этой проблемой - это канонические теги, 301 редирект и robots.txt и включите проверку дублированного контента в процедуру аудита вашего сайта, чтобы улучшить индексацию и рейтинг.

Какие случаи дублирования контента вы видели на своем собственном сайте и какие методы вы используете для предотвращения дублирования? Я с нетерпением жду ваших мыслей и вопросов в комментариях ниже.

Автор: Хутарнюк Евгений
Руководитель отдела SEO в SEO PowerSuite .

Как выявлять и исправлять проблемы с дублирующимся содержимым

Другой способ исправить дублирование - это тег rel "canonical". В отличие от редиректа 301, мы используем канонический тег, когда дублирующаяся страница требуется и не может быть удалена. Итак, предположим, что у нас есть две похожие страницы со списком сандалий, исходная страница - это страница, на которой не используется сортировка, а дубликаты - это страницы, на которых сандалии сортируются от низкой цены к высокой и наоборот. Ну, конечно, все эти страницы необходимы, но, как мы уже знаем, дубликаты вредят нашему SEO.Вот тут-то и пригодится "канонический" тег. Он лучше всего подходит для:
Вернемся к примеру с нашей страницей сандалий. Вам нужно поместить


на страницу

https://onlinestore.com/shoes/sandals /? sort_min_price

Таким образом, когда сканер посещает страницу, где сандалии сортируются с помощью фильтра «от низкой к высокой цене», он понимает, что страница категории является предпочтительной, и вы избежите проблемы дублирования контента.

.

новейших "дублирующих" вопросов - Stack overflow на русском

Переполнение стека
  1. Около
  2. Товары
  3. Для команд
  1. Переполнение стека Общественные вопросы и ответы
  2. Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
  3. Вакансии Программирование и связанные с ним технические возможности карьерного роста
  4. Талант Нанимайте технических специалистов и создавайте свой бренд работодателя
  5. Реклама Обратитесь к разработчикам и технологам со всего мира
.

Смотрите также

Поделиться в соц. сетях

Опубликовать в Facebook
Опубликовать в Одноклассники
Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий