Как найти дубли на сайте

Ольга Феоктистова

6 лет назад

Один из важнейших аспектов технической оптимизации сайта — отсутствие дублированного контента или дублей. Это напрямую влияет на поисковое продвижение и позиции сайта в органической выдаче. Александра Метиза, контент-маркетолог Netpeak Software, рассказывает о том, что собой представляют дубли и как проводить анализ сайта на дубли при помощью различных инструментов.

Время чтения: 7 минут

Что такое дубли на сайте
Чем опасны дубли страниц с точки зрения SEO
Как найти дубли на сайте при помощи подручных средств
Как найти дубли, используя краулер
Коротко о главном

Что такое дубли на сайте

Дубликаты — это большие блоки информации в рамках одного или нескольких доменов, содержание которых либо полностью совпадает, либо почти не отличается. Иными словами, если один и тот же материал доступен по двум различным адресам — это и есть дубли.

Типы дубликатов

В рамках одного сайта могут существовать следующие типы дублей:

полные дубликаты страниц (идентичный HTML-код);
дубликаты текста (содержимое блока <body>);
дубликаты Title (названия страницы);
дубликаты Description (описания страницы);
дубликаты H1 (главного заголовка).

Причины появления дубликатов

Ошибки в системе управления контентом (CMS). Если она настроена неправильно, в процессе создания новых страниц или статей могут автоматически генерироваться дубли.
Генерация страниц с одними и теми же атрибутами, расположенными в разном порядке (например, /?id=1&cat=2 и /?cat=2&id=1).
Версии страниц сайта для печати, не закрытые от индексации.
Не настроена переадресация (301 редирект) после переезда сайта с протокола http на https. Это касается и отсутствующего редиректа на главное зеркало сайта. Например, когда сайт доступен по адресу с www. и без него, со слешем в конце и без него.
Неправильная настройка и автоматическая генерация ссылок в процессе работы сайта.
Случайное дублирование страницы или статьи вебмастером или контент-маркетологом.
Изменение структуры сайта, вследствие которой страницам присваиваются новые адреса, а старые не удаляются.
На сайте используются «быстрые» мобильные версии страниц, с которых не выставлен Canonical на основные версии.

Чем опасны дубли страниц с точки зрения SEO

Наличие дубликатов на сайте — один ключевых факторов внутренней оптимизации (или её отсутствия), который крайне негативно сказывается на позициях сайта в органической поисковой выдаче. Дубли служат причиной нескольких проблем, связанных с оптимизацией.

Проблемы с индексацией.
При большом количестве дублей поисковые роботы в силу ограниченного краулингового бюджета могут не проиндексировать нужные страницы. Также есть риск того, что сайт будет пессимизирован, а его краулинговый бюджет — урезан.
Проблемы с выдачей приоритетной страницы в органическом поиске.
За счет дублей в поисковую выдачу может попасть не та страница, продвижение которой планировалось, а её копия. Есть и другой вариант: обе страницы будут конкурировать между собой, и ни одна не окажется в выдаче.
«Распыление» ссылочного веса.
Вес страницы сайта — это своеобразный рейтинг, выраженный в количестве и качестве ссылок нее с других сайтов или других страниц внутри рассматриваемого сайта. При наличии дублей ссылочный вес может переходить не на единственную версию страницы, а делиться между ее дубликатами. Таким образом, все усилия по внешней оптимизации и линкбилдингу оказываются напрасными.

Как найти дубли на сайте при помощи подручных средств

Проверить, какая версия сайта отображается после ввода адреса со слешем и без него, с www. и без www., а также с протоколами http и https. Если сайт не перенаправляет вас на какую-то одну версию сайта, то можете не сомневаться — на каждую из страниц приходится несколько дублей.
Посмотреть в настройках движка, не разрешены ли внутри сайта динамические ссылки.
Проверить, есть ли на сайте материалы, одновременно доступные по двум разным адресам. Такая ситуация возможна в случаях, если, к примеру, адрес статьи имеет вид site.com/category-1/article-1, а на деле она одновременно относится к категориям category-2 и category-5.
Зайти в Google Search Console и выяснить, не обнаружила ли система дубли на вашем сайте.
Проверить сайт на наличие дублей с помощью поисковых операторов Google. При помощи оператора site:example.com вы ограничиваете поиск исключительно страницами своего сайта, а такими операторами как intitle ограничиваете область поиска определенным структурным элементом страницы. Пример применения: site:blog.ringostat.com intitle:»Как найти дубли».

Увы, описанные выше методы не гарантируют понимания точного числа дубликатов, особенно если речь идет о частичных дублях, таких как дубликаты содержимого Meta Description и заголовка H1.

Как найти дубли, используя краулер

Для поиска всех существующих видов дублей внутри сайта вы можете использовать краулер, например, Netpeak Spider. Программа обнаружит дубликаты на сайте и идентифицирует их как ошибки средней и высокой критичности.

Для поиска дубликатов необходимо выполнить ряд последовательных действий.

Запустите Netpeak Spider.
Откройте меню «Параметры» и выберите раздел «Продвинутые».
Отметьте все пункты блока «Учитывать инструкции по индексации», а также пункт «Учитывать Rel Next/Prev». Эти настройки гарантируют, что дубли, предусмотрительно скрытые при помощи поисковых инструкций и устраненные с атрибутом Canonical, не появятся в результатах сканирования. Если скрытые вами дубли все же окажутся в списке страниц с ошибками, вы сможете обратить на них внимание и исправить проблему.
Сохраните настройки, нажав «ОК».
В строке с начальным URL введите адрес сайта. Нажмите кнопку «Старт» для запуска сканирования.
После завершения сканирования все обнаруженные ошибки, в том числе — связанные с дубликатами, отобразятся на боковой панели на вкладке «Отчеты» → «Ошибки». Кликните по названию интересующей ошибки, чтобы отфильтровать результаты и увидеть только список страниц, на которых она присутствует.
Для выгрузки результатов данной таблицы с отфильтрованными результатами в меню «Экспорт» выберите «Результаты в текущей таблице». Если вас интересуют все страницы с ошибками, в том же меню можно выбрать «Все ошибки».

Коротко о главном

Дублирование контента — как целых страниц, так и содержимого отдельных метатегов внутри них — входит в число факторов, которые оказывают негативное влияние на SEO и позиции сайта в органическом поиске. Регулярное сканирование сайта на предмет наличия дубликатов и устранение дублированного контента — дело первостепенной важности для каждого SEO-специалиста и вебмастера.

Искать дубликаты можно вручную, задействуя поисковые операторы и Google Search Console. Но лучше производить эту процедуру систематически с помощью мощного краулера, такого как Netpeak Spider. Он поможет найти все возможные виды дублированного контента внутри сайта, а также определит степень критичности наличия дублей.