Один из важнейших аспектов технической оптимизации сайта — отсутствие дублированного контента или дублей. Это напрямую влияет на поисковое продвижение и позиции сайта в органической выдаче. Александра Метиза, контент-маркетолог Netpeak Software, рассказывает о том, что собой представляют дубли и как проводить анализ сайта на дубли при помощью различных инструментов.
Что такое дубли на сайте
Дубликаты — это большие блоки информации в рамках одного или нескольких доменов, содержание которых либо полностью совпадает, либо почти не отличается. Иными словами, если один и тот же материал доступен по двум различным адресам — это и есть дубли.
Типы дубликатов
В рамках одного сайта могут существовать следующие типы дублей:
- полные дубликаты страниц (идентичный HTML-код);
- дубликаты текста (содержимое блока <body>);
- дубликаты Title (названия страницы);
- дубликаты Description (описания страницы);
- дубликаты H1 (главного заголовка).
Причины появления дубликатов
- Ошибки в системе управления контентом (CMS). Если она настроена неправильно, в процессе создания новых страниц или статей могут автоматически генерироваться дубли.
- Генерация страниц с одними и теми же атрибутами, расположенными в разном порядке (например, /?id=1&cat=2 и /?cat=2&id=1).
- Версии страниц сайта для печати, не закрытые от индексации.
- Не настроена переадресация (301 редирект) после переезда сайта с протокола http на https. Это касается и отсутствующего редиректа на главное зеркало сайта. Например, когда сайт доступен по адресу с www. и без него, со слешем в конце и без него.
- Неправильная настройка и автоматическая генерация ссылок в процессе работы сайта.
- Случайное дублирование страницы или статьи вебмастером или контент-маркетологом.
- Изменение структуры сайта, вследствие которой страницам присваиваются новые адреса, а старые не удаляются.
- На сайте используются «быстрые» мобильные версии страниц, с которых не выставлен Canonical на основные версии.
Чем опасны дубли страниц с точки зрения SEO
Наличие дубликатов на сайте — один ключевых факторов внутренней оптимизации (или её отсутствия), который крайне негативно сказывается на позициях сайта в органической поисковой выдаче. Дубли служат причиной нескольких проблем, связанных с оптимизацией.
- Проблемы с индексацией.
При большом количестве дублей поисковые роботы в силу ограниченного краулингового бюджета могут не проиндексировать нужные страницы. Также есть риск того, что сайт будет пессимизирован, а его краулинговый бюджет — урезан. - Проблемы с выдачей приоритетной страницы в органическом поиске.
За счет дублей в поисковую выдачу может попасть не та страница, продвижение которой планировалось, а её копия. Есть и другой вариант: обе страницы будут конкурировать между собой, и ни одна не окажется в выдаче. - «Распыление» ссылочного веса.
Вес страницы сайта — это своеобразный рейтинг, выраженный в количестве и качестве ссылок нее с других сайтов или других страниц внутри рассматриваемого сайта. При наличии дублей ссылочный вес может переходить не на единственную версию страницы, а делиться между ее дубликатами. Таким образом, все усилия по внешней оптимизации и линкбилдингу оказываются напрасными.
Как найти дубли на сайте при помощи подручных средств
- Проверить, какая версия сайта отображается после ввода адреса со слешем и без него, с www. и без www., а также с протоколами http и https. Если сайт не перенаправляет вас на какую-то одну версию сайта, то можете не сомневаться — на каждую из страниц приходится несколько дублей.
- Посмотреть в настройках движка, не разрешены ли внутри сайта динамические ссылки.
- Проверить, есть ли на сайте материалы, одновременно доступные по двум разным адресам. Такая ситуация возможна в случаях, если, к примеру, адрес статьи имеет вид site.com/category-1/article-1, а на деле она одновременно относится к категориям category-2 и category-5.
- Зайти в Google Search Console и выяснить, не обнаружила ли система дубли на вашем сайте.
- Проверить сайт на наличие дублей с помощью поисковых операторов Google. При помощи оператора site:example.com вы ограничиваете поиск исключительно страницами своего сайта, а такими операторами как intitle ограничиваете область поиска определенным структурным элементом страницы. Пример применения: site:blog.ringostat.com intitle:»Как найти дубли».
Увы, описанные выше методы не гарантируют понимания точного числа дубликатов, особенно если речь идет о частичных дублях, таких как дубликаты содержимого Meta Description и заголовка H1.
Как найти дубли, используя краулер
Для поиска всех существующих видов дублей внутри сайта вы можете использовать краулер, например, Netpeak Spider. Программа обнаружит дубликаты на сайте и идентифицирует их как ошибки средней и высокой критичности.
Для поиска дубликатов необходимо выполнить ряд последовательных действий.
- Запустите Netpeak Spider.
- Откройте меню «Параметры» и выберите раздел «Продвинутые».
- Отметьте все пункты блока «Учитывать инструкции по индексации», а также пункт «Учитывать Rel Next/Prev». Эти настройки гарантируют, что дубли, предусмотрительно скрытые при помощи поисковых инструкций и устраненные с атрибутом Canonical, не появятся в результатах сканирования. Если скрытые вами дубли все же окажутся в списке страниц с ошибками, вы сможете обратить на них внимание и исправить проблему.
- Сохраните настройки, нажав «ОК».
- В строке с начальным URL введите адрес сайта. Нажмите кнопку «Старт» для запуска сканирования.
- После завершения сканирования все обнаруженные ошибки, в том числе — связанные с дубликатами, отобразятся на боковой панели на вкладке «Отчеты» → «Ошибки». Кликните по названию интересующей ошибки, чтобы отфильтровать результаты и увидеть только список страниц, на которых она присутствует.
- Для выгрузки результатов данной таблицы с отфильтрованными результатами в меню «Экспорт» выберите «Результаты в текущей таблице». Если вас интересуют все страницы с ошибками, в том же меню можно выбрать «Все ошибки».
Коротко о главном
Дублирование контента — как целых страниц, так и содержимого отдельных метатегов внутри них — входит в число факторов, которые оказывают негативное влияние на SEO и позиции сайта в органическом поиске. Регулярное сканирование сайта на предмет наличия дубликатов и устранение дублированного контента — дело первостепенной важности для каждого SEO-специалиста и вебмастера.
Искать дубликаты можно вручную, задействуя поисковые операторы и Google Search Console. Но лучше производить эту процедуру систематически с помощью мощного краулера, такого как Netpeak Spider. Он поможет найти все возможные виды дублированного контента внутри сайта, а также определит степень критичности наличия дублей.