Дублированный контент

16 мая 2013 года прошла интересная видеовстреча с веб-мастерами на тему "Дублированный контент". Ведущие встречи - сотрудники команды качества поиска Google: Мария Моева и Андрей Липатцев, а также Ведущий участник в Форума для веб-мастеров Виктор Росиенко. Ниже представлена текстовая версия презентации Виктора.



Команды плеера Youtube
Подкаст "Дублированный контент.mp3"


Виктор:
Наверное это будет относиться не столько к дублированному контенту, а скорее к вопросам мифов, которые возникают на этой почве. О чём бы хотел поговорить - об электронных магазинах, о блогах и подобных сайтах, где имеют место страницы категорий товаров, ленты постов и что-то такое подобное.

Страницы категорий

Возьмём к примеру электронный магазин и будем рассматривать типичную страницу - страницу категорий товаров, а именно магазин, который торгует электронной техникой. Рассмотрим категорию товаров "мобильные телефоны". Это многостраничная "страница", на которой в ряде страниц перечислены все мобильные телефоны.

Презентация Дублированный контент страница 1
Презентация стр.1

Существует такое мнение, что производные страницы этой категории (например, страницы подкатегорий, которые, допустим, отображают товары какого-то определённого бренда) не должны индексироваться во избежание якобы появления дублированного контента. Вот это является заблуждением.

Если у вас есть множество всякого товара, если есть деление этого товара по признакам, по которым его в сети ищут. Например, по признаку бренда. То естественно, что предоставление таких страниц для поиска - это забота о посетителях самого поиска, потому что если они ищут не просто мобильные телефоны, а ищут мобильные телефоны, например, производства Samsung, естественно, они (пользователи поиска) хотят попадать на самые релевантные страницы. И естественно, что такие страницы должны предоставляться поиску.

Сам факт, что такие страницы должны рассматриваться как "дублирующийся" контент, который уже есть на страницах основных категорий - это просто заблуждение, которому не нужно придавать никакого значения.

С другой стороны, для того, чтобы поисковая система Google как можно лучше могла понять, чем отличается, допустим, одна страница одной категории от  страницы подкатегории, здесь конечно стоит уделить определённое внимание и предоставить поисковой системе как можно больше информации, которая могла бы помочь ей понять, что это действительно является ценной с точки зрения пользователя страницей.

Презентация Дублированный контент страница 2
Презентация стр.2

Что здесь можно посоветовать? Чтобы поисковая система как можно лучше понимала, чем страницы основной категории отличаются от страниц подкатегорий? В принципе, ничего такого сверхестественного здесь нет, и можно порекомендовать очень простые вещи:
  • правильно формировать теги title
  • метаописания
Презентация Дублированный контент страница 3
Презентация стр.3

(Примечание редактора - см. статью справки "Заголовок и описание сайта")
Как для страниц основной категории, так и для страниц подкатегорий. И так, чтобы они между собой отличались в том смысле, чтобы можно было понять, чем, допустим, вот эта группа страниц отличается от этой группы страниц.

Если мы говорим о подкатегории, допустим, продажа мобильных телефонов, title может быть - "Продажа мобильных телефонов". А вот для страниц подкатегорий, тут нужно элементарно внести небольшое уточнение, что "Продажа мобильных телефонов Samsung". Аналогичные коррективы должны быть внесены в метаописания. Хорошо это отразить в заглавии страницы, которое отражено в теге H1. И ещё следует обратить внимание (если это технически реализуемо), об отражении всего этого в структуре URL (см. стр.3 с презентации). Если для основной категории мы используем название каталога (cell-phones) и названия страниц (после слэша).  То уже для страниц подкатегорий лучше всего использовать ту же структуру - cell-phones, а дальше за слэшем продолжить, что это samsung (см. стр.3 с презентации).

Так мы воссоздаём видимость каталогов, потому что каталоги изначально поисковыми системами очень хорошо распознавались. Это всегда было сигналом, оно позволяло поисковым системам определять структуру сайта.

Ну ещё конечно нужно использовать строки навигации на страницах полкатегории со ссылкой на первую страницу категории. Это дополнительный аргумент. Тут уже становится и посетителю понятно, что сейчас он находится на странице подкатегории, легко может вернуться в основную категорию, если ему Samsung не нравится, посмотреть список телефонов и т.д. Это касается в первую очередь магазинов электронной торговли.

Относительно блогов, тут ситуация, в принципе, аналогичная прослеживается. Многие считают, допустим, что страницы (в терминах CMS блоговых платформ называются "страницами категорий") при основной ленте блога будут дублированием контента по той простой причине, что эти же посты содержаться в основной ленте блога.
Логика та же самая. Если есть статьи, которые чётко структуризированы (допустим, блог посты на одну тему), то это и юзабилити для посетителя сайта и это опять-таки хороший сигнал для самой поисковой системы, чтобы она чётко понимала, что вот эти вот посты - это одна тематика, другие посты - другая тематика. Здесь не стоит ничего опасаться. Никаких не будет проблем, если вы разрешаете индексировать страницы такого рода.

Страницы тэгов (ярлыков, меток), ненужные подкатегории

Отдельно следует остановиться немножко на другом вопросе. Если касательно блогов, то страницы меток или тегов (в понятии блоговых платформ) - их как раз желательно скрывать от индексации (примечание редактора: пример - теги в Blogger /search/label/).По сути своей это есть страницы поиска (на сайте).

Страницы любого поиска, в соответствии с регламентом любой поисковой системы, не должны содержаться в поисковом индексе.  Т.е. не должны попадать под индексацию.  Эти страницы действительно стоит закрывать.

Что касается электронных магазинов. Здесь не стоит увлекаться созданием и делением лишних и необоснованных подкатегорий товаров. Если деление основной категории по имени бренда - это абсолютно целесообразная вещь. То делить по каким-то, к примеру, техническим характеристикам - вот это уже абсолютно излишне. Потому что, с одной стороны, попасть под соотвествие какому-то поисковому запросу практически невозможно, а с другой стороны, если вы плодите множество страниц, они все попадают в индекс, получается много разных страниц в индексе, но поисковая система будет периодически стараться пересканировать уже те страницы, которые имеются в индексе для того, чтобы узнать, а если там какие либо изменения.

Если вы создаёте слишком много таких страниц, которые для поиска не имеют особого смысла, то получается, что вы тратите тот вычислительный ресурс, который система выделяет для вашего сайта, на те вещи, которые не являются приоритетными. И может возникать такая ситуация: что новые, самые свежие страницы будут сканироваться с какими-то задержками.