Советы и рекомендации по XML файлам Sitemap и RSS/Atom лентам

Указание карты сайта (Sitemap) в Инструментах для веб-мастеров (WMT) может сыграть важную роль в ходе внутренней оптимизации веб-сайта. Карты сайта позволяют поисковым роботам сканировать все (необходимые в поиске) страницы на сайте так быстро, как они появляются там.
Эта статья наглядно объясняет, какие поля важны в: а) структуре файла Sitemap (при использовании формата XML) и б) RSS/Atom лентах (фидов), и как всё это оптимизировать для Google.

Карты сайта и ленты (фиды)
Карта сайта может быть представлена в стандартном формате XML и в виде RSS и Atom фидов. Важным отличием между ними является то, что карты сайта XML просто содержат список URL-адресов внутри сайта, тогда как фиды группируют  URL-адреса в порядке обновления (так как фиды ориентированы прежде всего на подписчиков).

И уже как следствие:
  • XML карты сайта со временем достигают большого объёма; RSS/Atom фиды значительно меньше и содержат только самые последние обновления для вашего сайта. Пример использования Atom ленты с параметром orderby=updated:


  • XML карты загружаются Googl'ом реже, чем RSS Atom ленты.

Для оптимального сканирования  мы рекомендуем использовать оба формата: карты XML  и RSS/Atom фиды.
XML карта даст информацию Google обо всех страницах на вашем сайте. RSS/Atom фиды будут давать постоянные сигналы, что страницы на вашем сайте обновились.

Следует помнить, что карта сайта и фиды не гарантируют обязательное индексирование всех указанных в них ссылок, это вспомогательные и рекомендательные файлы.

Пример карты сайта в формате XML (Sitemap):
<?xml version="1.0" encoding="utf-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
   <loc>http://example.com/mypage</loc>
   <lastmod>2011-06-27T19:34:00+01:00</lastmod>
   <!-- optional additional tags -->
 </url>
 <url>
   ...
 </url>
</urlset>

Пример RSS ленты (фида):
<?xml version="1.0" encoding="utf-8"?>
<rss>
 <channel>
   <!-- other tags -->
   <item>
     <!-- other tags -->
     <link>http://example.com/mypage</link>
     <pubDate>Mon, 27 Jun 2011 19:34:00 +0100</pubDate>
   </item>
   <item>
     ...
   </item>
 </channel>
</rss>

Пример Atom ленты (фида):
<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">
 <!-- other tags -->
 <entry>
   <link href="http://example.com/mypage" />
   <updated>2011-06-27T19:34:00+01:00</updated>
   <!-- other tags -->
 </entry>
 <entry>
   ...
 </entry>
</feed>
Остальные теги (<!-- other tags -->)  относятся к стандартным составляющим фидов. Мы рекомендуем Вам указать все требуемые тэги в Atom/ RSS фидах для обеспечения валидности лент и в дополнение к собираемой информации о сайте в поиске Google.

Важные поля
XML карты сайта и RSS/Atom фиды в своей основе - это списки адресов с метаданными сайта. Двумя наиболее важными записями для Google являются: URL-адрес и  время(дата) его последней модификации.

URL-адреса (URLs)
URL-адреса в XML картах и в RSS/Atom фидах должны придерживаться следующих принципов:
  • только нужные для поиска URL-адреса (см. Робот Googlebot). Распространенной ошибкой является указание URL-адреса, запрещенного в файле robots.txt, или несуществующей страницы
  • только канонические URL-адреса. Распространенной ошибкой является указание URL-адресов дубликатов страниц. Это увеличивает нагрузку на сервер без улучшения индексации.

Время последнего изменения (Last modification time)
Укажите время последнего изменения для каждого URL-адреса в XML картах сайта и RSS/Atom фидах. Необходима именно дата обновления страницы, а не текущее время публикации фида.

Реализация Last modification time:
  • В XML карте сайта <lastmod>
  • В RSS фиде <pubDate>
  • В фиде Atom <updated>

Обязательно установите или обновите время последней модификации правильно:
  • Укажите время в правильном формате: W3C Datetime для XML карты сайта, RFC3339 для Atom и RFC822 для RSS.
  • Не подменяйте время последней модификации страницы на текущее время с целью обмануть поискового робота выдачей старого материала за новый.

XML карты сайта
Карты (Sitemaps) должны содержать URL-адреса всех страниц на вашем сайте. XML файлы зачастую очень крупные и обновляются не часто.

Следуйте этим советам:
  • Для одной XML карты: обновляйте её, по крайней мере один раз в день (если ваш сайт интенсивно обновляется), и посылайте пинг в  Google после обновления.
  • Для нескольких (группы) XML карт сайта: максимально увеличьте количество адресов в каждой карте. Предел для одной карты - это 50000 URL-адресов и/или максимальный размер несжатого файла - 10 мегабайт. 
  • Сделайте пинг для каждой обновленной XML карты (или один раз для файла индекса Sitemap, если он используется). Частая ошибка: указание лишь нескольких URL-адресов в каждом файле XML карты, что затрудняет загрузку всех карт сайта в разумные сроки.

RSS/Atom
RSS/Atom фиды, как было написано выше, передают в поиск Google последние изменения на вашем сайте. Они, как правило, небольшие и часто обновляется.

Для фидов, мы рекомендуем:
  • Когда добавляется новая страница или изменилась уже существующая на сайте, добавить URL и время изменения.
  • Для того, чтобы Google не пропустил обновления, RSS/Atom лента должна вовремя обновляться и контролировать этот процесс, что облегчит доставку обновлений как для поисковых систем, так и для подписчиков тоже. Лучший способ добиться этого - использовать PubSubHubbub (PuSH). См. статью на IBM developerWorks "Как работает PubSubHubbub".

Итог:
Генерация XML карт и Atom/RSS фидов - это отличный способ оптимизации и улучшения видимости сайта в других поисковых системах. Ключевой информацией в этих файлах является: канонические URL-адреса и время последней модификации страниц на вашем веб-сайте.

Если у вас возникли вопросы, обращайтесь на справочный форум веб-мастеров Google.

Полезные ссылки:
www.sitemaps.org/ru
Справочный центр

Оригинал статьи: "Best practices for XML sitemaps & RSS/Atom feeds". Автор: Alkis Evlogimenos, Google Feeds Team.