Кеш Google

Кеш (кэш) ссылок в Google - это кешированные копии страниц сайтов, участвующих в поиске и не закрытых от сканирования в robots.txt.
Встречается мнение, что эти кешированные копия якобы отображают то, что Google нашёл на сайте и отражают последнее посещение гуглботом сайта, что в корне не верно.

Пример устаревшей рекомендации, считай, заблуждения из очередного кейса "по снятию фильтров":

Проверка кеша в Google

Это конечно технически верно, что Google смог так считать информацию с сайта, и что это наглядно видно. Но на самом деле этот кеш сейчас нужен лишь для того, чтобы посмотреть содержимое страницы в прошлом, и он существует в том виде, который удобен для Google, а не в том, как Google видит сайт. Иначе можно кричать караул :-).

Вопросы Андрею Липатцеву (Google).
Вопрос: Какая дата отображается в кэше, если контент не изменялся за последнее время: дата первого обнаружения или последнего сканирования?
Если отображается старая дата, значит ли это, что страница не была просканирована, или просто, что содержимое не изменилось?
Ответ: не надо использовать дату кэша для какой-либо диагностики, так что не стоит беспокоиться о том, какая дата показана. Кэш – не 100%- ное зеркало того, что мы индексируем.

В поисках актуальной информации по сайту:
  • Посмотреть, как Googlebot сканирует и видит сайт, необходимо воспользоваться соответствующим инструментом. Для этого он и внедрён специалистами Google.
  • Статистика сканирования сайта доступна в WMT в одноимённом разделе в Сканирование.
А обновлять страницы в индексе нужно при помощи Sitemap и фидов.

Как посмотреть кеш страницы в поиске Google

Из результатов поиска:

Кеш страницы в результатах поиска

Здесь можно выбрать в сниппетах, у ссылок которых нет запрета на кеширование со стороны сайта, опцию "сохранённая копия".

После чего откроется копия страницы:

Сохранённая копия страницы

Обратите внимание на кусочек информации вверху - это дата "слепка" страницы. А справа есть ещё ссылка для переключение на текстовую версию страницы.

У каждой вызванной кешированной страницы есть собственный URL:

URL кешированной страницы в Google

Данные на такой странице не обязательно хранятся в базе Google, а могут вызываться прямо с сайта-источника. Причём элементы  сайта так и продолжают скачиваться с сайта или указанных в его коде источников, и если удалить через некоторое время какой-нибудь необходимый для корректного отображения страницы скрипт или файл стилей, то кешированная страница будет отображаться с ошибками.

Ещё кешированную версию страницы можно вызывать запросом: cache:домен_сайта .
Пример.

Как запретить кеширование страницы:
  • использовать метатег <meta name="robots" content="noarchive">

Как убрать ссылку в сниппете "сохранённая копия":
  • использовать параметр noarchive в x-robots-tag

Полезные ссылки:
Специальные поисковые запросы Google
Robots meta tag and X-Robots-Tag HTTP header specifications