О сканировании, индексировании и ранжировании

Эти три процесса - сканирование, индексирование и ранжирование очень часто обсуждаются на форумах и блогах. Собственно, веб-мастер любого уровня должен иметь чёткое представление о них, чтобы в дальнейшем самостоятельно разбираться с ошибками и неполадками своего сайта относительно поиска Google, или хотя бы для того, чтобы общаться с оптимизаторами на одном языке :-).

Сканирование (правильно "ползанье") - процесс обращения робота (краулера) к страницам веб-сайта с целью считывания с них информации для поискового индекса.

Статус сканирования Инструменты веб-мастеров
Раздел "Сканирование" в WMT

Сканированием можно управлять посредством robots.txt, запрещая или открывая страницы или раздела для доступа поисковому роботу Google (that tell web crawlers which URLs they can or cannot retrieve - из Справки). Если Google уже успел занести страницу в поисковый индекс, то закрытие её через robots.txt будет означать не удаление из индекса, а просто запрет очередного обращения к ней, и сниппет ссылки в выдаче заменится на предупреждение "Описание веб-страницы недоступно из-за ограничений в файле robots.txt."

Выдача Google
Так выглядит страница, закрытая от сканирования в robots.txt

В данном примере в robots.txt стоит запрет на сканирование раздела search:
User-agent: *
Disallow: /search

WMT также показывает ошибки, возникшие при сканировании (см. "Ошибки сканирования").
В качестве рекомендательного сканирования выступает добавление Sitemap (карты сайта). И очень полезная функция в WMT "Просмотреть как Googlebot". В 2014 году Google к этой функции ещё добавил и рендер страницы, показывающий визуально, какие данные и насколько корректно получил их Googlebot.
Выглядит отсканированная страница таким образом:

Посмотреть как Googlebot

Этот инструмент очень полезен при проверке сомнительных для Поиска элементов сайта, например, сделанных на javascript. То есть тут два варианта: если гугл-робот не видит правильно страницу, значит он её действительно не сможет нормально проиндексировать, и наоброт.

Индексирование - занесение информации о сайте (url, структура, контент) в индексные таблицы.

Раздел "Индекс Google" в WMT

См. Мэтт Каттс "Подача заявки на индексирование".
Статус индексирования подтверждённый владелец сайта может посмотреть в WMT в одноимённом разделе (см. "Статус индексирования").
Вышеописанный инструмент "Просмотреть как Googlebot" после редеринга страницы предлагает добавить её и связанные страницы в индекс.

Посмотреть как Googlebot индексирование

Этот инструмент изобретён не на "каждый день", а для устранения неполадок при индексировании, т.е. для принудительной отправки в индекс заведомо рабочих страниц.

Индексированием управляет метатег Robots с параметрами Index и Noindex (см. "Блокировка индексирования при помощи метатегов"), а также x-robots-tag (персонализированный тег robots для заголовков) с параметрами All или Noindex. Только таким образом можно "удалить" страницу или избежать её появления в поисковом индексе Google.

Проиндексированные страницы ещё можно посмотреть с помощью поискового оператора site (см. статью "Специальные поисковые запросы Google").

Ранжирование - это уже алгоритмический процесс размещения страниц в результатах Поиска с учётом запросов пользователей, региональных данных и множества других специфических факторов. Лучшие сео-умы бьются над вычислениями легендарных "двухсот факторов ранжирования Google" (занимательная статья "200 факторов ранжирования Google – миф?"), но конечно в публичный доступ такую информацию никто из Google не выкладывал.

См. "Почему сайт не в топе?".
См. Мэтт Каттс: «Мы все время ищем новые пути, чтобы лучше ранжировать результаты».

Что можно сказать по ранжированию?
Реально рулят:
  • контент
  • авторитетность сайта и качественный "ссылочный профиль"
  • юзабилити и доступность

Ещё некоторые интересные вещи можно послушать и посмотреть на встрече с Владимиром Офицеровым с вопросами о качестве Поиска:


И мифы о Google:
Видеовстреча с вебмастерами - 14.02.13 - Мифы о Google.

О микроразметке сайтов и отношению к ней Google - вопрос на 16:49 в видеовстрече.

Вопросы с Форума для веб-мастеров: