Сканирование (правильно "ползанье") - процесс обращения робота (краулера) к страницам веб-сайта с целью считывания с них информации для поискового индекса.
![]() |
Раздел "Сканирование" в WMT |
Сканированием можно управлять посредством robots.txt, запрещая или открывая страницы или раздела для доступа поисковому роботу Google (that tell web crawlers which URLs they can or cannot retrieve - из Справки). Если Google уже успел занести страницу в поисковый индекс, то закрытие её через robots.txt будет означать не удаление из индекса, а просто запрет очередного обращения к ней, и сниппет ссылки в выдаче заменится на предупреждение "Описание веб-страницы недоступно из-за ограничений в файле robots.txt."
![]() |
Так выглядит страница, закрытая от сканирования в robots.txt |
В данном примере в robots.txt стоит запрет на сканирование раздела search:
User-agent: *
Disallow: /search
WMT также показывает ошибки, возникшие при сканировании (см. "Ошибки сканирования").
В качестве рекомендательного сканирования выступает добавление Sitemap (карты сайта). И очень полезная функция в WMT "Просмотреть как Googlebot". В 2014 году Google к этой функции ещё добавил и рендер страницы, показывающий визуально, какие данные и насколько корректно получил их Googlebot.
Выглядит отсканированная страница таким образом:
Этот инструмент очень полезен при проверке сомнительных для Поиска элементов сайта, например, сделанных на javascript. То есть тут два варианта: если гугл-робот не видит правильно страницу, значит он её действительно не сможет нормально проиндексировать, и наоброт.
Индексирование - занесение информации о сайте (url, структура, контент) в индексные таблицы.
![]() |
Раздел "Индекс Google" в WMT |
См. Мэтт Каттс "Подача заявки на индексирование".
Статус индексирования подтверждённый владелец сайта может посмотреть в WMT в одноимённом разделе (см. "Статус индексирования").
Вышеописанный инструмент "Просмотреть как Googlebot" после редеринга страницы предлагает добавить её и связанные страницы в индекс.
Этот инструмент изобретён не на "каждый день", а для устранения неполадок при индексировании, т.е. для принудительной отправки в индекс заведомо рабочих страниц.
Индексированием управляет метатег Robots с параметрами Index и Noindex (см. "Блокировка индексирования при помощи метатегов"), а также x-robots-tag (персонализированный тег robots для заголовков) с параметрами All или Noindex. Только таким образом можно "удалить" страницу или избежать её появления в поисковом индексе Google.
Проиндексированные страницы ещё можно посмотреть с помощью поискового оператора site (см. статью "Специальные поисковые запросы Google").
Ранжирование - это уже алгоритмический процесс размещения страниц в результатах Поиска с учётом запросов пользователей, региональных данных и множества других специфических факторов. Лучшие сео-умы бьются над вычислениями легендарных "двухсот факторов ранжирования Google" (занимательная статья "200 факторов ранжирования Google – миф?"), но конечно в публичный доступ такую информацию никто из Google не выкладывал.
См. "Почему сайт не в топе?".
См. Мэтт Каттс: «Мы все время ищем новые пути, чтобы лучше ранжировать результаты».
Что можно сказать по ранжированию?
Реально рулят:
- контент
- авторитетность сайта и качественный "ссылочный профиль"
- юзабилити и доступность
Ещё некоторые интересные вещи можно послушать и посмотреть на встрече с Владимиром Офицеровым с вопросами о качестве Поиска:
И мифы о Google:
Видеовстреча с вебмастерами - 14.02.13 - Мифы о Google.
О микроразметке сайтов и отношению к ней Google - вопрос на 16:49 в видеовстрече.
Вопросы с Форума для веб-мастеров:
- Влияет ли валидность кода на ранжирование? Сильно ли?
- Индексация страниц и ссылок на AJAX
- Гугл стабильно плохо ранжирует все страницы сайта
- Как будет влиять на ранжирование тире в заголовке
- Кириллица в URL
- Влияет ли наличие на сайте Google Analytics на позиции в Google?
- Почему моего сайта нет в ранжирование по нужным мне ключевым словам
Комментариев нет:
Отправка комментария