Углубленное руководство по принципам работы Google Поиска
Наша поисковая система полностью автоматизирована и использует так называемых поисковых роботов, которые постоянно сканируют интернет и добавляют в индекс новые страницы. Именно так найдены почти все сайты, доступные в Google Поиске. В этом документе рассказывается о том, как Google Поиск работает с контентом на вашем сайте. Изучив приведенную ниже информацию, вы сможете устранить проблемы со сканированием и индексированием страниц, а также узнаете, как оптимизировать показ своего сайта в Google Поиске.
Примечания
Мы не берем плату за то, чтобы чаще сканировать сайты или повышать их позиции в результатах поиска. Те, кто утверждает обратное, вводят вас в заблуждение.
Мы не гарантируем, что ваш сайт будет просканирован, проиндексирован и показан в результатах поиска, даже если он соответствует нашим рекомендациям из общих сведений о Google Поиске.
Три этапа в алгоритме работы Google Поиска
Алгоритм работы Google Поиска состоит из трех этапов, однако их проходят не все страницы.
Сканирование. Google скачивает текст, изображения и видеофайлы с сайтов в интернете с помощью автоматизированных программ, называемых роботами.
Индексирование. Google анализирует текст, изображения и видеофайлы на странице и сохраняет информацию о них в индексе Google, который представляет собой большую базу данных.
Показ результатов поиска. Когда пользователь вводит в Google поисковый запрос, наша система показывает наиболее подходящие результаты.
Сканирование
Первый этап заключается в поиске страниц, опубликованных в интернете. Поскольку их официального реестра не существует, роботу Google приходится постоянно искать новые страницы и добавлять их к списку уже известных. Этот процесс называется “обнаружение URL”. О некоторых страницах известно, потому что робот Google посещал их раньше. Другие обнаруживаются при переходе по ссылкам с уже известных страниц (например, по ссылке на новую запись в блоге на главной странице или странице категории). Иногда владельцы сайтов сами присылают нам списки URL, которые нужно просканировать, – так называемые файлы Sitemap.
Обнаружив URL страницы, робот Google посещает ее (сканирует), чтобы узнать, что на ней опубликовано. Для его работы используется огромное количество компьютеров, ведь он обрабатывает миллиарды страниц. Программа, выполняющая сканирование, называется робот Googlebot (или “паук”). Она автоматически определяет, какие сайты сканировать, как часто это нужно делать и какое количество страниц следует выбрать на каждом из них. Поисковые роботы Google стараются сканировать сайт не слишком быстро, чтобы не допустить его перегрузки. Этот механизм основан на ответах сайта (например, ошибки HTTP 500 означают, что работа сайта замедлена).
Робот Googlebot сканирует не все обнаруженные страницы. Некоторые страницы запрещено сканировать, а другие страницы невозможно посмотреть без ввода пароля.
В ходе сканирования Google отрисовывает страницу и запускает обнаруженный код JavaScript в актуальной версии Chrome. Похожим образом браузер отрисовывает страницы, которые вы посещаете. Это очень важно, потому что для показа контента на странице часто используется JavaScript, и без отрисовки Google может его не увидеть.
Возможность сканирования зависит от того, есть ли у поисковых роботов Google доступ к сайту. Его может не быть по следующим причинам:
После сканирования страницы нужно выяснить, какого рода контент на ней размещен. Этот этап называется индексированием и состоит из обработки и анализа текста и основных тегов и атрибутов (например, элементов <title> и атрибутов alt), изображений, видео и т. п.
В ходе индексирования Google определяет, является ли обрабатываемая страница дубликатом или канонической версией другой страницы. Каноническая версия может показываться в результатах поиска. Она определяется следующим образом: сначала мы объединяем в группу (или “кластер”) найденные в интернете страницы с похожим контентом, а затем выбираем среди них главную. Остальные страницы в этой группе считаются альтернативными версиями, которые могут показываться в других ситуациях, например если пользователь выполняет поиск с помощью мобильного устройства или ищет определенную страницу из группы.
Кроме того, Google собирает сигналы о канонических страницах и их контенте и может использовать эти сведения на следующем этапе – при показе в результатах поиска. К таким сигналам относятся язык страницы, ее удобство, страна, для которой предназначен контент, и т. п.
Информация о канонической странице и ее группе может храниться в индексе Google – большой базе данных, размещенной на тысячах компьютеров. При этом индексируются не все обработанные страницы.
Возможность индексирования также зависит от контента страницы и его метаданных. Проблемы могут возникать по следующим причинам:
Когда пользователь вводит запрос, наша система находит в индексе и показывает в результатах пользовательского поиска самые подходящие страницы высокого качества. При этом учитываются сотни различных факторов, такие как местоположение, язык, тип устройства пользователя (компьютер или телефон) и многое другое. Например, результаты по запросу “ремонт велосипедов” будут различаться в зависимости от того, находитесь ли вы в Париже или в Гонконге.
Контент для страницы результатов поиска зависит от запроса пользователя. Например, в большинстве случаев по запросу “ремонт велосипедов” будут показаны местные результаты и не будет результатов поиска картинок, а по запросу “современный велосипед” – наоборот. С ключевыми элементами пользовательского интерфейса Google Поиска можно ознакомиться в галерее визуальных элементов.
Иногда проиндексированные страницы не показываются в результатах поиска. Это может произойти по следующим причинам: