Google регулярно выпускает различные видео и подкасты, в которых рассказывает, как именно работают различные функции его поисковых систем. Среди них особенно выделяется шоу Mythbusting, в котором сотрудники развеивают наиболее популярные заблуждения со стороны пользователей. На этот раз темой выпуска стал краулинговый бюджет.
Ведущие шоу рассказали, что Google, несмотря на обширные ресурсы и множество современных алгоритмов, вынуждена разумно распоряжаться ими при сканировании контента. Веб-пространство невероятно большое, поэтому для составления адекватной выборки и индексации сайтов приходится тщательно выбирать объекты сканирования.
Например, чтобы отслеживать изменения на сайтах, поисковик учитывает структурированные данные и элементы даты, а также сохраняет фингерпринт, тем самым определяя обновления контента. За счёт этого алгоритмы понимают, нужно ли сканировать сайт регулярно (как в случае с новостными изданиями), либо просто проверять его время от времени.
Как утверждают специалисты, всё, что касается краулингового бюджета, должно волновать только крупные сайты с миллионом и более URL - интернет-магазины или новостные издатели. Проблема в этом случае заключается в том, что сайт не индексируется. Как правило, это происходит из-за качества контента, которое становится основанием для игнорирования поисковиком данного ресурса, а сайты для автосерфинга не способны поднять его выше определённого предела.
Кроме того, заставить поисковик сканировать один сайт чаще нельзя. За частоту обновлений отвечают алгоритмы, которые и определяют, сколько URL в Sitemap содержат хороший контент. Иными словами, именно качество материалов позволяют увеличить краулинговый бюджет до желаемых уровней.