Le nom suggère immédiatement
quelque chose de sympa et en fait même l'image coordonnée confirme ce sentiment : surtout, cependant,
Googlebot est le logiciel d'araignée fondamental avec lequel Google est capable de scanner
les pages de sites Web publics, en suivant les liens qui partent d'une page et le connecter à d'autres sur le Net et ainsi sélectionner les ressources qui méritent d'entrer dans l'
index des moteurs de recherche . En bref, ce petit robot est à la base de tout le processus d'exploration et d'indexation de Google, dont dérive le système de classification, et ce n'est donc pas un hasard si l'équipe du moteur de recherche a accordé plus d'attention au sujet : essayons de découvrir tout ce que vous devez savoir sur Googlebot , le crawler qui a pour tâche de scanner
le Web rechercher des sites et du contenu au nom de Big G.
Qu'est-ce que Googlebot ?
Alors aujourd'hui prenons du recul par rapport aux problématiques liées aux pratiques d'optimisation et essayons d'expliquer brièvement
ce qu'est Googlebot et comment il fonctionne , mais surtout parce qu'il est important pour un site de savoir comment Google
nous regarde - en un mot, parce que avoir des connaissances Comprendre le fonctionnement de l'exploration et de l'indexation des moteurs de recherche peut nous aider à comprendre, à prévenir ou à résoudre
les problèmes techniques de référencement et à garantir que les pages du site sont correctement
accessibles aux robots.
Le dernier point de départ dans l'ordre chronologique pour approfondir le sujet provient de la mise à jour du guide officiel de Google sur Googlebot , mais le crawler avait auparavant fait l'objet d'un épisode de SEO Mythbusting, la série YouTube créée par Martin Splitt qui, poussé par le les demandes de nombreux webmasters et développeurs et par la question précise de
Suz Hinton (Cloud Developer Advocate chez Microsoft, invitée de l'occasion), n'ont cessé de préciser certaines fonctionnalités de ce logiciel.
A cette occasion, Splitt a fourni une
définition claire et simple de Googlebot , qui est essentiellement un programme remplissant
trois fonctions : la première est le crawling
, l'analyse approfondie du Web à la recherche de pages et de contenus ; le deuxième est
d'indexer ces ressources et le troisième est le "ranking", qui pourtant "ne fait plus Googlebot", précise mieux.
En pratique, le bot
prend du contenu sur Internet, essaie de comprendre
le sujet du contenu et quels "matériaux" peuvent être proposés aux utilisateurs à la recherche de "ces choses", et détermine finalement laquelle des ressources précédemment indexées est en fait la
meilleure pour cette requête spécifique à ce moment particulier.
Que fait Googlebot et à quoi ça sert ?
Voulant aller plus loin, Googlebot est un logiciel spécial, communément appelé
spider, crawler ou simplement
bot, qui analyse
le Web en suivant les
liens qu'il trouve dans les pages pour trouver et
lire du contenu nouveau ou mis à jour et suggérer ce qui devrait être 'Index, la
bibliothèque d'inventaire en constante expansion à partir de laquelle Google extrait directement les résultats de recherche en ligne.
Ce logiciel permet à Google de compiler plus d'
1 million de Go d'informations en une fraction de seconde , et donc derrière son apparence
mignonne - l'image officielle de Googlebot met en scène un mignon petit robot au look vif et vaguement similaire à Wall-E, prêt à embarquer dans une quête pour trouver et indexer des connaissances dans tous les coins encore inconnus du Web - il y a une machine puissante qui parcourt le Web et ajoute constamment des pages à son index.
Plus précisément, Googlebot est le nom générique de
deux types de crawlers différents : un crawler de bureau qui simule un utilisateur utilisant un appareil de bureau et un crawler
mobile qui simule un utilisateur utilisant un appareil mobile. Parfois, notre site est visité par les deux versions de Googlebot (et au cas où nous pourrions identifier le sous-type de Googlebot en examinant la chaîne de l'agent utilisateur dans la requête), mais si notre site a déjà été converti en mobile-first sur Google, la plupart des requêtes d'exploration de Googlebot sont effectuées à l'aide du robot d'exploration mobile, tandis qu'une petite partie est effectuée avec le robot d'exploration de bureau, et vice versa pour les sites qui n'ont pas encore été convertis (comme l'explique Google, en fait, le robot d'exploration minoritaire ne fait qu'explorer URL déjà explorées par le crawler majoritaire).
De plus, encore une fois, techniquement, Googlebot pour ordinateur et Googlebot pour mobile partagent le même
jeton de produit (jeton d'agent utilisateur) dans le fichier robots.txt , nous ne pouvons donc pas cibler de manière sélective Googlebot pour smartphone ou Googlebot pour ordinateur à l'aide du fichier robots .txt.
Combien de fois Googlebot passe ?
Googlebot a été conçu pour fonctionner simultanément sur des milliers d'ordinateurs afin d'améliorer les performances et de suivre le rythme de la croissance du Web.
Normalement, il accède à la plupart des sites pas plus d'une fois toutes les quelques secondes. Dans certains cas et pour de courtes périodes, cette fréquence pourrait être légèrement supérieure.
Il analyse également les ordinateurs physiquement proches des sites qu'il pourrait explorer pour réduire l'utilisation de la bande passante.
Par conséquent, vos journaux peuvent enregistrer des visites Google à partir de différents ordinateurs, tous avec l'agent utilisateur Googlebot, mais avec des adresses IP différentes. Habituellement, l'adresse IP de Googlebot a la classe c suivante :
66.249 .
N'oubliez pas que l'objectif de Googlebot est de récupérer autant de pages que possible de votre site tout en évitant de surcharger votre serveur Web.
Si votre serveur est lent et ne peut pas suivre les requêtes d'exploration de Google, vous pouvez limiter la vitesse d'exploration maximale via les paramètres du site Google Search Console .
Comment empêcher Googlebot de visiter votre site ?
Il est très difficile de garder secret un serveur Web en ne postant pas de liens vers celui-ci.
Par exemple, dès qu'un utilisateur suit un lien de votre serveur "secret" vers un autre serveur, votre URL "secrète" peut apparaître dans la balise de référence et être stockée et publiée dans le fichier journal par l'autre serveur.
De même, il existe de nombreux liens obsolètes et inaccessibles sur le Web. Lorsqu'une personne publie un mauvais lien vers votre site ou ne met pas à jour les liens pour refléter les modifications apportées à votre serveur, Googlebot essaie d'explorer ce mauvais lien depuis votre site.
Si vous souhaitez empêcher Googlebot d'explorer le contenu de votre site, vous disposez des options suivantes :
- fichier robots.txt ;
- balises meta Robots ;
- en-tête http X-Robots-Tag ;
- fichiers de serveur Web protégés par mot de passe.
Gardez toujours à l'esprit la différence entre :
- empêcher Googlebot d'explorer une page ;
- empêcher Googlebot d'indexer une page ;
- bloquer complètement les robots d'exploration et les utilisateurs d'accéder à une page.
Ce sont des choses très différentes qui, si elles ne sont pas gérées correctement par un consultant expert en référencement , peuvent causer de graves dommages au trafic organique du site .
Les autres bots de Google
Google utilise
des robots d'exploration et des récupérations (des outils comme un navigateur qui demandent une seule URL à la demande d'un utilisateur) pour effectuer des actions pour ses produits, soit automatiquement, soit déclenchées à la demande d'un utilisateur. Googlebot n'est
que le crawler principal de Google, mais ce n'est pas le seul et en effet il existe plusieurs robots, qui ont des tâches spécifiques et qui peuvent être inclus dans trois grandes catégories, comme expliqué dans la nouvelle version du document officiel de Mountain View , mise à jour fin avril 2023 :
- Les robots d'exploration courants , y compris le Googlebot, qui sont utilisés pour créer les index de recherche de Google, effectuer d'autres explorations spécifiques aux produits et à des fins d'analyse. Comme particularité, ils respectent toujours les règles du fichier robots.txt, ont le masque DNS inversé « crawl-***-***-***-***.googlebot.com ou geo-crawl-* **- ***-***-***.geo. googlebot.com » et la liste des plages d'adresses IP se trouve dans le fichier spécifique googlebot.json.
- Crawlers spéciaux - Crawlers qui exécutent des fonctions spécifiques, utilisés par des produits spécifiques lorsqu'il existe un accord entre le site exploré et le produit concernant le processus d'exploration, et qui peuvent ou non être conformes aux règles de robots.txt. Par exemple, AdSense et AdsBot surveillent la qualité des annonces, tandis que Mobile Apps Android surveille les applications Android, Googlebot-Image surveille les images, Googlebot-Video surveille les vidéos et Googlebot-News surveille les actualités. Leur masque DNS inversé est "rate-limited-proxy-***-***-***-***.google.com" et la liste des plages d'adresses IP se trouve dans le fichier special-crawlers.json (et est différente de ceux des crawlers communs).
- Récupérateurs déclenchés par l'utilisateur – Outils et fonctionnalités du produit où l'utilisateur final déclenche une récupération , comme Google Site Verifier qui agit à la demande d'un utilisateur. Étant donné que la récupération a été demandée par un utilisateur, ces récupérateurs ignorent les règles robots.txt. Leur masque DNS inversé est "***-***-***-***.gae.googleusercontent.com" et la liste des plages IP se trouve dans le fichier user-triggered-fetchers.json .
Les caractéristiques techniques de Googlebot : une araignée persistante et ultra rapide
À partir de mai 2019 , pour le robot d'exploration Big G, il y a eu une innovation technique fondamentale : pour assurer la prise en charge des dernières fonctionnalités des plateformes Web, en fait, Googlebot est devenu évolutif et mis à jour en permanence, équipé d'un moteur capable de gérer de manière cohérente la dernière version. de Chromium lors du rendu des pages Web pour la recherche.
Selon Google, cette fonctionnalité était la "demande numéro un" des participants à l'événement et des communautés de médias sociaux concernant les implémentations à apporter au
bot , et donc l'équipe californienne s'est concentrée sur la possibilité de faire en sorte que
GoogleBot soit toujours mis à jour avec la dernière version de Chromium. , poursuivant des années de travail sur l'architecture profonde de Chromium, optimisant les couches, intégrant et faisant fonctionner le rendu de recherche, etc.
Concrètement, depuis ce moment Googlebot est devenu capable de supporter
plus d'un millier de nouvelles fonctionnalités , comme notamment ES6 et les nouvelles fonctionnalités JavaScript, IntersectionObserver pour le lazy-loading et l'API Web Components v1. De Google, ils invitent ensuite les webmasters et les développeurs à vérifier si le site effectue
le transpiling ou utilise
polyfill spécifiquement pour GoogleBot et, le cas échéant, à évaluer s'il est toujours nécessaire à la lumière du nouveau moteur, soulignant également qu'il existe encore certaines
limitations , notamment pour les JavaScript.
En particulier, dans ces cas, Google a encore besoin de crawler
et de restituer JavaScript en deux phases : d'abord GoogleBot scanne la page, puis répète l'opération pour la restituer graphiquement (traduction littérale de
rendre ) de manière complète.
Classement sur Google et Googlebot, quelle est la relation ?
Pour en revenir à la vidéo de Splitt (et surtout à l'évocation du positionnement), le développeur avocat de l'équipe Google Search Relations explique mieux le concept de Googlebot et de
classement, précisant que l'activité de classement sur Google est informée par Googlebot, mais ce n'est pas le
cas partie par Googlebot.
Cela signifie donc que lors de la
phase d'indexation le programme s'assure que le contenu scanné est utile pour le moteur de recherche et son algorithme de positionnement, qui utilise, comme nous l'avons dit à plusieurs reprises, des critères spécifiques pour classer les pages , les fameux 200
Ranking Factors .
Un exemple pour comprendre la relation : La recherche comme bibliothèque
La similitude précitée avec une
bibliothèque est donc utile , dans laquelle le gestionnaire « doit établir quel est le contenu des différents livres afin de donner les bonnes réponses aux personnes qui demandent à les emprunter. Pour ce faire, consultez le catalogue de tous les volumes présents et lisez l'index des livres individuels ».
Le catalogue est donc l'index Google créé grâce
aux crawls Googlebot , puis "quelqu'un d'autre" utilise ces informations pour prendre des décisions éclairées et présenter aux utilisateurs le contenu qu'ils demandent (le livre qu'ils veulent lire, pour continuer l'analogie fournie).
Lorsqu'une personne demande au bibliothécaire "quel est le meilleur livre pour apprendre à faire des tartes aux pommes très rapidement", ce dernier doit pouvoir répondre adéquatement en étudiant les index des sujets des différents livres qui parlent de cuisine, mais
il sait aussi lesquels sont les plus populaires. Ainsi, dans l'environnement Web, nous avons l'index fourni par Googlebot et la "deuxième partie", la classification, qui est basée sur un système sophistiqué qui étudie l'interaction entre les
contenus présents pour décider quels "livres" recommander à ceux qui demandent pour information.