Numeriblog Produits Google Comprendre le fonctionnement des crawlers

Comprendre le fonctionnement des crawlers

Google a récemment repensé sa documentation sur les crawlers, en simplifiant la page principale et en ajoutant trois nouvelles pages plus détaillées. Cette refonte a pour objectif de faciliter l’accès à des informations techniques spécifiques. […]

personnes ont consulté cet article

3 minutes

Rédigé par Léo Verstraet - il y a 4 semaines et modifié le 21/10/2024 à 15:16

Ce que vous allez découvrir

  • Les crawlers, qu’est-ce que c’est ?
  • Une restructuration en profondeur de la documentation
  • Détails des modifications
  • Ajout d'une section sur les caractéristiques techniques des crawlers
  • Mise à jour des chaînes User-Agent
  • Crawling avec HTTP/2
  • Une évolution significative pour anticiper l'avenir
  • Conclusion

Comprendre le fonctionnement des crawlers

Google a récemment repensé sa documentation sur les crawlers, en simplifiant la page principale et en ajoutant trois nouvelles pages plus détaillées. Cette refonte a pour objectif de faciliter l’accès à des informations techniques spécifiques. Nous vous présentons les changements concrets apportés : ce qui a été retiré, ajouté ou modifié, ainsi que les nouvelles sections mises en place.

Google.

Les crawlers, qu’est-ce que c’est ?

Le crawler, aussi appelé crawler web ou spider est un logiciel qui a pour mission de parcourir le web afin d’analyser les contenus des documents, puis de les archiver ou les classer en fonction de leur pertinence. Ce sont des robots informatiques ou des scripts automatiques qui organisent les contenus sur le web dans un grand site d’archivage appelé « index ». Pendant son parcours, il mémorise l’adresse URL,  l’identité du site et de nombreuses données. Un crawler est utilisé par un moteur de recherche. Google bot est l’un des crawlers les plus connus utilisés par le moteur de recherche Google.

Une restructuration en profondeur de la documentation

Google a remanié sa documentation sur les crawlers en scindant l’ancienne page « Aperçu des crawlers » en trois sections distinctes : les crawlers généraux, les crawlers à usage spécifique et les fetchers activés par les utilisateurs. Cette réorganisation répond à l’encombrement de la page originale, devenue trop longue et complexe, rendant difficile l’ajout de nouvelles informations.

Auparavant, l’ensemble des crawlers de Google était regroupé sans distinction claire de leurs rôles ni des détails techniques spécifiques, obligeant les utilisateurs à parcourir de vastes sections pour trouver ce qu’ils cherchaient.

Désormais, la documentation est mieux structurée et plus claire. Chaque type de crawler dispose de sa propre section, ce qui simplifie la consultation et permet d’ajouter de nouvelles informations sans surcharger la page principale.

Détails des modifications

Nouvelles pages de documentation :

  • Crawlers courants : Google a regroupé les informations sur ses bots principaux, tels que Googlebot et ses variantes (Googlebot Image, Googlebot Video), dans une page dédiée. Bien que les informations techniques et le respect des règles du fichier robots.txt restent globalement les mêmes, elles sont désormais mieux structurées pour faciliter la consultation.
  • Crawlers à usage spécifique : Une nouvelle page a été créée pour des bots comme AdsBot et Mediapartners-Google, utilisés pour des services spécifiques tels qu’AdSense et Google Ads. Ces crawlers, qui peuvent utiliser des adresses IP différentes, sont maintenant clairement distingués des crawlers généraux.
  • Fetchers déclenchés par les utilisateurs : Cette section inédite couvre les bots activés par les actions des utilisateurs, tels que Google Site Verifier ou Google Read Aloud. Contrairement aux autres bots, ceux-ci ne suivent généralement pas les directives du fichier robots.txt, et des exemples d’usages spécifiques y sont détaillés.

Ajout d’une section sur les caractéristiques techniques des crawlers

Une des nouveautés majeures de la documentation est l’ajout d’une section dédiée aux propriétés techniques des crawlers, absente dans la version précédente. Cette section présente des détails sur les types d’encodage pris en charge, tels que gzip, deflate et Brotli (br), et explique comment ces encodages sont spécifiés dans l’en-tête Accept-Encoding des requêtes des crawlers.

Extrait de la nouvelle documentation :

« Les crawlers et fetchers de Google prennent en charge les encodages de contenu suivants : gzip, deflate et Brotli (br). Ces encodages sont signalés dans l’en-tête Accept-Encoding de chaque requête envoyée. »

Avant : La documentation ne fournissait aucune information spécifique sur l’encodage des contenus. 

Après : L’encodage est maintenant clairement mentionné, offrant ainsi aux administrateurs de sites et aux experts SEO une meilleure compréhension des interactions techniques entre leurs serveurs et les crawlers de Google.

Mise à jour des chaînes User-Agent

Google a également révisé certaines de ses chaînes User-Agent. Par exemple, une nouvelle chaîne a été introduite pour le crawler GoogleProducer. D’autres bots, tels que Google-InspectionTool, sont désormais documentés avec des informations plus détaillées.

Extrait de la nouvelle documentation sur les User-Agent :

« GoogleProducer utilise la chaîne d’agent utilisateur suivante : GoogleProducer/1.0. »

Cette précision n’était pas fournie dans la version antérieure de la documentation.

Crawling avec HTTP/2

La documentation fait également référence à l’utilisation de HTTP/1.1 et HTTP/2 pour les requêtes de crawl. Alors que la version précédente mentionnait déjà le protocole HTTP/1.1, la prise en charge du HTTP/2 est un ajout récent.

Avant : Aucune mention du HTTP/2 dans la documentation. 

Après : Google indique maintenant que ses crawlers peuvent également utiliser HTTP/2, un protocole plus moderne et efficace.

Une évolution significative pour anticiper l’avenir

En segmentant la documentation en sous-pages spécifiques, Google prépare le terrain pour intégrer davantage d’informations techniques à l’avenir, tout en simplifiant l’expérience utilisateur. Cette structure modulaire facilite les mises à jour et permet aux gestionnaires de sites de mieux appréhender les interactions entre les différents types de crawlers et leurs sites.

Cette approche répond à un défi fréquent : la surcharge d’informations dans les documents. En classant les données par catégorie et en ajoutant de nouvelles sections techniques, Google améliore à la fois la lisibilité et la richesse des informations.

Conclusion

En conclusion, cette restructuration de la documentation sur les crawlers de Google marque une étape importante vers une meilleure compréhension de ces outils essentiels. La nouvelle organisation, plus claire et plus détaillée, facilitera l’accès à l’information pour les webmasters et les professionnels du SEO.

Retrouvez plus d’astuces et d’informations sur Numeriblog ! N’oubliez pas de vous inscrire sur notre Newsletter pour ne rien manquer dans la semaine. Pour monter en compétences sur les outils Google Workspace, rendez-vous dans notre catalogue de formation. N’hésitez pas à nous contacter, notre super équipe est là pour vous accompagner tout au long de votre parcours.

Articles similaires

  • Articles connexes
  • Plus de l'auteur

Rédacteur

Photo de profil de l'auteur
Léo Verstraet

Développeur Google Apps Script

S’abonner
Notification pour
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires