Comprendre le fonctionnement des crawlers

Laisser une évaluation

3 665
personnes ont consulté cet article

3 minutes

Rédigé par Léo Verstraet - il y a 8 mois et modifié le 21/10/2024 à 15:16

Ce que vous allez découvrir

Les crawlers, qu’est-ce que c’est ?
Une restructuration en profondeur de la documentation
Détails des modifications
Ajout d'une section sur les caractéristiques techniques des crawlers
Mise à jour des chaînes User-Agent
Crawling avec HTTP/2
Une évolution significative pour anticiper l'avenir
Conclusion

Comprendre le fonctionnement des crawlers

Google a récemment repensé sa documentation sur les crawlers, en simplifiant la page principale et en ajoutant trois nouvelles pages plus détaillées. Cette refonte a pour objectif de faciliter l’accès à des informations techniques spécifiques. Nous vous présentons les changements concrets apportés : ce qui a été retiré, ajouté ou modifié, ainsi que les nouvelles sections mises en place.

Les crawlers, qu’est-ce que c’est ?

Le crawler, aussi appelé crawler web ou spider est un logiciel qui a pour mission de parcourir le web afin d’analyser les contenus des documents, puis de les archiver ou les classer en fonction de leur pertinence. Ce sont des robots informatiques ou des scripts automatiques qui organisent les contenus sur le web dans un grand site d’archivage appelé « index ». Pendant son parcours, il mémorise l’adresse URL, l’identité du site et de nombreuses données. Un crawler est utilisé par un moteur de recherche. Google bot est l’un des crawlers les plus connus utilisés par le moteur de recherche Google.

Une restructuration en profondeur de la documentation

Google a remanié sa documentation sur les crawlers en scindant l’ancienne page « Aperçu des crawlers » en trois sections distinctes : les crawlers généraux, les crawlers à usage spécifique et les fetchers activés par les utilisateurs. Cette réorganisation répond à l’encombrement de la page originale, devenue trop longue et complexe, rendant difficile l’ajout de nouvelles informations.

Auparavant, l’ensemble des crawlers de Google était regroupé sans distinction claire de leurs rôles ni des détails techniques spécifiques, obligeant les utilisateurs à parcourir de vastes sections pour trouver ce qu’ils cherchaient.

Désormais, la documentation est mieux structurée et plus claire. Chaque type de crawler dispose de sa propre section, ce qui simplifie la consultation et permet d’ajouter de nouvelles informations sans surcharger la page principale.

Détails des modifications

Nouvelles pages de documentation :

Crawlers courants : Google a regroupé les informations sur ses bots principaux, tels que Googlebot et ses variantes (Googlebot Image, Googlebot Video), dans une page dédiée. Bien que les informations techniques et le respect des règles du fichier robots.txt restent globalement les mêmes, elles sont désormais mieux structurées pour faciliter la consultation.

Crawlers à usage spécifique : Une nouvelle page a été créée pour des bots comme AdsBot et Mediapartners-Google, utilisés pour des services spécifiques tels qu’AdSense et Google Ads. Ces crawlers, qui peuvent utiliser des adresses IP différentes, sont maintenant clairement distingués des crawlers généraux.

Fetchers déclenchés par les utilisateurs : Cette section inédite couvre les bots activés par les actions des utilisateurs, tels que Google Site Verifier ou Google Read Aloud. Contrairement aux autres bots, ceux-ci ne suivent généralement pas les directives du fichier robots.txt, et des exemples d’usages spécifiques y sont détaillés.

Ajout d’une section sur les caractéristiques techniques des crawlers

Une des nouveautés majeures de la documentation est l’ajout d’une section dédiée aux propriétés techniques des crawlers, absente dans la version précédente. Cette section présente des détails sur les types d’encodage pris en charge, tels que gzip, deflate et Brotli (br), et explique comment ces encodages sont spécifiés dans l’en-tête Accept-Encoding des requêtes des crawlers.

Extrait de la nouvelle documentation :

« Les crawlers et fetchers de Google prennent en charge les encodages de contenu suivants : gzip, deflate et Brotli (br). Ces encodages sont signalés dans l’en-tête Accept-Encoding de chaque requête envoyée. »

Avant : La documentation ne fournissait aucune information spécifique sur l’encodage des contenus.

Après : L’encodage est maintenant clairement mentionné, offrant ainsi aux administrateurs de sites et aux experts SEO une meilleure compréhension des interactions techniques entre leurs serveurs et les crawlers de Google.

Mise à jour des chaînes User-Agent

Google a également révisé certaines de ses chaînes User-Agent. Par exemple, une nouvelle chaîne a été introduite pour le crawler GoogleProducer. D’autres bots, tels que Google-InspectionTool, sont désormais documentés avec des informations plus détaillées.

Extrait de la nouvelle documentation sur les User-Agent :

« GoogleProducer utilise la chaîne d’agent utilisateur suivante : GoogleProducer/1.0. »

Cette précision n’était pas fournie dans la version antérieure de la documentation.

Crawling avec HTTP/2

La documentation fait également référence à l’utilisation de HTTP/1.1 et HTTP/2 pour les requêtes de crawl. Alors que la version précédente mentionnait déjà le protocole HTTP/1.1, la prise en charge du HTTP/2 est un ajout récent.

Avant : Aucune mention du HTTP/2 dans la documentation.

Après : Google indique maintenant que ses crawlers peuvent également utiliser HTTP/2, un protocole plus moderne et efficace.

Une évolution significative pour anticiper l’avenir

En segmentant la documentation en sous-pages spécifiques, Google prépare le terrain pour intégrer davantage d’informations techniques à l’avenir, tout en simplifiant l’expérience utilisateur. Cette structure modulaire facilite les mises à jour et permet aux gestionnaires de sites de mieux appréhender les interactions entre les différents types de crawlers et leurs sites.

Cette approche répond à un défi fréquent : la surcharge d’informations dans les documents. En classant les données par catégorie et en ajoutant de nouvelles sections techniques, Google améliore à la fois la lisibilité et la richesse des informations.

Conclusion

En conclusion, cette restructuration de la documentation sur les crawlers de Google marque une étape importante vers une meilleure compréhension de ces outils essentiels. La nouvelle organisation, plus claire et plus détaillée, facilitera l’accès à l’information pour les webmasters et les professionnels du SEO.

Retrouvez plus d’astuces et d’informations sur Numeriblog ! N’oubliez pas de vous inscrire sur notre Newsletter pour ne rien manquer dans la semaine. Pour monter en compétences sur les outils Google Workspace, rendez-vous dans notre catalogue de formation. N’hésitez pas à nous contacter, notre super équipe est là pour vous accompagner tout au long de votre parcours.

Articles similaires

Articles connexes
Plus de l'auteur

Google My Maps : placer les adresses d’un tableur sur une carte Google.

Imaginons un listing de magasins Simply Market trouvé sur Google avec la simple requête "filetype:xlsx magasins simply market". Voici une capture d'écran du fichier Excel qui s'ouvre. J'ai alors besoin ...

5(1)

1 min

Thierry Vanoffe 8 ans

Chrome : 3 paramètres de drapeau à modifier

Les Flags ou drapeaux : qu'est-ce que c'est ? Les indicateurs Chrome ou les drapeaux sont des fonctionnalités expérimentales qui ne font pas partie de l'expérience Chrome par défaut. Certains sont axés ...

1 min

Thierry Vanoffe 3 ans

News

4 applications Google utiles pour Chromebook

Les applications Google sont toutes extrêmement utiles et vous les utilisez sûrement très souvent. Google Drive, Gmail, Google Maps ou encore Google Agenda sont toutes des applications qui ont derrière ...

4 min

Thierry Vanoffe 9 ans

News

L’IA sur Chromebook

Avec l'intégration de nouvelles capacités d'IA générative, les Chromebook Plus se distinguent par une série d'innovations qui les rendent rapidement incontournables... tout en restant accessibles ! Lancés sur le marché ...

2 min

Léo Verstraet 8 mois

News

Nest Learning Thermostat

Le prochain thermostat connecté de Google pourrait être dévoilé dans les semaines à venir. En attendant, des fuites nous offrent un aperçu de son nouveau design et des fonctionnalités innovantes ...

2 min

Léo Verstraet 10 mois

Chromecast : à quoi ça sert ?

Actuellement, le streaming multimédia domine notre quotidien, le Google Chromecast se révèle être un véritable allié offert par la firme de Mountain View. Conçu au départ pour transcender les frontières ...

3 min

Léo Verstraet 1 an

Rédacteur

Léo Verstraet

Développeur Google Apps Script

S’abonner

0 Commentaires

Le plus ancien

Le plus récent Le plus populaire

Commentaires en ligne

Afficher tous les commentaires