Comprendre le fonctionnement des crawlers

Laisser une évaluation

3 778
personnes ont consulté cet article

3 minutes

Rédigé par Léo Verstraet - il y a 10 mois et modifié le 21/10/2024 à 15:16

Ce que vous allez découvrir

Les crawlers, qu’est-ce que c’est ?
Une restructuration en profondeur de la documentation
Détails des modifications
Ajout d'une section sur les caractéristiques techniques des crawlers
Mise à jour des chaînes User-Agent
Crawling avec HTTP/2
Une évolution significative pour anticiper l'avenir
Conclusion

Comprendre le fonctionnement des crawlers

Google a récemment repensé sa documentation sur les crawlers, en simplifiant la page principale et en ajoutant trois nouvelles pages plus détaillées. Cette refonte a pour objectif de faciliter l’accès à des informations techniques spécifiques. Nous vous présentons les changements concrets apportés : ce qui a été retiré, ajouté ou modifié, ainsi que les nouvelles sections mises en place.

Les crawlers, qu’est-ce que c’est ?

Le crawler, aussi appelé crawler web ou spider est un logiciel qui a pour mission de parcourir le web afin d’analyser les contenus des documents, puis de les archiver ou les classer en fonction de leur pertinence. Ce sont des robots informatiques ou des scripts automatiques qui organisent les contenus sur le web dans un grand site d’archivage appelé « index ». Pendant son parcours, il mémorise l’adresse URL, l’identité du site et de nombreuses données. Un crawler est utilisé par un moteur de recherche. Google bot est l’un des crawlers les plus connus utilisés par le moteur de recherche Google.

Une restructuration en profondeur de la documentation

Google a remanié sa documentation sur les crawlers en scindant l’ancienne page « Aperçu des crawlers » en trois sections distinctes : les crawlers généraux, les crawlers à usage spécifique et les fetchers activés par les utilisateurs. Cette réorganisation répond à l’encombrement de la page originale, devenue trop longue et complexe, rendant difficile l’ajout de nouvelles informations.

Auparavant, l’ensemble des crawlers de Google était regroupé sans distinction claire de leurs rôles ni des détails techniques spécifiques, obligeant les utilisateurs à parcourir de vastes sections pour trouver ce qu’ils cherchaient.

Désormais, la documentation est mieux structurée et plus claire. Chaque type de crawler dispose de sa propre section, ce qui simplifie la consultation et permet d’ajouter de nouvelles informations sans surcharger la page principale.

Détails des modifications

Nouvelles pages de documentation :

Crawlers courants : Google a regroupé les informations sur ses bots principaux, tels que Googlebot et ses variantes (Googlebot Image, Googlebot Video), dans une page dédiée. Bien que les informations techniques et le respect des règles du fichier robots.txt restent globalement les mêmes, elles sont désormais mieux structurées pour faciliter la consultation.

Crawlers à usage spécifique : Une nouvelle page a été créée pour des bots comme AdsBot et Mediapartners-Google, utilisés pour des services spécifiques tels qu’AdSense et Google Ads. Ces crawlers, qui peuvent utiliser des adresses IP différentes, sont maintenant clairement distingués des crawlers généraux.

Fetchers déclenchés par les utilisateurs : Cette section inédite couvre les bots activés par les actions des utilisateurs, tels que Google Site Verifier ou Google Read Aloud. Contrairement aux autres bots, ceux-ci ne suivent généralement pas les directives du fichier robots.txt, et des exemples d’usages spécifiques y sont détaillés.

Ajout d’une section sur les caractéristiques techniques des crawlers

Une des nouveautés majeures de la documentation est l’ajout d’une section dédiée aux propriétés techniques des crawlers, absente dans la version précédente. Cette section présente des détails sur les types d’encodage pris en charge, tels que gzip, deflate et Brotli (br), et explique comment ces encodages sont spécifiés dans l’en-tête Accept-Encoding des requêtes des crawlers.

Extrait de la nouvelle documentation :

« Les crawlers et fetchers de Google prennent en charge les encodages de contenu suivants : gzip, deflate et Brotli (br). Ces encodages sont signalés dans l’en-tête Accept-Encoding de chaque requête envoyée. »

Avant : La documentation ne fournissait aucune information spécifique sur l’encodage des contenus.

Après : L’encodage est maintenant clairement mentionné, offrant ainsi aux administrateurs de sites et aux experts SEO une meilleure compréhension des interactions techniques entre leurs serveurs et les crawlers de Google.

Mise à jour des chaînes User-Agent

Google a également révisé certaines de ses chaînes User-Agent. Par exemple, une nouvelle chaîne a été introduite pour le crawler GoogleProducer. D’autres bots, tels que Google-InspectionTool, sont désormais documentés avec des informations plus détaillées.

Extrait de la nouvelle documentation sur les User-Agent :

« GoogleProducer utilise la chaîne d’agent utilisateur suivante : GoogleProducer/1.0. »

Cette précision n’était pas fournie dans la version antérieure de la documentation.

Crawling avec HTTP/2

La documentation fait également référence à l’utilisation de HTTP/1.1 et HTTP/2 pour les requêtes de crawl. Alors que la version précédente mentionnait déjà le protocole HTTP/1.1, la prise en charge du HTTP/2 est un ajout récent.

Avant : Aucune mention du HTTP/2 dans la documentation.

Après : Google indique maintenant que ses crawlers peuvent également utiliser HTTP/2, un protocole plus moderne et efficace.

Une évolution significative pour anticiper l’avenir

En segmentant la documentation en sous-pages spécifiques, Google prépare le terrain pour intégrer davantage d’informations techniques à l’avenir, tout en simplifiant l’expérience utilisateur. Cette structure modulaire facilite les mises à jour et permet aux gestionnaires de sites de mieux appréhender les interactions entre les différents types de crawlers et leurs sites.

Cette approche répond à un défi fréquent : la surcharge d’informations dans les documents. En classant les données par catégorie et en ajoutant de nouvelles sections techniques, Google améliore à la fois la lisibilité et la richesse des informations.

Conclusion

En conclusion, cette restructuration de la documentation sur les crawlers de Google marque une étape importante vers une meilleure compréhension de ces outils essentiels. La nouvelle organisation, plus claire et plus détaillée, facilitera l’accès à l’information pour les webmasters et les professionnels du SEO.

Retrouvez plus d’astuces et d’informations sur Numeriblog ! N’oubliez pas de vous inscrire sur notre Newsletter pour ne rien manquer dans la semaine. Pour monter en compétences sur les outils Google Workspace, rendez-vous dans notre catalogue de formation. N’hésitez pas à nous contacter, notre super équipe est là pour vous accompagner tout au long de votre parcours.

Articles similaires

Articles connexes
Plus de l'auteur

YouTube : apprendre à la maison

YouTube lance un site temporaire de ressources pendant la période du COVID-19 : "Apprendre à la maison" : https://learnathome.withyoutube.com/intl/fr/ L'apprentissage avec YouTube Alors que les écoles à travers le monde ...

1 min

Thierry Vanoffe 5 ans

News

IA Google : Music LM, l’intelligence artificielle qui génère de la musique !

En ce moment, l’intelligence artificielle est sous le feu des projecteurs. Après l’immense succès de ChatGPT conçue par OpenAI, c’est au tour de Google de faire parler de lui. En ...

5(1)

3 min

Dimitri Dehaene 3 ans

Google prépare un moyen d’hiberner votre Chromebook pour économiser de l’énergie

Il sera bientôt possible d'hiberner votre Chromebook au lieu de simplement le mettre en veille, ce qui lui permettra d'économiser encore plus de batterie lorsqu'il n'est pas utilisé. Un Chromebook ...

2 min

Thierry Vanoffe 4 ans

Top 10 des extensions Chrome et modules complémentaires Google Sheets

Vous cherchez des extensions Chrome pour vous aider à accroître votre productivité sur Sheets ? Vous êtes tombés au bon endroit, dans cet article, nous listerons les dix meilleures extensions ...

3 min

Léo Verstraet 1 an

News

Nouveautés Google Photos

Début juillet, Google Photos a atteint un jalon significatif en dépassant les 10 milliards de téléchargements sur Android. En outre, une nouveauté sociale pourrait prochainement y être intégrée. Cette nouveauté, ...

2 min

Léo Verstraet 1 an

News

ChatGPT et DALL-E : OpenAI met les bouchées doubles

L'intelligence artificielle (IA) générative continue de repousser les limites de l'innovation, un nom en particulier ressort souvent : ChatGPT dont le lancement a été effectué le 30 novembre 2022. Il ...

5(1)

4 min

Léo Verstraet 2 ans

Rédacteur

Léo Verstraet

Développeur Google Apps Script

S’abonner

0 Commentaires

Le plus ancien

Le plus récent Le plus populaire

Commentaires en ligne

Afficher tous les commentaires