06 50 46 27 02 contact@lesmarketing.fr

Le Crawl Budget, également appelé budget d’exploration, il détermine le nombre de pages qu’un robot Google est capable d’indexer sur un domaine. Si un site comporte de nombreuses pages, l’indexation peut prendre plus de temps. Vous pouvez donc simplement supposer que le budget de crawl est le nombre de sous-pages que Googlebot est capable d’indexer au cours d’une visite.

Dans le cas de Google, cependant, rien n’est aussi simple qu’il n’y paraît à première vue. Les robots d’indexation doivent scanner des milliards de pages chaque jour. Chaque visite d’un tel robot sur un site occupe une partie des ressources du serveur de Google et du propriétaire du domaine. Avec autant de pages consultées quotidiennement, les ingénieurs du plus grand moteur de recherche du monde ont dû introduire certaines limitations qui rendent les performances de Googlebot aussi efficaces que possible tout en réduisant la puissance de calcul nécessaire pour cela. Par conséquent, l’optimisation correcte d’une page pour le référencement technique est l’une des bases de fonctionnement du SEO.

 budgetdecrawletseo

 

Qu’est-ce qui affecte le budget de crawl ?

Google a spécifié deux paramètres principaux qui constituent le budget Crawl :

  • Limite du taux d’exploration : limite du taux d’indexation
  • Demande d’indexation : fréquence de l’indexation

La combinaison de ces deux indicateurs détermine la taille du budget crawl de votre site. La solution idéale est lorsque le taux limite d’indexation et la fréquence d’indexation sont tous deux élevés. Pour y parvenir, vous devez contrôler à la fois les paramètres techniques de votre site web et son attractivité aux yeux des utilisateurs potentiels.

Comment vérifier le taux de crawl de votre site web ?

Les données sur l’activité du robot Google sont disponibles dans la Google search console, dans la section des statistiques d’exploration, qui se trouve dans l’onglet paramètres. Grâce à ces statistiques, vous pouvez visualiser des données sur le crawl de votre site. 

Total des demandes d’exploration : est le reflet direct du nombre d’URL dans un domaine donné qui ont été visitées par Googlebot. D’une certaine manière, cet indicateur reflète également la convivialité du site pour l’indexation des robots. Si vous constatez une baisse soudaine du nombre des pages indexées, ce sera un signal clair que votre site web a des problèmes et qu’il faut l’auditer techniquement. Il est judicieux de contrôler et de sauvegarder les statistiques afin de pouvoir les comparer entre elles dans une perspective plus longue que les 90 jours affichés.

Le nombre de kilo-octets de données téléchargées par jour : signifie combien de kilo-octets ont été téléchargés par le robot pendant la visite. Le montant de cet indicateur est directement lié à la quantité de données présentes sur le site. Des valeurs élevées dans ce tableau ne sont pas une mauvaise chose tant que cela ne fait pas augmenter le temps de téléchargement de la page.

Le temps de réponse moyen : détermine la vitesse à laquelle Googlebot collecte les informations. Cet indicateur doit toujours être maintenu aussi bas que possible. Tout comme pour les utilisateurs, une durée de téléchargement prolongée peut décourager la prochaine visite.

Autres facteurs qui influent sur le budget de crawl

Navigation à facettes : populaire dans les boutiques en ligne, le filtrage des produits, cette technique permet de rendre une page donnée disponible à plusieurs URLs, ce qui entraîne la duplication du contenu
Duplication du contenu du site : non seulement pour la navigation à facettes, mais il faut faire attention à la duplication du contenu. La duplication du contenu sous quelque forme que ce soit est pour Google l’un des facteurs les plus importants qui influencent la qualité du site web. Chaque contenu doit être aussi unique que possible.
Erreurs 404 : apparaissent lorsque le serveur renvoie le code de réponse 200 sur une page qui n’existe pas au lieu du code 404. Les erreurs légères réduisent le budget d’exploration. Heureusement, si de telles pages apparaissent, elles peuvent être trouvées dans la Google search console de Google dans l’onglet “Couverture”.
Pages qui ont été piratées : si une partie de votre site est susceptible d’être victime d’une attaque de piratage, cela peut réduire considérablement ses chances d’être correctement indexée.
Nombre important de pages : le plus souvent, elles sont créées par les paramètres présents dans les URL. Cela peut être la raison d’une duplication massive du contenu. Vous pouvez en savoir plus à ce sujet dans le guide officiel de Google
Contenu de faible qualité ou spam : Google essaie d’être aussi pertinent que possible pour les contenus de faible qualité et dans tous les cas où il y a une probabilité de spam, les robots d’indexation peuvent trouver que cela ne vaut pas la peine de visiter le site.

Le gaspillage du budget sur les pages d’erreur peut entraîner une diminution de l’activité de Googlebot dans les endroits où l”exploration est le plus nécessaire. En conséquence, de nouvelles pages apparaîtront dans les résultats de recherche avec du retard.

Sujets Connexes