16 octobre 2023

Utilisation et abus de Crawl Delay

Importance et implications du Crawl Delay : un paramÚtre qui peut protéger votre serveur mais aussi compromettre la visibilité de votre site dans les résultats de recherche.

Le monde de l’optimisation des moteurs de recherche (SEO) est vaste et en constante Ă©volution. L’une des parties les plus techniques et souvent nĂ©gligĂ©es est la gestion de l’exploration des moteurs de recherche. Dans cet article, nous aborderons un aspect spĂ©cifique : l’utilisation et l’abus de Crawl Delay, une directive qui peut ĂȘtre insĂ©rĂ©e dans le fichier robots.txt pour contrĂŽler la frĂ©quence Ă  laquelle les robots des moteurs de recherche accĂšdent Ă  votre site Web.

Qu'est-ce qu'un robot d'exploration ?

Un robot d'exploration, parfois appelĂ© araignĂ©e ou bot, est un logiciel automatisĂ© utilisĂ© par les moteurs de recherche tels que Google, Bing, Yahoo et autres pour naviguer dans les labyrinthes du World Wide Web. Son objectif principal est d'explorer et d'analyser les sites Web afin de les indexer. et donc les rendre consultables via les moteurs de recherche. Mais comment fonctionne exactement un robot d’exploration et pourquoi est-il si critique ?

Un robot commence son travail Ă  partir d'un ensemble d'URL connues, appelĂ©es « graines ». A partir de ces URL initiales, le robot examine le contenu des pages, lit le code HTML et identifie tous les liens prĂ©sents sur la page. Une fois identifiĂ©es, ces nouvelles URL sont ajoutĂ©es Ă  une file d’attente pour une analyse ultĂ©rieure. Ce processus se rĂ©pĂšte de maniĂšre rĂ©cursive, permettant au robot de dĂ©couvrir de plus en plus de pages et de les ajouter Ă  l'index du moteur de recherche.

En plus d'extraire des liens, les robots d'exploration sont capables d'analyser d'autres Ă©lĂ©ments des pages Web, tels que les balises mĂ©ta, les titres, les images et mĂȘme le multimĂ©dia, pour acquĂ©rir une comprĂ©hension plus complĂšte du site. Ces donnĂ©es sont ensuite utilisĂ©es pour dĂ©terminer la pertinence d'une page par rapport Ă  une requĂȘte de recherche particuliĂšre, influençant ainsi son classement dans les rĂ©sultats de recherche.

L’action des robots est fondamentale pour la crĂ©ation et la mise Ă  jour des index des moteurs de recherche. Sans exploration, il serait pratiquement impossible pour les moteurs de recherche de fournir des rĂ©sultats Ă  jour et pertinents. Les pages Web, les blogs, les forums et toutes les autres formes de contenu en ligne dĂ©pendent des robots d'exploration pour ĂȘtre « dĂ©couverts » puis rendus accessibles aux internautes via des recherches.

Risques de rampement excessif

Le processus d’exploration est sans aucun doute crucial pour garantir qu’un site Web soit visible et facilement accessible via les moteurs de recherche. Cependant, un volume Ă©levĂ© de requĂȘtes d'exploration peut poser un problĂšme sĂ©rieux, mettant Ă  rude Ă©preuve les capacitĂ©s du serveur, en particulier si celui-ci n'est pas optimisĂ© ou suffisamment dimensionnĂ© pour gĂ©rer un trafic important.

Dimensionnement et performances

Un serveur de mauvaise taille, doté de ressources matérielles limitées telles que le processeur, la mémoire et la bande passante, est particuliÚrement vulnérable à la surcharge provoquée par une analyse intensive. Cela est encore plus vrai si l'application Web hébergée sur le serveur n'a pas été optimisée pour les performances.

RequĂȘtes lentes et gourmandes en ressources

Des facteurs tels que des requĂȘtes de base de donnĂ©es mal conçues ou trop complexes, ou une utilisation excessive des ressources pour gĂ©nĂ©rer dynamiquement une page Web, peuvent encore aggraver la situation. Dans un environnement comme celui-ci, un robot envoyant un grand nombre de requĂȘtes dans un laps de temps trĂšs court peut exacerber les goulots d'Ă©tranglement, ralentissant considĂ©rablement les performances du serveur. Cela peut entraĂźner des temps de chargement plus longs pour les utilisateurs finaux et, dans le pire des cas, rendre le site Web complĂštement inaccessible.

Erreur 500 et son importance

Un symptĂŽme typique d'un serveur surchargĂ© est l'erreur HTTP 500, un code d'Ă©tat qui indique une erreur gĂ©nĂ©rique et est souvent le signe de problĂšmes internes du serveur. L'erreur 500 peut servir de signe d'avertissement, non seulement pour les administrateurs de sites mais aussi pour les moteurs de recherche. Google, par exemple, est capable de moduler sa frĂ©quence d'exploration en rĂ©ponse Ă  une augmentation de 500 erreurs. Lorsque le robot de Google dĂ©tecte un grand nombre de ces erreurs, il peut dĂ©cider de rĂ©duire la vitesse de ses requĂȘtes pour minimiser l'impact sur le serveur.

De cette maniĂšre, l'erreur 500 revĂȘt une double importance : d'une part, elle sert d'indicateur aux administrateurs de sites Web que quelque chose ne va pas dans le systĂšme ; d'un autre cĂŽtĂ©, cela indique aux moteurs de recherche que vous devrez peut-ĂȘtre rĂ©duire votre frĂ©quence d'exploration pour Ă©viter d'autres problĂšmes.

DĂ©lai d'exploration : une solution ?

Il Crawl Delay est une directive qui peut ĂȘtre insĂ©rĂ©e dans le fichier robots.txt du site. Il sert Ă  indiquer aux robots une pause (exprimĂ©e en secondes) entre une requĂȘte et une autre. Par exemple, dĂ©finir un Crawl Delay de 10 secondes, le robot doit attendre 10 secondes entre une requĂȘte et la suivante.

Agent utilisateur : * DĂ©lai d'exploration : 10

Quand le délai d'exploration devient un obstacle

Si l'implĂ©mentation de Crawl Delay dans le fichier robots.txt d'un site Web peut sembler une stratĂ©gie efficace pour attĂ©nuer le risque de surcharge du serveur due Ă  une activitĂ© de crawl excessive, en revanche, cette solution peut Ă©galement prĂ©senter des contre-indications non nĂ©gligeables. DĂ©finir un dĂ©lai dans les temps d'exploration signifie effectivement limiter le nombre de requĂȘtes qu'un robot peut effectuer au cours d'une pĂ©riode de temps donnĂ©e. Cela peut directement entraĂźner un retard dans l’indexation des nouvelles pages ou des modifications apportĂ©es aux pages existantes. Dans un contexte oĂč la rapiditĂ© d’indexation des contenus peut influencer leur visibilitĂ© et, par consĂ©quent, le trafic et les conversions, un Crawl Delay trop Ă©levĂ© peut s’avĂ©rer contre-productif.

Par exemple, imaginez que vous venez de publier un article d’actualitĂ© ou une mise Ă  jour importante sur un produit ou un service. Dans une telle situation, vous souhaiteriez que ces informations soient indexĂ©es le plus rapidement possible afin de maximiser la visibilitĂ© et l'engagement. Un dĂ©lai d'exploration trop Ă©levĂ© pourrait retarder considĂ©rablement ce processus, rendant vos informations moins compĂ©titives, voire non pertinentes.

Google, l'un des moteurs de recherche les plus avancĂ©s, a la capacitĂ© de moduler dynamiquement la vitesse d'exploration en rĂ©ponse Ă  divers facteurs, notamment la stabilitĂ© du serveur d'oĂč proviennent les pages. Si Google dĂ©tecte une augmentation de 500 codes d'erreur, signe que le serveur peut ĂȘtre instable ou surchargĂ©, le moteur de recherche est programmĂ© pour rĂ©duire automatiquement la frĂ©quence de ses requĂȘtes d'exploration. Ceci est un exemple de la façon dont une approche intelligente et adaptative de l'exploration peut ĂȘtre plus bĂ©nĂ©fique qu'un paramĂštre rigide de dĂ©lai d'exploration, qui ne prend pas en compte les dynamiques variables pouvant affecter les performances d'un site Web.

PrĂ©rĂ©glages de dĂ©lai d'exploration : une mauvaise pratique

Certains services d'hĂ©bergement, dans un souci d'optimisation des performances et de la stabilitĂ© des serveurs, fixent une valeur Crawl Delay par dĂ©faut dans le fichier robots.txt des sites qu'ils hĂ©bergent. Par exemple, Siteground, un hĂ©bergeur connu pour se spĂ©cialiser dans les solutions WordPress orientĂ©es performances, applique cette limitation dans le cadre de sa configuration standard. Bien que l'intention puisse ĂȘtre de prĂ©server les ressources du serveur et d'assurer une expĂ©rience utilisateur fluide, cette pratique n'est souvent pas recommandĂ©e, sauf s'il existe un besoin rĂ©el et spĂ©cifique de limiter les connexions entrantes des robots d'exploration.

Retard d'exploration du site

La raison est simple : chaque site Web a des besoins, des dynamiques et des objectifs uniques qui ne peuvent pas ĂȘtre satisfaits efficacement par une configuration « taille unique Â». La dĂ©finition d'un dĂ©lai d'exploration par dĂ©faut peut, en fait, entraver la capacitĂ© de votre site Ă  ĂȘtre indexĂ© en temps opportun, affectant potentiellement votre classement dans les rĂ©sultats de recherche et, par consĂ©quent, votre visibilitĂ© en ligne. En particulier, pour les sites qui sont frĂ©quemment mis Ă  jour ou qui nĂ©cessitent une indexation rapide pour des raisons thĂ©matiques ou saisonniĂšres, une limitation gĂ©nĂ©rique de l'exploration pourrait s'avĂ©rer contre-productive.

De plus, un délai d'exploration inapproprié peut interférer avec la capacité des moteurs de recherche à évaluer et à réagir dynamiquement aux conditions du site et du serveur. Comme mentionné ci-dessus, Google, par exemple, est capable de moduler sa fréquence d'exploration en réponse à une augmentation de 500 erreurs ou à d'autres signes d'instabilité du serveur. Un Crawl Delay fixé de maniÚre rigide pourrait donc rendre ces mécanismes adaptatifs moins efficaces.

Ainsi, mĂȘme si un hĂ©bergeur comme Siteground peut avoir les meilleures intentions de vouloir prĂ©server les performances du serveur grĂące Ă  un dĂ©lai d'exploration par dĂ©faut, il est essentiel que les gestionnaires de sites Web prennent en considĂ©ration les besoins spĂ©cifiques de leur site et Ă©valuent si un tel paramĂštre est rĂ©ellement dans leur intĂ©rĂȘt. .

Impact sur le référencement

Un paramÚtre de délai d'exploration inexact peut avoir de graves conséquences sur le référencement d'un site Web. Ce paramÚtre peut ralentir et limiter la fréquence à laquelle les robots des moteurs de recherche accÚdent et analysent votre site. Cette réduction de la vitesse et de la fréquence d'exploration peut entraßner des retards dans l'indexation des nouveaux contenus, ainsi que dans les mises à jour des pages Web existantes dans la base de données du moteur de recherche.

Un aspect souvent sous-estimĂ© est l'effet du Crawl Delay sur ce qu'on appelle le « budget d'exploration », qui est le nombre total de pages qu'un moteur de recherche est prĂȘt Ă  explorer sur un site spĂ©cifique au cours d'une certaine pĂ©riode de temps. Un dĂ©lai de crawl excessif pourrait consommer ce budget trĂšs rapidement, laissant certaines pages inexplorĂ©es et donc non indexĂ©es. Ceci est particuliĂšrement dangereux pour les sites avec un grand volume de contenu qui nĂ©cessitent une exploration rĂ©guliĂšre et approfondie.

De plus, un dĂ©lai d'exploration incorrect pourrait amener les robots Ă  « abandonner Â» la phase de rĂ©cupĂ©ration de contenu., surtout si vous rencontrez des difficultĂ©s pour accĂ©der Ă  l'information dans le dĂ©lai imparti. Cela signifie que les mises Ă  jour importantes ou les nouveaux contenus peuvent ne pas ĂȘtre rĂ©cupĂ©rĂ©s par les moteurs de recherche, compromettant ainsi la visibilitĂ© du site dans les SERP (Search Engine Results Pages).

Ces retards et problĂšmes d'exploration et d'indexation peuvent entraĂźner une visibilitĂ© rĂ©duite dans les rĂ©sultats de recherche. Cette visibilitĂ© rĂ©duite se traduit souvent par une baisse du trafic entrant et Ă  terme une dĂ©gradation des classements SERP. Tout cela peut avoir un effet d’entraĂźnement nĂ©gatif sur la compĂ©titivitĂ© de votre site Web, influençant nĂ©gativement Ă  la fois le trafic et la conversion et, Ă  long terme, le ROI (Return On Investment) de vos stratĂ©gies en ligne.

Par consĂ©quent, il est crucial d’utiliser Crawl Delay de maniĂšre rĂ©flĂ©chie, en tenant compte Ă  la fois des besoins du serveur et des implications pour le rĂ©fĂ©rencement. Avant d'apporter des modifications Ă  votre fichier robots.txt, il est toujours conseillĂ© de consulter un expert SEO pour une Ă©valuation complĂšte des besoins spĂ©cifiques de votre site Web.

Conclusions

La gestion du Crawl Delay C'est une tùche délicate qui doit équilibrer les besoins du serveur et les besoins du référencement. Il est essentiel de réfléchir soigneusement à l'opportunité d'introduire cette directive et, le cas échéant, quelle valeur fixer. Une approche incorrecte peut avoir des conséquences négatives à la fois sur les performances du serveur et sur le référencement.

Si votre serveur est dĂ©jĂ  optimisĂ© et que l'application fonctionne bien, ajustez le Crawl Delay ce n'est peut-ĂȘtre pas nĂ©cessaire. Dans tous les cas, c'est toujours une bonne idĂ©e de surveiller en permanence les performances du serveur et l'activitĂ© des robots d'exploration via des outils tels que Google Search Console ou les journaux du serveur, afin de prendre des dĂ©cisions Ă©clairĂ©es.

Se souvenir du Crawl Delay ce n'est qu'un Ă©lĂ©ment dans la mosaĂŻque complexe du rĂ©fĂ©rencement et des performances du site. Il doit ĂȘtre utilisĂ© Ă  bon escient et en combinaison avec d’autres bonnes pratiques pour garantir une prĂ©sence en ligne forte et durable.

Informations sur l'auteur

Vous avez des doutes ? Vous ne savez pas par oĂč commencer ? Contactez-nous !

Nous avons toutes les réponses à vos questions pour vous aider à faire le bon choix.

Discute avec nous

Discutez directement avec notre support avant-vente.

0256569681

Contactez-nous par téléphone pendant les heures de bureau 9h30 - 19h30

Contactez-nous en ligne

Ouvrez une demande directement dans l'espace contact.

INFORMATIONS

Managed Server Srl est un acteur italien leader dans la fourniture de solutions systÚme GNU/Linux avancées orientées vers la haute performance. Avec un modÚle d'abonnement peu coûteux et prévisible, nous garantissons que nos clients ont accÚs à des technologies avancées en matiÚre d'hébergement, de serveurs dédiés et de services cloud. En plus de cela, nous proposons des conseils systÚme sur les systÚmes Linux et une maintenance spécialisée en SGBD, sécurité informatique, Cloud et bien plus encore. Nous nous distinguons par notre expertise dans l'hébergement de CMS Open Source de premier plan tels que WordPress, WooCommerce, Drupal, Prestashop, Joomla, OpenCart et Magento, soutenus par un service d'assistance et de conseil de haut niveau adapté aux administrations publiques, aux PME et à toutes tailles.

Red Hat, Inc. dĂ©tient les droits de Red HatÂź, RHELÂź, RedHat LinuxÂź et CentOSÂź ; AlmaLinuxℱ est une marque commerciale d'AlmaLinux OS Foundation ; Rocky LinuxÂź est une marque dĂ©posĂ©e de la Rocky Linux Foundation ; SUSEÂź est une marque dĂ©posĂ©e de SUSE LLC ; Canonical Ltd. dĂ©tient les droits sur UbuntuÂź ; Software in the Public Interest, Inc. dĂ©tient les droits sur DebianÂź ; Linus Torvalds dĂ©tient les droits sur LinuxÂź ; FreeBSDÂź est une marque dĂ©posĂ©e de la FreeBSD Foundation ; NetBSDÂź est une marque dĂ©posĂ©e de la Fondation NetBSD ; OpenBSDÂź est une marque dĂ©posĂ©e de Theo de Raadt. Oracle Corporation dĂ©tient les droits sur OracleÂź, MySQLÂź et MyRocksÂź ; PerconaÂź est une marque dĂ©posĂ©e de Percona LLC ; MariaDBÂź est une marque dĂ©posĂ©e de MariaDB Corporation Ab ; REDISÂź est une marque dĂ©posĂ©e de Redis Labs Ltd. F5 Networks, Inc. dĂ©tient les droits sur NGINXÂź et NGINX PlusÂź ; VarnishÂź est une marque dĂ©posĂ©e de Varnish Software AB. Adobe Inc. dĂ©tient les droits sur MagentoÂź ; PrestaShopÂź est une marque dĂ©posĂ©e de PrestaShop SA ; OpenCartÂź est une marque dĂ©posĂ©e d'OpenCart Limited. Automattic Inc. dĂ©tient les droits sur WordPressÂź, WooCommerceÂź et JetPackÂź ; Open Source Matters, Inc. dĂ©tient les droits sur JoomlaÂź ; Dries Buytaert dĂ©tient les droits sur DrupalÂź. Amazon Web Services, Inc. dĂ©tient les droits sur AWSÂź ; Google LLC dĂ©tient les droits sur Google Cloudℱ et Chromeℱ ; Facebook, Inc. dĂ©tient les droits sur FacebookÂź ; Microsoft Corporation dĂ©tient les droits sur MicrosoftÂź, AzureÂź et Internet ExplorerÂź ; La Fondation Mozilla dĂ©tient les droits sur FirefoxÂź. ApacheÂź est une marque dĂ©posĂ©e de The Apache Software Foundation ; PHPÂź est une marque dĂ©posĂ©e du groupe PHP. CloudFlareÂź est une marque dĂ©posĂ©e de Cloudflare, Inc. ; NETSCOUTÂź est une marque dĂ©posĂ©e de NETSCOUT Systems Inc. ; ElasticSearchÂź, LogStashÂź et KibanaÂź sont des marques dĂ©posĂ©es d'Elastic NV. Ce site n'est affiliĂ©, sponsorisĂ© ou autrement associĂ© Ă  aucune des entitĂ©s mentionnĂ©es ci-dessus et ne reprĂ©sente aucune de ces entitĂ©s de quelque maniĂšre que ce soit. Tous les droits sur les marques et noms de produits mentionnĂ©s sont la propriĂ©tĂ© de leurs titulaires respectifs des droits d'auteur. Toutes les autres marques mentionnĂ©es appartiennent Ă  leurs titulaires. MANAGED SERVERÂź est une marque dĂ©posĂ©e au niveau europĂ©en par MANAGED SERVER SRL Via Enzo Ferrari, 9 62012 Civitanova Marche (MC) Italie.

Retour en haut de page