12 juillet 2022

robots.txt - Les erreurs les plus courantes et comment les éviter

Le fichier robots.txt indique aux moteurs de recherche comment explorer votre site. Dans cet article, nous expliquons les erreurs les plus courantes et comment les éviter.

Chaque webmaster sait qu'il y a certains aspects d'un site Web que vous ne voulez pas explorer ou indexer. Le fichier robots.txt vous donne la possibilité de spécifier ces sections et de les transmettre aux robots des moteurs de recherche. Dans cet article, nous montrerons les erreurs courantes qui peuvent survenir lors de la création d'un fichier robots.txt, comment les éviter et comment surveiller votre fichier robots.txt.

Il existe de nombreuses raisons pour lesquelles les opérateurs de sites Web peuvent vouloir exclure certaines parties d'un site Web de l'index des moteurs de recherche, par exemple si des pages sont masquées derrière un identifiant, sont archivées ou si vous souhaitez tester des pages d'un site Web avant qu'elles ne soient publiées. "Une norme pour l'exclusion des robots» A été publié en 1994 pour rendre cela possible. Ce protocole établit des directives selon lesquelles avant de commencer l'exploration, le robot d'exploration du moteur de recherche doit d'abord rechercher le fichier robots.txt dans le répertoire racine et lire les instructions dans le fichier.

De nombreuses erreurs possibles peuvent survenir lors de la création du fichier robots.txt, telles que des erreurs de syntaxe si une instruction n'est pas écrite correctement ou des erreurs résultant d'un verrouillage involontaire d'un répertoire.

Voici quelques-unes des erreurs robots.txt les plus courantes :

Erreur n.m. 1 : utilisation d'une syntaxe incorrecte

robots.txt est un simple fichier texte et peut facilement être créé à l'aide d'un éditeur de texte. Une entrée dans le fichier robots.txt est toujours composée de deux parties : la première partie spécifie l'interpréteur auquel appliquer l'instruction (par exemple Googlebot), et la deuxième partie contient des commandes, telles que "Disallow", et contient une liste de toutes les sous-pages qui n'ont pas besoin d'être numérisées. Pour que les instructions du fichier robots.txt prennent effet, la syntaxe correcte doit être utilisée comme indiqué ci-dessous.

 

Agent utilisateur : Googlebot Disallow : / example_directory /

 

Dans l'exemple ci-dessus, il est interdit au robot d'exploration de Google d'explorer le répertoire / example_directory /. Si vous souhaitez que cela s'applique à tous les robots d'exploration, vous devez utiliser le code suivant dans votre fichier robots.txt :

 

User-agent : * Disallow : / example_directory /

 

L'astérisque (également appelé caractère générique) agit comme une variable pour tous les robots. De même, vous pouvez utiliser un slash (/) pour éviter que l'ensemble du site soit indexé (par exemple, pour une version d'essai avant sa mise en ligne en production).

 

Agent utilisateur: * Interdire: /

 

Erreur n.m. 2 : bloquer les composants du chemin au lieu d'un répertoire (en oubliant "/")

Lorsque vous excluez un répertoire de l'exploration, n'oubliez pas d'ajouter la barre oblique au nom du répertoire. Par exemple,

Interdire : / répertoire non seulement les blocs /répertoire/, mais aussi /répertoire-un.html

Si vous souhaitez exclure plusieurs pages de l'indexation, vous devez ajouter chaque répertoire sur une ligne différente. L'ajout de plusieurs chemins dans la même ligne entraîne généralement des erreurs indésirables.

 

Agent utilisateur : googlebot Disallow : / example-directory / Disallow : / example-directory-2 / Disallow : / example-file.html

valeurs txt des robots

Erreur n.m. 3 : blocage involontaire des répertoires

Avant de télécharger le fichier robots.txt dans le répertoire racine du site Web, vous devez toujours vérifier si sa syntaxe est correcte. Même la plus petite erreur pourrait amener le robot à ignorer les instructions du fichier et à explorer des pages qui ne devraient pas être indexées. Assurez-vous toujours que les répertoires qui ne doivent pas être indexés sont répertoriés après la commande Interdire :.

Même dans les cas où la structure de la page de votre site Web change, par exemple en raison d'un restyle, vous devez toujours vérifier le fichier robots.txt pour les erreurs.

Erreur n.m. 4 - Le fichier robots.txt n'est pas enregistré dans le répertoire racine

L'erreur la plus courante associée au fichier robots.txt ne parvient pas à enregistrer le fichier dans le répertoire racine du site Web. Les sous-répertoires sont généralement ignorés car les agents utilisateurs ne recherchent que le fichier robots.txt dans le répertoire racine.

L'URL correcte du fichier robots.txt d'un site Web doit avoir le format suivant :

 

http://www.your-website.com/robots.txt

 

Erreur n.m. 5 : Ne pas autoriser les pages avec une redirection

Si les pages bloquées dans votre fichier robots.txt comportent des redirections vers d'autres pages, le robot d'exploration peut ne pas reconnaître les redirections. Dans le pire des cas, cela pourrait entraîner l'apparition de la page dans les résultats de recherche, mais avec une URL incorrecte. De plus, les données Google Analytics pour votre projet peuvent également être incorrectes.

Indice : robots.txt contre noindex

Il est important de noter que l'exclusion de pages dans le fichier robots.txt n'implique pas nécessairement que les pages ne sont pas indexées. Par exemple, si une URL explorée dans robots.txt est liée à une page externe. Le fichier robots.txt vous permet simplement de contrôler l'agent utilisateur. Cependant, ce qui suit apparaît souvent à la place de la description Meta car il est interdit au bot de crawler :

"Une description de ce résultat n'est pas disponible en raison du fichier robots.txt de ce site."

Figure 4: Exemple d'extrait d'une page bloquée utilisant le fichier robots.txt mais toujours indexé

Comme vous pouvez le voir, un seul lien sur la page respective suffit pour que la page soit indexée, même si l'URL est définie sur « Interdire » dans le fichier robots.txt. De même, l'utilisation de la balise cela peut, dans ce cas, ne pas empêcher l'indexation car le crawler n'a jamais pu lire cette partie du code en raison de la commande disallow dans le fichier robots.txt.

Pour empêcher certaines URL d'apparaître dans l'index Google, vous devez utiliser la balise , tout en permettant au robot d'exploration d'accéder à ce répertoire.

Conclusions

Nous avons vu et examiné très rapidement quelles sont les principales erreurs du fichier robots.txt qui dans certains cas peuvent considérablement compromettre la visibilité et le positionnement de votre site web, arrivant dans les cas les plus graves jusqu'à l'élimination totale de la SERP.

Si vous envisagez de ne pas avoir de tels problèmes avec le fichier robots.txt parce que vous savez comment cela fonctionne et que vous ne feriez jamais d'actions improvisées, sachez que parfois les erreurs dans le fichier robots.txt sont le résultat d'oublis dans le CMS configuration telle que WordPress ou même des attaques de logiciels malveillants ou des actions de sabotage visant à faire perdre à votre site son indexation et son classement.

Le meilleur conseil que nous puissions vous donner est de surveiller constamment le fichier robots.txt au moins une fois par semaine et de vérifier sa syntaxe correcte et son bon fonctionnement lorsque vous remarquez des signaux d'alarme tels qu'une baisse soudaine du trafic ou la présence de moteurs de recherche sur le SERP Recherche.

Vous avez des doutes ? Vous ne savez pas par où commencer ? Contactez-nous !

Nous avons toutes les réponses à vos questions pour vous aider à faire le bon choix.

Discute avec nous

Discutez directement avec notre support avant-vente.

0256569681

Contactez-nous par téléphone pendant les heures de bureau 9h30 - 19h30

Contactez-nous en ligne

Ouvrez une demande directement dans l'espace contact.

INFORMATIONS

Managed Server Srl est un acteur italien leader dans la fourniture de solutions système GNU/Linux avancées orientées vers la haute performance. Avec un modèle d'abonnement peu coûteux et prévisible, nous garantissons que nos clients ont accès à des technologies avancées en matière d'hébergement, de serveurs dédiés et de services cloud. En plus de cela, nous proposons des conseils système sur les systèmes Linux et une maintenance spécialisée en SGBD, sécurité informatique, Cloud et bien plus encore. Nous nous distinguons par notre expertise dans l'hébergement de CMS Open Source de premier plan tels que WordPress, WooCommerce, Drupal, Prestashop, Joomla, OpenCart et Magento, soutenus par un service d'assistance et de conseil de haut niveau adapté aux administrations publiques, aux PME et à toutes tailles.

Red Hat, Inc. détient les droits de Red Hat®, RHEL®, RedHat Linux® et CentOS® ; AlmaLinux™ est une marque commerciale d'AlmaLinux OS Foundation ; Rocky Linux® est une marque déposée de la Rocky Linux Foundation ; SUSE® est une marque déposée de SUSE LLC ; Canonical Ltd. détient les droits sur Ubuntu® ; Software in the Public Interest, Inc. détient les droits sur Debian® ; Linus Torvalds détient les droits sur Linux® ; FreeBSD® est une marque déposée de The FreeBSD Foundation ; NetBSD® est une marque déposée de la Fondation NetBSD ; OpenBSD® est une marque déposée de Theo de Raadt. Oracle Corporation détient les droits sur Oracle®, MySQL® et MyRocks® ; Percona® est une marque déposée de Percona LLC ; MariaDB® est une marque déposée de MariaDB Corporation Ab ; REDIS® est une marque déposée de Redis Labs Ltd. F5 Networks, Inc. détient les droits sur NGINX® et NGINX Plus® ; Varnish® est une marque déposée de Varnish Software AB. Adobe Inc. détient les droits sur Magento® ; PrestaShop® est une marque déposée de PrestaShop SA ; OpenCart® est une marque déposée d'OpenCart Limited. Automattic Inc. détient les droits sur WordPress®, WooCommerce® et JetPack® ; Open Source Matters, Inc. détient les droits sur Joomla® ; Dries Buytaert détient les droits sur Drupal®. Amazon Web Services, Inc. détient les droits sur AWS® ; Google LLC détient les droits sur Google Cloud™ et Chrome™ ; Microsoft Corporation détient les droits sur Microsoft®, Azure® et Internet Explorer® ; La Fondation Mozilla détient les droits sur Firefox®. Apache® est une marque déposée de The Apache Software Foundation ; PHP® est une marque déposée du groupe PHP. CloudFlare® est une marque déposée de Cloudflare, Inc. ; NETSCOUT® est une marque déposée de NETSCOUT Systems Inc. ; ElasticSearch®, LogStash® et Kibana® sont des marques déposées d'Elastic NV. Hetzner Online GmbH détient les droits sur Hetzner® ; OVHcloud est une marque déposée d'OVH Groupe SAS ; cPanel®, LLC détient les droits sur cPanel® ; Plesk® est une marque déposée de Plesk International GmbH ; Facebook, Inc. détient les droits sur Facebook®. Ce site n'est affilié, sponsorisé ou autrement associé à aucune des entités mentionnées ci-dessus et ne représente en aucune manière aucune de ces entités. Tous les droits sur les marques et noms de produits mentionnés sont la propriété de leurs titulaires respectifs des droits d'auteur. Toutes les autres marques mentionnées appartiennent à leurs titulaires. MANAGED SERVER® est une marque déposée au niveau européen par MANAGED SERVER SRL, Via Enzo Ferrari, 9, 62012 Civitanova Marche (MC), Italie.

JUSTE UN MOMENT !

Souhaitez-vous voir comment votre WooCommerce fonctionne sur nos systèmes sans avoir à migrer quoi que ce soit ? 

Entrez l'adresse de votre site WooCommerce et vous obtiendrez une démonstration navigable, sans avoir à faire absolument quoi que ce soit et entièrement gratuite.

Non merci, mes clients préfèrent le site lent.
Retour en haut de page