robots.txt - Les erreurs les plus courantes et comment les √©viter - ūüŹÜ Serveur g√©r√©
Juillet 12 2022

robots.txt - Les erreurs les plus courantes et comment les éviter

Le fichier robots.txt indique aux moteurs de recherche comment explorer votre site. Dans cet article, nous expliquons les erreurs les plus courantes et comment les éviter.

Chaque webmaster sait qu'il y a certains aspects d'un site Web que vous ne voulez pas explorer ou indexer. Le fichier robots.txt vous donne la possibilité de spécifier ces sections et de les transmettre aux robots des moteurs de recherche. Dans cet article, nous montrerons les erreurs courantes qui peuvent survenir lors de la création d'un fichier robots.txt, comment les éviter et comment surveiller votre fichier robots.txt.

Il existe de nombreuses raisons pour lesquelles les op√©rateurs de sites Web peuvent vouloir exclure certaines parties d'un site Web de l'index des moteurs de recherche, par exemple si des pages sont masqu√©es derri√®re un identifiant, sont archiv√©es ou si vous souhaitez tester des pages d'un site Web avant qu'elles ne soient publi√©es. "Une norme pour l'exclusion des robots¬Ľ A √©t√© publi√© en 1994 pour rendre cela possible. Ce protocole √©tablit des directives selon lesquelles avant de commencer l'exploration, le robot d'exploration du moteur de recherche doit d'abord rechercher le fichier robots.txt dans le r√©pertoire racine et lire les instructions dans le fichier.

De nombreuses erreurs possibles peuvent survenir lors de la création du fichier robots.txt, telles que des erreurs de syntaxe si une instruction n'est pas écrite correctement ou des erreurs résultant d'un verrouillage involontaire d'un répertoire.

Voici quelques-unes des erreurs robots.txt les plus courantes :

Erreur n.m. 1 : utilisation d'une syntaxe incorrecte

robots.txt est un simple fichier texte et peut facilement √™tre cr√©√© √† l'aide d'un √©diteur de texte. Une entr√©e dans le fichier robots.txt est toujours compos√©e de deux parties : la premi√®re partie sp√©cifie l'interpr√©teur auquel appliquer l'instruction (par exemple Googlebot), et la deuxi√®me partie contient des commandes, telles que "Disallow", et contient une liste de toutes les sous-pages qui n'ont pas besoin d'√™tre num√©ris√©es. Pour que les instructions du fichier robots.txt prennent effet, la syntaxe correcte doit √™tre utilis√©e comme indiqu√© ci-dessous.

 

Agent utilisateur : Googlebot Disallow : / example_directory /

 

Dans l'exemple ci-dessus, il est interdit au robot d'exploration de Google d'explorer le r√©pertoire / example_directory /. Si vous souhaitez que cela s'applique √† tous les robots d'exploration, vous devez utiliser le code suivant dans votre fichier robots.txt :

 

User-agent : * Disallow : / example_directory /

 

L'astérisque (également appelé caractère générique) agit comme une variable pour tous les robots. De même, vous pouvez utiliser un slash (/) pour éviter que l'ensemble du site soit indexé (par exemple, pour une version d'essai avant sa mise en ligne en production).

 

Agent utilisateur: * Interdire: /

 

Erreur n.m. 2 : bloquer les composants du chemin au lieu d'un r√©pertoire (en oubliant "/")

Lorsque vous excluez un répertoire de l'exploration, n'oubliez pas d'ajouter la barre oblique au nom du répertoire. Par exemple,

Interdire : / r√©pertoire non seulement les blocs /r√©pertoire/, mais aussi /r√©pertoire-un.html

Si vous souhaitez exclure plusieurs pages de l'indexation, vous devez ajouter chaque r√©pertoire sur une ligne diff√©rente. L'ajout de plusieurs chemins dans la m√™me ligne entra√ģne g√©n√©ralement des erreurs ind√©sirables.

 

Agent utilisateur : googlebot Disallow : / example-directory / Disallow : / example-directory-2 / Disallow : / example-file.html

valeurs txt des robots

Erreur n.m. 3 : blocage involontaire des répertoires

Avant de télécharger le fichier robots.txt dans le répertoire racine du site Web, vous devez toujours vérifier si sa syntaxe est correcte. Même la plus petite erreur pourrait amener le robot à ignorer les instructions du fichier et à explorer des pages qui ne devraient pas être indexées. Assurez-vous toujours que les répertoires qui ne doivent pas être indexés sont répertoriés après la commande Interdire :.

M√™me dans les cas o√Ļ la structure de la page de votre site Web change, par exemple en raison d'un restyle, vous devez toujours v√©rifier le fichier robots.txt pour les erreurs.

Erreur n.m. 4 - Le fichier robots.txt n'est pas enregistré dans le répertoire racine

L'erreur la plus courante associée au fichier robots.txt ne parvient pas à enregistrer le fichier dans le répertoire racine du site Web. Les sous-répertoires sont généralement ignorés car les agents utilisateurs ne recherchent que le fichier robots.txt dans le répertoire racine.

L'URL correcte du fichier robots.txt d'un site Web doit avoir le format suivant :

 

http://www.your-website.com/robots.txt

 

Erreur n.m. 5 : Ne pas autoriser les pages avec une redirection

Si les pages bloqu√©es dans votre fichier robots.txt comportent des redirections vers d'autres pages, le robot d'exploration peut ne pas reconna√ģtre les redirections. Dans le pire des cas, cela pourrait entra√ģner l'apparition de la page dans les r√©sultats de recherche, mais avec une URL incorrecte. De plus, les donn√©es Google Analytics pour votre projet peuvent √©galement √™tre incorrectes.

Indice : robots.txt contre noindex

Il est important de noter que l'exclusion de pages dans le fichier robots.txt n'implique pas n√©cessairement que les pages ne sont pas index√©es. Par exemple, si une URL explor√©e dans robots.txt est li√©e √† une page externe. Le fichier robots.txt vous permet simplement de contr√īler l'agent utilisateur. Cependant, ce qui suit appara√ģt souvent √† la place de la description Meta car il est interdit au bot de crawler :

"Une description de ce résultat n'est pas disponible en raison du fichier robots.txt de ce site."

Figure 4: Exemple d'extrait d'une page bloquée utilisant le fichier robots.txt mais toujours indexé

Comme vous pouvez le voir, un seul lien sur la page respective suffit pour que la page soit index√©e, m√™me si l'URL est d√©finie sur ¬ę Interdire ¬Ľ dans le fichier robots.txt. De m√™me, l'utilisation de la balise cela peut, dans ce cas, ne pas emp√™cher l'indexation car le crawler n'a jamais pu lire cette partie du code en raison de la commande disallow dans le fichier robots.txt.

Pour emp√™cher certaines URL d'appara√ģtre dans l'index Google, vous devez utiliser la balise , tout en permettant au robot d'exploration d'acc√©der √† ce r√©pertoire.

conclusions

Nous avons vu et examiné très rapidement quelles sont les principales erreurs du fichier robots.txt qui dans certains cas peuvent considérablement compromettre la visibilité et le positionnement de votre site web, arrivant dans les cas les plus graves jusqu'à l'élimination totale de la SERP.

Si vous envisagez de ne pas avoir de tels problèmes avec le fichier robots.txt parce que vous savez comment cela fonctionne et que vous ne feriez jamais d'actions improvisées, sachez que parfois les erreurs dans le fichier robots.txt sont le résultat d'oublis dans le CMS configuration telle que WordPress ou même des attaques de logiciels malveillants ou des actions de sabotage visant à faire perdre à votre site son indexation et son classement.

Le meilleur conseil que nous puissions vous donner est de surveiller constamment le fichier robots.txt au moins une fois par semaine et de vérifier sa syntaxe correcte et son bon fonctionnement lorsque vous remarquez des signaux d'alarme tels qu'une baisse soudaine du trafic ou la présence de moteurs de recherche sur le SERP Recherche.

Vous avez des doutes ? Vous ne savez pas par o√Ļ commencer ? Contactez-nous


Nous avons toutes les réponses à vos questions pour vous aider à faire le bon choix.

Discute avec nous

Discutez directement avec notre support avant-vente.

0256569681

Contactez-nous par téléphone pendant les heures de bureau 9h30 - 19h30

Contactez-nous en ligne

Ouvrez une demande directement dans l'espace contact.

INFORMATIONS

ManagedServer.it est le premier fournisseur italien de solutions d'hébergement hautes performances. Notre modèle d'abonnement est abordable et prévisible, afin que les clients puissent accéder à nos technologies d'hébergement fiables, à nos serveurs dédiés et au cloud. ManagedServer.it offre également d'excellents services d'assistance et de conseil sur l'hébergement des principaux CMS Open Source tels que WordPress, WooCommerce, Drupal, Prestashop, Magento.

JUSTE UN MOMENT !

Souhaitez-vous voir comment votre WooCommerce fonctionne sur nos syst√®mes sans avoir √† migrer quoi que ce soit ? 

Entrez l'adresse de votre site WooCommerce et vous obtiendrez une démonstration navigable, sans avoir à faire absolument quoi que ce soit et entièrement gratuite.

Non merci, mes clients préfèrent le site lent.
Remonter en haut