Retour

Le fichier robots.txt n’est pas valide

Le fichier robots.txt, c'est quoi ?

Le fichier robots.txt est un fichier texte situé à la base de votre site qui a pour but de fournir des instructions aux robots d'exploration des moteurs de recherche. 

Il permet entre autres, grâce à des directives, de :

  • définir les règles d'autorisation d'accès aux différentes pages de votre site, c'est-à-dire les pages qu'ils peuvent explorer ou non
  • définir un ou plusieurs liens vers les fichiers sitemaps : fichiers qui listent l'ensemble des pages de votre site

Un exemple de fichier robots.txt accessible via l'url : https://www.tikamoon.com/robots.txt

User-Agent: *
Allow: /
Disallow: /V2/
Disallow: /recherche
Disallow: /articlepopup.php*
Disallow: /recommander.php*
Disallow: *filtreprix=*
Disallow: *action=*
Disallow: *artid=*
sitemap : https://www.tikamoon.com/sitemap.xml

Pourquoi est-il important de renseigner ce fichier ?

Il est important de renseigner ce fichier pour clairement définir les règles d'accès et y renseigner à minima un fichier sitemap. Lorsqu'une partie de votre site ne doit pas être explorée pour des raisons de sécurité ou d'inutilité, il est intéressant d'interdire l'exploration de ces pages. L'interdiction d'exploration ne signifie pas que les pages ne pourront pas être indexées (contrairement aux instructions "no index") mais il y a très peu de chances qu'elles y soient. L'intérêt principal est alors que les robots ne perdent pas de temps (crawl budget) à analyser le contenu des pages dont vous avez la certitude ou la volonté qu'elles n'apparaissent pas dans les SERPs.

Par exemple, vous avez une partie de votre site communautaire qui contient des fiches de profil utilisateur pauvres en termes de contenu et de valeur ajoutée, il est donc préférable d'interdire l'accès à ces pages afin que les robots explorent principalement vos pages avec une plus-value. 

En l'absence de ce fichier et de manière générale d'une erreur HTTP 4xx lors de la récupération, les robots considèrent qu'ils sont autorisés à explorer l'intégralité de votre site ce qui peut poser problème dans la mesure où ils vont éventuellement explorer des pages que vous ne vouliez qu'elles le soient. Si une erreur se produit durant la récupération de ce fichier avec une erreur HTTP 5xx ou l'absence de réponse (avec un timeout par exemple), alors ils considèrent qu'ils n'ont pas le droit d'explorer l'intégralité de votre site et vous avez très peu de chance que vos pages apparaissent sur les SERPs.

De même, si des erreurs de syntaxes sont présentes au niveau des directives, ils se peut que les robots interprètent mal vos intentions et donc explorent des pages qui ne devraient pas l'être et inversement.

Comment le corriger ?

Afin de s'assurer que le fichier robots.txt est valide, il est nécessaire de :

  • vérifier que la page https://monsite.com/robots.txt renvoie bien un fichier texte avec un code HTTP 200 en moins de quelques secondes
  • s'il n'existe pas ou renvoie un code HTTP 404, il est utile de le créer
  • s'il renvoie un code HTTP différent de 200 ou un fichier non textuel, il est nécessaire d'intervenir au niveau du serveur ou de l'application afin d'y rétablir l'accès

Vérifier la syntaxe du fichier en suivant ces quelques consignes :

  • seules les lignes vides, les commentaires et les directives correspondant au format "name:value" sont autorisés dans le fichier robots.txt
  • assurez-vous que les valeurs allow et disallow sont vides ou commencent par / ou *
  • n'utilisez pas $ au milieu d'une valeur (par exemple, allow: / file$html)
  • assurez-vous qu'il y a une valeur pour le user-agent
  • assurez-vous qu'il n'y a pas de directives allow ou disallow avant le user-agent