Le fichier robots.txt est un fichier texte situé à la base de votre site qui a pour but de fournir des instructions aux robots d'exploration des moteurs de recherche.
Il permet entre autres, grâce à des directives, de :
Un exemple de fichier robots.txt accessible via l'url : https://www.tikamoon.com/robots.txt
User-Agent: * Allow: / Disallow: /V2/ Disallow: /recherche Disallow: /articlepopup.php* Disallow: /recommander.php* Disallow: *filtreprix=* Disallow: *action=* Disallow: *artid=* sitemap : https://www.tikamoon.com/sitemap.xml
Il est important de renseigner ce fichier pour clairement définir les règles d'accès et y renseigner à minima un fichier sitemap. Lorsqu'une partie de votre site ne doit pas être explorée pour des raisons de sécurité ou d'inutilité, il est intéressant d'interdire l'exploration de ces pages. L'interdiction d'exploration ne signifie pas que les pages ne pourront pas être indexées (contrairement aux instructions "no index") mais il y a très peu de chances qu'elles y soient. L'intérêt principal est alors que les robots ne perdent pas de temps (crawl budget) à analyser le contenu des pages dont vous avez la certitude ou la volonté qu'elles n'apparaissent pas dans les SERPs.
Par exemple, vous avez une partie de votre site communautaire qui contient des fiches de profil utilisateur pauvres en termes de contenu et de valeur ajoutée, il est donc préférable d'interdire l'accès à ces pages afin que les robots explorent principalement vos pages avec une plus-value.
En l'absence de ce fichier et de manière générale d'une erreur HTTP 4xx lors de la récupération, les robots considèrent qu'ils sont autorisés à explorer l'intégralité de votre site ce qui peut poser problème dans la mesure où ils vont éventuellement explorer des pages que vous ne vouliez qu'elles le soient. Si une erreur se produit durant la récupération de ce fichier avec une erreur HTTP 5xx ou l'absence de réponse (avec un timeout par exemple), alors ils considèrent qu'ils n'ont pas le droit d'explorer l'intégralité de votre site et vous avez très peu de chance que vos pages apparaissent sur les SERPs.
De même, si des erreurs de syntaxes sont présentes au niveau des directives, ils se peut que les robots interprètent mal vos intentions et donc explorent des pages qui ne devraient pas l'être et inversement.
Afin de s'assurer que le fichier robots.txt est valide, il est nécessaire de :
Vérifier la syntaxe du fichier en suivant ces quelques consignes :