Erreur - L'accès à la page est interdit par le fichier robots.txt

L'accès à la page est interdit par le fichier robots.txt

Le fichier robots.txt est un fichier texte situé à la base de votre site qui a pour but de fournir des instructions aux robots d'exploration. Il permet de définir les règles d'autorisation d'accès aux différentes pages d'un site, c'est-à-dire les pages qu'ils peuvent explorer ou non. Si le fichier est absent et de manière globale, si sa récupération retourne un code HTTP 4xx, les robots considèrent qu'ils peuvent explorer l'intégralité des pages. À contrario, si les robots rencontrent des difficultés à le récupérer avec des problèmes de connexion comme un timeout, ou de manière générale lors d'un code HTTP 5xx, ils considèrent qu'ils ne peuvent rien explorer.

Les directives suivent un formalise précis :

user-agent: (nom du robot)
user-agent: (autre nom de robot)
instruction: (chemin de page)
instruction: (autre chemin de page)

Le user-agent définit le nom du robot pour lequel les instructions s'appliquent. Les instructions peuvent être "allow" pour l'autorisation ou "disallow" pour l'interdiction. Si plusieurs directives similaires sont définies, la dernière est prise en compte.

Exemple d'autorisation globale pour tous les robots sauf pour la page "/administration" et pour les robots "pierrebot" et "paulbot" :

user-agent: *
allow: /
disallow: /administration
user-agent: pierrebot
user-agent: paulbot
disallow: /

Pour débloquer nos robots et pouvoir profiter des analyses de Cocolyze, il est nécessaire de :

  • vérifier que l'accès au robots.txt ne renvoie pas d'erreur : https://monsite.com/robots.txt
  • vérifier qu'aucune directive d'interdiction pour le user-agent "*" ou "cocolyzebot" n'est présente pour la page à analyser
  • ajouter une exception sur votre pare-feu/proxy pour nos robots (si une sécurité d'accès au site est activée). Nos robots sont identifiés grâce à leurs user-agents (ils ne possèdent pas d'IPs fixes) :
    •  "Mozilla/5.0 (Linux ; Android 6.0.1 ; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible ; Cocolyzebot/1.0; +https://cocolyze.com/bot)" pour l'analyse mobile
    • "Mozilla/5.0 (compatible; Cocolyzebot/1.0; https://cocolyze.com/bot)" pour l'analyse ordinateur

Pour plus de simplicité, vous pouvez ajouter les directives suivantes à la fin de votre fichier robots.txt afin que nos robots puissent analyser toutes vos pages :

user-agent: cocolyzebot
allow: /