Error - El acceso a la página está prohibido por el archivo robots.txt

El acceso a la página está prohibido por el archivo robots.txt

El archivo robots.txt es un archivo de texto ubicado en la raíz de tu sitio, cuyo objetivo es proporcionar instrucciones a los robots de rastreo. Permite definir las reglas de autorización de acceso a las diferentes páginas de un sitio, es decir, qué páginas pueden o no ser rastreadas. Si el archivo está ausente o su recuperación devuelve un código HTTP 4xx, los robots consideran que pueden explorar todas las páginas. Por el contrario, si los robots encuentran dificultades para acceder a él, como problemas de conexión (timeout) o un código HTTP 5xx, consideran que no pueden explorar nada.

Las directivas siguen una sintaxis precisa:

user-agent: (nombre del robot)
user-agent: (otro nombre de robot)
instrucción: (ruta de la página)
instrucción: (otra ruta de la página)

El user-agent define el nombre del robot al que se aplican las instrucciones. Las instrucciones pueden ser "allow" para autorizar o "disallow" para prohibir. Si se definen varias directivas similares, se toma en cuenta la última.

Ejemplo de autorización global para todos los robots excepto para la página "/administración" y para los robots "pierrebot" y "paulbot":

user-agent: *
allow: /
disallow: /administración
user-agent: pierrebot
user-agent: paulbot
disallow: /

Para desbloquear nuestros robots y poder disfrutar de los análisis de Cocolyze, es necesario:

  • Verificar que el acceso a robots.txt no devuelva ningún error: https://tusitio.com/robots.txt
  • Verificar que no haya ninguna directiva de prohibición para el user-agent "*" o "cocolyzebot" en la página a analizar
  • Añadir una excepción en tu firewall/proxy para nuestros robots (si tienes activada la seguridad de acceso al sitio). Nuestros robots se identifican mediante sus user-agents (no tienen IPs fijas):
    • "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Cocolyzebot/1.0; +https://cocolyze.com/bot)" para el análisis móvil
    • "Mozilla/5.0 (compatible; Cocolyzebot/1.0; https://cocolyze.com/bot)" para el análisis de escritorio

Para simplificar, puedes añadir las siguientes directivas al final de tu archivo robots.txt para permitir que nuestros robots analicen todas tus páginas:

user-agent: cocolyzebot
allow: /