Error - El acceso a la página está prohibido por el archivo robots.txt
El acceso a la página está prohibido por el archivo robots.txt
El archivo robots.txt es un archivo de texto ubicado en la raíz de tu sitio, cuyo objetivo es proporcionar instrucciones a los robots de rastreo. Permite definir las reglas de autorización de acceso a las diferentes páginas de un sitio, es decir, qué páginas pueden o no ser rastreadas. Si el archivo está ausente o su recuperación devuelve un código HTTP 4xx, los robots consideran que pueden explorar todas las páginas. Por el contrario, si los robots encuentran dificultades para acceder a él, como problemas de conexión (timeout) o un código HTTP 5xx, consideran que no pueden explorar nada.
Las directivas siguen una sintaxis precisa:
user-agent: (nombre del robot)
user-agent: (otro nombre de robot)
instrucción: (ruta de la página)
instrucción: (otra ruta de la página)
El user-agent define el nombre del robot al que se aplican las instrucciones. Las instrucciones pueden ser "allow" para autorizar o "disallow" para prohibir. Si se definen varias directivas similares, se toma en cuenta la última.
Ejemplo de autorización global para todos los robots excepto para la página "/administración" y para los robots "pierrebot" y "paulbot":
user-agent: * allow: / disallow: /administración user-agent: pierrebot user-agent: paulbot disallow: /
Para desbloquear nuestros robots y poder disfrutar de los análisis de Cocolyze, es necesario:
- Verificar que el acceso a robots.txt no devuelva ningún error: https://tusitio.com/robots.txt
- Verificar que no haya ninguna directiva de prohibición para el user-agent "*" o "cocolyzebot" en la página a analizar
- Añadir una excepción en tu firewall/proxy para nuestros robots (si tienes activada la seguridad de acceso al sitio). Nuestros robots se identifican mediante sus user-agents (no tienen IPs fijas):
- "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Cocolyzebot/1.0; +https://cocolyze.com/bot)" para el análisis móvil
- "Mozilla/5.0 (compatible; Cocolyzebot/1.0; https://cocolyze.com/bot)" para el análisis de escritorio
Para simplificar, puedes añadir las siguientes directivas al final de tu archivo robots.txt para permitir que nuestros robots analicen todas tus páginas:
user-agent: cocolyzebot allow: /