L'exploration consiste pour les robots à parcourir les sites web, en passant de liens en liens afin de découvrir et indexer les contenus rencontrés. Lorsque les robots de Google, nommés googlebot, découvrent une nouvelle page à explorer, ils vérifient auparavant qu'ils ont l'autorisation d'y accéder grâce aux directives du fichier robots.txt. Si les robots sont autorisés à y accéder, ils examineront la page sinon ils l'ignoreront.
Si les googlebots ne peuvent pas explorer une page, ils ne connaîtront pas son contenu et ne risqueront pas de l'indexer, même si c'est possible que la page soit indexée par des liens vers celle-ci, par exemple. Dans certains cas, l'interdiction à l’exploration peut être aussi nécessaire. Par exemple, lorsqu'une partie de votre site ne doit pas être explorée pour des raisons de sécurité ou d’inutilité, il est important d'interdire l'exploration de ces pages.
Vous pouvez vérifier l’autorisation aux robots de Google directement dans les instructions du fichier robots.txt. Pour pouvoir autoriser ou interdire l’exploration par googlebot vous devez ajouter une instruction “allow” ou "disallow" dans le fichier robots.txt
Example 1 : autoriser l’exploration par googlebot
user-agent: googlebot allow: /ma-page
Example 2 : interdire l’exploration par googlebot d’une page spécifique
user-agent: googlebot disallow: /ma-page