Un fichier robots.txt indique à Googlebot les pages ou les fichiers qu'on ne souhaite pas que Google crawle. Le robots.txt ne sert donc pas à désindexer des pages, mais à éviter qu’elles soient parcourues :
==> si la page n’avait jamais été indexée avant, empêcher son crawl permettra de ne jamais l’indexer, en revanche si la page est déjà indexée ou si un autre site du web lui fait un lien, le robots.txt ne permettra pas de la désindexer. Pour empêcher qu'une page ne figure sur Google, il faut utiliser des balises/ directives noindex, ou encore la protéger par un mot de passe.

L’objectif principal du fichier robots.txt est donc de manager le temps de crawl du robot en lui interdisant de parcourir des pages à faible valeur ajoutée, mais qui doivent exister pour le parcours utilisateur (panier d'achat, etc).

PS : le fichier robots.txt est l’un des premiers fichiers analysés par les moteurs.

Règles de format et d’utilisation

Le robots.txt est un fichier texte qui doit être placé à la racine du serveur/site, ex : https://smartkeyword.io/robots.txt.
Il ne peut pas être placé dans un sous-répertoire (par exemple, dans http://example.com/pages/robots.txt), mais peut s'appliquer aux sous-domaines (par exemple, http://website.example.com/robots.txt).

Le nom du fichier robots.txt doit être en minuscule (pas de Robots.txt ou ROBOTS.TXT).
Votre site ne peut contenir qu'un seul fichier robots.txt.
Absent, une erreur 404 s’affichera et les robots considèrent qu’aucun contenu n’est interdit.

Contenu du fichier

Partons de l'exemple suivant :

"User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: lien du sitemap"

L'instruction User-agent: * signifie que les instructions après la mention s'appliquent pour tous les robots. Cette instruction doit être mentionnée.
Disallow permet de demander aux robots de ne pas explorer une page ou le répertoire complet d'un site web.
L'instruction Allow permet de faire des exceptions, exemple :

Disallow: /wp-admin/ = j’ai demandé aux robots de ne pas explorer /wp-admin

Allow: /wp-admin/admin-ajax.php = j’ai fait une exception pour permettre aux robots d’explorer admin-ajax.php qui fait partie du répertoire que j’ai précédemment interdit, /wp-admin/.

Sitemap : permet également d'indiquer aux moteurs de recherche l'adresse du fichier sitemap.xml du site, s’il y en a un.

Comment créer un fichier robots.txt

Pour créer un fichier robots.txt, vous pouvez utiliser quasiment n'importe quel éditeur de texte permettant d'enregistrer des fichiers texte standards au format ASCII ou UTF-8. N'utilisez pas de logiciels de traitement de texte, car ils enregistrent souvent les fichiers dans un format propriétaire et peuvent ajouter des caractères inattendus (des guillemets courbes, par exemple), ce qui peut perturber les robots d'exploration.

Comment tester votre fichier robots.txt ?

Pour tester votre fichier robots.txt, il faut utiliser la Google Search Console.

Une fois connecté sur la Console, cliquez sur Accéder à l’ancienne version en bas à gauche:

2. Ensuite, cliquez sur Exploration puis sur Outil de test du fichier robots.txt.

3. Faites défiler le code du fichier robots.txt pour localiser les avertissements relatifs à la syntaxe et les erreurs de logique signalées. Le nombre d'avertissements relatifs à la syntaxe et d'erreurs de logique s'affichent immédiatement sous l'éditeur.

Ensuite, pour tester directement les URLs bloquées sur la GSC :

Saisissez l'URL de la page de votre site dans la zone de texte en bas de la page. Puis dans la liste déroulante à droite de la zone de texte, sélectionnez le user- agent que vous souhaitez simuler.

1. Cliquez sur le bouton TESTER pour tester l'accès.

2. Vérifiez si le bouton TESTER indique ACCEPTÉE ou BLOQUÉE pour savoir si les robots d'exploration peuvent ou non explorer cette URL.

3. Modifiez le fichier sur la page et testez de nouveau l'accès au besoin.

Copiez vos modifications dans le fichier robots.txt de votre site. Cet outil ne modifie pas le fichier qui se trouve réellement sur votre site. Il vérifie uniquement la copie hébergée sur l'outil.

Faites l'audit de votre fichier robots.txt

Vous souhaitez analyser le robots.txt de votre site ? Voici les questions à se poser et les corrections à apporter au besoin.

Votre site ne dispose pas de robots.txt

Il est tout à fait possible que votre site n'en ait pas. Il suffit de chercher sur votre navigateur en ajoutant à la fin de votre URL d'accueil "/robots.txt". Vérifiez également les sous-domaines.

Si vous n'avez pas de robots.txt :

en avez-vous besoin ? vérifiez que vous n'avez pas de pages à faible valeur ajoutée qui le requièrent. Exemple : panier d'achat, pages de search de votre moteur de recherche interne, etc
Si vous en avez besoin, créez le fichier en respectant les directives plus haut

Votre site dispose d'un robots.txt

Ouvrez le fichier et vérifiez tout simplement les pages bloquées :

Si des pages sont bloquées alors qu'elles ne devraient pas l'être : il faut les retirer
S'il manque des pages qui doivent être bloquées : les ajouter.
Si les pages bloquées sont exactement celles qu'il faut : c'est très bien il n'y a rien à faire

Vous savez à présent tout sur le robots.txt et comment l'analyser !

Découvrez les articles similaires :

Le rapport de couverture Google Search Console :