Il est absolument nécessaire d'auditer un site web de façon périodique afin de séparer le bon grain de l'ivraie et de ne montrer que le contenu de bonne qualité à Google. Et, donc, de désindexer les contenus de faible qualité (critères Panda notamment). Mais quelle est la meilleure façon de désindexer une page web ?

Pourquoi désindexer ?

  • Le contenu est obsolète
  • Le contenu est sans intérêt SEO : panier d’achat, pages de search du moteur de recherche interne, etc
  • Le contenu avec copyright : images, etc
  • Site de test
  • Les fichiers PDF, Word, Excel, etc

Théorie : il existe plusieurs outils pour désindexer/bloquer des pages 

1. Fichier robots.txt : interdit le crawl, pas l’indexation.
Attention, si une page était déjà indexée par le passé, ou si un site externe lui fait un lien, le robots.txt ne suffira pas à la désindexer car sa fonction principal est d’empêcher le crawl de cette page une fois le googlebot sur votre site.

2. Balise meta robots : avec un attribut “noindex”, elle interdit l’indexation. Mais pas le crawl étant donné que la balise doit être lue.

3. Accès par mot de passe : limiter l'accès en ajoutant un mot de passe.

4. Directive X-Robots-Tag : interdit l’indexation; surtout utilisée pour désindexer les PDF, etc (qui n’ont pas de code HTML, et donc pas de balise utilisable).

http://robots-txt.com/x-robots-tag/

https://developers.google.com/search/reference/robots_meta_tag?hl=fr

5. Search Console : interdit l’indexation sous forme de procédure d’urgence pour 90 jours seulement (Index Google > URL à supprimer). On vous recommande de ne pas utiliser cette fonctionnalité car c'est une solution non définitive.

Pratique : Si le contenu est indexé et qu’on souhaite le désindexer 

Prenons l’exemple d’un site qui souhaite désindexer les pages “/panier” qui sont aujourd’hui vues par Google. Voici les étapes pas-à-pas :

  1. Vérifier qu'il n'y a pas de robots.txt bloquant l'accès aux pages concernées. Si c’est le cas, supprimer ces pages du robots.txt.
  2. Mettre une balise meta robots en noindex sur toutes les pages "/panier" en question. Ou tout autre méthode de désindexation.
  3. Forcer Google à crawler toutes ces pages via un sitemap XML spécifique soumis dans la search console (petit tip pour aller plus vite que juste "attendre qu'il vienne crawler"). Si ces pages étaient déjà sur un sitemap, vous pouvez donc les y laisser, mais il faudra aller les chercher et les enlever une par une à la fin de l’étape 4 ci-dessous.
  4. Une fois que toutes ces pages sont désindexées (vérifier sur la Search Console directement), les interdire au crawl dans le robots.txt et retirer le sitemap. Conserver la meta robots en noindex pour éviter tout réindexation involontaire si un site externe fait un lien vers ces pages.


Voilà maintenant vous êtes un as de la  désindexation :) 

Avez-vous trouvé votre réponse?