Toutes les collections
FAQ référencement : Technique
Indexation
Google Search Console : repérer et analyser les URLs exclues
Google Search Console : repérer et analyser les URLs exclues

Comment analyser et interpréter les URLs exclues du rapport de couverture de la Google Search Console ?

Amandine Akbaraly avatar
Écrit par Amandine Akbaraly
Mis à jour il y a plus d’une semaine

Dans la Google Search Console (GSC), le rapport de couverture, accessible sur la colonne de gauche sous "couverture", permet de faire le point sur l'état de l'indexation de votre site. C'est une mine d'informations à utiliser pour assurer la bonne crawlabilité et indexation de vos contenus.

Si vous n'avez pas encore de compte GSC, il faudra d'abord le créer et faire valider votre propriété. 

Le rapport de couverture se présente comme suit : 

Avec 4 sections : Erreur, Valides avec des avertissements, Valides et Exclues.

Nous vous recommandons de commencer par la section "Valides" en vert.

Nous détaillons ensuite ici la section que l'on vous recommande de consulter en dernier, "Exclues" en gris.
Il s'agit de la section listant les URLs que Google n'a pas indexer, jugeant cela volontaire de votre part. Contrairement à la section "Erreur", il s'agit ici d'URLs que vous n'avez pas choisi d'envoyer à Google via un sitemap, ce pourquoi il ne peut pas préjuger que c'est une erreur.

Cliquez sur la section en gris "Exclues" :

Listons d'abord les exclues pour raisons techniques :

Causes techniques

Bloquée en raison d'une demande non autorisée (401) : une demande d'autorisation (réponse 401) empêche Googlebot d'accéder à cette page. Si vous souhaitez que Googlebot puisse explorer cette page, supprimez les identifiants d'accès ou autorisez Googlebot à accéder à votre page.

Introuvable (404) : cette page a renvoyé une erreur 404 lorsqu'elle a été demandée. Google a détecté cette URL sans demande explicite ni sitemap. Il se peut que Google ait détecté l'URL via un lien depuis un autre site ou que la page ait été supprimée. Googlebot continuera probablement à essayer d'accéder à cette URL pendant un certain temps. Il n'existe aucun moyen d'indiquer à Googlebot d'oublier définitivement une URL. Toutefois, il l'explorera de moins en moins souvent. Les réponses 404 ne sont pas un problème si elles sont intentionnelles, il faut juste éviter de leur faire des liens. Si votre page a été déplacée, utilisez une redirection 301 vers le nouvel emplacement. 

Anomalie lors de l'exploration : une anomalie non spécifiée s'est produite lors de l'exploration de cette URL. Elle peut être causée par un code de réponse de niveau 4xx ou 5xx. Essayez d'analyser la page à l'aide de l'outil Explorer comme Google pour vérifier si elle présente des problèmes empêchant son exploration puis rebouclez avec l'équipe technique.

Soft 404 : la demande de page renvoie ce qui semble être une réponse de type "soft 404". Autrement dit, elle indique que la page est introuvable de manière conviviale, sans inclure le code de réponse 404 correspondant. Nous vous recommandons soit de renvoyer un code de réponse 404 pour les pages "introuvables" afin d'empêcher leur indexation et de les enlever du maillage interne, soit d'ajouter des informations sur la page pour indiquer à Google qu'il ne s'agit pas d'une erreur de type "soft 404".

Causes liées à un doublon ou une canonique

Autre page avec balise canonique correcte : cette page est un doublon d'une page que Google reconnaît comme canonique. Elle renvoie correctement vers la page canonique. Il n'y a en théorie pas d'action à effectuer auprès de Google, mais nous vous recommandons de vérifier pourquoi ces 2 pages existent et sont visibles par Google afin d'apporter les bonnes corrections.

Page en double sans balise canonique sélectionnée par l'utilisateur : cette page a des doublons, dont aucun n'est marqué comme canonique. Google pense que cette page n'est pas canonique. Vous devriez désigner la version canonique de cette page de manière explicite. L'inspection de cette URL devrait indiquer l'URL canonique sélectionnée par Google.

Page en double, Google n'a pas choisi la même URL canonique que l'utilisateur : cette page est marquée comme canonique, mais Google pense qu'une autre URL serait une version canonique plus appropriée et l'a donc indexée. Nous vous recommandons de vérifier l'origine du doublon (il faudrait peut-être utiliser une 303 plutôt que garder les 2 pages), puis ajouter les balises canonicals qu'il faut pour être précis auprès de Google. Cette page a été détectée sans demande explicite d'exploration. L'inspection de cette URL devrait indiquer l'URL canonique sélectionnée par Google.
Si vous avez ce message sur 2 pages différentes, cela signifie qu'elles sont trop similaires et que Google ne voit pas l'intérêt d'en avoir deux. Imaginons que vous ayez un site de vente de chaussures, si vous avez une page "chaussures rouges" et une page "chaussures noires" qui contiennent peu ou pas de contenu, ou du contenu trop similaire, avec à peine le titre qui change : il faut se demander si ces pages doivent vraiment exister, et si oui, améliorer leur contenu.

Page en double, l'URL envoyée n'a pas été sélectionnée comme URL canonique : l'URL fait partie d'un ensemble d'URL en double sans page canonique explicitement indiquée. Vous avez demandé que cette URL soit indexée, mais comme il s'agit d'un doublon et Google pense qu'une autre URL serait une meilleure version canonique, celle-ci a été indexée au profit de celle que vous avez déclarée. La différence entre cet état et "Google n'a pas choisi la même page canonique que l'utilisateur" est que, dans le cas présent, vous avez explicitement demandé l'indexation. L'inspection de cette URL devrait indiquer l'URL canonique sélectionnée par Google.

Page avec redirection : l'URL est une redirection et n'a donc pas été ajoutée à l'index. Il n'y a rien à faire dans ce cas, si ce n'est vérifier que la liste est correcte.

Page supprimée en raison d'une réclamation légale : la page a été supprimée de l'index en raison d'une réclamation légale.

Causes liées à la gestion de l'indexation

Bloquée par une balise "noindex" : lorsque Google a tenté d'indexer la page, il a identifié une directive "noindex" et ne la donc pas indexée. Si vous ne voulez pas que la page soit indexée, vous avez procédé correctement. Si vous voulez qu'elle soit indexée, vous devez supprimer cette directive "noindex".

Bloquée par l'outil de suppression de pages : la page est actuellement bloquée par une demande de suppression d'URL. Si vous êtes propriétaire de site validé, vous pouvez utiliser l'outil de suppression d'URL pour voir qui est à l'origine de cette demande. Les demandes de suppression ne sont que valables pendant 90 jours après la date de suppression. Au-delà de cette période, Googlebot peut explorer à nouveau votre page et l'indexer, même si vous n'envoyez pas d'autre demande d'indexation. Si vous ne souhaitez pas que la page soit indexée, utilisez une directive "noindex", ajoutez des identifiants d'accès à la page ou supprimez-la.

Bloquée par le fichier robots.txt : un fichier robots.txt empêche Googlebot d'accéder à cette page. Vous pouvez vérifier cela grâce à l'outil de test du fichier robots.txt. Notez que cela ne signifie pas que la page ne sera pas indexée par d'autres moyens. Si Google peut trouver d'autres informations sur cette page sans la charger, la page pourrait tout de même être indexée (bien que cela soit plus rare). Pour vous assurer qu'une page ne soit pas indexée par Google, supprimez le bloc robots.txt et utilisez une directive "noindex".

Explorée, actuellement non indexée : la page a été explorée par Google, mais pas indexée. Elle sera peut-être indexée à l'avenir ; il n'est pas nécessaire de renvoyer cette URL pour l'exploration.
Cela arrive assez souvent avec les pages paginées après la 1ère page, car le moteur ne voit pas l'intérêt de les indexer en plus de la première.
Il est également possible que ça concerne un grand nombre de pages très similaires ou de faible qualité, pour lesquelles Google ne voit pas l'intérêt de les indexer. Il faut donc se demander s'il ne vaut pas mieux les désindexer volontairement, sauf si on prévoit de les travailler dans un futur proche.

Détectée, actuellement non indexée : la page a été trouvée par Google, mais n'a pas encore été explorée. En règle générale, cela signifie que Google a tenté d'explorer l'URL, mais le site était surchargé. Par conséquent, Google a dû reporter l'exploration. C'est pourquoi la dernière date d'exploration ne figure pas dans le rapport.
Cela arrive assez souvent avec les pages paginées après la 1ère page, car le moteur ne voit pas l'intérêt de les explorer en plus de la première.
Il est bon également de creuser la piste de la profondeur : lorsque vous avez de nombreuses pages profondes, il est difficile pour le robot de bien crawler votre site, il décide donc d'occulter une partie "inintéressante" du site. Ce problème doit être corrigé au plus vite car il peut affecter la crawlabilité globale du site et donc d'autres pages, qui elles sont cruciales pour votre référencement.

Vous savez tout sur le rapport d'URLs exclues de la Search Console !
Un consultant Smartkeyword peut vous aider à faire l'audit de votre couverture d'indexation n'hésitez pas à nous contacter !

Les autres sections du rapport de couverture : 

Découvrez les articles similaires :

Avez-vous trouvé la réponse à votre question ?