Sitemap XML et robots.txt : les deux fichiers qui guident Google sur ton site

La plupart des petits sites n'ont jamais touché à leur sitemap ni à leur robots.txt, et ça marche quand même. Mais dès que ton site grossit, ces deux fichiers font une vraie différence sur la vitesse à laquelle Google trouve et comprend tes pages. Bonne nouvelle : ils sont simples à saisir une fois qu'on a vu à quoi chacun sert.

Le sitemap XML : la liste de tes pages importantes

Un sitemap XML est un fichier qui liste les adresses que tu veux que les moteurs de recherche connaissent. Pense à une table des matières que tu remets à Google : « voici mes pages, voici quand elles ont changé pour la dernière fois ».

Il ne force pas Google à indexer quoi que ce soit. Il facilite la découverte. Sur un petit site bien maillé, Google trouverait tes pages tout seul en suivant tes liens. Mais sur un site plus gros, plus récent, ou avec des pages peu liées entre elles, le sitemap évite que certaines passent sous le radar.

Chaque entrée contient l'adresse de la page et, souvent, sa date de dernière modification. Cette date aide Google à savoir quoi revisiter en priorité. Il existe aussi des sitemaps spécialisés pour les images, les vidéos ou les actualités, mais pour un blogue ou un site vitrine, le sitemap de pages standard suffit largement.

Le robots.txt : le panneau d'indications à l'entrée

Le robots.txt fait l'inverse. C'est un fichier texte placé à la racine de ton domaine, accessible à tonsite.com/robots.txt, qui dit aux robots où ils peuvent aller et où ils ne devraient pas.

Il fonctionne avec quelques directives simples. User-agent désigne à quel robot s'adresse la règle (un astérisque vise tout le monde). Disallow indique un chemin à ne pas explorer. Allow autorise explicitement un sous-chemin à l'intérieur d'une zone bloquée.

Par exemple, tu peux empêcher Google d'aller perdre son temps dans une zone d'administration ou des pages de résultats de recherche internes, qui n'ont aucun intérêt dans l'index.

La nuance qui piège tout le monde

Voici le point le plus mal compris : le robots.txt bloque l'exploration, pas l'indexation.

Si tu bloques une page dans le robots.txt, Google n'ira pas lire son contenu. Mais si d'autres sites pointent vers cette page, elle peut quand même apparaître dans les résultats, affichée sans description parce que Google n'a pas pu la lire. Tu obtiens alors le pire des deux mondes : une page visible mais vide de sens dans les résultats.

Pour vraiment empêcher une page d'apparaître dans Google, ce n'est pas le robots.txt qu'il te faut, mais une balise noindex dans la page elle-même. Et pour que Google la voie, cette balise, il faut justement que la page ne soit pas bloquée par le robots.txt. Les deux outils ne servent pas au même but, et les confondre cause des surprises désagréables.

Comment ils travaillent ensemble

Le robots.txt accepte une ligne spéciale : Sitemap: suivie de l'adresse complète de ton sitemap. Ce n'est pas obligatoire, mais c'est une bonne habitude. Comme les robots passent presque toujours par le robots.txt en arrivant, ils y découvrent au passage l'emplacement de ton sitemap.

Un robots.txt minimal et sain ressemble souvent à ceci : tu autorises l'exploration générale, tu bloques deux ou trois zones inutiles, et tu déclares ton sitemap. Rien de plus compliqué.

Créer ton sitemap sans te casser la tête

Tu n'as pas à écrire ce fichier à la main. La plupart des plateformes le génèrent et le mettent à jour automatiquement.

Sur WordPress, ton extension SEO produit un sitemap dès l'installation et l'actualise à chaque nouvelle page. Beaucoup de constructeurs de sites font pareil sans que tu aies à intervenir. Si ta plateforme ne le fait pas, un générateur en ligne peut créer le fichier que tu déposes ensuite à la racine.

L'important, c'est qu'il reste propre : il doit lister tes vraies pages utiles, pas tes brouillons, tes pages de remerciement ni des adresses qui redirigent ailleurs. Un sitemap rempli de liens morts ou de doublons envoie de mauvais signaux. C'est le genre d'incohérence que le suivi technique de Gridar repère, en comparant ce que ton sitemap déclare avec ce que ton site contient vraiment.

Soumettre et surveiller dans la Search Console

Une fois ton sitemap en ligne, ajoute-le dans la Google Search Console, section Sitemaps. Tu colles son adresse, tu soumets, et Google te confirme combien d'URL il a découvertes.

C'est aussi là que tu surveilles la suite. Le rapport d'indexation te montre quelles pages sont indexées, lesquelles sont exclues et pourquoi. Si une page que tu juges importante est marquée « bloquée par robots.txt » ou « découverte mais non indexée », tu sais où regarder.

Garde un œil dessus après chaque gros changement sur ton site. C'est le meilleur moyen de voir si tes deux fichiers font bien leur travail.

Les pièges fréquents

Quelques erreurs reviennent souvent. Bloquer par accident tout son site avec un Disallow: / oublié après une phase de développement, ce qui fait disparaître le site de Google. Lister dans le sitemap des pages bloquées par le robots.txt, ce qui crée des messages contradictoires. Placer le robots.txt ailleurs qu'à la racine, où Google ne le cherchera jamais. Ou laisser un vieux sitemap périmé continuer de pointer vers des pages supprimées.

Aucune de ces erreurs n'est grave si tu la repères vite. D'où l'intérêt de vérifier ces fichiers de temps en temps plutôt que de les oublier après leur création.

En résumé pratique

Le sitemap dit à Google ce que tu veux qu'il trouve. Le robots.txt lui dit où il n'a pas besoin d'aller. L'un facilite la découverte, l'autre évite le gaspillage d'exploration. Garde ton sitemap propre et à jour, garde ton robots.txt minimal et sans blocage accidentel, déclare l'un dans l'autre, et soumets le tout à la Search Console. Ces quelques minutes de configuration aident Google à passer son temps sur tes pages qui comptent, au lieu de chercher son chemin.