Dans les coulisses de chaque site web, un dialogue constant a lieu entre votre contenu et les robots des moteurs de recherche. Ces "crawlers" ou "spiders", envoyés par Google, Bing et d’autres, parcourent inlassablement le web pour découvrir et indexer de nouvelles pages. Cependant, vous ne voulez pas forcément que ces robots explorent tous les recoins de votre site. Certaines zones, comme les pages d’administration ou les fichiers temporaires, sont inutiles pour le référencement et peuvent même gaspiller votre "budget de crawl". C’est ici qu’intervient le fichier robots.txt. En effet, ce simple fichier texte agit comme le portier de votre site, donnant des instructions claires aux robots sur les portes qu’ils peuvent franchir et celles qui doivent rester fermées.
Qu’est-ce que le fichier robots.txt ?
Le robots.txt est un fichier texte public placé à la racine de votre site (par exemple, votresite.com/robots.txt). Sa seule et unique fonction est de fournir des directives aux robots d’exploration. Il utilise un protocole d’exclusion des robots (Robots Exclusion Protocol) pour leur indiquer les parties du site qu’ils ne doivent pas explorer.
Il est crucial de comprendre deux choses. Premièrement, le robots.txt est un guide, pas une barrière infranchissable. Les robots des grands moteurs de recherche (Google, Bing) respectent scrupuleusement ses directives. Cependant, des robots malveillants ou moins scrupuleux peuvent tout à fait l’ignorer. Par conséquent, vous ne devez jamais utiliser le robots.txt pour masquer des informations privées ou sensibles.
Deuxièmement, bloquer une page dans le robots.txt ne garantit pas qu’elle n’apparaîtra pas dans les résultats de recherche. Si une autre page sur le web fait un lien vers votre page bloquée, Google peut toujours l’indexer sans même la visiter. Pour empêcher de manière fiable l’indexation d’une page, vous devez utiliser une balise meta "noindex".
La syntaxe du robots.txt : Simple mais puissante
Un fichier robots.txt est composé de règles. Chaque règle contient deux parties principales : User-agent et une ou plusieurs directives comme Disallow ou Allow.
User-agent: Cette ligne spécifie à quel robot la règle s’applique. Un astérisque (*) signifie que la règle s’adresse à tous les robots. Vous pouvez aussi cibler un robot spécifique, commeGooglebot.Disallow: Cette ligne indique le chemin du répertoire ou du fichier que le robot n’est pas autorisé à explorer. Un simple/bloquerait l’intégralité du site.Allow: Cette directive, moins courante, permet de créer une exception à une règleDisallow.Sitemap: Il est également recommandé d’inclure un lien vers votre sitemap XML pour aider les robots à découvrir toutes vos pages importantes.
Voici quelques exemples simples :
Bloquer tout le site pour tous les robots (à ne jamais faire sur un site en production !) :
User-agent: *
Disallow: /
Autoriser tout le site pour tous les robots :
User-agent: *
Disallow:

Le fichier robots.txt par défaut de WordPress
Par défaut, WordPress ne crée pas de fichier robots.txt physique sur votre serveur. À la place, il génère un fichier "virtuel" lorsque les robots le demandent. Le contenu de ce fichier virtuel est généralement le suivant :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Cette règle est très judicieuse. D’une part, elle interdit à tous les robots d’explorer le répertoire /wp-admin/, qui contient le tableau de bord de WordPress et n’a aucun intérêt pour les visiteurs. D’autre part, elle autorise spécifiquement l’accès au fichier admin-ajax.php, car certains thèmes et plugins l’utilisent pour des fonctionnalités interactives sur la partie publique du site.
Comment modifier le robots.txt sur votre site WordPress ?
Si vous souhaitez personnaliser ces règles, vous devez créer un fichier robots.txt physique qui remplacera le fichier virtuel de WordPress. Il existe deux méthodes principales pour cela.
La méthode simple et sûre : Utiliser un plugin SEO
C’est la méthode que nous recommandons pour la grande majorité des utilisateurs. Des plugins SEO populaires comme Yoast SEO ou Rank Math intègrent un éditeur de fichier robots.txt. Vous le trouverez généralement dans les "Outils" du plugin. Cet éditeur vous permet de modifier le contenu du fichier directement depuis votre tableau de bord WordPress. Le plugin se charge alors de créer correctement le fichier physique à la racine de votre site. C’est simple, rapide et cela évite les erreurs de manipulation. De plus, un hébergement web de qualité comme celui de Tswan Hosting garantit que les permissions de fichiers sont correctement configurées pour permettre au plugin d’effectuer cette tâche.
La méthode manuelle : Utiliser le FTP
Pour les utilisateurs plus avancés, il est possible de créer le fichier manuellement.
- Ouvrez un simple éditeur de texte (comme le Bloc-notes sur Windows).
- Écrivez vos règles.
- Enregistrez le fichier sous le nom exact
robots.txt. - Utilisez un client FTP (comme FileZilla) pour vous connecter à votre serveur d’hébergement.
- Téléversez le fichier
robots.txtdans le répertoire racine de votre site (le même répertoire qui contientwp-config.php).
Cette méthode vous donne un contrôle total, mais attention : une simple faute de frappe peut avoir des conséquences négatives sur votre SEO.
En conclusion, le fichier robots.txt est un outil simple mais essentiel dans votre arsenal SEO. Bien qu’il ne faille pas le modifier sans raison, comprendre son fonctionnement vous permet de mieux contrôler la manière dont les moteurs de recherche interagissent avec votre site. C’est un petit détail technique qui, bien maîtrisé, contribue à la santé et à la performance globale de votre présence en ligne, un principe cher aux développeurs de Tswan Softwares.
