Lors de la création d’un site web, vous serez surement amené à créer ou à modifier un robot.txt. En effet cet outil, bien maîtrisé, peut s’avérer très efficace pour votre stratégie SEO, véritable pilier dans votre stratégie de marketing digital. Mais attention, s’il est mal utilisé il peut au contraire nuire totalement à votre référencement.
Qu’est ce qu’un robot.txt ?
Le robot.txt est un fichier texte qui permet de contrôler quelles zones de votre site un robot d’indexation est autorisé ou non à analyser. Ce fichier est présent dans votre site internet et visible en entrant l’URL lui correspondant, par exemple: http://www.votresite.com/robots.txt. Le robot.txt agit donc sur les robots d’indexations (Web Spiders) des différents moteurs de recherche (Google, Yahoo pour les plus importants) qui fonctionnent ainsi:
1- Pour commencer, ils téléchargent et analysent le fichier correspondant au robots.txt
2- Ensuite, ils analysent les règles contenues dans ce fichier pour savoir quelles parties du site ils sont autorisés à télécharger.
3- Si le robots.txt l’autorise, ils téléchargent l’adresse principale du site, c’est à dire l’URL http://www.votresite.com/
4- Ils examinent le contenu de cette page et filtrent les informations possibles à indexer l’ensemble du site internet (parmi les dossiers autorisés).
Parlons maintenant de son contenu: Ce fichier inclut des lignes de commandes devant respecter le protocole RES (Robots Exclusion Standard) qui correspond au langage pour ce type de fichier. Ce fichier contiendra donc les zones dont vous avez autorisé l’analyse ainsi que les robots des moteurs de recherches que vous voulez cibler.
Voici un exemple de robots.txt pour illustrer mon propos:
Mais alors, pourquoi utiliser un robots.txt ?
On peut penser que ce ne sera jamais bénéfique pour notre référencement de bloquer l’accès aux robots d’indexation des moteurs de recherche sur certaines parties du site et pourtant cela peut s’avérer extrêmement avantageux !
Par exemple:
- Les pages confidentielles/privées. Que vous laissiez des notes sur des pages dédiées sur votre site pour communiquer avec les autres personnes qui s’occupent du site ou encore à vous-même, ces pages ne sont pas pertinentes pour un bon référencement. Il est donc conseillé de ne pas les
faire examiner par les robots d’indexation pour ne pas nuire au référencement.
- Les pages en cours de maintenance/en travaux: De la même façon, les pages en cours de préparation peuvent ne pas encore correspondre à votre stratégie de référencement et il vaut mieux ne pas les indexer. Attention cependant à ne pas oublier de les rendre accessibles à nouveau par les robots une fois la maintenance/les travaux finis.
- Les pages n’ayant aucune valeur ajoutée ou même un effet négatif sur votre stratégie de référencement
- Le robots.txt permet aussi d’indiquer le sitemap (emplacement de votre site) aux robots et donc d’améliorer la vitesse d’indexation de celui-ci.
Cependant il faut utilisé le robot.txt avec modération au risque de supprimer l’accès à des pages importantes ou d’oublier de permettre à nouveau l’analyse par les web spiders d’une page devenue pertinente pour le référencement.
Les commandes et comment les utiliser
-Votre fichier robot.txt devra impérativement commencer par une commande “User-agent:”; elle permet de déterminer quels robots d’indexation seront concernés par les commandes suivantes. Suivie du caractère “*”, tous les robots seront concernés. Il faut utilisé “Googlebot” pour google ou encore “Slurp” pour Yahoo!
-Ensuite, il existe deux commandes qui sont les plus utilisées à savoir “Disallow:” et “Allow:”. .La première permet de bloquer l’accès à un dossier du site, par exemple: DISALLOW: /WP-CONTENT: Le dossier WP-CONTENT de pourra pas être indexer. .La seconde permet elle d’autoriser l’accès à uh fichier préent à l’intérieur d’un dossier qui a été précédemment bloquer par la commande “Disallow:”, par exemple: ALLOW: /WP-CONTENT/UPLOADS: L’ensemble du dossier WP-CONTENT ne sera pas indexer excepté le fichier UPLOADS.
-La troisième commande parmi les plus importante est celle qui permet une indexation plus rapide de votre site en indiquant la sitemap (l’emplacement du site).
Pour cela il suffit de rentrer la commande “Sitemap:” suivie de l’adresse de votre site par exemple: “HTTP://WWW.VOTRE-SITE.COM/SITEMAP.XML”
Finalement, vous n’avez plus d’excuses pour ne pas utiliser un fichier robots.txt et vous ne pourrez plus accuser vos pages en travaux de nuire à votre référencement. Vous avez toutes les compétences en main pour manier cette magnifique arme de référencement qu’est le robots.txt et maintenant, à vous de jouer !
Découvrez aussi d’autres écoles du Groupe NEXT!
Bachelor Institute : Découvrez aussi notre Bachelor Sport Management / Bachelor Luxe / Bachelor Évenementiel, à Lyon, Paris et Bordeaux
Magnum : Découvrez le BTS Viti/Vinicole, à Lyon, Paris et Bordeaux
Atlas : Découvrez le BTS Tourisme et nos campus de Lyon, paris et Bordeaux
Webtech : Découvrez le BTS SIO et nos campus de Lyon, Paris et Bordeaux
Escen : Découvrez notre école de commerce à Paris, Lyon et Bordeaux