La chose la plus importante à retenir lors de la création de votre fichier robots.txt est de rester simple. Ce fichier doit être lisible par l'homme, donc si vous avez du mal à le lire, vous vous êtes un peu perdu quelque part.
L'objectif fondamental du fichier est de communiquer avec les araignées Web (ou bots, comme on les appelle communément) les URL que vous ne voulez pas qu'ils consultent. Il peut y avoir des robots par lesquels vous ne vous souciez pas d'être exploré, vous pouvez donc demander à des agents utilisateurs spécifiques de se comporter différemment. Cependant, soyez prudent lorsque vous commencez à créer différents ensembles de règles pour différents agents utilisateurs, car ils peuvent très bien interpréter le fichier différemment de vous.
C'est l'étiquette du Web pour les robots de lire et de se conformer au fichier robots.txt, mais ils ne le font pas nécessairement - accidentellement ou délibérément. Vous devez vous assurer que votre serveur Web gère toujours correctement les demandes de bot vers les pages que vous ne voulez pas qu'ils visitent. Après tout, vous pouvez également considérer robots.txt comme un point de départ pour les personnes malveillantes qui tenteront d'attaquer votre site en faisant des requêtes aux URL que vous ne souhaitez pas voir figurer dans l'index de recherche.
Vous pouvez également trouver certaines de vos URL non autorisées par les robots apparaissant dans les index de recherche si ces URL ont été liées à un autre endroit sur le Web. Il est utile de répertorier ces URL dans votre fichier robots.txt, mais cela ne garantit pas qu'elles ne seront pas explorées ou indexées.
Une autre bonne information à mettre dans robots.txt est l'emplacement de votre plan de site (ou votre index de plan de site, si vous avez besoin d'avoir beaucoup de plans de site).
Google, l'une des sociétés de recherche les plus importantes et avec une vaste expérience des robots d'exploration, a beaucoup d'aide pour les webmasters. Comme point de départ pour leur utilisation de robots.txt, lisez ceci : Bloquer ou supprimer des pages à l'aide d'un fichier robots.txt