Le fichier "robots.txt" est un élément essentiel que vous pouvez placer sur votre site web pour aider les moteurs de recherche à comprendre quelles parties de votre site ils peuvent visiter et indexer, et quelles parties ils doivent éviter. En utilisant le fichier robots.txt, vous contrôlez la manière dont les moteurs de recherche interagissent avec votre site. Il en va de même pour ses interactions avec CompanySpotter. Il est particulièrement utile s'il y a certaines parties de votre site que vous ne voulez pas voir apparaître dans les résultats de recherche, comme les pages d'administration, les sections privées, ou peut-être des parties de votre site qui sont encore en construction. Le fichier se trouve normalement dans le répertoire racine de votre site. En d'autres termes, si votre site se trouve à l'adresse www.test.com, votre fichier robots.txt se trouvera à l'adresse www.test.com/robots.txt.
L'utilisation d'un fichier robots.txt est un aspect fondamental du référencement (optimisation des moteurs de recherche) et permet d'indexer le contenu approprié de votre site et de le présenter aux utilisateurs des moteurs de recherche. Il peut s'agir d'un outil utile, mais comme toutes les stratégies de référencement, il doit être utilisé avec précaution et à bon escient.
Ce qu'il faut retenir, c'est que même si la plupart des moteurs de recherche (y compris CompanySpotter) fonctionnent avec prudence et respectent les règles du fichier robots.txt, il ne s'agit pas d'une garantie absolue. Tous les moteurs de recherche ne respectent pas les règles et des robots malveillants peuvent délibérément ignorer les instructions.
Vous trouverez ci-dessous quelques exemples utiles sur la manière de créer un fichier robots.txt :
Exemple 1 : Bloquer tous les moteurs de recherche
Si vous ne voulez pas que les moteurs de recherche indexent votre site web, vous pouvez mettre ce qui suit dans votre fichier robots.txt :
User-agent: * Disallow: /
Ici, User-agent indique : * que les règles suivantes s'appliquent à tous les moteurs de recherche, et Disallow : / leur indique d'éviter l'ensemble du site. Cela revient à demander à tous les moteurs de recherche de ne pas indexer les pages.
Exemple 2 : blocage d'un moteur de recherche spécifique
Par exemple, si vous ne voulez pas que Google indexe votre site, mais que vous souhaitez que d'autres moteurs de recherche l'indexent :
User-agent: Googlebot Disallow: /
Ici, User-agent : Googlebot indique que les règles suivantes s'appliquent au robot du moteur de recherche de Google. En substance, il est demandé au Googlebot de ne pas indexer les pages, alors que tous les autres moteurs de recherche sont autorisés à le faire.
Exemple 3 : Bloquer des répertoires spécifiques
Si vous souhaitez empêcher les moteurs de recherche d'indexer certains répertoires de votre site :
User-agent: * Disallow: /private/ Disallow: /test/
Dans cet exemple, tous les robots ont pour instruction d'éviter les répertoires "/private/" et "/test/". En définitive, tous les moteurs de recherche sont autorisés à indexer toutes les pages, à l'exception de celles qui font partie des répertoires "/private/" et "/test/".
Exemple 4 : blocage de fichiers spécifiques
Si vous souhaitez empêcher les moteurs de recherche d'indexer certains fichiers de votre site, vous pouvez utiliser l'agent utilisateur suivant
User-agent: * Disallow: /directory/my-file.html
Cet exemple indique aux robots d'éviter le fichier spécifique "mon-fichier.html" dans le répertoire "/directory/". En définitive, tous les moteurs de recherche sont autorisés à indexer toutes les pages, à l'exception de la page /directory/my-file.html.