Bloquer l'indexation par les moteurs de recherche avec robots.txt
Comment contrôler les pages et répertoires que les moteurs de recherche peuvent indexer via le fichier robots.txt.
robots.txt est un fichier texte placé à la racine de votre site qui indique aux robots d'exploration des moteurs de recherche comment se comporter sur votre site. C'est la première chose que tout bot consulte lors de sa visite.
Vous pouvez l'utiliser pour :
- Bloquer l'indexation de pages ou de répertoires spécifiques
- Indiquer aux moteurs de recherche votre domaine canonique
- Définir un délai d'exploration entre les requêtes de pages
- Et bien plus encore
Le fichier doit se trouver à la racine de votre site — au même endroit que votre fichier principal index.*. Pour votre domaine principal, il s'agit du dossier public_html. S'il n'existe pas encore, créez-le simplement.
Directives principales
User-agent— indique à quel robot la règle s'applique. Utilisez*pour cibler tous les bots.Disallow— bloque l'indexation du chemin spécifié. Une valeur vide signifie aucune restriction.Crawl-delay— suggère un délai (en secondes) entre des requêtes de pages consécutives.
Exemples
Bloquer un robot spécifique :
# Block Googlebot
User-agent: Googlebot
Disallow: /
# Block Yandex
User-agent: Yandex
Disallow: /
# Block MSNBot (Bing)
User-agent: MSNBot
Disallow: /
# Block Yahoo
User-agent: Slurp
Disallow: /
Bloquer tous les moteurs de recherche :
User-agent: *
Disallow: /
Bloquer des répertoires spécifiques :
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Autoriser tous les moteurs de recherche à tout indexer :
User-agent: *
Disallow:
Une valeur
Disallowvide équivaut à l'absence totale de fichier robots.txt — tout est accessible.
Nos produits et services
N'autoriser que certains robots, avec un délai d'exploration : Dans l'exemple ci-dessous, l'intégralité du site est bloquée pour tous les bots, à l'exception de Yandex, Google et Rambler. Chacun d'eux se voit appliquer un délai de 4 secondes entre les requêtes de pages :
User-agent: *
Disallow: /
User-agent: Yandex
Crawl-delay: 4
Disallow:
User-agent: Googlebot
Crawl-delay: 4
Disallow:
User-agent: StackRambler
Crawl-delay: 4
Disallow:
Aide
Une question ou besoin d'un coup de main ? Écrivez-nous via le système de tickets — nous sommes toujours là pour vous aider !