Utilisation de robots.txt
Comment contrôler l'exploration de votre site par les moteurs de recherche à l'aide d'un fichier robots.txt.
Robots.txt est un fichier texte brut placé à la racine de votre site, qui indique aux robots d'indexation quelles parties du site explorer et lesquelles ignorer. C'est l'un des premiers fichiers qu'un robot consulte lors de sa visite.
Créer votre robots.txt
- Créez un fichier texte nommé
robots.txt - Remplissez-le en suivant les règles décrites ci-dessous
- Validez-le via la Google Search Console ou Yandex Webmaster → Analyse robots.txt
- Déposez le fichier à la racine de votre site afin qu'il soit accessible à l'adresse
http://example.com/robots.txt
Si le fichier est absent ou renvoie autre chose que 200 OK, les robots supposent que l'ensemble du site est ouvert à l'indexation.
La directive User-agent
Indique à quel robot un ensemble de règles s'applique. Utilisez le nom d'un bot spécifique pour cibler un seul robot, ou * pour tous les adresser.
User-agent: YandexBot # s'applique uniquement au robot d'indexation principal de Yandex
Disallow: /*id=
User-agent: Yandex # s'applique à tous les robots Yandex (sauf si surchargé ci-dessus)
Disallow: /*sid=
User-agent: * # s'applique à tous les autres
Disallow: /cgi-bin
Robots Yandex que vous pouvez cibler séparément :
YandexBot— le robot d'indexation principalYandexDirect— collecte des données pour le réseau publicitaire YandexYandexDirectDyn— génère des bannières publicitaires dynamiquesYandexMedia— indexe les contenus multimédiasYandexImages— robot d'indexation de Yandex ImagesYandexBlogs— indexe les articles de blog et les commentairesYandexNews— robot Yandex ActualitésYandexPagechecker— validateur de microdonnéesYandexMetrika— robot Yandex MetricaYandexMarket— robot Yandex Market
Disallow et Allow
Disallow — empêche un robot d'accéder à un chemin :
User-agent: Yandex
Disallow: / # bloque l'ensemble du site
User-agent: Yandex
Disallow: /cgi-bin # bloque uniquement la section /cgi-bin
Allow — autorise explicitement l'accès à un chemin, à utiliser conjointement avec Disallow :
User-agent: Yandex
Allow: /cgi-bin
Disallow: / # bloque tout sauf /cgi-bin
Le caractère
#marque un commentaire — tout ce qui le suit sur la même ligne est ignoré par les robots. Laissez une ligne vide entre les différents blocsUser-agentpour faciliter la lecture.
Ordre d'évaluation des directives :
Les règles sont triées par longueur de chemin d'URL (du plus court au plus long) et appliquées dans cet ordre. L'ordre d'apparition dans le fichier n'a pas d'importance — c'est la longueur du chemin qui détermine la priorité.
# Tel qu'écrit :
User-agent: Yandex
Allow: /catalog
Disallow: /
# Tel qu'évalué :
User-agent: Yandex
Disallow: / # bloque tout...
Allow: /catalog # ...sauf /catalog
# Tel qu'écrit :
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Tel qu'évalué :
User-agent: Yandex
Allow: / # autorise tout...
Disallow: /catalog # ...sauf /catalog...
Allow: /catalog/auto # ...mais /catalog/auto est de nouveau autorisé
La directive Sitemap
Indique aux robots l'emplacement de votre sitemap XML. Listez plusieurs fichiers si vous en avez plus d'un :
User-agent: Yandex
Allow: /
Sitemap: https://example.com/sitemap1.xml
Sitemap: https://example.com/sitemap2.xml
Cette directive est indépendante des sections — elle s'applique quel que soit son emplacement dans le fichier.
La directive Host
Indique à Yandex quel domaine est votre miroir canonique (principal). Ce n'est pas une garantie, mais Yandex lui accorde un poids important dans sa décision :
User-agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: https://www.example.com
La directive Crawl-delay
Définit un délai minimum (en secondes) entre les requêtes de pages. Utile si l'exploration sollicite trop votre serveur. Yandex accepte les valeurs décimales :
User-agent: Yandex
Crawl-delay: 2 # pause de 2 secondes entre les requêtes
User-agent: *
Disallow: /search
Crawl-delay: 4.5 # pause de 4,5 secondes
La directive Clean-param
Si vos URL contiennent des paramètres dynamiques qui ne modifient pas le contenu réel de la page — identifiants de session, tokens de référence, paramètres publicitaires — vous pouvez les déclarer avec Clean-param. Le robot Yandex traitera alors les URL ne différant que par ces paramètres comme des doublons et évitera de les recrawler, économisant ainsi la bande passante et la charge serveur.
La documentation complète est disponible sur le site d'assistance Yandex.
Aide
Une question ou besoin d'un coup de main ? Écrivez-nous via le système de tickets — nous sommes toujours là pour vous aider !