Utilisation de robots.txt

Comment contrôler l'exploration de votre site par les moteurs de recherche à l'aide d'un fichier robots.txt.

Robots.txt est un fichier texte brut placé à la racine de votre site, qui indique aux robots d'indexation quelles parties du site explorer et lesquelles ignorer. C'est l'un des premiers fichiers qu'un robot consulte lors de sa visite.

Créer votre robots.txt

Créez un fichier texte nommé robots.txt
Remplissez-le en suivant les règles décrites ci-dessous
Validez-le via la Google Search Console ou Yandex Webmaster → Analyse robots.txt
Déposez le fichier à la racine de votre site afin qu'il soit accessible à l'adresse http://example.com/robots.txt

Si le fichier est absent ou renvoie autre chose que 200 OK, les robots supposent que l'ensemble du site est ouvert à l'indexation.

La directive User-agent

Indique à quel robot un ensemble de règles s'applique. Utilisez le nom d'un bot spécifique pour cibler un seul robot, ou * pour tous les adresser.

User-agent: YandexBot   # s'applique uniquement au robot d'indexation principal de Yandex
Disallow: /*id=

User-agent: Yandex      # s'applique à tous les robots Yandex (sauf si surchargé ci-dessus)
Disallow: /*sid=

User-agent: *           # s'applique à tous les autres
Disallow: /cgi-bin

Robots Yandex que vous pouvez cibler séparément :

YandexBot — le robot d'indexation principal
YandexDirect — collecte des données pour le réseau publicitaire Yandex
YandexDirectDyn — génère des bannières publicitaires dynamiques
YandexMedia — indexe les contenus multimédias
YandexImages — robot d'indexation de Yandex Images
YandexBlogs — indexe les articles de blog et les commentaires
YandexNews — robot Yandex Actualités
YandexPagechecker — validateur de microdonnées
YandexMetrika — robot Yandex Metrica
YandexMarket — robot Yandex Market

Disallow et Allow

Disallow — empêche un robot d'accéder à un chemin :

User-agent: Yandex
Disallow: /             # bloque l'ensemble du site

User-agent: Yandex
Disallow: /cgi-bin      # bloque uniquement la section /cgi-bin

Allow — autorise explicitement l'accès à un chemin, à utiliser conjointement avec Disallow :

User-agent: Yandex
Allow: /cgi-bin
Disallow: /             # bloque tout sauf /cgi-bin

Le caractère # marque un commentaire — tout ce qui le suit sur la même ligne est ignoré par les robots. Laissez une ligne vide entre les différents blocs User-agent pour faciliter la lecture.

Ordre d'évaluation des directives :

Les règles sont triées par longueur de chemin d'URL (du plus court au plus long) et appliquées dans cet ordre. L'ordre d'apparition dans le fichier n'a pas d'importance — c'est la longueur du chemin qui détermine la priorité.

# Tel qu'écrit :
User-agent: Yandex
Allow: /catalog
Disallow: /

# Tel qu'évalué :
User-agent: Yandex
Disallow: /             # bloque tout...
Allow: /catalog         # ...sauf /catalog

# Tel qu'écrit :
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog

# Tel qu'évalué :
User-agent: Yandex
Allow: /                # autorise tout...
Disallow: /catalog      # ...sauf /catalog...
Allow: /catalog/auto    # ...mais /catalog/auto est de nouveau autorisé

La directive Sitemap

Indique aux robots l'emplacement de votre sitemap XML. Listez plusieurs fichiers si vous en avez plus d'un :

User-agent: Yandex
Allow: /
Sitemap: https://example.com/sitemap1.xml
Sitemap: https://example.com/sitemap2.xml

Cette directive est indépendante des sections — elle s'applique quel que soit son emplacement dans le fichier.

La directive Host

Indique à Yandex quel domaine est votre miroir canonique (principal). Ce n'est pas une garantie, mais Yandex lui accorde un poids important dans sa décision :

User-agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: https://www.example.com

La directive Crawl-delay

Définit un délai minimum (en secondes) entre les requêtes de pages. Utile si l'exploration sollicite trop votre serveur. Yandex accepte les valeurs décimales :

User-agent: Yandex
Crawl-delay: 2          # pause de 2 secondes entre les requêtes

User-agent: *
Disallow: /search
Crawl-delay: 4.5        # pause de 4,5 secondes

La directive Clean-param

Si vos URL contiennent des paramètres dynamiques qui ne modifient pas le contenu réel de la page — identifiants de session, tokens de référence, paramètres publicitaires — vous pouvez les déclarer avec Clean-param. Le robot Yandex traitera alors les URL ne différant que par ces paramètres comme des doublons et évitera de les recrawler, économisant ainsi la bande passante et la charge serveur.

La documentation complète est disponible sur le site d'assistance Yandex.

Aide

Une question ou besoin d'un coup de main ? Écrivez-nous via le système de tickets — nous sommes toujours là pour vous aider !