Uso de robots.txt

Cómo controlar el rastreo de los motores de búsqueda con un archivo robots.txt.

Robots.txt es un archivo de texto plano en el directorio raíz de tu sitio que indica a los crawlers de los motores de búsqueda qué partes del sitio deben indexar y cuáles deben ignorar. Es una de las primeras cosas que un bot comprueba al visitar tu sitio.

Crear tu robots.txt

Crea un archivo de texto llamado robots.txt
Rellénalo siguiendo las reglas que se describen a continuación
Valídalo con la Google Search Console o Yandex Webmaster → Análisis de robots.txt
Sube el archivo al directorio raíz de tu sitio para que sea accesible en http://example.com/robots.txt

Si el archivo no existe o devuelve algo distinto a 200 OK, los crawlers asumen que todo el sitio está abierto a la indexación.

La directiva User-agent

Especifica a qué crawler se aplica un conjunto de reglas. Usa el nombre de un bot concreto para dirigirte a un único crawler, o * para dirigirte a todos.

User-agent: YandexBot   # se aplica solo al bot de indexación principal de Yandex
Disallow: /*id=

User-agent: Yandex      # se aplica a todos los crawlers de Yandex (salvo lo definido arriba)
Disallow: /*sid=

User-agent: *           # se aplica a todos los demás
Disallow: /cgi-bin

Bots de Yandex que puedes targetizar por separado:

YandexBot — el crawler de indexación principal
YandexDirect — recopila datos para la red publicitaria de Yandex
YandexDirectDyn — genera banners publicitarios dinámicos
YandexMedia — indexa contenido multimedia
YandexImages — indexador de Yandex Imágenes
YandexBlogs — indexa entradas de blog y comentarios
YandexNews — crawler de Yandex Noticias
YandexPagechecker — validador de microdatos
YandexMetrika — crawler de Yandex Metrica
YandexMarket — crawler de Yandex Market

Disallow y Allow

Disallow — impide que un crawler acceda a una ruta:

User-agent: Yandex
Disallow: /             # bloquea todo el sitio

User-agent: Yandex
Disallow: /cgi-bin      # bloquea solo la sección /cgi-bin

Allow — permite explícitamente el acceso a una ruta, se usa junto con Disallow:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /             # bloquea todo excepto /cgi-bin

El carácter # marca un comentario — todo lo que le sigue en esa línea es ignorado por los crawlers. Deja una línea en blanco entre los distintos bloques User-agent para mantener el archivo legible.

Cómo se evalúan las directivas:

Las reglas se ordenan por longitud de ruta de URL (de más corta a más larga) y se aplican en ese orden. El orden en que aparecen en el archivo no importa — es la longitud de la ruta la que determina la prioridad.

# Tal como está escrito:
User-agent: Yandex
Allow: /catalog
Disallow: /

# Tal como se evalúa:
User-agent: Yandex
Disallow: /             # bloquea todo...
Allow: /catalog         # ...excepto /catalog

# Tal como está escrito:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog

# Tal como se evalúa:
User-agent: Yandex
Allow: /                # permite todo...
Disallow: /catalog      # ...excepto /catalog...
Allow: /catalog/auto    # ...pero /catalog/auto vuelve a estar permitido

La directiva Sitemap

Indica a los crawlers la ubicación de tu sitemap XML. Lista varios archivos si tienes más de uno:

User-agent: Yandex
Allow: /
Sitemap: https://example.com/sitemap1.xml
Sitemap: https://example.com/sitemap2.xml

Esta directiva es independiente de la sección — se aplica independientemente de dónde aparezca en el archivo.

La directiva Host

Indica a Yandex qué dominio es tu mirror canónico (principal). No es una garantía, pero Yandex le da mucho peso en su decisión:

User-agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: https://www.example.com

La directiva Crawl-delay

Establece un tiempo mínimo de espera (en segundos) entre las solicitudes de páginas. Es útil si el crawling está sobrecargando tu servidor. Yandex admite valores decimales:

User-agent: Yandex
Crawl-delay: 2          # pausa de 2 segundos entre solicitudes

User-agent: *
Disallow: /search
Crawl-delay: 4.5        # pausa de 4,5 segundos

La directiva Clean-param

Si tus URL contienen parámetros dinámicos que no modifican el contenido real de la página — IDs de sesión, tokens de referencia, parámetros publicitarios — puedes declararlos con Clean-param. El crawler de Yandex tratará las URL que solo difieran en esos parámetros como duplicadas y evitará volver a crawlearlas, ahorrando tanto ancho de banda como carga en el servidor.

La documentación completa está disponible en el sitio de soporte de Yandex.

Ayuda

¿Tienes dudas o necesitas ayuda? Escríbenos a través del sistema de tickets — siempre estamos aquí para ayudarte!