Uso de robots.txt
Cómo controlar el rastreo de los motores de búsqueda con un archivo robots.txt.
Robots.txt es un archivo de texto plano en el directorio raíz de tu sitio que indica a los crawlers de los motores de búsqueda qué partes del sitio deben indexar y cuáles deben ignorar. Es una de las primeras cosas que un bot comprueba al visitar tu sitio.
Crear tu robots.txt
- Crea un archivo de texto llamado
robots.txt - Rellénalo siguiendo las reglas que se describen a continuación
- Valídalo con la Google Search Console o Yandex Webmaster → Análisis de robots.txt
- Sube el archivo al directorio raíz de tu sitio para que sea accesible en
http://example.com/robots.txt
Si el archivo no existe o devuelve algo distinto a 200 OK, los crawlers asumen que todo el sitio está abierto a la indexación.
La directiva User-agent
Especifica a qué crawler se aplica un conjunto de reglas. Usa el nombre de un bot concreto para dirigirte a un único crawler, o * para dirigirte a todos.
User-agent: YandexBot # se aplica solo al bot de indexación principal de Yandex
Disallow: /*id=
User-agent: Yandex # se aplica a todos los crawlers de Yandex (salvo lo definido arriba)
Disallow: /*sid=
User-agent: * # se aplica a todos los demás
Disallow: /cgi-bin
Bots de Yandex que puedes targetizar por separado:
YandexBot— el crawler de indexación principalYandexDirect— recopila datos para la red publicitaria de YandexYandexDirectDyn— genera banners publicitarios dinámicosYandexMedia— indexa contenido multimediaYandexImages— indexador de Yandex ImágenesYandexBlogs— indexa entradas de blog y comentariosYandexNews— crawler de Yandex NoticiasYandexPagechecker— validador de microdatosYandexMetrika— crawler de Yandex MetricaYandexMarket— crawler de Yandex Market
Disallow y Allow
Disallow — impide que un crawler acceda a una ruta:
User-agent: Yandex
Disallow: / # bloquea todo el sitio
User-agent: Yandex
Disallow: /cgi-bin # bloquea solo la sección /cgi-bin
Allow — permite explícitamente el acceso a una ruta, se usa junto con Disallow:
User-agent: Yandex
Allow: /cgi-bin
Disallow: / # bloquea todo excepto /cgi-bin
El carácter
#marca un comentario — todo lo que le sigue en esa línea es ignorado por los crawlers. Deja una línea en blanco entre los distintos bloquesUser-agentpara mantener el archivo legible.
Cómo se evalúan las directivas:
Las reglas se ordenan por longitud de ruta de URL (de más corta a más larga) y se aplican en ese orden. El orden en que aparecen en el archivo no importa — es la longitud de la ruta la que determina la prioridad.
# Tal como está escrito:
User-agent: Yandex
Allow: /catalog
Disallow: /
# Tal como se evalúa:
User-agent: Yandex
Disallow: / # bloquea todo...
Allow: /catalog # ...excepto /catalog
# Tal como está escrito:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Tal como se evalúa:
User-agent: Yandex
Allow: / # permite todo...
Disallow: /catalog # ...excepto /catalog...
Allow: /catalog/auto # ...pero /catalog/auto vuelve a estar permitido
La directiva Sitemap
Indica a los crawlers la ubicación de tu sitemap XML. Lista varios archivos si tienes más de uno:
User-agent: Yandex
Allow: /
Sitemap: https://example.com/sitemap1.xml
Sitemap: https://example.com/sitemap2.xml
Esta directiva es independiente de la sección — se aplica independientemente de dónde aparezca en el archivo.
La directiva Host
Indica a Yandex qué dominio es tu mirror canónico (principal). No es una garantía, pero Yandex le da mucho peso en su decisión:
User-agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: https://www.example.com
La directiva Crawl-delay
Establece un tiempo mínimo de espera (en segundos) entre las solicitudes de páginas. Es útil si el crawling está sobrecargando tu servidor. Yandex admite valores decimales:
User-agent: Yandex
Crawl-delay: 2 # pausa de 2 segundos entre solicitudes
User-agent: *
Disallow: /search
Crawl-delay: 4.5 # pausa de 4,5 segundos
La directiva Clean-param
Si tus URL contienen parámetros dinámicos que no modifican el contenido real de la página — IDs de sesión, tokens de referencia, parámetros publicitarios — puedes declararlos con Clean-param. El crawler de Yandex tratará las URL que solo difieran en esos parámetros como duplicadas y evitará volver a crawlearlas, ahorrando tanto ancho de banda como carga en el servidor.
La documentación completa está disponible en el sitio de soporte de Yandex.
Ayuda
¿Tienes dudas o necesitas ayuda? Escríbenos a través del sistema de tickets — siempre estamos aquí para ayudarte!