Bloquear la indexación de motores de búsqueda con robots.txt
Cómo controlar qué páginas y directorios pueden indexar los motores de búsqueda mediante el archivo robots.txt.
robots.txt es un archivo de texto plano ubicado en el directorio raíz de tu sitio que indica a los rastreadores de los motores de búsqueda cómo comportarse en él. Es lo primero que busca cualquier bot al visitar tu sitio.
Puedes usarlo para:
- Bloquear la indexación de páginas o directorios específicos
- Indicar a los motores de búsqueda tu dominio canónico
- Establecer un retardo de rastreo entre las solicitudes de páginas
- Y mucho más
El archivo debe estar en el directorio raíz de tu sitio — el mismo lugar donde se encuentra tu archivo principal index.*. Para tu dominio principal, se trata de la carpeta public_html. Si todavía no existe, simplemente créala.
Directivas principales
User-agent— especifica a qué rastreador se aplica la regla. Usa*para dirigirte a todos los bots.Disallow— bloquea la indexación de la ruta especificada. Un valor vacío significa sin restricciones.Crawl-delay— sugiere un retardo (en segundos) entre solicitudes de páginas consecutivas.
Ejemplos
Bloquear un rastreador específico:
# Block Googlebot
User-agent: Googlebot
Disallow: /
# Block Yandex
User-agent: Yandex
Disallow: /
# Block MSNBot (Bing)
User-agent: MSNBot
Disallow: /
# Block Yahoo
User-agent: Slurp
Disallow: /
Bloquear todos los motores de búsqueda:
User-agent: *
Disallow: /
Bloquear directorios específicos:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Permitir que todos los motores de búsqueda indexen todo:
User-agent: *
Disallow:
Un valor
Disallowvacío equivale a no tener ningún archivo robots.txt — todo queda abierto.
Nuestros servicios y productos
Permitir solo a ciertos rastreadores, con retardo de rastreo: En el ejemplo siguiente, el sitio completo está bloqueado para todos los bots excepto Yandex, Google y Rambler. A cada uno de ellos se le aplica un retardo de 4 segundos entre las solicitudes de páginas:
User-agent: *
Disallow: /
User-agent: Yandex
Crawl-delay: 4
Disallow:
User-agent: Googlebot
Crawl-delay: 4
Disallow:
User-agent: StackRambler
Crawl-delay: 4
Disallow:
Ayuda
¿Tienes dudas o necesitas ayuda? Escríbenos a través del sistema de tickets — siempre estamos aquí para ayudarte!