Bloquear la indexación de motores de búsqueda con robots.txt

Cómo controlar qué páginas y directorios pueden indexar los motores de búsqueda mediante el archivo robots.txt.

robots.txt es un archivo de texto plano ubicado en el directorio raíz de tu sitio que indica a los rastreadores de los motores de búsqueda cómo comportarse en él. Es lo primero que busca cualquier bot al visitar tu sitio.

Puedes usarlo para:

Bloquear la indexación de páginas o directorios específicos
Indicar a los motores de búsqueda tu dominio canónico
Establecer un retardo de rastreo entre las solicitudes de páginas
Y mucho más

El archivo debe estar en el directorio raíz de tu sitio — el mismo lugar donde se encuentra tu archivo principal index.*. Para tu dominio principal, se trata de la carpeta public_html. Si todavía no existe, simplemente créala.

Directivas principales

User-agent — especifica a qué rastreador se aplica la regla. Usa * para dirigirte a todos los bots.
Disallow — bloquea la indexación de la ruta especificada. Un valor vacío significa sin restricciones.
Crawl-delay — sugiere un retardo (en segundos) entre solicitudes de páginas consecutivas.

Ejemplos

Bloquear un rastreador específico:

# Block Googlebot
User-agent: Googlebot
Disallow: /

# Block Yandex
User-agent: Yandex
Disallow: /

# Block MSNBot (Bing)
User-agent: MSNBot
Disallow: /

# Block Yahoo
User-agent: Slurp
Disallow: /

Bloquear todos los motores de búsqueda:

User-agent: *
Disallow: /

Bloquear directorios específicos:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Permitir que todos los motores de búsqueda indexen todo:

User-agent: *
Disallow:

Un valor Disallow vacío equivale a no tener ningún archivo robots.txt — todo queda abierto.

Nuestros servicios y productos

HostingFunciona en discos NVMe ultrarrápidos. Apto para sitios web de cualquier complejidad.

Pedir

VPSParámetros ajustables y configuración flexible del SO. Administración gratuita incluida.

Pedir

Servidores dedicadosDisponibles diversas configuraciones Supermicro con procesadores Intel y AMD.

Pedir

Permitir solo a ciertos rastreadores, con retardo de rastreo: En el ejemplo siguiente, el sitio completo está bloqueado para todos los bots excepto Yandex, Google y Rambler. A cada uno de ellos se le aplica un retardo de 4 segundos entre las solicitudes de páginas:

User-agent: *
Disallow: /

User-agent: Yandex
Crawl-delay: 4
Disallow:

User-agent: Googlebot
Crawl-delay: 4
Disallow:

User-agent: StackRambler
Crawl-delay: 4
Disallow:

Ayuda

¿Tienes dudas o necesitas ayuda? Escríbenos a través del sistema de tickets — siempre estamos aquí para ayudarte!