Bloccare l'indicizzazione dei motori di ricerca con robots.txt

Come controllare quali pagine e directory i motori di ricerca possono indicizzare tramite il file robots.txt.

robots.txt è un semplice file di testo nella directory radice del tuo sito che indica ai crawler dei motori di ricerca come comportarsi sul tuo sito. È la prima cosa che qualsiasi bot cerca quando visita il tuo sito.

Puoi usarlo per:

  • Bloccare l'indicizzazione di pagine o directory specifiche
  • Indicare ai motori di ricerca il tuo dominio canonico
  • Impostare un ritardo di scansione tra le richieste di pagina
  • E molto altro ancora

Il file deve trovarsi nella directory radice del tuo sito — nella stessa posizione del file principale index.*. Per il tuo dominio principale, si tratta della cartella public_html. Se non esiste ancora, creala senza problemi.

Direttive principali

  • User-agent — specifica a quale crawler si applica la regola. Usa * per includere tutti i bot.
  • Disallow — blocca l'indicizzazione del percorso specificato. Un valore vuoto significa nessuna restrizione.
  • Crawl-delay — suggerisce un ritardo (in secondi) tra richieste di pagine consecutive.

Esempi

Bloccare un crawler specifico:

# Block Googlebot
User-agent: Googlebot
Disallow: /

# Block Yandex
User-agent: Yandex
Disallow: /

# Block MSNBot (Bing)
User-agent: MSNBot
Disallow: /

# Block Yahoo
User-agent: Slurp
Disallow: /

Bloccare tutti i motori di ricerca:

User-agent: *
Disallow: /

Bloccare directory specifiche:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Consentire a tutti i motori di ricerca di indicizzare tutto:

User-agent: *
Disallow:

Un valore Disallow vuoto equivale all'assenza totale del file robots.txt — tutto è accessibile.

I nostri prodotti e servizi

Hosting WebServizi di hosting affidabili per siti web di qualsiasi dimensione.
Ordina
VPSInfrastruttura cloud flessibile con accesso root completo.
Ordina
Server DedicatiServer dedicati per le massime prestazioni.
Ordina

Consentire solo a determinati crawler, con un ritardo di scansione: Nell'esempio seguente, l'intero sito è bloccato per tutti i bot tranne Yandex, Google e Rambler. A ciascuno di essi viene applicato un ritardo di 4 secondi tra le richieste di pagina:

User-agent: *
Disallow: /

User-agent: Yandex
Crawl-delay: 4
Disallow:

User-agent: Googlebot
Crawl-delay: 4
Disallow:

User-agent: StackRambler
Crawl-delay: 4
Disallow:

Aiuto

Hai domande o ti serve una mano? Scrivici tramite il sistema di ticket — siamo sempre qui per aiutarti!

Hai bisogno di aiuto?I nostri ingegneri ti aiuteranno gratuitamente con qualsiasi domanda in pochi minutiContattaci