Bloccare l'indicizzazione dei motori di ricerca con robots.txt
Come controllare quali pagine e directory i motori di ricerca possono indicizzare tramite il file robots.txt.
robots.txt è un semplice file di testo nella directory radice del tuo sito che indica ai crawler dei motori di ricerca come comportarsi sul tuo sito. È la prima cosa che qualsiasi bot cerca quando visita il tuo sito.
Puoi usarlo per:
- Bloccare l'indicizzazione di pagine o directory specifiche
- Indicare ai motori di ricerca il tuo dominio canonico
- Impostare un ritardo di scansione tra le richieste di pagina
- E molto altro ancora
Il file deve trovarsi nella directory radice del tuo sito — nella stessa posizione del file principale index.*. Per il tuo dominio principale, si tratta della cartella public_html. Se non esiste ancora, creala senza problemi.
Direttive principali
User-agent— specifica a quale crawler si applica la regola. Usa*per includere tutti i bot.Disallow— blocca l'indicizzazione del percorso specificato. Un valore vuoto significa nessuna restrizione.Crawl-delay— suggerisce un ritardo (in secondi) tra richieste di pagine consecutive.
Esempi
Bloccare un crawler specifico:
# Block Googlebot
User-agent: Googlebot
Disallow: /
# Block Yandex
User-agent: Yandex
Disallow: /
# Block MSNBot (Bing)
User-agent: MSNBot
Disallow: /
# Block Yahoo
User-agent: Slurp
Disallow: /
Bloccare tutti i motori di ricerca:
User-agent: *
Disallow: /
Bloccare directory specifiche:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Consentire a tutti i motori di ricerca di indicizzare tutto:
User-agent: *
Disallow:
Un valore
Disallowvuoto equivale all'assenza totale del file robots.txt — tutto è accessibile.
I nostri prodotti e servizi
Consentire solo a determinati crawler, con un ritardo di scansione: Nell'esempio seguente, l'intero sito è bloccato per tutti i bot tranne Yandex, Google e Rambler. A ciascuno di essi viene applicato un ritardo di 4 secondi tra le richieste di pagina:
User-agent: *
Disallow: /
User-agent: Yandex
Crawl-delay: 4
Disallow:
User-agent: Googlebot
Crawl-delay: 4
Disallow:
User-agent: StackRambler
Crawl-delay: 4
Disallow:
Aiuto
Hai domande o ti serve una mano? Scrivici tramite il sistema di ticket — siamo sempre qui per aiutarti!