Utilizzo di robots.txt

Come controllare la scansione dei motori di ricerca con un file robots.txt.

Robots.txt è un file di testo semplice nella directory radice del tuo sito che indica ai crawler dei motori di ricerca quali sezioni del sito indicizzare e quali ignorare. È una delle prime cose che un bot controlla quando visita il tuo sito.

Creare il robots.txt

Crea un file di testo chiamato robots.txt
Compilalo seguendo le regole descritte di seguito
Validalo tramite la Google Search Console o Yandex Webmaster → Analisi robots.txt
Carica il file nella directory radice del sito in modo che sia accessibile all'indirizzo http://example.com/robots.txt

Se il file è assente o restituisce qualcosa di diverso da 200 OK, i crawler assumono che l'intero sito sia aperto all'indicizzazione.

La direttiva User-agent

Specifica a quale crawler si applica un insieme di regole. Usa il nome di un bot specifico per targetizzare un singolo crawler, oppure * per rivolgerti a tutti.

User-agent: YandexBot   # si applica solo al bot di indicizzazione principale di Yandex
Disallow: /*id=

User-agent: Yandex      # si applica a tutti i crawler Yandex (salvo quanto definito sopra)
Disallow: /*sid=

User-agent: *           # si applica a tutti gli altri
Disallow: /cgi-bin

Bot Yandex che puoi targetizzare singolarmente:

YandexBot — il crawler di indicizzazione principale
YandexDirect — raccoglie dati per la rete pubblicitaria Yandex
YandexDirectDyn — genera banner pubblicitari dinamici
YandexMedia — indicizza i contenuti multimediali
YandexImages — indicizzatore di Yandex Immagini
YandexBlogs — indicizza post e commenti dei blog
YandexNews — crawler di Yandex Notizie
YandexPagechecker — validatore di microdati
YandexMetrika — crawler di Yandex Metrica
YandexMarket — crawler di Yandex Market

Disallow e Allow

Disallow — impedisce a un crawler di accedere a un percorso:

User-agent: Yandex
Disallow: /             # blocca l'intero sito

User-agent: Yandex
Disallow: /cgi-bin      # blocca solo la sezione /cgi-bin

Allow — consente esplicitamente l'accesso a un percorso, da usare insieme a Disallow:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /             # blocca tutto tranne /cgi-bin

Il carattere # indica un commento — tutto ciò che lo segue sulla stessa riga viene ignorato dai crawler. Lascia una riga vuota tra i diversi blocchi User-agent per mantenere il file leggibile.

Come vengono valutate le direttive:

Le regole vengono ordinate per lunghezza del percorso URL (dal più corto al più lungo) e applicate in quest'ordine. L'ordine in cui compaiono nel file non conta — è la lunghezza del percorso a determinare la priorità.

# Come scritto:
User-agent: Yandex
Allow: /catalog
Disallow: /

# Come valutato:
User-agent: Yandex
Disallow: /             # blocca tutto...
Allow: /catalog         # ...tranne /catalog

# Come scritto:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog

# Come valutato:
User-agent: Yandex
Allow: /                # consente tutto...
Disallow: /catalog      # ...tranne /catalog...
Allow: /catalog/auto    # ...ma /catalog/auto è di nuovo consentito

La direttiva Sitemap

Indica ai crawler la posizione della tua sitemap XML. Elenca più file se ne hai più di uno:

User-agent: Yandex
Allow: /
Sitemap: https://example.com/sitemap1.xml
Sitemap: https://example.com/sitemap2.xml

Questa direttiva è indipendente dalla sezione — si applica indipendentemente da dove si trova nel file.

La direttiva Host

Indica a Yandex quale dominio è il tuo mirror canonico (principale). Non è una garanzia, ma Yandex le attribuisce un peso significativo nella sua decisione:

User-agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: https://www.example.com

La direttiva Crawl-delay

Imposta un tempo minimo di attesa (in secondi) tra le richieste di pagina. È utile se il crawling mette sotto pressione il tuo server. Yandex supporta i valori decimali:

User-agent: Yandex
Crawl-delay: 2          # pausa di 2 secondi tra le richieste

User-agent: *
Disallow: /search
Crawl-delay: 4.5        # pausa di 4,5 secondi

La direttiva Clean-param

Se gli URL del tuo sito contengono parametri dinamici che non modificano il contenuto effettivo della pagina — ID di sessione, token di referral, parametri pubblicitari — puoi dichiararli con Clean-param. Il crawler di Yandex tratterà gli URL che differiscono solo per questi parametri come duplicati ed eviterà di effettuarne nuovamente il crawling, risparmiando sia larghezza di banda che carico sul server.

La documentazione completa è disponibile sul sito di supporto Yandex.

Aiuto

Hai domande o ti serve una mano? Scrivici tramite il sistema di ticket — siamo sempre qui per aiutarti!