Utilizzo di robots.txt
Come controllare la scansione dei motori di ricerca con un file robots.txt.
Robots.txt è un file di testo semplice nella directory radice del tuo sito che indica ai crawler dei motori di ricerca quali sezioni del sito indicizzare e quali ignorare. È una delle prime cose che un bot controlla quando visita il tuo sito.
Creare il robots.txt
- Crea un file di testo chiamato
robots.txt - Compilalo seguendo le regole descritte di seguito
- Validalo tramite la Google Search Console o Yandex Webmaster → Analisi robots.txt
- Carica il file nella directory radice del sito in modo che sia accessibile all'indirizzo
http://example.com/robots.txt
Se il file è assente o restituisce qualcosa di diverso da 200 OK, i crawler assumono che l'intero sito sia aperto all'indicizzazione.
La direttiva User-agent
Specifica a quale crawler si applica un insieme di regole. Usa il nome di un bot specifico per targetizzare un singolo crawler, oppure * per rivolgerti a tutti.
User-agent: YandexBot # si applica solo al bot di indicizzazione principale di Yandex
Disallow: /*id=
User-agent: Yandex # si applica a tutti i crawler Yandex (salvo quanto definito sopra)
Disallow: /*sid=
User-agent: * # si applica a tutti gli altri
Disallow: /cgi-bin
Bot Yandex che puoi targetizzare singolarmente:
YandexBot— il crawler di indicizzazione principaleYandexDirect— raccoglie dati per la rete pubblicitaria YandexYandexDirectDyn— genera banner pubblicitari dinamiciYandexMedia— indicizza i contenuti multimedialiYandexImages— indicizzatore di Yandex ImmaginiYandexBlogs— indicizza post e commenti dei blogYandexNews— crawler di Yandex NotizieYandexPagechecker— validatore di microdatiYandexMetrika— crawler di Yandex MetricaYandexMarket— crawler di Yandex Market
Disallow e Allow
Disallow — impedisce a un crawler di accedere a un percorso:
User-agent: Yandex
Disallow: / # blocca l'intero sito
User-agent: Yandex
Disallow: /cgi-bin # blocca solo la sezione /cgi-bin
Allow — consente esplicitamente l'accesso a un percorso, da usare insieme a Disallow:
User-agent: Yandex
Allow: /cgi-bin
Disallow: / # blocca tutto tranne /cgi-bin
Il carattere
#indica un commento — tutto ciò che lo segue sulla stessa riga viene ignorato dai crawler. Lascia una riga vuota tra i diversi blocchiUser-agentper mantenere il file leggibile.
Come vengono valutate le direttive:
Le regole vengono ordinate per lunghezza del percorso URL (dal più corto al più lungo) e applicate in quest'ordine. L'ordine in cui compaiono nel file non conta — è la lunghezza del percorso a determinare la priorità.
# Come scritto:
User-agent: Yandex
Allow: /catalog
Disallow: /
# Come valutato:
User-agent: Yandex
Disallow: / # blocca tutto...
Allow: /catalog # ...tranne /catalog
# Come scritto:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Come valutato:
User-agent: Yandex
Allow: / # consente tutto...
Disallow: /catalog # ...tranne /catalog...
Allow: /catalog/auto # ...ma /catalog/auto è di nuovo consentito
La direttiva Sitemap
Indica ai crawler la posizione della tua sitemap XML. Elenca più file se ne hai più di uno:
User-agent: Yandex
Allow: /
Sitemap: https://example.com/sitemap1.xml
Sitemap: https://example.com/sitemap2.xml
Questa direttiva è indipendente dalla sezione — si applica indipendentemente da dove si trova nel file.
La direttiva Host
Indica a Yandex quale dominio è il tuo mirror canonico (principale). Non è una garanzia, ma Yandex le attribuisce un peso significativo nella sua decisione:
User-agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: https://www.example.com
La direttiva Crawl-delay
Imposta un tempo minimo di attesa (in secondi) tra le richieste di pagina. È utile se il crawling mette sotto pressione il tuo server. Yandex supporta i valori decimali:
User-agent: Yandex
Crawl-delay: 2 # pausa di 2 secondi tra le richieste
User-agent: *
Disallow: /search
Crawl-delay: 4.5 # pausa di 4,5 secondi
La direttiva Clean-param
Se gli URL del tuo sito contengono parametri dinamici che non modificano il contenuto effettivo della pagina — ID di sessione, token di referral, parametri pubblicitari — puoi dichiararli con Clean-param. Il crawler di Yandex tratterà gli URL che differiscono solo per questi parametri come duplicati ed eviterà di effettuarne nuovamente il crawling, risparmiando sia larghezza di banda che carico sul server.
La documentazione completa è disponibile sul sito di supporto Yandex.
Aiuto
Hai domande o ti serve una mano? Scrivici tramite il sistema di ticket — siamo sempre qui per aiutarti!