Verwendung von robots.txt
So steuern Sie das Crawling von Suchmaschinen mit einer robots.txt-Datei.
Robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Website, die Suchmaschinen-Crawlern mitteilt, welche Bereiche Ihrer Website indexiert werden sollen und welche nicht. Sie ist eines der Ersten, was ein Bot beim Besuch Ihrer Website prüft.
Robots.txt erstellen
- Erstellen Sie eine Textdatei mit dem Namen
robots.txt - Füllen Sie sie gemäß den unten beschriebenen Regeln aus
- Validieren Sie sie über die Google Search Console oder den Yandex Webmaster → Robots.txt-Analyse
- Laden Sie die Datei in das Stammverzeichnis Ihrer Website hoch, sodass sie unter
http://example.com/robots.txterreichbar ist
Fehlt die Datei oder liefert sie einen anderen Status als 200 OK, gehen Crawler davon aus, dass Ihre gesamte Website zur Indexierung freigegeben ist.
Die User-agent-Direktive
Legt fest, für welchen Crawler ein Regelwerk gilt. Geben Sie einen bestimmten Bot-Namen an, um einen einzelnen Crawler anzusprechen, oder verwenden Sie * für alle.
User-agent: YandexBot # gilt nur für Yandex' wichtigsten Indexierungs-Bot
Disallow: /*id=
User-agent: Yandex # gilt für alle Yandex-Crawler (sofern oben nicht überschrieben)
Disallow: /*sid=
User-agent: * # gilt für alle anderen
Disallow: /cgi-bin
Yandex-spezifische Bots, die Sie einzeln ansprechen können:
YandexBot— der wichtigste Indexierungs-CrawlerYandexDirect— sammelt Daten für das Yandex-WerbenetzwerkYandexDirectDyn— generiert dynamische Werbe-BannerYandexMedia— indexiert Multimedia-InhalteYandexImages— Yandex-Bilder-IndexerYandexBlogs— indexiert Blog-Beiträge und KommentareYandexNews— Yandex-News-CrawlerYandexPagechecker— Mikrodaten-ValidatorYandexMetrika— Yandex-Metrica-CrawlerYandexMarket— Yandex-Market-Crawler
Disallow und Allow
Disallow — sperrt einem Crawler den Zugriff auf einen Pfad:
User-agent: Yandex
Disallow: / # sperrt die gesamte Website
User-agent: Yandex
Disallow: /cgi-bin # sperrt nur den Bereich /cgi-bin
Allow — erlaubt den Zugriff auf einen Pfad explizit, wird zusammen mit Disallow verwendet:
User-agent: Yandex
Allow: /cgi-bin
Disallow: / # sperrt alles außer /cgi-bin
Das Zeichen
#markiert einen Kommentar — alles danach in dieser Zeile wird von Crawlern ignoriert. Lassen Sie zwischen verschiedenenUser-agent-Blöcken eine Leerzeile, um die Lesbarkeit zu verbessern.
Auswertungsreihenfolge der Direktiven:
Regeln werden nach URL-Pfadlänge sortiert (kürzeste zuerst) und in dieser Reihenfolge angewendet. Die Reihenfolge im Dokument spielt keine Rolle — die Pfadlänge bestimmt die Priorität.
# Geschrieben als:
User-agent: Yandex
Allow: /catalog
Disallow: /
# Ausgewertet als:
User-agent: Yandex
Disallow: / # sperrt alles...
Allow: /catalog # ...außer /catalog
# Geschrieben als:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Ausgewertet als:
User-agent: Yandex
Allow: / # erlaubt alles...
Disallow: /catalog # ...außer /catalog...
Allow: /catalog/auto # .../catalog/auto ist jedoch wieder erlaubt
Die Sitemap-Direktive
Verweist Crawler auf Ihre XML-Sitemap. Geben Sie mehrere Dateien an, falls Sie mehr als eine haben:
User-agent: Yandex
Allow: /
Sitemap: https://example.com/sitemap1.xml
Sitemap: https://example.com/sitemap2.xml
Diese Direktive ist bereichsunabhängig — sie gilt unabhängig davon, wo sie in der Datei steht.
Die Host-Direktive
Teilt Yandex mit, welche Domain Ihr kanonischer (Haupt-)Spiegel ist. Es ist keine Garantie, aber Yandex gewichtet sie bei seiner Entscheidung stark:
User-agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: https://www.example.com
Die Crawl-delay-Direktive
Legt eine Mindestwartezeit (in Sekunden) zwischen Seitenanfragen fest. Nützlich, wenn das Crawling Ihren Server belastet. Yandex unterstützt Dezimalwerte:
User-agent: Yandex
Crawl-delay: 2 # 2-Sekunden-Pause zwischen Anfragen
User-agent: *
Disallow: /search
Crawl-delay: 4.5 # 4,5-Sekunden-Pause
Die Clean-param-Direktive
Wenn Ihre URLs dynamische Parameter enthalten, die den eigentlichen Seiteninhalt nicht verändern — Sitzungs-IDs, Referrer-Token, Werbeparameter — können Sie diese mit Clean-param deklarieren. Yandex' Crawler behandelt URLs, die sich nur in diesen Parametern unterscheiden, als Duplikate und vermeidet das erneute Crawlen, was sowohl Bandbreite als auch Serverlast schont.
Die vollständige Dokumentation finden Sie auf der Yandex-Support-Website.
Hilfe
Bei Fragen oder wenn Sie Unterstützung brauchen, erreichen Sie uns jederzeit über das Ticketsystem — wir helfen Ihnen gern weiter!