Verwendung von robots.txt

So steuern Sie das Crawling von Suchmaschinen mit einer robots.txt-Datei.

Robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Website, die Suchmaschinen-Crawlern mitteilt, welche Bereiche Ihrer Website indexiert werden sollen und welche nicht. Sie ist eines der Ersten, was ein Bot beim Besuch Ihrer Website prüft.

Robots.txt erstellen

  1. Erstellen Sie eine Textdatei mit dem Namen robots.txt
  2. Füllen Sie sie gemäß den unten beschriebenen Regeln aus
  3. Validieren Sie sie über die Google Search Console oder den Yandex Webmaster → Robots.txt-Analyse
  4. Laden Sie die Datei in das Stammverzeichnis Ihrer Website hoch, sodass sie unter http://example.com/robots.txt erreichbar ist

Fehlt die Datei oder liefert sie einen anderen Status als 200 OK, gehen Crawler davon aus, dass Ihre gesamte Website zur Indexierung freigegeben ist.

Die User-agent-Direktive

Legt fest, für welchen Crawler ein Regelwerk gilt. Geben Sie einen bestimmten Bot-Namen an, um einen einzelnen Crawler anzusprechen, oder verwenden Sie * für alle.

User-agent: YandexBot   # gilt nur für Yandex' wichtigsten Indexierungs-Bot
Disallow: /*id=

User-agent: Yandex      # gilt für alle Yandex-Crawler (sofern oben nicht überschrieben)
Disallow: /*sid=

User-agent: *           # gilt für alle anderen
Disallow: /cgi-bin

Yandex-spezifische Bots, die Sie einzeln ansprechen können:

  • YandexBot — der wichtigste Indexierungs-Crawler
  • YandexDirect — sammelt Daten für das Yandex-Werbenetzwerk
  • YandexDirectDyn — generiert dynamische Werbe-Banner
  • YandexMedia — indexiert Multimedia-Inhalte
  • YandexImages — Yandex-Bilder-Indexer
  • YandexBlogs — indexiert Blog-Beiträge und Kommentare
  • YandexNews — Yandex-News-Crawler
  • YandexPagechecker — Mikrodaten-Validator
  • YandexMetrika — Yandex-Metrica-Crawler
  • YandexMarket — Yandex-Market-Crawler

Disallow und Allow

Disallow — sperrt einem Crawler den Zugriff auf einen Pfad:

User-agent: Yandex
Disallow: /             # sperrt die gesamte Website

User-agent: Yandex
Disallow: /cgi-bin      # sperrt nur den Bereich /cgi-bin

Allow — erlaubt den Zugriff auf einen Pfad explizit, wird zusammen mit Disallow verwendet:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /             # sperrt alles außer /cgi-bin

Das Zeichen # markiert einen Kommentar — alles danach in dieser Zeile wird von Crawlern ignoriert. Lassen Sie zwischen verschiedenen User-agent-Blöcken eine Leerzeile, um die Lesbarkeit zu verbessern.

Auswertungsreihenfolge der Direktiven:

Regeln werden nach URL-Pfadlänge sortiert (kürzeste zuerst) und in dieser Reihenfolge angewendet. Die Reihenfolge im Dokument spielt keine Rolle — die Pfadlänge bestimmt die Priorität.

# Geschrieben als:
User-agent: Yandex
Allow: /catalog
Disallow: /

# Ausgewertet als:
User-agent: Yandex
Disallow: /             # sperrt alles...
Allow: /catalog         # ...außer /catalog
# Geschrieben als:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog

# Ausgewertet als:
User-agent: Yandex
Allow: /                # erlaubt alles...
Disallow: /catalog      # ...außer /catalog...
Allow: /catalog/auto    # .../catalog/auto ist jedoch wieder erlaubt

Die Sitemap-Direktive

Verweist Crawler auf Ihre XML-Sitemap. Geben Sie mehrere Dateien an, falls Sie mehr als eine haben:

User-agent: Yandex
Allow: /
Sitemap: https://example.com/sitemap1.xml
Sitemap: https://example.com/sitemap2.xml

Diese Direktive ist bereichsunabhängig — sie gilt unabhängig davon, wo sie in der Datei steht.

Die Host-Direktive

Teilt Yandex mit, welche Domain Ihr kanonischer (Haupt-)Spiegel ist. Es ist keine Garantie, aber Yandex gewichtet sie bei seiner Entscheidung stark:

User-agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: https://www.example.com

Die Crawl-delay-Direktive

Legt eine Mindestwartezeit (in Sekunden) zwischen Seitenanfragen fest. Nützlich, wenn das Crawling Ihren Server belastet. Yandex unterstützt Dezimalwerte:

User-agent: Yandex
Crawl-delay: 2          # 2-Sekunden-Pause zwischen Anfragen

User-agent: *
Disallow: /search
Crawl-delay: 4.5        # 4,5-Sekunden-Pause

Die Clean-param-Direktive

Wenn Ihre URLs dynamische Parameter enthalten, die den eigentlichen Seiteninhalt nicht verändern — Sitzungs-IDs, Referrer-Token, Werbeparameter — können Sie diese mit Clean-param deklarieren. Yandex' Crawler behandelt URLs, die sich nur in diesen Parametern unterscheiden, als Duplikate und vermeidet das erneute Crawlen, was sowohl Bandbreite als auch Serverlast schont.

Die vollständige Dokumentation finden Sie auf der Yandex-Support-Website.

Hilfe

Bei Fragen oder wenn Sie Unterstützung brauchen, erreichen Sie uns jederzeit über das Ticketsystem — wir helfen Ihnen gern weiter!

Hilfe benötigt?Unsere Ingenieure helfen Ihnen kostenlos bei jeder Frage in wenigen MinutenKontaktieren Sie uns