
Mit Sicherheit bist Du schonmal beim Thema SEO über den Begriff Robots Datei oder Robots.txt gestoßen und fragst Dich, was heißt das eigentlich und welchen Nutzen hat diese Datei? Keine Sorge, wir erklären Dir die Robots.txt-Datei so einfach wie möglich.
Robots.txt und Auswirkung auf Google
Die Robots.txt File oder auch Robots exclusion Standard Datei steht für eine Datei, die bei einer Domain im Stammverzeichnis liegt, also direkt nach der Domain in der URL, es kommen keine weiteren Slugs vor dem robots.txt.
Man kann für jede Website eine solche Datei anlegen. Ihr Zweck ist es, Webcrawlern (z. B. von Google, Bing oder anderen Suchmaschinen) über sogenannte „User-Agents“ mitzuteilen, welche Seiten oder Verzeichnisse sie crawlen dürfen – und welche nicht.
Wenn eine Website keine robots.txt-Datei enthält, gehen Crawler in der Regel davon aus, dass sie alle Inhalte durchsuchen dürfen, sofern sie nicht auf andere Weise ausgeschlossen werden (z. B. durch Meta-Tags wie noindex
oder HTTP-Header).
In der Textdatei kann man über den disallow command die Anweisung geben, dass der access, respektive der Zugang zum crawlen zu bestimmten URLs nicht gestattet ist, hier ein Beispiel, in welchem jeder User Agent vom Crawlen der WordPress Admin Seite geblockt wird.
Klar! Auf Basis deines bisherigen Texts und der bereitgestellten Keywords schreibe ich dir jetzt weitere Kapitel, die den Inhalt logisch ergänzen, thematisch passen und sich gut in einen längeren Artikel oder eine SEO-Einführung einfügen. Ich achte darauf, die Begriffe natürlich einzubauen – ohne Keyword-Stuffing – und gleichzeitig Mehrwert zu liefern.
Aufbau und Format der robots.txt-Datei
Die robots.txt ist eine einfache Textdatei, die in einem klar definierten Format geschrieben wird. Die Crawler lesen die Datei von oben nach unten und interpretieren die darin enthaltenen Zeilen nacheinander. Jede Zeile enthält eine Anweisung, die einem oder mehreren User-Agents (also Crawlern) sagt, ob bestimmte URLs gecrawlt werden dürfen oder nicht.
Ein typisches Format sieht so aus:
User-agent: *
Disallow: /private/
User-agent:
gibt an, für welchen Crawler (z. B. Googlebot, Bingbot) die Regel gilt.Disallow:
blockiert den Zugriff auf ein bestimmtes Verzeichnis oder eine bestimmte Seite.- Wenn du den Zugriff erlauben willst, lässt du einfach
Disallow:
leer oder verwendestAllow:
(in manchen Fällen bei Google nützlich).
Die Reihenfolge der Regeln ist wichtig – Crawler lesen von oben nach unten und folgen dabei einer Priorität, falls sich Regeln überschneiden.
Robots.txt im Stammverzeichnis – warum das so wichtig ist
Damit die robots.txt
überhaupt beachtet wird, muss sie im Stammverzeichnis deiner Website liegen. Das bedeutet konkret:
Richtig: https://www.beispiel.de/robots.txt
Falsch: https://www.beispiel.de/irgendein-ordner/robots.txt
Suchmaschinen wie Google ignorieren robots.txt
-Dateien, die nicht direkt unter der Domain erreichbar sind. Ist sie an der falschen Stelle abgelegt, wird sie komplett ignoriert, und deine Seite wird möglicherweise vollständig gecrawlt, obwohl du das nicht möchtest.
Disallow und blockierte Inhalte – was passiert wirklich?
Die Anweisung Disallow
ist der Kern der Zugriffssteuerung in der robots.txt
. Mit ihr sagst du Crawlern: „Diese URL oder dieses Verzeichnis darfst du nicht crawlen.“ Aber Achtung: Disallow
verhindert nur das Crawling, nicht die Indexierung!
Das bedeutet:
- Wenn eine URL durch
Disallow
blockiert ist, aber verlinkt wird, kann sie trotzdem im Index erscheinen – jedoch ohne Inhalt. - Willst du eine Seite vollständig aus dem Index fernhalten, solltest du zusätzlich ein
noindex
-Meta-Tag verwenden oder einen entsprechenden HTTP-Header setzen.
Tools und Tests – wie du deine robots.txt prüfen kannst
Du bist dir unsicher, ob deine robots.txt
funktioniert? Kein Problem – es gibt Tools, mit denen du deine Datei testen kannst. Google selbst bietet im Rahmen der Google Search Console einen robots.txt-Tester, der dir zeigt, ob ein bestimmter User-Agent Zugriff auf eine bestimmte URL erhält oder nicht.
Tipp: Kommentiere deine Datei mit #
, um deine Regeln für andere oder dich selbst zu erklären:
# Blockiert das interne Suchergebnis
User-agent: *
Disallow: /suche/
Ein guter Test zeigt dir auch, ob Regeln überschrieben, falsch formatiert oder vergessen wurden. Gerade bei größeren Websites lohnt sich ein gründlicher Check!
Was du in deiner robots.txt weglassen solltest
Nicht alle Inhalte sollten über robots.txt
gesteuert werden. Hier ein paar Hinweise, was du besser nicht in die Datei schreibst:
- Sensible Daten (z. B.
/passwoerter/
): Nur weil ein Verzeichnis in derrobots.txt
blockiert ist, heißt das nicht, dass es geheim bleibt. Die Datei ist öffentlich einsehbar. - Einzelne Seiten mit
noindex
: Dafür ist dierobots.txt
nicht zuständig – nutze lieber Meta-Tags. - Dynamische URLs mit Parametern: Diese solltest du in der Search Console über URL-Parameterregeln verwalten.
Die robots.txt ist ein kleines File mit großer Wirkung
Die robots.txt
-Datei ist ein unscheinbares, aber enorm wichtiges Tool zur Crawler-Steuerung. Wenn du sie gezielt einsetzt, kannst du die Indexierung deiner Inhalte verbessern, unnötiges Crawling verhindern und deine SEO-Strategie gezielter gestalten. Dabei solltest du dich an das richtige Format halten, unnötige Regeln vermeiden und deine Datei regelmäßig testen.