Robots.txt
Eine robots.txt ist eine Datei, die normalerweise im Root-Verzeichnis einer Website platziert wird (zum Beispiel https://www.example.com/robots.txt
).
Sie gibt an, ob Crawler den Zugriff auf die gesamte Website oder auf bestimmte Ressourcen der Website erlaubt oder untersagt sind.
Eine restriktive robots.txt
Datei kann den Bandbreitenverbrauch durch Crawler verhindern.
Ein Websitebesitzer kann Crawlern verbieten, einen bestimmten Pfad (und alle Dateien in diesem Pfad) oder eine spezifische Datei zu erkennen. Dies wird oft getan, um zu verhindern, dass diese Ressourcen von Suchmaschinen indiziert oder bereitgestellt werden.
Wenn einem Crawler der Zugriff auf Ressourcen erlaubt ist, können Sie Indexierungsregeln für diese Ressourcen über <meta name="robots">
Elemente und X-Robots-Tag
HTTP-Header festlegen.
Suchbezogene Crawler verwenden diese Regeln, um zu bestimmen, wie Ressourcen in den Suchergebnissen indiziert und bereitgestellt werden sollen oder um die Crawl-Rate für bestimmte Ressourcen im Laufe der Zeit anzupassen.
Siehe auch
X-Robots-Tag
- Suchmaschine
- RFC 9309: Robots Exclusion Protocol
- Wie Google die robots.txt Spezifikation interpretiert auf developers.google.com
- https://www.robotstxt.org
- Robots.txt auf Wikipedia