robots.txt ist die Datei, mit der Sie das Verhaltensmuster für den Suchmaschinen-Roboter festlegen. Hier ein Beispiel für diese Datei, die im Root-Verzeichnis Ihres Webauftritts liegt, und die man ganz einfach anschauen kann, wenn man hinter der URL robots.txt eingibt. Also z.B.: http://www.thomas-boor.de/robots.txt
Nun die wichtigsten Regeln:
1. Legen Sie fest, welche Roboter Ihre Webseite analysieren dürfen. Jede Suchmaschine - zur Zeit über 1600 gelistet - verfügen über eigene Such-Roboter, auch Spider genannt. Um allen Spidern den Zutritt auf Ihre Seite zu erlauben (empfohlen), gilt folgende Angabe:
User-agent: *
2. Wenn Sie keine interne Seite für die Spiders sperren wollen (also alles zulassen), steht in der nächsten Zeile Folgendes:
Disallow:
Falls Sie aber interne Seiten sperren möchten - also eine Art Stopschild für den Spider - sind folgende Angaben von Wichtigkeit:
Disallow:
/beispielseite
Innerhalb einer robots.txt kann dieses Paar (User-agent und Disallow) mehrfach vorkommen, um z.B. einzelnen Spidern die Sucherlaubnis zu gewähren bzw. zu entziehen.
So könnte Ihre robot.txt-Datei aussehen, wenn Sie explizit zwei Spidern den Zugriff erlauben, einem anderen jedoch ausdrücklich verbieten möchten:
User-agent: IsraBot
Disallow:
User-agent:
Orthogaffe
Disallow:
User-agent: UbiCrawler
Disallow: /
Weitere Informationen finden Sie auch unter http://www.robotstxt.org/ (Englisch)
|