euDict.eu

.:cleverdict

Beitrag: Robots.txt - Datei

Beitrag erstellt von: thomas.boor@googlemail.com..
Weitere Informationen unter: www.thomas-boor.de

robots.txt ist die Datei, mit der Sie das Verhaltensmuster für den Suchmaschinen-Roboter festlegen.
Hier ein Beispiel für diese Datei, die im Root-Verzeichnis Ihres Webauftritts liegt, und die man ganz einfach anschauen kann,
wenn man hinter der URL robots.txt eingibt.
Also z.B.: http://www.thomas-boor.de/robots.txt

Nun die wichtigsten Regeln:

1. Legen Sie fest, welche Roboter Ihre Webseite analysieren dürfen. Jede Suchmaschine - zur Zeit über 1600 gelistet - verfügen über
eigene Such-Roboter, auch Spider genannt.
Um allen Spidern den Zutritt auf Ihre Seite zu erlauben (empfohlen), gilt folgende Angabe:

User-agent: *

2. Wenn Sie keine interne Seite für die Spiders sperren wollen (also alles zulassen), steht in der nächsten Zeile Folgendes:

Disallow:

Falls Sie aber interne Seiten sperren möchten - also eine Art Stopschild für den Spider - sind folgende Angaben von Wichtigkeit:

Disallow: /beispielseite

Innerhalb einer robots.txt kann dieses Paar (User-agent und Disallow) mehrfach vorkommen, um z.B. einzelnen Spidern die Sucherlaubnis zu
gewähren bzw. zu entziehen.

So könnte Ihre robot.txt-Datei aussehen, wenn Sie explizit zwei Spidern den Zugriff erlauben, einem anderen jedoch ausdrücklich verbieten möchten:

User-agent: IsraBot


      
Disallow:

User-agent: Orthogaffe
Disallow:

User-agent: UbiCrawler
Disallow: /

Weitere Informationen finden Sie auch unter http://www.robotstxt.org/ (Englisch)

Diesen Beitrag drucken

X  Missbrauch melden!

Rechtlicher Hinweis: Für den Inhalt dieser Seite ist einzig und allein deren Autor verantwortlich.

Falls Ihnen dieser Beitrag nicht die gewünschte Information geliefert hat, empfehlen wir Ihnen folgende Links: