|
Die Datei robots.txtJeden Tag besuchen diverse Programme Ihre Website. Oftmals handelt es sich dabei um sog. "robots". robots sind kleine Programme, die Ihre Webite scannen und versuchen die dort enthaltenen HTML Seiten mehr oder weniger zu indizieren und zu katalogisieren. Suchmaschinen müssen dies tun. Andere Zeitgenossen, zum Beispiel Firmen die E-Mail Adressen verkaufen, tun es einfach. Um dem User die Chance zu geben, seine Seite nur bestimmten Suchmaschinen zugänglich zu machen, haben sich die Hauptnutzer von robots auf einen Standard geeinigt, wie man dem robot - als User - Anweisungen erteilen kann. Es sind genau 3.
Klingt schon gut. Unglücklicherweise *muss* sich der Robot nicht an
diese Anweisungen halten ;( Damit kann gegen SPAM [ Weiterer angenehmer Effekt: Die Logdateien des Webservers werden nicht mit Warnungen a la 216.35.116.91 - - [20/Dec/2001:07:46:37 +0100] "GET /robots.txt HTTP/1.0" 404 1503 "-" "Mozilla/3.0 (Slurp/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html)" vollgeschrieben. Webserver haben die Angewohnheit jeden Zugriff auf die Seite zu dokumentieren. Auch nicht gefundene Seiten (Error 404). Diese Zeile dort ist zum Beispiel 172 Zeichen lang. Das sind 172 Byte. Dieser Lauf des robots verursachte 15 Zeilen Eintrag und macht die Logdatei um 2,5 KiloByte größer. Das mag bei normalen Seiten kaum stören, aber es nervt beim Lesen der Logfiles. Wie funktioniert das ganze?Simpelst: Nachfolgend eine kommentierte robots.txt. Mehr gibt es dazu auch nicht zu sagen. User-agent: [Disallow: /includes/ ### geschuetztes Verzeichnis 1 Disallow: /codes/ ### geschuetztes Verzeichnis 2 Denkbar ist auch User-agent: Slurp ### Slurp darf abDisallow: / ### dem Stammverzeichnis NICHTS ### alle anderen dagegen duerfen alles Auch wer alles für alle freigeben will, sollte eine robots.txt haben. In dem Fall trägt man folgendes ein: User-agent: * ### Alle duerfenDisallow: ### nichts nicht ;) Also alles Das kann man selbstredend auch soweit treiben, das nur einzelne Seiten erlaubt bzw. nicht erlaubt sind. NachtragFast alle Suchmaschinen die seriös arbeiten, halten sich an die
robots.txt. Auf jeden Fall findet ihr bei guten Suchmaschinen eine Seite,
die sich speziell mit dem Thema beschäftigt. Im Falle von Inktomi z.B.
steht die URL [ Weiterführende URL's
In der Liste der Robots, stehen auch die Namen die in der robots.txt benutzt
werden müssen, um genau diesen robot auszuschliessen, sowie einige Details
wie Plattform [ |