Startseite ]   [ Netz-Schule ]  [ Linux-Schule ]  [ Map ]

  Know How
  Glossar

   
  Netz-Schule Know How  

Die Datei robots.txt

Jeden Tag besuchen diverse Programme Ihre Website. Oftmals handelt es sich dabei um sog. "robots". robots sind kleine Programme, die Ihre Webite scannen und versuchen die dort enthaltenen HTML Seiten mehr oder weniger zu indizieren und zu katalogisieren. Suchmaschinen müssen dies tun. Andere Zeitgenossen, zum Beispiel Firmen die E-Mail Adressen verkaufen, tun es einfach. Um dem User die Chance zu geben, seine Seite nur bestimmten Suchmaschinen zugänglich zu machen, haben sich die Hauptnutzer von robots auf einen Standard geeinigt, wie man dem robot - als User - Anweisungen erteilen kann. Es sind genau 3.

  • Du bist nicht erwünscht - geh weg.
  • Du bist erwünscht, darfst aber folgende Bereiche *nicht* sehen.
  • Du bist erwünscht und darfst alles.

Klingt schon gut. Unglücklicherweise *muss* sich der Robot nicht an diese Anweisungen halten ;( Damit kann gegen SPAM [SPAM: Unverlangt gesendete E-Mail mit Werbung]robots, die einfach nur nach Mailadressen suchen, nichts ausgerichtet werden. Zumindest kann man damit aber verhindern, dass bestimmte Teile der Seite in die normalen Suchmaschinen kommen.

Weiterer angenehmer Effekt: Die Logdateien des Webservers werden nicht mit Warnungen a la 216.35.116.91 - - [20/Dec/2001:07:46:37 +0100] "GET /robots.txt HTTP/1.0" 404 1503 "-" "Mozilla/3.0 (Slurp/si; slurp@inktomi.com; http://www.inktomi.com/slurp.html)" vollgeschrieben. Webserver haben die Angewohnheit jeden Zugriff auf die Seite zu dokumentieren. Auch nicht gefundene Seiten (Error 404). Diese Zeile dort ist zum Beispiel 172 Zeichen lang. Das sind 172 Byte. Dieser Lauf des robots verursachte 15 Zeilen Eintrag und macht die Logdatei um 2,5 KiloByte größer. Das mag bei normalen Seiten kaum stören, aber es nervt beim Lesen der Logfiles.

Wie funktioniert das ganze?

Simpelst: Nachfolgend eine kommentierte robots.txt. Mehr gibt es dazu auch nicht zu sagen.

User-agent: [Programm das auf die Seiten zugreift] * ### Name des robots, hier * (alle)
Disallow: /includes/ ### geschuetztes Verzeichnis 1
Disallow: /codes/ ### geschuetztes Verzeichnis 2

Denkbar ist auch

User-agent: Slurp ### Slurp darf ab
Disallow: / ### dem Stammverzeichnis NICHTS
### alle anderen dagegen duerfen alles

Auch wer alles für alle freigeben will, sollte eine robots.txt haben. In dem Fall trägt man folgendes ein:

User-agent: * ### Alle duerfen
Disallow: ### nichts nicht ;) Also alles

Das kann man selbstredend auch soweit treiben, das nur einzelne Seiten erlaubt bzw. nicht erlaubt sind.

Nachtrag

Fast alle Suchmaschinen die seriös arbeiten, halten sich an die robots.txt. Auf jeden Fall findet ihr bei guten Suchmaschinen eine Seite, die sich speziell mit dem Thema beschäftigt. Im Falle von Inktomi z.B. steht die URL [Uniform Ressource Locator,Internetadresse] dieser Informationsseite sogar in der Logdatei des Webservers. So etwas ist vorbildlich und macht das Leben erheblich leichter.

Weiterführende URL's

In der Liste der Robots, stehen auch die Namen die in der robots.txt benutzt werden müssen, um genau diesen robot auszuschliessen, sowie einige Details wie Plattform [Betriebssystem], Aktivität, Homepage und normalerweise besuchtes Umfeld.