StartseiteWebTipps & Tricks

robots.txt

23. AUGUST 2011
von Jörg
Web - Tipps & Tricks

Die robots.txt dient dazu, bestimmte Dateien/Seiten der Webseite oder Verzeichnisse von den Spider der Suchmaschinen oder anderen Crawlern auszuschließen.

Vorteile einer robots.txt
  • Verhindert das Durchsuchen bzw. indexieren von Log-Dateien, internen Bereichen oder von private Dateien.
  • Bei nicht existierender robots.txt wird, beim Versuch von einem Spider diese zu öffnen, in der Besucherstatistik eine 404 Fehlerseite aufgeführt, da die Datei ja nicht gefunden wurde.
  • Eine vielleicht bessere Durchsuchung der Webseite von den Suchmaschinen.
  • Sehr viele Robots wollen nur die Webseite durchforsten, auf der Suche nach einer EMail oder nach sonst irgendwelchen angreifbaren Stellen, um Spam erzeugen zu können oder schlimmeres. Eine kleine Liste solcher Robots kann in der robots_evil.txt eingesehen werden. Da die robots.txt als eine Art Verbotsschilder oder Wegweiser im Wald zu sehen sind, gibt es auch Robots die diese erst gar nicht lesen, somit auch nicht beachten und dann alle Seiten, Dateien und Verzeichnisse crawlen. Solche Robots sollten dann mit einem Eintrag in der .htaccess gesperrt werden. Dennoch beachten die meisten Spider die robots.txt.
Hier ein kleines Beispiel einer robots.txt:
01
02
03
04
05
06
# robots.txt zu http://webdesign-haefner.de/

User-agent: *
Disallow: /logs/
Disallow: /usage/
Disallow: /impressum.html

Mit User-agent: * werden alle Robots angesprochen und mit den folgenden Disallow Zeilen werden die Dateien oder Verzeichnisse angegeben, die beim Scannen der Webseite nicht beachtet werden sollen.

Ich habe einmal gelesen, dass es wohl während der Entstehung/ Entwicklung einer neuen Webseite, oder einem Redesign, es besser sein soll alle robots auszuschließen, und erst bei der Fertigstellung diese Datei anpasst. Ob das wirkjlich entscheident ist kann ich mir selbst nicht vorstellen, aber dann würde die robots.txt folgendermaßen aussehen:

01
02
User-agent: *
Disallow: /

Die robots.txt muss in dem Root-Verzeichniss von der zu schützenden Seite abgelegt werden.

Kommentare:

Solange nicht auch die Logdateien des Webservers regelmäßig überprüft werden, ob doch irgendein wildgewordener Robot unerlaubt rumsucht, hilft die robots.txt nur bedingt.

Und der Wildcardeintrag User-agent: * wird auch nicht immer berücksichtigt. Das Schlimme ist, dass Suchmaschinen wie z. B. Google nur den Eintrag berücksichtigen, der für die vorgesehen ist.

von GwenDragon am 01. SEPTEMPER 2011 um 02:14 Uhr

Richtig, deshalb auch der Hinweis in diesem Beitrag:

"Da die robots.txt als eine Art Verbotsschilder oder Wegweiser im Wald zu sehen sind, gibt es auch Robots die diese erst gar nicht lesen, somit auch nicht beachten und dann alle Seiten, Dateien und Verzeichnisse crawlen. Solche Robots sollten dann mit einem Eintrag in der .htaccess gesperrt werden. Dennoch beachten die meisten Spider die robots.txt."

Diese wildgewordenen Robots sollten dann aus den Logdateien gefiltert werden und in der .htaccess gesperrt werden.

von Jörg am 01. SEPTEMPER 2011 um 18:31 Uhr

Hinterlasse einen Kommentar

Ein Frosch der sich an der Seite festhält