Peter Dahlmann, MUC

Startseite > Sandbox > Crawler/Spider/Suchmaschienen blockieren

Ziel ist bestimmte Seiten oder Bereiche einer Website davor zu schützen dass sie von Suchmaschinen gelesen und indiziert werden.

Dazu können einzelne oder alle Suchmaschinen ausgeschlossen werden.
Verzeichnisse gezielte blockiert oder freigeschaltet werden

Ablageort der Steuerdatei

Die Datei robots.txt in der root der Website plaziert werden und mit den notwenigen Rechten versehen werden.

Aufbau der Steuerdatei

(Klein/Großschreibung ist nicht relevant, User-agent und allow/disallow Zeilen können mehrfach genannt werden, Pfade sind mit "/" abzuschließen, - Vorsicht allow ist kein Standard und könnte nicht funktionieren)

Beispielzeilen:

#: Rest der Zeile wird als Kommentar gewertet
User-agent: Name der Anwendung (wget..) 
User-agent: googlebot    #google sperren
User-agent: * # alle crawler sperren
Disallow: /temp/ # Temp Verzeichnis nicht Disallow: / # alles sperren

<weiter Details sind zu googeln>

« vorige Seite

Seitenanfang

nächste Seite »