Robots txt – Indexierung der Webseite von Suchmaschinen einstellen

23. Juni 2019 Holger

Wer im Internet eine eigene Webseite betreibt, der möchte in der Regel auch von den Suchmaschinen beziehungsweise von Nutzern der Suchmaschine gefunden werden, um so mehr Besucher auf seine Webseite zu erhalten. Schließlich möchte man ja auch für seine Arbeit etwas Anerkennung bekommen.

Damit die Suchmaschinen auch eine Webseite richtig indexieren können, muss man ja schon einige Dinge beachten. Als Beispiel wäre hier das richtige Einstellen der Suchmaschinenindexierung im Kopfbereich einer Webseite. Ein solcher Kopfbereich wird im englischen auch Head genannt. Deklariert wird dieser im Quellcode einer Webseite durch den <head> und </head>. Das bedeutet soviel wie Anfang und Ende des Kopfbereiches. Hier kann man angeben, wie eine Suchmaschine bei der Indexierung einer Webseite vorgehen soll. Durch die Meta-Angabe <meta name=“robots“ content=“index,follow“> teilt man der Suchmaschine wie in diesem Beispiel mit, dass sie die einzelnen Seiten der Webseite indexieren und den sich auf der Seite befindlichen Links zur nächsten Seite folgen soll, um diese gegebenenfalls auch zu indexieren.

Der Suchmaschinenroboter

Im eigentlichen Sinne ist es nicht die Suchmaschine selber, die die Indexierung der verschiedenen Webseiten vornimmt. Für einen solchen Fall gibt es einen für die Suchmaschine ausgelegten Suchmaschinenroboter. Das sind Programme, die nichts anderes machen, als sich durch das Internet zu wühlen und Webseiten und Links zu indexieren und mit in die Datenbank der Suchmaschine mit aufzunehmen. Dabei achten diese zum Beispiel auch auf Änderungen an Webseiten, die bereits indexiert wurden.

Achtet man nun auf die oben angegebenen Meta-Angabe meta name=“robots“, dann kann man bereits die Verwandtheit erkennen. Mit robots wird dem Suchmaschinenroboter gesagt, wie er vorzugehen hat.

Die robots.txt

Bevor jedoch eine Suchmaschine eine Webseite ausliest und auf die oben beschriebene Meta-Angabe stößt, sucht diese nach einer Datei robots.txt, die sich üblicherweise im Stammverzeichnis einer Webseite befinden sollte. Auch hier erkennt man aus dem Namen gleich die Verwandtheit.

Die robots.txt ist in der Regel eine kleine Datei, mit deren Hilfe man bereits schon vor dem eigentlichen Webseitenzugriff dem Suchmaschinenroboter mitteilen kann, wie er die folgende Webseite zu handhaben hat. Mit der robots.txt ist es möglich, einzelne oder alle Suchmaschinenroboter auszuschließen oder die Webseite für alle Suchmaschinenroboter zugänglich zu machen. Verwendet man eine robots.txt Datei, dann ist es wichtig, die darin eingetragenen Angaben auch richtig zu schreiben.

Erstellen einer robots.txt

Eine robots.txt – Datei kann eigentlich fast jeder selbst und schnell erstellen. Dazu benötigt man nicht mehr, als einen einfachen Editor, wie zum Beispiel den Editor von den Windows – Betriebssystemen. Beim Erstellen beziehungsweise beim Abspeichern benennt man diese einfach in robots.txt. Später kann man diese mittels einem FTP-Programm auf den Webserver übertragen.

Beispiel für das Aussehen einer robots.txt

Im Folgenden kann man einmal einen kurzen Aufbau und einen möglichen Inhalt einer robots.txt – Datei sehen. Was die einzelnen Angaben bedeuten, wird im nächsten Abschnitt erklärt.

User-agent: *
Disallow: /downloads/
Disallow: /bilder/
Disallow: /partnerseiten/

Steuern des Suchemaschinenroboters über die robots.txt

Wie bereits erwähnt, kann man über die robots.txt – Datei den Zugriff der Suchmaschinenroboter auf eine Webseite bedingt steuern.

Mit User-agent gibt man an, welcher oder welche Suchemaschinenroboter auf eine Webseite zugreifen dürfen.

User-agent:*

Jeder oder jede Art von Suchmaschinenroboter ist der Zugriff auf die Webseite gestattet.

User-agent:NameSuchmaschinenroboter

Man kann auch nur einem bestimmten Suchmaschinenroboter den Zugriff auf die Webseite gestatten. Alle anderen Suchmaschinenroboter dürfen die Webseite nicht besuchen. Eine Mehrfachangabe zu den einzelnen Suchmaschinenrobotern in der robots.txt ist dabei möglich.

User-agent:NameSuchmaschinenroboter1
User-agent:NameSuchmaschinenroboter2

So kann man nur den Suchmaschinenrobotern der wichtigsten Suchmaschinen den Zugang zur Webseite freigeben. Alle anderen bleiben außen vor.

Was man nicht machen sollte!

Im obigen Beispiel kann man einer oder mehreren Suchmaschinenrobotern einen Zugriff auf die Webseite gestatten. Was man jedoch nicht machen sollte, sieht man im nächsten Beispiel:
User-agent:*
User-agent:NameSuchmaschinenroboter

Diese beiden Angaben können für einige Suchmaschinenroboter im Gegenspruch stehen und dazu führen, dass einige Suchmaschinenroboter die Webseite erst gar nicht indexieren.

Mit der obigen Angabe würde man als erstes allen Suchmaschinenrobotern und erst dann einem expliziten Suchmaschinenroboter den Zugriff gewähren. Entweder alle Suchmaschinenroboter oder nur einem oder einigen bestimmten.

Mit Disallow ist es möglich, verschiedene Verzeichnisse oder Dateien beziehungsweise Seiten von der Indexierung und dem Zugriff auszunehmen.

Disallow: /Verzeichnisname/

Hiermit wird der Zugriff auf das Verzeichnis Verzeichnisname verweigert. In der Regel halten sich die Suchmaschinenroboter an diese Angaben und die sich im Verzeichnis befindlichen Dateien und Seiten werden nicht indexiert. Man achte dabei auf die Schreibweise und Angabe des Verzeichnisnamens. Dieser wird am Anfang und am Ende mit einem / gekennzeichnet. Wird dies nicht gemacht, so kann es vorkommen, dass die Suchmaschinenroboter diese Angabe als Dateinamen erkennen und alle Dateien und Seiten, die mit Verzeichnisname beginnen, nicht indexieren oder der Zugriff auf diese Seite verweigert wird.

Disallow: /Verzeichnisname

Dies wäre das bereits oben beschriebene Beispiel für eine falsche Angabe. Hier würde im eigentlichen Sinne kein Verzeichnis angegeben, sondern Dateien und Seiten, die mit Verzeichnisname anfangen.

Disallow: /Verzeichnisname/Unterverzeichnis/

Man kann auch nur bestimmte Unterverzeichnisse in einem Verzeichnis von der Indexierung ausnehmen. Somit würden alle Dateien und Seiten im Verzeichnis Verzeichnisname indexiert, nur nicht diejenigen, die sich im Unterverzeichnis befinden.

Disallow: /Verzeichnisname/Datei.html

Man kann auch nur eine bestimmte Datei von der Indexierung ausnehmen. Das macht zum Beispiel dann einen Sinn, wenn man nicht möchte, dass eine zum Download angebotene Datei in den Suchmaschinen angezeigt wird, sondern nur die dazugehörige Seite.

Und so könnte die robots.txt aussehen

User-agent: *
Disallow: /downloads/
Disallow: /html/impressum.html
Disallow: /bilder/
Disallow: /partnerseiten/links/
Disallow: /partnerseiten/link_zur_seite

Allen Suchmaschinenrobotern ist der Zugriff auf die Webseite erlaubt. Ausgenommen sind die Verzeichnisse downloads, bilder und das Verzeichnis links im Verzeichnis partnerseiten. Dabei können jedoch alle Seiten, außer die mit link_zur_seite anfangen, im Verzeichnis partnerseiten indexiert werden. Zudem wurde mit der Angabe /html/impressum.html der Zugriff auf die Datei impressum.html verweigert.

Schlagwörter: Homepage, Indexierung, robots, Suchmaschine, Webseite

Homepage