Die robots.txt

Die robots.txt konfiguriert das allgemeine crawling-Verhalten von Suchmaschinen und ähnlichem. Es kann bestimmte Ordner (meist Unwichtiges, Doppeltes oder Veraltetes) aus der Suche ausschließen und so das Suchmaschinenranking verbessern.
Die robots.txt muss genau so heißen und mit http://www.beispieldomain.de/robots.txt erreichbar sein.

Beispiel: robots.txt

User-agent: * Disallow: /unwichtig/ Disallow: /veraltet/ Disallow: /news.html Sitemap: https://www.edv-hacker.de/sitemap.xml

Zuerst wird mit "User-agent" definiert, für welche Crawler die folgenden Regeln gelten. In diesem Fall: für alle.
Dann wird aufgelistet, was verboten wird. Das können einzelne Dateien oder ganze Ordner sein.
Außerdem kann hier noch eine Sitemap angegeben werden, welche beachtet werden soll. Für die Sitemap muss der absolute Pfad benutzt werden