Das Wichtigste, was Sie beim Erstellen Ihrer robots.txt-Datei beachten sollten, ist, sie einfach zu halten. Diese Datei sollte für Menschen lesbar sein. Wenn Sie also Probleme beim Lesen haben, haben Sie sich irgendwo etwas verloren.
Der grundlegende Zweck der Datei besteht darin, mit Web-Spidern (oder Bots, wie sie allgemein bekannt sind) zu kommunizieren, welche URLs sie nicht sehen sollen. Es kann Bots geben, von denen Sie nicht gecrawlt werden möchten, sodass Sie bestimmte User-Agents anweisen können, sich anders zu verhalten. Seien Sie jedoch vorsichtig, wenn Sie verschiedene Regelsätze für verschiedene Benutzeragenten erstellen, da diese die Datei möglicherweise anders interpretieren als Sie.
Es ist eine Web-Etikette für Bots, die robots.txt-Datei zu lesen und sich daran zu halten, aber sie müssen dies nicht unbedingt tun – weder versehentlich noch absichtlich. Sie sollten sicherstellen, dass Ihr Webserver Bot-Anfragen an Seiten, die er nicht besuchen soll, weiterhin ordnungsgemäß verarbeitet. Schließlich können Sie sich robots.txt auch als Ausgangspunkt für böswillige Personen vorstellen, die versuchen, Ihre Website anzugreifen, indem sie Anfragen an URLs senden, die nicht im Suchindex enthalten sein sollen.
Möglicherweise werden einige Ihrer von Bots nicht zugelassenen URLs auch in Suchindizes angezeigt, wenn diese URLs mit anderen Stellen im Web verlinkt wurden. Es ist hilfreich, diese URLs in Ihrer robots.txt-Datei aufzulisten, aber es ist keine Garantie dafür, dass sie nicht gecrawlt oder indexiert werden.
Eine weitere gute Information, die Sie in die robots.txt einfügen können, ist die Position Ihrer Sitemap (oder Ihres Sitemap-Index, wenn Sie viele Sitemaps benötigen).
Google, eines der wichtigsten Suchunternehmen auf dem Markt und mit umfangreicher Crawler-Erfahrung, hat viele Hilfestellungen für Webmaster. Lesen Sie als Ausgangspunkt für die Verwendung von robots.txt Folgendes: Blockieren oder entfernen Sie Seiten mithilfe einer robots.txt-Datei