Semalt: So blockieren Sie Darodar Robots.txt

Die Robots.txt-Datei ist eine typische Textdatei, die Anweisungen zum Crawlen einer Site durch Webcrawler oder Bots enthält. Ihre Anwendung zeigt sich in Suchmaschinen- Bots, die auf zahlreichen optimierten Websites häufig vorkommen. Als Teil des Robots Exclusion Protocol (REP) bildet die Datei robots.txt einen wesentlichen Aspekt für die Indizierung von Website-Inhalten und ermöglicht es einem Server, Benutzeranforderungen entsprechend zu authentifizieren.

Julia Vashneva, Senior Customer Success Manager bei Semalt , erklärt, dass das Verknüpfen ein Aspekt der Suchmaschinenoptimierung (SEO) ist, bei dem Traffic von anderen Domains in Ihrer Nische gewonnen wird. Für die "Folgen" -Links zum Übertragen von Linksaft ist es wichtig, eine robots.txt-Datei in den Hosting-Bereich Ihrer Website aufzunehmen, um als Instruktor für die Interaktion des Servers mit Ihrer Website zu fungieren. In diesem Archiv sind die Anweisungen vorhanden, indem das Verhalten bestimmter Benutzeragenten zugelassen oder nicht zugelassen wird.

Das Grundformat einer robots.txt-Datei

Eine robots.txt-Datei enthält zwei wesentliche Zeilen:

Benutzeragent: [Name des Benutzeragenten]

Nicht zulassen: [URL-Zeichenfolge, die nicht gecrawlt werden soll]

Eine vollständige robots.txt-Datei sollte diese beiden Zeilen enthalten. Einige von ihnen können jedoch mehrere Zeilen von Benutzeragenten und Anweisungen enthalten. Diese Befehle können Aspekte wie Zulassen, Nichtzulassen oder Crawling-Verzögerungen enthalten. Normalerweise gibt es einen Zeilenumbruch, der jeden Befehlssatz trennt. Jeder der zulässigen oder nicht zulässigen Anweisungen wird durch diesen Zeilenumbruch getrennt, insbesondere für die robots.txt mit mehreren Zeilen.

Beispiele

Beispielsweise kann eine robots.txt-Datei Codes enthalten wie:

User-Agent: Darodar

Nicht zulassen: / Plugin

Nicht zulassen: / API

Nicht zulassen: / _Kommentare

In diesem Fall handelt es sich um eine Blockdatei robots.txt, die den Darodar-Webcrawler am Zugriff auf Ihre Website hindert. In der obigen Syntax blockiert der Code Aspekte der Website wie Plugins, API und den Kommentarbereich. Mit diesem Wissen können zahlreiche Vorteile erzielt werden, wenn die Textdatei eines Roboters effektiv ausgeführt wird. Robots.txt-Dateien können zahlreiche Funktionen ausführen. Zum Beispiel können sie bereit sein:

1. Lassen Sie alle Webcrawler-Inhalte auf einer Website-Seite zu. Zum Beispiel;

User-Agent: *

Nicht zulassen:

In diesem Fall kann jeder Webcrawler auf den gesamten Benutzerinhalt zugreifen, um eine Website aufzurufen.

2. Blockieren Sie einen bestimmten Webinhalt aus einem bestimmten Ordner. Zum Beispiel;

User-Agent: Googlebot

Nicht zulassen: / example-subfolder /

Diese Syntax mit dem User-Agent-Namen Googlebot gehört zu Google. Es verhindert, dass der Bot auf eine Webseite in der Zeichenfolge www.ourexample.com/example-subfolder/ zugreift.

3. Blockieren Sie einen bestimmten Webcrawler von einer bestimmten Webseite. Zum Beispiel;

Benutzeragent: Bingbot

Nicht zulassen: /example-subfolder/blocked-page.html

Der User-Agent-Bing-Bot gehört zu den Bing-Webcrawlern. Diese Art von robots.txt-Datei verhindert, dass der Bing-Webcrawler auf eine bestimmte Seite mit der Zeichenfolge www.ourexample.com/example-subfolder/blocked-page zugreift.

Wichtige Informationen

  • Nicht jeder Benutzer verwendet Ihre robts.txt-Datei. Einige Benutzer entscheiden sich möglicherweise dafür, dies zu ignorieren. Die meisten dieser Webcrawler enthalten Trojaner und Malware.
  • Damit eine Robots.txt-Datei sichtbar ist, sollte sie im Website-Verzeichnis der obersten Ebene verfügbar sein.
  • Die Zeichen "robots.txt" unterscheiden zwischen Groß- und Kleinschreibung. Infolgedessen sollten Sie sie in keiner Weise ändern, einschließlich der Großschreibung einiger Aspekte.
  • Die "/robots.txt" ist gemeinfrei. Jeder kann diese Informationen finden, wenn er sie zum Inhalt einer beliebigen URL hinzufügt. Sie sollten keine wesentlichen Details oder Seiten indizieren, auf denen sie privat bleiben sollen.