heim / Dermatitis/ Robot-TXT-Indizierung verboten. So verhindern Sie die Indizierung erforderlicher Seiten. Verhindern Sie, dass alle Seiten mit einer Abfragezeichenfolge indiziert werden

Robot-TXT-Indizierung verboten. So verhindern Sie die Indizierung erforderlicher Seiten. Verhindern Sie, dass alle Seiten mit einer Abfragezeichenfolge indiziert werden

Nun, Sie haben beispielsweise beschlossen, das Design Ihres Blogs zu ändern und möchten zu diesem Zeitpunkt nicht, dass Such-Bots die Ressource besuchen. Oder Sie haben gerade eine Website erstellt und eine Engine darauf installiert, falls die Ressource nicht vorhanden ist nützliche Informationen, dann sollten Sie es Such-Bots nicht zeigen. In diesem Artikel erfahren Sie, wie Sie die Indexierung einer Website in Yandex, Google oder allen gleichzeitig blockieren. Suchmaschinen Oh. Zuvor können Sie aber auch noch einen ähnlichen Artikel lesen: „?“ Jetzt fangen wir an.

1. Blockieren Sie die Indizierung der Website mithilfe der robots.txt-Datei.
Um loszulegen, benötigen Sie. Erstellen Sie dazu auf Ihrem Computer ein normales Textdokument mit dem Namen robots und der Erweiterung .txt. Folgendes habe ich gerade erstellt:

Jetzt muss diese Datei in geladen werden. Wenn die Ressource auf der WordPress-Engine erstellt wird, befinden sich die Ordner „wp-content“, „wp-includes“ usw. im Stammordner.

Wir haben also eine leere Datei auf das Hosting hochgeladen. Jetzt müssen wir diese Datei verwenden, um den Blog irgendwie von der Indizierung auszuschließen. Dies ist, wie ich bereits geschrieben habe, nur für Yandex, Google oder alle Suchmaschinen gleichzeitig möglich. Reden wir der Reihe nach über alles.

Wie kann ich die Indexierung einer Website nur für Yandex blockieren?
Schreiben Sie die folgende Zeile in die robots.txt-Datei:

Benutzeragent: Yandex
Nicht zulassen: /

Um sicherzustellen, dass Sie Yandex daran gehindert haben, Ihre Ressource zu indizieren, fügen Sie zunächst eine Website hinzu, falls Sie dies noch nicht getan haben, und gehen Sie dann zu dieser Seite. Geben Sie als Nächstes mehrere Seiten Ihrer Website ein und klicken Sie auf die Schaltfläche „Überprüfen“. Wenn Seiten von der Indexierung ausgeschlossen sind, sehen Sie etwa Folgendes:

Wie kann ich verhindern, dass eine Website nur von Google indiziert wird?
Öffnen Sie die robots.txt-Datei und schreiben Sie dort die folgende Zeile:

Benutzeragent: Googlebot
Nicht zulassen: /

Um zu überprüfen, ob Google die Website nicht indiziert, erstellen Sie Ihre Ressource, fügen Sie sie zu Google Webmaster hinzu und rufen Sie sie auf. Auch hier müssen Sie mehrere Seiten eingeben und auf die Schaltfläche „Prüfen“ klicken.

Mir ist aufgefallen, dass die Google-Suchmaschine sogar verbotene Dokumente in der robots.txt-Datei indexiert und in einen zusätzlichen Index, den sogenannten „Snot“, einträgt. Ich weiß nicht warum, aber Sie müssen verstehen, dass es zu 100 % unmöglich ist, eine Website oder eine einzelne Seite mithilfe der robots.txt-Datei zu blockieren. Diese Datei ist meines Wissens nur eine Empfehlung für Google und entscheidet darüber, was indexiert wird und was nicht.

Wie kann ich die Indexierung einer Website für alle Suchmaschinen blockieren?
Um zu verhindern, dass alle Suchmaschinen Ihre Ressource gleichzeitig indizieren, fügen Sie der robots.txt die folgende Zeile hinzu:

User-Agent: *
Nicht zulassen: /

Jetzt können Sie auch zu Yandex oder Google Webmaster gehen und das Indexierungsverbot überprüfen.

Sie können Ihre robots.txt-Datei unter dieser Adresse sehen:

Vashdomain.ru/robots.txt

Alles, was Sie in diese Datei geschrieben haben, sollte im Browser angezeigt werden. Wenn beim Aufrufen dieser Adresse eine Meldung angezeigt wird, bedeutet dies, dass Sie Ihre Datei an den falschen Ort hochgeladen haben.

Meine robots.txt befindet sich übrigens . Wenn Ihre Ressource auf der WordPress-Engine erstellt wurde, können Sie sie einfach kopieren. Es ist richtig konfiguriert, um sicherzustellen, dass Suchbots nur die erforderlichen Dokumente indizieren und dass es keine Duplikate auf der Website gibt.

2. Blockieren Sie die Indizierung der Site mithilfe der Symbolleiste.
Diese Methode ist nur für diejenigen geeignet, deren Ressource auf WordPress erstellt wurde. Gehen Sie zu „Systemsteuerung“ – „Einstellungen“ – „Lesen“. Hier müssen Sie das Kontrollkästchen neben der Aufschrift „Suchmaschinen empfehlen, die Website nicht zu indizieren“ aktivieren.

Bitte beachten Sie, dass sich unten eine sehr interessante Aufschrift befindet: „Die Suchmaschinen entscheiden selbst, ob sie Ihrer Anfrage folgen.“ Genau darüber habe ich oben geschrieben. Yandex indiziert höchstwahrscheinlich keine Seiten, deren Indexierung verboten ist, es können jedoch Probleme mit Google auftreten.

3. Wir schließen die Site manuell für die Indizierung.
Wenn Sie eine gesamte Ressource oder Seite aus der Indizierung ausschließen, erscheint automatisch die folgende Zeile im Quellcode:

meta name="robots" content="noindex,follow"

Es teilt Suchbots mit, dass das Dokument nicht indiziert werden kann. Sie können diese Zeile einfach manuell an einer beliebigen Stelle auf Ihrer Website schreiben. Hauptsache, sie erscheint auf allen Seiten und die Ressource wird dann von der Indizierung ausgeschlossen.

Wenn Sie übrigens ein unnötiges Dokument auf Ihrer Website erstellen und nicht möchten, dass Suchbots es indizieren, können Sie diese Zeile auch in den Quellcode einfügen.

Öffnen Sie nach der Aktualisierung den Quellcode der Seite (STRG + U) und prüfen Sie, ob diese Zeile dort angezeigt wird. Wenn ja, dann ist alles in Ordnung. Für alle Fälle können Sie auch die Verwendung von Tools für Webmaster von Yandex und Google überprüfen.

Das ist alles für heute. Jetzt wissen Sie, wie Sie die Indexierung einer Website blockieren. Ich hoffe, dieser Artikel war hilfreich für Sie. Tschüss zusammen.

Einer der Schritte zur Optimierung einer Website für Suchmaschinen ist das Kompilieren einer robots.txt-Datei. Mithilfe dieser Datei können Sie verhindern, dass einige oder alle Suchroboter Ihre Website oder bestimmte Teile davon, die nicht für die Indexierung vorgesehen sind, indizieren. Insbesondere können Sie verhindern, dass doppelte Inhalte indiziert werden, beispielsweise druckbare Versionen von Seiten.

Bevor Sie mit der Indizierung beginnen, verweisen Suchroboter immer auf die Datei robots.txt im Stammverzeichnis Ihrer Website, zum Beispiel http://site.ru/robots.txt, um zu erfahren, welche Abschnitte der Website für den Roboter verboten sind aus der Indizierung. Aber auch wenn Sie nichts verbieten möchten, empfiehlt es sich dennoch, diese Datei zu erstellen.

Wie Sie an der Erweiterung robots.txt erkennen können, handelt es sich hierbei um eine Textdatei. Um diese Datei zu erstellen oder zu bearbeiten, ist es besser, die einfachsten Texteditoren wie Notepad zu verwenden. robots.txt muss im Stammverzeichnis der Site abgelegt werden und hat ein eigenes Format, das wir weiter unten besprechen werden.

Robots.txt-Dateiformat

Die robots.txt-Datei muss mindestens zwei erforderliche Einträge enthalten. Die erste ist die User-Agent-Anweisung, die angibt, welcher Suchroboter den nachfolgenden Anweisungen folgen soll. Der Wert kann der Name des Roboters (Googlebot, Yandex, StackRambler) oder das *-Symbol sein, wenn Sie auf alle Roboter gleichzeitig zugreifen. Zum Beispiel:

User-Agent: Googlebot

Den Namen des Roboters finden Sie auf der Website der entsprechenden Suchmaschine. Als nächstes sollte es eine oder mehrere Disallow-Anweisungen geben. Diese Anweisungen teilen dem Roboter mit, welche Dateien und Ordner nicht indiziert werden dürfen. Die folgenden Zeilen verhindern beispielsweise, dass Robots die Datei „feedback.php“ und das Verzeichnis „cgi-bin“ indizieren:

Nicht zulassen: /feedback.php Nicht zulassen: /cgi-bin/

Sie können auch nur die Anfangszeichen von Dateien oder Ordnern verwenden. Die Zeile Disallow: /forum verhindert die Indizierung aller Dateien und Ordner im Stammverzeichnis der Site, deren Name mit forum beginnt, zum Beispiel der Datei http://site.ru/forum.php und des Ordners http://site. ru/forum/ mit all seinem Inhalt. Wenn Disallow leer ist, bedeutet dies, dass der Robot alle Seiten indizieren kann. Wenn der Disallow-Wert das /-Symbol ist, bedeutet dies, dass die gesamte Website nicht indiziert werden darf.

Für jedes User-Agent-Feld muss mindestens ein Disallow-Feld vorhanden sein. Das heißt, wenn Sie nichts für die Indizierung verbieten möchten, sollte die robots.txt-Datei die folgenden Einträge enthalten:

Benutzeragent: * Nicht zulassen:

Zusätzliche Richtlinien

Zusätzlich zu regulären Ausdrücken erlauben Yandex und Google die Verwendung der Allow-Direktive, die das Gegenteil von Disallow ist, das heißt, sie gibt an, welche Seiten indiziert werden können. Im folgenden Beispiel ist es Yandex untersagt, alles außer Seitenadressen zu indizieren, die mit /articles beginnen:

Benutzeragent: Yandex Zulassen: /articles Nicht zulassen: /

In diesem Beispiel muss die Allow-Anweisung vor Disallow geschrieben werden, da Yandex dies sonst als vollständiges Verbot der Indizierung der Website versteht. Eine leere Allow-Anweisung deaktiviert auch die Site-Indizierung vollständig:

Benutzeragent: Yandex Zulassen:

Äquivalent

Benutzeragent: Yandex Disallow: /

Nicht standardmäßige Anweisungen müssen nur für diejenigen Suchmaschinen angegeben werden, die sie unterstützen. Andernfalls könnte ein Roboter, der diesen Eintrag nicht versteht, ihn oder die gesamte robots.txt-Datei falsch verarbeiten. Weitere Informationen zu zusätzlichen Anweisungen und allgemein zum Verständnis von Befehlen in der robots.txt-Datei durch einen einzelnen Roboter finden Sie auf der Website der entsprechenden Suchmaschine.

Reguläre Ausdrücke in robots.txt

Die meisten Suchmaschinen berücksichtigen nur explizit angegebene Datei- und Ordnernamen, es gibt aber auch fortgeschrittenere Suchmaschinen. Google Robot und Yandex Robot unterstützen die Verwendung einfacher regulärer Ausdrücke in robots.txt, was den Arbeitsaufwand für Webmaster deutlich reduziert. Die folgenden Befehle verhindern beispielsweise, dass Googlebot alle Dateien mit der Erweiterung .pdf indiziert:

User-Agent: Googlebot Nicht zulassen: *.pdf$

Im obigen Beispiel ist * eine beliebige Zeichenfolge und $ gibt das Ende des Links an.

Benutzeragent: Yandex Zulassen: /articles/*.html$ Nicht zulassen: /

Die oben genannten Anweisungen ermöglichen Yandex, nur Dateien mit der Erweiterung „.html“ zu indizieren, die sich im Ordner /articles/ befinden. Alles andere ist für die Indizierung verboten.

Seitenverzeichnis

Sie können den Speicherort der XML-Sitemap in der robots.txt-Datei angeben:

User-Agent: googlebot Nicht zulassen: Sitemap: http://site.ru/sitemap.xml

Wenn Sie sehr sind große Menge Seiten auf der Website und Sie mussten die Sitemap in Teile aufteilen, dann müssen Sie in der robots.txt-Datei alle Teile der Karte angeben:

Benutzeragent: Yandex Disallow: Sitemap: http://mysite.ru/my_sitemaps1.xml Sitemap: http://mysite.ru/my_sitemaps2.xml

Site-Spiegel

Wie Sie wissen, kann dieselbe Site normalerweise unter zwei Adressen aufgerufen werden: sowohl mit www als auch ohne. Für einen Suchroboter sind site.ru und www.site.ru unterschiedliche Websites, aber mit demselben Inhalt. Sie werden Spiegel genannt.

Aufgrund der Tatsache, dass es Links zu den Site-Seiten sowohl mit als auch ohne www gibt, kann das Gewicht der Seiten zwischen www.site.ru und site.ru aufgeteilt werden. Um dies zu verhindern, muss die Suchmaschine den Hauptspiegel der Website angeben. Durch das „Kleben“ gehört das gesamte Gewicht einem Hauptspiegel und die Website kann in den Suchergebnissen eine höhere Position einnehmen.

Sie können den Hauptspiegel für Yandex direkt in der robots.txt-Datei mit der Host-Direktive angeben:

Benutzeragent: Yandex Nicht zulassen: /feedback.php Nicht zulassen: /cgi-bin/ Host: www.site.ru

Nach dem Kleben übernimmt der Spiegel www.site.ru das gesamte Gewicht und nimmt eine höhere Position in den Suchergebnissen ein. Und die Suchmaschine indiziert site.ru überhaupt nicht.

Bei anderen Suchmaschinen ist die Wahl des Hauptspiegels eine serverseitige permanente Weiterleitung (Code 301) von zusätzlichen Spiegeln zum Hauptspiegel. Dies erfolgt über die .htaccess-Datei und das Modul mod_rewrite. Legen Sie dazu die .htaccess-Datei im Stammverzeichnis der Site ab und schreiben Sie dort Folgendes:

RewriteEngine On-Optionen +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Infolgedessen werden alle Anfragen von site.ru an www.site.ru weitergeleitet, d. h. site.ru/page1.php wird an www.site.ru/page1.php umgeleitet.

Die Umleitungsmethode funktioniert für alle Suchmaschinen und Browser, es wird jedoch dennoch empfohlen, die Host-Anweisung zur robots.txt-Datei für Yandex hinzuzufügen.

Kommentare in robots.txt

Sie können der robots.txt-Datei auch Kommentare hinzufügen – sie beginnen mit dem #-Symbol und enden mit einer neuen Zeile. Es empfiehlt sich, Kommentare in einer separaten Zeile zu verfassen oder besser darauf zu verzichten.

Ein Beispiel für die Verwendung von Kommentaren:

Benutzeragent: StackRambler Disallow: /garbage/ # in diesem Ordner Disallow: /doc.xhtml # und auch auf dieser Seite # und alle Kommentare in dieser Datei sind ebenfalls nutzlos

Beispiele für robots.txt-Dateien

1. Erlauben Sie allen Robots, alle Site-Dokumente zu indizieren:

Benutzeragent: * Nicht zulassen:
Benutzeragent: * Nicht zulassen: /

3. Wir untersagen dem Google-Suchroboter, die Datei „feedback.php“ und den Inhalt des cgi-bin-Verzeichnisses zu indizieren:

User-Agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Wir erlauben allen Robots, die gesamte Website zu indizieren, und wir verbieten dem Yandex-Suchmaschinen-Roboter, die Datei „feedback.php“ und den Inhalt des cgi-bin-Verzeichnisses zu indizieren:

Benutzeragent: Yandex Nicht zulassen: /cgi-bin/ Nicht zulassen: /feedback.php Host: www.site.ru Benutzeragent: * Nicht zulassen:

5. Wir erlauben allen Robotern, die gesamte Website zu indizieren, und wir erlauben dem Yandex-Roboter, nur den für ihn vorgesehenen Teil der Website zu indizieren:

User-Agent: Yandex Zulassen: /yandex Disallow: / Host: www.site.ru User-Agent: * Disallow:

Leerzeilen trennen Einschränkungen für verschiedene Roboter. Jeder Einschränkungsblock muss mit einer Zeile mit dem Feld „User-Agent“ beginnen, die den Robot angibt, für den diese Site-Indizierungsregeln gelten.

Häufige Fehler

Es ist wichtig zu berücksichtigen, dass eine leere Zeile in der robots.txt-Datei ein Trennzeichen zwischen zwei Einträgen für verschiedene Roboter ist. Sie können auch nicht mehrere Anweisungen in einer Zeile angeben. Wenn Webmaster verhindern, dass eine Datei indiziert wird, lassen sie häufig das / vor dem Dateinamen weg.

Es ist nicht erforderlich, in robots.txt ein Verbot der Indizierung der Site für verschiedene Programme anzugeben, die darauf ausgelegt sind, die Site vollständig herunterzuladen, beispielsweise TeleportPro. Weder Download-Programme noch Browser schauen sich diese Datei jemals an und führen die dort geschriebenen Anweisungen aus. Es ist ausschließlich für Suchmaschinen bestimmt. Sie sollten auch nicht das Admin-Panel Ihrer Site in robots.txt blockieren, denn wenn es nirgendwo einen Link dazu gibt, wird sie nicht indiziert. Sie geben den Standort des Admin-Bereichs nur Personen preis, die nichts davon wissen sollten. Bedenken Sie auch, dass eine zu große robots.txt-Datei möglicherweise von der Suchmaschine ignoriert wird. Wenn Sie zu viele Seiten haben, die nicht für die Indizierung vorgesehen sind, ist es besser, sie einfach von der Site zu entfernen oder in ein separates Verzeichnis zu verschieben und die Indizierung dieses Verzeichnisses zu verhindern.

Überprüfen Sie die robots.txt-Datei auf Fehler

Überprüfen Sie unbedingt, wie Suchmaschinen Ihre Robots-Datei verstehen. Um Google zu überprüfen, können Sie die Google Webmaster-Tools verwenden. Wenn Sie herausfinden möchten, wie Ihre robots.txt-Datei von Yandex verstanden wird, können Sie den Dienst Yandex.Webmaster nutzen. So können Sie etwaige Fehler zeitnah korrigieren. Auch auf den Seiten dieser Dienste finden Sie Empfehlungen zum Erstellen einer robots.txt-Datei und viele weitere nützliche Informationen.

Das Kopieren des Artikels ist untersagt.

Robots.txt ist eine spezielle Datei, die sich im Stammverzeichnis der Site befindet. Der Webmaster gibt darin an, welche Seiten und Daten von der Indexierung durch Suchmaschinen ausgeschlossen werden sollen. Die Datei enthält Anweisungen, die den Zugriff auf Bereiche der Site beschreiben (der sogenannte Robot-Exception-Standard). Sie können damit beispielsweise unterschiedliche Zugriffseinstellungen für Suchroboter festlegen, die für mobile Geräte und Desktop-Computer konzipiert sind. Es ist sehr wichtig, es richtig einzurichten.

Ist robots.txt notwendig?

Mit robots.txt können Sie:

die Indexierung ähnlicher und unnötiger Seiten verbieten, um das Crawling-Limit (die Anzahl der URLs, die ein Suchroboter bei einem Crawl crawlen kann) nicht zu verschwenden. Diese. Der Roboter kann wichtigere Seiten indizieren.
Bilder aus den Suchergebnissen ausblenden.
Schließen Sie unwichtige Skripte, Stildateien und andere unkritische Seitenressourcen von der Indizierung.

Wenn dies den Crawler von Google oder Yandex daran hindert, die Seiten zu analysieren, blockieren Sie die Dateien nicht.

Wo befindet sich die Robots.txt-Datei?

Wenn Sie nur sehen möchten, was in der robots.txt-Datei steht, geben Sie einfach in die Adressleiste Ihres Browsers ein: site.ru/robots.txt.

Physisch befindet sich die robots.txt-Datei im Stammordner der Site auf dem Hosting. Ich habe das Hosting beget.ru, daher zeige ich den Speicherort der robots.txt-Datei auf diesem Hosting.

So erstellen Sie die richtige robots.txt

Die robots.txt-Datei besteht aus einer oder mehreren Regeln. Jede Regel blockiert oder ermöglicht die Pfadindizierung auf der Site.

Erstellen Sie in einem Texteditor eine Datei namens robots.txt und füllen Sie sie gemäß den folgenden Regeln aus.
Die robots.txt-Datei muss eine ASCII- oder UTF-8-codierte Textdatei sein. Zeichen in anderen Kodierungen sind nicht zulässig.
Es sollte nur eine solche Datei auf der Site geben.
Die robots.txt-Datei muss eingefügt werden Wurzelverzeichnis Website. Um beispielsweise die Indizierung aller Seiten der Website http://www.example.com/ zu steuern, sollte sich die robots.txt-Datei unter http://www.example.com/robots.txt befinden. Es sollte sich nicht in einem Unterverzeichnis befinden(zum Beispiel an der Adresse http://example.com/pages/robots.txt). Wenn Sie Schwierigkeiten beim Zugriff auf das Stammverzeichnis haben, wenden Sie sich an Ihren Hosting-Anbieter. Wenn Sie keinen Zugriff auf das Stammverzeichnis der Site haben, verwenden Sie eine alternative Blockierungsmethode wie Meta-Tags.
Die robots.txt-Datei kann mit zu Adressen hinzugefügt werden Subdomains(zum Beispiel http:// Webseite.example.com/robots.txt) oder nicht standardmäßige Ports (zum Beispiel http://example.com: 8181 /robots.txt).
Überprüfen Sie die Datei im Yandex.Webmaster-Dienst und in der Google Search Console.
Laden Sie die Datei in das Stammverzeichnis Ihrer Site hoch.

Hier ist eine Beispiel-robots.txt-Datei mit zwei Regeln. Nachfolgend finden Sie seine Erklärung.

User-Agent: Googlebot Disallow: /nogooglebot/ User-Agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml

Erläuterung

Ein Benutzeragent namens Googlebot sollte das Verzeichnis http://example.com/nogooglebot/ und seine Unterverzeichnisse nicht indizieren.
Alle anderen Benutzeragenten haben Zugriff auf die gesamte Site (kann weggelassen werden, das Ergebnis ist das gleiche, da standardmäßig voller Zugriff gewährt wird).
Die Sitemap-Datei für diese Site befindet sich unter http://www.example.com/sitemap.xml.

Disallow- und Allow-Anweisungen

Um die Indizierung und den Roboterzugriff auf die Site oder einige ihrer Abschnitte zu verhindern, verwenden Sie die Disallow-Anweisung.

User-Agent: Yandex Disallow: / # blockiert den Zugriff auf die gesamte Website User-Agent: Yandex Disallow: /cgi-bin # blockiert den Zugriff auf Seiten #, die mit „/cgi-bin“ beginnen

Laut Standard wird empfohlen, vor jeder User-Agent-Direktive einen Leerzeilenvorschub einzufügen.

Das #-Symbol soll Kommentare beschreiben. Alles nach diesem Zeichen und vor dem ersten Zeilenumbruch wird nicht berücksichtigt.

Um dem Roboter Zugriff auf die Site oder einige ihrer Abschnitte zu gewähren, verwenden Sie die Allow-Anweisung

Benutzeragent: Yandex Zulassen: /cgi-bin Nicht zulassen: / # verbietet das Herunterladen von allem außer Seiten, # die mit „/cgi-bin“ beginnen

Zwischen den Anweisungen User-agent, Disallow und Allow sind keine Leerzeilenumbrüche zulässig.

Die Allow- und Disallow-Anweisungen aus dem entsprechenden User-Agent-Block werden nach der Länge des URL-Präfixes sortiert (vom kleinsten zum größten) und nacheinander angewendet. Wenn mehrere Anweisungen für eine bestimmte Site-Seite geeignet sind, wählt der Roboter die letzte in der Reihenfolge ihres Erscheinens in der sortierten Liste aus. Daher hat die Reihenfolge der Anweisungen in der robots.txt-Datei keinen Einfluss darauf, wie der Roboter sie verwendet. Beispiele:

# Original robots.txt: User-Agent: Yandex Zulassen: /catalog Disallow: / # Sortiert robots.txt: User-Agent: Yandex Disallow: / Allow: /catalog # Ermöglicht das Herunterladen nur von Seiten #, die mit „/catalog“ beginnen # Original robots.txt: User-Agent: Yandex Zulassen: / Zulassen: /catalog/auto Disallow: /catalog # Sortiert robots.txt: User-Agent: Yandex Zulassen: / Disallow: /catalog Zulassen: /catalog/auto # Verhindert das Herunterladen von Seiten beginnt mit „/catalog“ #, erlaubt aber das Herunterladen von Seiten, die mit „/catalog/auto“ beginnen.

Bei einem Konflikt zwischen zwei Direktiven mit Präfixen gleicher Länge hat die Allow-Direktive Vorrang.

Verwendung der Sonderzeichen * und $

Bei der Angabe der Pfade der Allow- und Disallow-Anweisungen können Sie die Sonderzeichen * und $ verwenden und so bestimmte reguläre Ausdrücke angeben.

Das Sonderzeichen * bezeichnet eine beliebige (auch leere) Zeichenfolge.

Das Sonderzeichen $ bedeutet das Ende der Zeile, das Zeichen davor ist das letzte.

Benutzeragent: Yandex Disallow: /cgi-bin/*.aspx # verbietet „/cgi-bin/example.aspx“ # und „/cgi-bin/private/test.aspx“ Disallow: /*private # verbietet nicht nur „/private“, # aber auch „/cgi-bin/private“

Sitemap-Richtlinie

Wenn Sie eine Sitemap-Datei zur Beschreibung der Site-Struktur verwenden, geben Sie den Pfad zur Datei als Parameter für die Sitemap-Anweisung an (wenn mehrere Dateien vorhanden sind, geben Sie alle an). Beispiel:

Benutzeragent: Yandex Zulassen: / Sitemap: https://example.com/site_structure/my_sitemaps1.xml Sitemap: https://example.com/site_structure/my_sitemaps2.xml

Die Direktive ist intersektional, d. h. sie wird vom Roboter unabhängig von der Stelle in der robots.txt-Datei verwendet, an der sie angegeben wird.

Der Roboter merkt sich den Pfad zur Datei, verarbeitet die Daten und verwendet die Ergebnisse in nachfolgenden Download-Sitzungen.

Crawl-Delay-Anweisung

Wenn der Server stark ausgelastet ist und keine Zeit hat, die Anforderungen des Roboters zu verarbeiten, verwenden Sie die Crawl-delay-Anweisung. Damit können Sie für den Suchroboter die Mindestzeitspanne (in Sekunden) zwischen dem Ende des Ladens einer Seite und dem Beginn des Ladens der nächsten festlegen.

Bevor Sie die Crawling-Geschwindigkeit der Website ändern, sollten Sie herausfinden, auf welche Seiten der Robot häufiger zugreift.

Analysieren Sie die Serverprotokolle. Kontaktieren Sie den Verantwortlichen der Seite oder den Hosting-Anbieter.
Schauen Sie sich die Liste der URLs auf der Seite Indexierung → Crawl-Statistiken in Yandex.Webmaster an (stellen Sie den Schalter auf „Alle Seiten“).

Wenn Sie feststellen, dass der Roboter auf Serviceseiten zugreift, verhindern Sie mithilfe der Disallow-Anweisung, dass diese in der robots.txt-Datei indiziert werden. Dies wird dazu beitragen, die Anzahl unnötiger Anrufe des Roboters zu reduzieren.

Clean-param-Direktive

Die Direktive funktioniert nur mit dem Yandex-Roboter.

Wenn Site-Seitenadressen dynamische Parameter enthalten, die sich nicht auf deren Inhalt auswirken (Sitzungskennungen, Benutzer, Referrer usw.), können Sie diese mit der Clean-param-Direktive beschreiben.

Yandex Robot lädt mit dieser Anweisung doppelte Informationen nicht wiederholt neu. Dadurch wird die Effizienz beim Crawlen Ihrer Website erhöht und die Belastung des Servers verringert.

Die Website verfügt beispielsweise über folgende Seiten:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Der ref-Parameter wird nur verwendet, um zu verfolgen, von welcher Ressource die Anfrage stammt, und ändert nicht den Inhalt; an allen drei Adressen wird dieselbe Seite mit dem Buch book_id=123 angezeigt. Wenn Sie die Direktive dann wie folgt angeben:

Benutzeragent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

Der Yandex-Roboter reduziert alle Seitenadressen auf eine:

www.example.com/some_dir/get_book.pl?book_id=123

Wenn eine solche Seite auf der Website verfügbar ist, wird sie in die Suchergebnisse aufgenommen.

Direktivensyntax

Clean-param: p0[&p1&p2&..&pn]

Das erste Feld, getrennt durch &, listet die Parameter auf, die der Roboter nicht berücksichtigen muss. Das zweite Feld gibt das Pfadpräfix der Seiten an, für die die Regel angewendet werden soll.

Notiz. Die Clean-Param-Direktive ist bereichsübergreifend und kann daher an einer beliebigen Stelle in der robots.txt-Datei angegeben werden. Werden mehrere Anweisungen angegeben, werden diese alle vom Roboter berücksichtigt.

Das Präfix kann einen regulären Ausdruck in einem Format enthalten, das der Datei robots.txt ähnelt, jedoch mit einigen Einschränkungen: Es können nur die Zeichen A-Za-z0-9.-/*_ verwendet werden. In diesem Fall wird das *-Symbol genauso interpretiert wie in der robots.txt-Datei: Das *-Symbol wird immer implizit an das Ende des Präfixes angehängt. Zum Beispiel:

Clean-Parameter: s /forum/showthread.php

Der Fall wird berücksichtigt. Die Länge der Regel ist auf 500 Zeichen begrenzt. Zum Beispiel:

Clean-Param: abc /forum/showthread.php Clean-Param: sid&sort /forum/*.php Clean-Param: someTrash&otherTrash

HOST-Direktive

An dieser Moment Yandex hat die Unterstützung dieser Richtlinie eingestellt.

Korrekte robots.txt:-Einstellung

Der Inhalt der robots.txt-Datei unterscheidet sich je nach Art der Website (Online-Shop, Blog), dem verwendeten CMS, Strukturmerkmalen und einer Reihe anderer Faktoren. Daher sollte die Erstellung dieser Datei für eine kommerzielle Website, insbesondere wenn es sich um ein komplexes Projekt handelt, von einem SEO-Spezialisten mit ausreichender Erfahrung durchgeführt werden.

Eine unvorbereitete Person wird es höchstwahrscheinlich nicht akzeptieren können die richtige Entscheidung darüber, welcher Teil des Inhalts am besten von der Indexierung ausgeschlossen werden sollte und welcher Teil in den Suchergebnissen erscheinen darf.

Richtiges Robots.txt-Beispiel für WordPress

User-Agent: *# Allgemeine Regeln für Roboter, außer Yandex und Google, # weil Für sie gelten die folgenden Regeln. Disallow: /cgi-bin # Ordner auf dem Hosting Disallow: /? # alle Anforderungsparameter auf der Hauptseite nicht zulassen: /wp- # alle WP-Dateien: /wp-json/, /wp-includes, /wp-content/plugins nicht zulassen: /wp/ # wenn es ein Unterverzeichnis /wp/ gibt, wo das CMS ist installiert (wenn nicht, # kann die Regel gelöscht werden) Nicht zulassen: *?s= # Suche nicht zulassen: *&s= # Suche nicht zulassen: /search/ # Suche nicht zulassen: /author/ # Autorenarchiv nicht zulassen: /users/ # Autorenarchiv Nicht zulassen: */ trackback # Trackbacks, Benachrichtigungen in Kommentaren über das Erscheinen eines offenen # Link zu einem Artikel Nicht zulassen: */feed # alle Feeds nicht zulassen: */rss # RSS-Feed nicht zulassen: */embed # alle Einbettungen nicht zulassen : */wlwmanifest.xml # Manifest-XML-Datei Windows Live Writer (wenn Sie es nicht verwenden, # kann die Regel gelöscht werden) Nicht zulassen: /xmlrpc.php # WordPress-API-Datei Nicht zulassen: *utm*= # Links mit utm-Tags Nicht zulassen: *openstat= # Links mit OpenStat-Tags Erlauben: */uploads # Öffne den Ordner mit den Upload-Dateien Sitemap: http://site.ru/sitemap.xml # Sitemap-Adresse User-Agent: GoogleBot # Regeln für Google (I Kommentare nicht duplizieren) Nicht zulassen: /cgi-bin Nicht zulassen: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # открываем js-скрипты внутри / wp- (/*/ - для приоритета) Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке usw. Erlauben: /wp-*.jpg # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.jpeg # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.gif # Bilder in Plugins, Cache-Ordnern usw. Zulassen: /wp-admin/admin-ajax.php # Wird von Plugins verwendet, um JS und CSS nicht zu blockieren. Benutzeragent: Yandex # Regeln für Yandex (Ich dupliziere keine Kommentare) Nicht zulassen: /cgi-bin Nicht zulassen: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss nicht zulassen: */embed nicht zulassen: */wlwmanifest.xml nicht zulassen: /xmlrpc.php zulassen: */uploads zulassen: /*/*.js zulassen: /*/*.css zulassen: /wp-*.png zulassen: /wp-*.jpg Erlauben: /wp-*.jpeg Erlauben: /wp-*.gif Erlauben: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex empfiehlt, # die Indizierung nicht zu blockieren, sondern zu löschen Tag-Parameter, # Google unterstützt solche Regeln nicht. Clean-Param: openstat # ähnlich

Robots.txt-Beispiel für Joomla

User-Agent: *
Nicht zulassen: /administrator/
Nicht zulassen: /cache/
Nicht zulassen: /includes/
Nicht zulassen: /installation/
Nicht zulassen: /Sprache/
Nicht zulassen: /libraries/
Nicht zulassen: /media/
Nicht zulassen: /modules/
Nicht zulassen: /plugins/
Nicht zulassen: /templates/
Nicht zulassen: /tmp/
Nicht zulassen: /xmlrpc/

Robots.txt-Beispiel für Bitrix

User-Agent: *
Nicht zulassen: /*index.php$
Nicht zulassen: /bitrix/
Nicht zulassen: /auth/
Nicht zulassen: /persönlich/
Nicht zulassen: /hochladen/
Nicht zulassen: /search/
Nicht zulassen: /*/search/
Nicht zulassen: /*/slide_show/
Nicht zulassen: /*/gallery/*order=*
Nicht zulassen: /*?print=
Nicht zulassen: /*&print=
Nicht zulassen: /*register=
Nicht zulassen: /*forgot_password=
Nicht zulassen: /*change_password=
Nicht zulassen: /*login=
Nicht zulassen: /*logout=
Nicht zulassen: /*auth=
Nicht zulassen: /*?action=
Nicht zulassen: /*action=ADD_TO_COMPARE_LIST
Nicht zulassen: /*action=DELETE_FROM_COMPARE_LIST
Nicht zulassen: /*action=ADD2BASKET
Nicht zulassen: /*action=KAUFEN
Nicht zulassen: /*bitrix_*=
Nicht zulassen: /*backurl=*
Nicht zulassen: /*BACKURL=*
Nicht zulassen: /*back_url=*
Nicht zulassen: /*BACK_URL=*
Nicht zulassen: /*back_url_admin=*
Nicht zulassen: /*print_course=Y
Nicht zulassen: /*COURSE_ID=
Nicht zulassen: /*?COURSE_ID=
Nicht zulassen: /*?PAGEN
Nicht zulassen: /*PAGEN_1=
Nicht zulassen: /*PAGEN_2=
Nicht zulassen: /*PAGEN_3=
Nicht zulassen: /*PAGEN_4=
Nicht zulassen: /*PAGEN_5=
Nicht zulassen: /*PAGEN_6=
Nicht zulassen: /*PAGEN_7=

Nicht zulassen: /*PAGE_NAME=Suche
Nicht zulassen: /*PAGE_NAME=user_post
Nicht zulassen: /*PAGE_NAME=detail_slide_show
Nicht zulassen: /*SHOWALL
Nicht zulassen: /*show_all=
Sitemap: http://Pfad zu Ihrer XML-Format-Map

Robots.txt-Beispiel für MODx

User-Agent: *
Nicht zulassen: /assets/cache/
Nicht zulassen: /assets/docs/
Nicht zulassen: /assets/export/
Nicht zulassen: /assets/import/
Nicht zulassen: /assets/modules/
Nicht zulassen: /assets/plugins/
Nicht zulassen: /assets/snippets/
Nicht zulassen: /install/
Nicht zulassen: /manager/
Sitemap: http://site.ru/sitemap.xml

Robots.txt-Beispiel für Drupal

User-Agent: *
Nicht zulassen: /database/
Nicht zulassen: /includes/
Nicht zulassen: /misc/
Nicht zulassen: /modules/
Nicht zulassen: /sites/
Nicht zulassen: /themes/
Nicht zulassen: /scripts/
Nicht zulassen: /Updates/
Nicht zulassen: /profiles/
Nicht zulassen: /profile
Nicht zulassen: /profile/*
Nicht zulassen: /xmlrpc.php
Nicht zulassen: /cron.php
Nicht zulassen: /update.php
Nicht zulassen: /install.php
Nicht zulassen: /index.php
Nicht zulassen: /admin/
Nicht zulassen: /Kommentar/Antwort/
Nicht zulassen: /kontakt/
Nicht zulassen: /logout/
Nicht zulassen: /search/
Nicht zulassen: /user/register/
Nicht zulassen: /user/password/
Nicht zulassen: *registrieren*
Nicht zulassen: *Anmelden*
Nicht zulassen: /top-rated-
Nicht zulassen: /nachrichten/
Nicht zulassen: /book/export/
Nicht zulassen: /user2userpoints/
Nicht zulassen: /myuserpoints/
Nicht zulassen: /tagadelic/
Nicht zulassen: /Empfehlung/
Nicht zulassen: /aggregator/
Nicht zulassen: /files/pin/
Nicht zulassen: /your-votes
Nicht zulassen: /comments/recent
Nicht zulassen: /*/edit/
Nicht zulassen: /*/delete/
Nicht zulassen: /*/export/html/
Nicht zulassen: /taxonomy/term/*/0$
Nicht zulassen: /*/edit$
Nicht zulassen: /*/outline$
Nicht zulassen: /*/revisions$
Nicht zulassen: /*/contact$
Nicht zulassen: /*downloadpipe
Nicht zulassen: /node$
Nicht zulassen: /node/*/track$
Nicht zulassen: /*&
Nicht zulassen: /*%
Nicht zulassen: /*?page=0
Nicht zulassen: /*Abschnitt
Nicht zulassen: /*bestellen
Nicht zulassen: /*?sort*
Nicht zulassen: /*&sort*
Nicht zulassen: /*votesupdown
Nicht zulassen: /*Kalender
Nicht zulassen: /*index.php
Erlauben: /*?page=
Nicht zulassen: /*?
Sitemap: http://Pfad zu Ihrer XML-Format-Map

AUFMERKSAMKEIT!

CMS werden ständig aktualisiert. Möglicherweise müssen Sie die Indexierung anderer Seiten blockieren. Je nach Zweck kann das Indexierungsverbot aufgehoben oder umgekehrt hinzugefügt werden.

Überprüfen Sie robots.txt

Jede Suchmaschine hat ihre eigenen Anforderungen an die Gestaltung der robots.txt-Datei.

Damit Überprüfen Sie robots.txt Um die Richtigkeit der Syntax und Struktur der Datei zu überprüfen, können Sie einen der Online-Dienste nutzen. Beispielsweise bieten Yandex und Google ihre eigenen Website-Analysedienste für Webmaster an, darunter: robots.txt-Analyse:

Überprüfen Sie robotx.txt auf den Yandex-Suchroboter

Dies kann mit einem speziellen Tool von Yandex – Yandex.Webmaster – erfolgen, außerdem gibt es zwei Möglichkeiten.

Variante 1:

Dropdown-Liste oben rechts – auswählen Robots.txt-Analyse oder folgen Sie dem Link http://webmaster.yandex.ru/robots.xml

Vergessen Sie nicht, dass alle Änderungen, die Sie an der robots.txt-Datei vornehmen, nicht sofort, sondern erst nach einiger Zeit verfügbar sind.

Überprüfe robotx.txt auf den Google-Suchroboter

Wählen Sie in der Google Search Console Ihre Website aus, gehen Sie zum Inspektionstool und überprüfen Sie den Inhalt Ihrer robots.txt-Datei. Syntaktisch Und Rätsel Fehler darin werden hervorgehoben und ihre Nummer wird unter dem Bearbeitungsfenster angezeigt.
Geben Sie unten auf der Schnittstellenseite im entsprechenden Fenster die gewünschte URL an.
Wählen Sie im Dropdown-Menü auf der rechten Seite aus Roboter.
Drück den Knopf ÜBERPRÜFEN.
Der Status wird angezeigt VERFÜGBAR oder NICHT VERFÜGBAR. Im ersten Fall können Google-Robots an die von Ihnen angegebene Adresse gehen, im zweiten Fall jedoch nicht.
Nehmen Sie ggf. Änderungen im Menü vor und führen Sie den Test erneut durch. Aufmerksamkeit! Diese Korrekturen werden nicht automatisch zur robots.txt-Datei auf Ihrer Website hinzugefügt.
Kopieren Sie den geänderten Inhalt und fügen Sie ihn der robots.txt-Datei auf Ihrem Webserver hinzu.

Neben Verifizierungsdiensten von Yandex und Google gibt es noch viele weitere online robots.txt-Validatoren.

Robots.txt-Generatoren

Service von SEOlib.ru. Mit diesem Tool können Sie schnell die Einschränkungen in der Robots.txt-Datei abrufen und überprüfen.
Generator von pr-cy.ru. Als Ergebnis des Robots.txt-Generators erhalten Sie Text, der in einer Datei namens Robots.txt gespeichert und in das Stammverzeichnis Ihrer Website hochgeladen werden muss.

Suchroboter scannen alle Informationen im Internet, Websitebesitzer können jedoch den Zugriff auf ihre Ressource einschränken oder verweigern. Dazu müssen Sie die Indizierung der Site über die Dienstdatei robots.txt blockieren.

Wenn Sie die Site nicht vollständig schließen müssen, deaktivieren Sie die Indizierung einzelner Seiten. Benutzer sollten bei der Suche keine Servicebereiche der Website, persönliche Konten oder veraltete Informationen aus dem Werbebereich oder Kalender sehen. Darüber hinaus müssen Sie die Indizierung von Skripten, Popup-Fenstern und Bannern sowie umfangreichen Dateien blockieren. Dies trägt dazu bei, die Indizierungszeit zu verkürzen und die Belastung des Servers zu verringern.

So schließen Sie eine Site vollständig

Normalerweise ist die Ressource während oder vollständig von der Indizierung ausgeschlossen. Websites, auf denen Webmaster studieren oder Experimente durchführen, sind ebenfalls geschlossen.

Sie können die Site-Indizierung für alle Suchmaschinen, für einen einzelnen Robot oder für alle bis auf einen verbieten.

So schließen Sie einzelne Seiten

Auf kleinen Visitenkartenseiten ist es in der Regel nicht erforderlich, einzelne Seiten auszublenden. Für Ressourcen mit vielen offiziellen Informationen schließen Sie Seiten und ganze Abschnitte:

Verwaltungsgremium;
Serviceverzeichnisse;
persönliches Büro;
Anmeldeformulare;
Bestellformulare;
Produktvergleich;
Favoriten;
Korb;
Captcha;
Pop-ups und Banner;
Suche auf der Website;
Sitzungskennungen.

Es empfiehlt sich, die Indizierung der sogenannten zu verbieten. Müllseiten. Dabei handelt es sich um alte Neuigkeiten, Aktionen und Sonderangebote, Veranstaltungen und Kalenderereignisse. Schließen Sie auf Informationsseiten Artikel mit veralteten Informationen. Andernfalls wird die Ressource als irrelevant wahrgenommen. Um Artikel und Materialien nicht zu schließen, aktualisieren Sie regelmäßig die darin enthaltenen Daten.

Verbot der Indizierung

So verbergen Sie andere Informationen

Mit der Datei robots.txt können Sie Ordner auf der Site, Dateien, Skripte und UTM-Tags schließen. Sie können vollständig oder selektiv ausgeblendet werden. Geben Sie ein Indexierungsverbot für alle Roboter oder einzelne Roboter an.

Verbot der Indizierung

So schließen Sie eine Site mithilfe von Meta-Tags

Eine Alternative zur robots.txt-Datei ist das robots-Meta-Tag. Schreiben Sie es in den Quellcode der Site in die Datei index.html. In einen Behälter geben . Geben Sie an, für welche Crawler die Website nicht indiziert ist. Wenn es für alle gilt, schreiben Sie Roboter. Wenn es sich um einen Roboter handelt, geben Sie dessen Namen an. Für Google – Googlebot, für Yandex – Yandex. Es gibt zwei Möglichkeiten, einen Meta-Tag zu schreiben.

Variante 1.

Option 2.

Das Attribut „Inhalt“ hat folgende Bedeutung:

none – die Indizierung ist verboten, einschließlich noindex und nofollow;
noindex – Inhaltsindizierung ist verboten;
nofollow – die Indizierung von Links ist verboten;
folgen – die Indizierung von Links ist erlaubt;
index – Indizierung ist erlaubt;
alle – die Indizierung von Inhalten und Links ist erlaubt.

Auf diese Weise können Sie die Indexierung von Inhalten verhindern, aber dennoch Links zulassen. Geben Sie dazu content=“noindex, follow“ an. Auf einer solchen Seite werden Links indiziert, Text jedoch nicht. Verwenden Sie Wertekombinationen für verschiedene Fälle.

Wenn Sie die Indexierung Ihrer Website über Meta-Tags blockieren, müssen Sie robots.txt nicht separat erstellen.

Welche Fehler gibt es?

Rätsel- wenn die Regeln einander widersprechen. Identifizieren Sie logische Fehler, indem Sie die robots.txt-Datei im Yandex.Webmaster und im Google Robots Testing Tool überprüfen.

Syntaktisch- wenn die Regeln in der Datei falsch geschrieben sind.

Zu den häufigsten gehören:

Eingabe ohne Berücksichtigung der Groß- und Kleinschreibung;
in Großbuchstaben geschrieben;
Auflistung aller Regeln in einer Zeile;
keine Leerzeile zwischen den Regeln;
Angabe des Crawlers in der Direktive;
Auflisten eines Satzes, anstatt einen gesamten Abschnitt oder Ordner zu schließen;
Fehlen einer verbindlichen Verbotsrichtlinie.

Krippe

Um die Site-Indizierung zu blockieren, verwenden Sie zwei Optionen. Erstellen Sie eine robots.txt-Datei und geben Sie eine Disallow-Anweisung für alle Crawler an. Eine andere Möglichkeit besteht darin, einen Bann über das Robots-Meta-Tag in der Datei index.html innerhalb des Tags hinzuzufügen.

Schließen Sie Serviceinformationen, veraltete Daten, Skripte, Sitzungen und UTM-Tags. Erstellen Sie für jedes Verbot eine separate Regel. Blockieren Sie alle Suchroboter mit * oder geben Sie den Namen eines bestimmten Crawlers an. Wenn Sie nur einen Roboter zulassen möchten, schreiben Sie die Regel mit „Disallow“.

Vermeiden Sie beim Erstellen einer robots.txt-Datei Boolesche und Syntaxfehler. Überprüfen Sie die Datei mit Yandex.Webmaster und dem Google Robots Testing Tool.

Das Material wurde von Svetlana Sirvida-Llorente vorbereitet.

In diesem Artikel geht es um die praktische Verwendung der robots.txt-Datei im Zusammenhang mit dem Entfernen unnötiger Seiten aus . Welche Seiten gelöscht werden sollen, wie man danach sucht und wie man sicherstellt, dass nützliche Inhalte nicht blockiert werden. Im Wesentlichen geht es in dem Artikel um die Verwendung nur einer Direktive – Disallow. Umfassende Anweisungen zur Verwendung der Robots-Datei und anderer Anweisungen in der Yandex-Hilfe.

In den meisten Fällen schließen wir unnötige Seiten für alle Suchroboter, das heißt, wir legen Verbotsregeln für User-Agent fest: *.

User-Agent: *
Nicht zulassen: /cgi-bin

Was sollte von der Indizierung ausgeschlossen werden?

Mithilfe der Disallow-Anweisung in der robots.txt-Datei müssen Sie Folgendes von der Indizierung durch Such-Bots blockieren:

Anmeldeseiten zum CMS-Admin-Panel;
Nicht zulassen: /bitrix
Nicht zulassen: /login
Nicht zulassen: /admin
Nicht zulassen: /administrator
Nicht zulassen: /wp-admin
Seiten mit Sitzungsindikatoren;
Nicht zulassen: *session _id =
Druckversionen und andere Seiten der Website (Feed, RSS, Print);
Seiten mit verschiedenen Sortier- und Filterfunktionen, wenn sie nicht über eine vollwertige verfügen. Optimierung bedeutet, eigene, einzigartige Überschriften und Bilder auf der Seite zu haben;
Seiten mit Site-Suchergebnissen.

Wie suche ich nach Seiten, die von der Indexierung ausgeschlossen werden müssen?

ComparseR

Scannen Sie die Site und erstellen Sie rechts im Reiter „Struktur“ einen Site-Baum:

Alle verschachtelten „Zweige“ des Baums anzeigen.

Erhalten Sie Seiten in den Registerkarten „Yandex“ und „Google“ im Suchmaschinenindex. Sehen Sie sich dann in den Scan-Statistiken „In Yandex gefunden, nicht auf der Website gefunden“ und „In Google gefunden, nicht auf der Website gefunden“ an.

Yandex.Webmaster

Sehen Sie sich im Abschnitt „Indizierung“ – „Site-Struktur“ alle „Zweige“ der Struktur an.

Stellen Sie sicher, dass nützliche Inhalte nicht versehentlich blockiert wurden

robots.txt

Sehen Sie sich den Inhalt der robots.txt-Datei an.

Vergleicher (auf Schließen mit Robots-Meta-Tag prüfen)

Deaktivieren Sie in den Comparser-Einstellungen vor dem Scannen Folgendes:

Analysieren Sie rechts die Scan-Ergebnisse:

Search Console (Überprüfung nützlicher blockierter Ressourcen)

Es ist wichtig sicherzustellen, dass der Googlebot Zugriff auf die Stylesheet-Dateien und Bilder hat, die zum Rendern von Seiten verwendet werden. Dazu müssen Sie Seiten gezielt mit dem Tool „View Like Googlebot“ crawlen, indem Sie auf die Schaltfläche „Get and Display“ klicken. Die resultierenden beiden Bilder „So hat Googlebot diese Seite gesehen“ und „So sieht ein Website-Besucher diese Seite“ sollten fast gleich aussehen. Beispiel einer Problemseite:

In der folgenden Tabelle können Sie die blockierten Teile der Seite sehen:

Weitere Informationen zu Scanergebnissen finden Sie in der Konsolenhilfe. Alle blockierten Ressourcen müssen in der robots.txt-Datei mithilfe der Allow-Anweisung entsperrt werden (das Entsperren nur externer Ressourcen funktioniert nicht). In diesem Fall müssen Sie nur die erforderlichen Ressourcen präzise freischalten. Im obigen Beispiel wird dem Google-Bot der Zugriff auf den Ordner verweigert /templates/, ist aber für einige Dateitypen in diesem Ordner geöffnet:

Benutzeragent: Googlebot
Zulassen: /templates/*.css
Zulassen: /templates/*.js
Zulassen: /templates/*.png
Zulassen: /templates/*.jpg
Erlauben: /templates/*.woff
Erlauben: /templates/*.ttf
Zulassen: /templates/*.svg
Nicht zulassen: /templates/