Wie man eine robots.txt
-Datei einrichtet, um nur Zugriff auf die Startseite zu erlauben
Wenn Sie jemals eine Website besessen haben, wissen Sie, wie wichtig es ist, bestimmte Teile davon vor Web-Crawlern und Bots verborgen zu halten. In diesem Beitrag werden wir eine häufige Frage behandeln: Wie können Sie eine robots.txt
-Datei konfigurieren, um nur die Standard-Startseite Ihrer Website zuzulassen und alles andere zu blockieren?
Verständnis von robots.txt
Eine robots.txt
-Datei ist ein Standard, den Websites verwenden, um mit Web-Crawlern und Bots zu kommunizieren. Sie ermöglicht es Ihnen, festzulegen, welche Teile Ihrer Website von Suchmaschinen wie Google, Bing und Yahoo durchsucht und indexiert werden sollen und welche Teile unzugänglich bleiben sollen.
Warum robots.txt
verwenden?
- Zugriff kontrollieren: Verhindern Sie, dass Web-Crawler auf unwichtige Seiten zugreifen.
- SEO verbessern: Verbessern Sie die Suchmaschinenleistung Ihrer Website, indem Sie steuern, was indexiert wird.
- Inhalte schützen: Halten Sie sensible oder unnötige Inhalte von öffentlicher Sicht fern.
In diesem Tutorial konzentrieren wir uns besonders darauf, wie Sie sicherstellen können, dass nur Ihre Startseite für Crawler zugänglich ist, während andere Seiten und ihre entsprechenden Abfragezeichenfolgen blockiert werden.
Ihre robots.txt
-Datei einrichten
Um nur Ihre Startseite zuzulassen und alle anderen URLs zu blockieren, sollten Sie eine bestimmte Regelmenge in Ihrer robots.txt
-Datei verwenden. So könnte dieser Code aussehen:
User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$
Aufschlüsselung des Codes
-
User-Agent: *
- Diese Zeile spezifiziert, dass die Regeln für alle Web-Crawler gelten. Das Sternchen (*) ist ein Platzhalter-Symbol.
-
Disallow: /*
- Diese Zeile sagt den Crawlern, dass der Zugriff auf alle Seiten Ihrer Website blockiert werden soll.
-
Allow: /?okparam=
- Diese Zeile erlaubt es den Crawlern, auf die Startseite zuzugreifen, wenn die Abfragezeichenfolge
okparam=true
enthält.
- Diese Zeile erlaubt es den Crawlern, auf die Startseite zuzugreifen, wenn die Abfragezeichenfolge
-
Allow: /$
- Das Dollarzeichen ($) kennzeichnet das Ende der URL, was bedeutet, dass die Startseite (
http://example.com
oderhttp://example.com/
) indexiert werden darf.
- Das Dollarzeichen ($) kennzeichnet das Ende der URL, was bedeutet, dass die Startseite (
Beispiel-URLs
-
Erlaubt:
http://example.com
http://example.com/?okparam=true
-
Blockiert:
http://example.com/anything
http://example.com/someendpoint.aspx
http://example.com?anythingbutokparam=true
Ihre robots.txt
-Datei speichern
- Erstellen Sie eine Textdatei mit dem Namen
robots.txt
. - Kopieren Sie den oben angegebenen Code und fügen Sie ihn in die Textdatei ein.
- Laden Sie diese Datei in das Stammverzeichnis Ihrer Website hoch.
Testen Ihrer robots.txt
-Datei
Nachdem Sie Ihre robots.txt
-Datei hochgeladen haben, ist es entscheidend, sie zu testen, um sicherzustellen, dass alles wie gewünscht funktioniert.
- Verwenden Sie Tools wie die Google Search Console, um zu sehen, wie die
robots.txt
-Datei Ihrer Website von Googlebot interpretiert wird. - Nehmen Sie Anpassungen vor, wenn nötig, basierend auf dem Testergebnis.
Fazit
Die korrekte Einrichtung einer robots.txt
-Datei ist entscheidend für die Verwaltung, welche Teile Ihrer Website von Suchmaschinen indexiert werden. Indem Sie die oben skizzierten Schritte befolgen, erlauben Sie erfolgreich Web-Crawlern, nur auf Ihre Startseite zuzugreifen, während alle anderen Seiten effektiv blockiert werden. Mit dieser Kontrolle können Sie die SEO-Strategie Ihrer Website verbessern und Inhalte schützen, die für die öffentliche Indizierung nicht relevant sind.
Durch die Implementierung dieser einfachen Lösung können Sie die Sichtbarkeit Ihrer Website im Internet effizient verwalten. Viel Spaß beim Crawlen!