+ Antworten
Ergebnis 1 bis 4 von 4

Thema: Robots von bestimmten Seiten fernhalten

  1. #1
    TP-Lady-Mod dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User
    Registriert seit
    Jan 2006
    Ort
    Rlp
    Beiträge
    6.886

    Question Robots von bestimmten Seiten fernhalten

    Hallöle,

    ich möchte das die Robots bestimmte Seiten wie "Suche", "Login" etc. pp. nicht spidern.

    Nun hab ich schon gelesen wie man Bilderordner und dergleichen ausklammern kann und das so eine robots.txt immer in die unterste Ebene der Domain gehört... aber ob ich es richtig gemacht habe weiss ich nicht. Die Robost wuseln immer noch bei advanced_search_result.php und login.php und dergleichen rum.

    Ein Shop liegt in folgendem Ordner: root/abc/
    Ein zweiter dort: root/xyz/
    Und einer im Root direkt.

    Für den User angezeigt werden die Shops natürlich ganz normal unter ihrer jeweiligen Domain.

    Die robots.txt gehört immer in den Root, also benötigt man auch für mehrere Domains/Shops nur eine einzige. Ist das korrekt?

    Wie muss ein Eintrag korrekt aussehen?
    Bspw. so?

    Disallow: /abc/login.php - Um eben die Login-Seite in diesem Shop auszuklammern.

    oder so?

    Disallow: /abc/http://www.abc.de/login.php

    Oder ganz anders?

    Meine robots.txt fängt so an:

    User-agent: *
    Disallow: /admin/
    Disallow: /temp/
    Disallow: /cache/
    Disallow: /privat/
    Disallow: /logs/
    Disallow: /tmp/
    Disallow: /images/
    Disallow: /logs/
    Disallow: /ebay/
    usw.

    Und ab wann beachten die Robost so eine Änderung? Muss man sich da in Geduld üben?

    Vielen Dank für eure Hilfe!

    Gruß
    dori
    Geändert von dorintia (27.06.2010 um 13:21 Uhr)
    Alles was ich hier so schreibe ist nur meine ganz persönliche Meinung.

  2. #2
    TP-Moderator fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User Avatar von fuchzga
    Registriert seit
    Nov 2007
    Ort
    München
    Beiträge
    1.835
    Hey dori,

    Zitat Zitat von dorintia Beitrag anzeigen
    ...das so eine robots.txt immer in die unterste Ebene der Domain gehört...
    Nein, immer in die oberste Ebene.
    Wobei das sicher Definitionssache ist. Die oberste Ebene ist das root-Verzeichnis deiner Webseite.
    Auf dem Webserver nennt man dies DocumentRoot
    Dies kann sich von deinem FTP-Root unterscheiden.

    Anscheinend ist das bei dir der Fall, denn:

    Zitat Zitat von dorintia Beitrag anzeigen
    Ein Shop liegt in folgendem Ordner: root/abc/
    Ein zweiter dort: root/xyz/
    Und einer im Root direkt.

    Für den User angezeigt werden die Shops natürlich ganz normal unter ihrer jeweiligen Domain.
    Jede Domain hat ihr eigenes DocumentRoot.
    Der Suchmaschinen-Robot ist auch nur ein "Besucher". Er ruft die Startseite auf, und hangelt sich durch die Links und Objekte auf deiner Webseite.

    Zitat Zitat von dorintia Beitrag anzeigen
    Die robots.txt gehört immer in den Root, also benötigt man auch für mehrere Domains/Shops nur eine einzige. Ist das korrekt?
    Falsch, jede Domain braucht eine robots.txt.

    Zitat Zitat von dorintia Beitrag anzeigen
    Wie muss ein Eintrag korrekt aussehen?
    Ich bediene mich mal in deinem Beispiel:
    Code:
    User-agent: *
    Disallow: /admin/
    Disallow: /temp/
    Disallow: /cache/
    Disallow: /privat/
    Disallow: /logs/
    Disallow: /tmp/
    Disallow: /images/
    Disallow: /logs/
    Disallow: /ebay/
    Disallow: /abc/login.php
    Immer erst den User-agent benennen, für den der nachfolgende Block gültig ist.
    Du kannst ganze Verzeichnisse und auch einzelne Dateien vor dem Spider sperren lassen.
    Wobei mir nicht klar ist, warum die login.php geblockt werden soll.... Der Spider sieht nur den generierten HTML-Code.

    Eine sehr schöne Zusammenfassung hab ich hier gefunden: http://www.at-web.de/grundlagen/robots-txt.htm

    Beste Grüsse.
    »Man sollte alles so einfach wie möglich sehen - aber auch nicht einfacher.«
    -Albert E.

  3. #3
    TP-Lady-Mod dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User dorintia lebt für das TP und seine User
    Registriert seit
    Jan 2006
    Ort
    Rlp
    Beiträge
    6.886
    Ok... unterste Ebene, oberste Ebene... ich sehe wir meinen das Gleiche.

    Mal ein konkretes Beispiel:

    Disallow: login.php
    Disallow: /abc/login.php

    Eintrag 1 hält die robots von der login.php fern die eben ganz normal im Root steht. Eintrag 2 hält die robots von der login.php fern die eben im Ordner abc steht. Dabei interessiert es dann den Robot wenig ob diese bspw. unter [nourl:-)]www.abc.de/login.php[/nourl:-)] zu finden ist. Ist das korrekt?

    Aber ... wenn Robots den Links auf der Website folgen, folgen sie dann trotzdem dem Link zur Login-Seite der Website?

    Und wie ist das bspw. wenn der Aufruf der AGB bei mir so aussieht: [nourl:-)]http://www.abc.de/info/allgemeine-geschaeftsbedingungen.html[/nourl:-)]

    Wie halte ich bspw. (Sinn oder Unsinn sei jetzt mal dahingestellt) robots davon fern? Die Struktur und Benennung auf dem Server sieht ja völlig anders aus...

    Ich will es einfach verstehen... "sieht" der Robot eher die Struktur auf dem Server oder die, die auch der normale Browsernutzer zu sehen bekommt? Oder beides? Der Nutzer bekommt ja bei mir kein /abc/login.php zu sehen, sondern [nourl:-)]www.abc.de/login.php[/nourl:-)].

    Und wie nun "jede Domain braucht eine eigene robots.txt"? Ich hatt das eigentlich so verstanden das ich mir eine so: /abc/robots.txt sparen kann, weil die nicht gelesen wird.

    Konkrete Beispiele wie das nun ist wenn man 3 verschiedene Seiten/Shops auf einem Webspace hat hab ich leider nicht gefunden.
    Alles was ich hier so schreibe ist nur meine ganz persönliche Meinung.

  4. #4
    TP-Moderator fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User fuchzga lebt für das TP und seine User Avatar von fuchzga
    Registriert seit
    Nov 2007
    Ort
    München
    Beiträge
    1.835
    Es müsste so heissen:

    Disallow: /login.php

    Also immer mit Pfadangabe. Wenn die Datei im Root liegt, dann dort auch Pfad angeben.

    Aber ... wenn Robots den Links auf der Website folgen, folgen sie dann trotzdem dem Link zur Login-Seite der Website?
    Gute Frage. Ich behaupte mal, dass sie trotzdem dem Link folgen. Ich kann es aber gerade nicht revalidieren..

    Zitat: http://www.at-web.de/grundlagen/robots-txt.htm
    Es gibt zwei Arten, den Crawlern mitzuteilen, in welcher Art der zugriff auf Dateien gestattet wird. Auf Dateiebene lässt sich besser realisieren, dass eine Seite nicht in den Index von Suchmaschinen gelangt. Dann sollte man mit "noindex" per robots Meta-Tags im Datei-Header verwalten. Für eine gesamte Webpräsenz ist die zentrale Datei robots.txt ein effizienteres Werkzeug. Allerdings, können ausgeschlossene Seiten dennoch im Index erscheinen, solange andere Seiten einen Link gesetzt haben. Dann kann die URL und der Verweistext von der verweisenden Seite ausgelesen und in den Resultaten der Suchmaschine (speziell Google) angezeigt werden, ob wohl die Datei selbst vom indexieren über die robots.txt ausgeschlossen ist.
    »Man sollte alles so einfach wie möglich sehen - aber auch nicht einfacher.«
    -Albert E.

+ Antworten

Ähnliche Themen

  1. Junk Robots
    Von designfanatiker im Forum Einfach so ...
    Antworten: 1
    Letzter Beitrag: 18.05.2006, 14:10
  2. robots.txt disallo, allow
    Von Parisienne im Forum SEO
    Antworten: 2
    Letzter Beitrag: 31.08.2004, 11:32
  3. Moeglichkeit der Kennwortabrage um Zugang zu bestimmten Seiten zu bekommen?
    Von danibau im Forum Dreamweaver & andere Webeditoren
    Antworten: 4
    Letzter Beitrag: 19.02.2004, 19:42
  4. Robots.txt
    Von bewusstwerdung im Forum HTML & CSS
    Antworten: 2
    Letzter Beitrag: 03.08.2003, 10:33
  5. robots.txt erklären
    Von Paco im Forum SEO
    Antworten: 8
    Letzter Beitrag: 22.04.2003, 20:21

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

     

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51