im anhang ein robots.txt mit einer sammlung der bösen...
Hallo Leute,
ich habe mir dann auch mal eine robots.txt angelegt. So weit so gut![]()
Gibt es eine Liste von "bösen"Spidern, die man ausschliessen sollte? Im Netz finde ich nur grundsätzliche Infos zum Aufbau der robots.txt
Meine zweite Frage ist, ob die Syntax so korrekt wäre, wenn ich dann einzelne Spider ausschliessen möchte:
Vielen Dank und GrussCode:User-agent: * Disallow: /folder1/ Disallow: /folder2/ User-agent: Inktomi Slurp Disallow: / User-agent: BaiDuSpider Disallow: /
Sandra
im anhang ein robots.txt mit einer sammlung der bösen...
Geändert von matthias (27.04.2005 um 15:08 Uhr)
Mal ne dumme Frage ...
Was tun die bösen Spider ?
email-adressen klauen, z.b...Zitat von Nele
GCM d- s: a-- C++$ UL P L+ E--- W++ N o? K- w+ !O !M !V PS+ PE Y PGP- t+ 5? X R- tv- b- DI- !D G e h! r++ z?
ist der Matthias wieder schnell
ich verweise mal (ausnahmsweise) auf diesen Thread in einem SEO-Forum
Böse Spider mittels robot.txt ausschliessen? IMO ignorieren böse Spider die robot.txt einfach, da diese ja lediglich einen Wunsch des Sitebetreibers an den Spider ausdrückt.
Gruß ...
wys
Hallo Matthias,
das ging aber schnell, super, Danke!![]()
Gibt es auch noch eine Informationsquelle, wo neue "pöse" Spider aktualisiert werden? Ich denke, die Liste wächst genau so schnelle wie die Antivirendateien![]()
@Thomas
Der Thread verwirrt mich, ich werde ihn aber mal bookmarken, vielleicht kommt ja noch die Erleuchtung![]()
Vielen Dank und Gruss
Sandra
hier ein paar links mit spider listen - nicht nur böse!
http://www.psychedelix.com/agents.html
http://www.robotstxt.org/wc/active/html/index.html
http://support.free-conversant.com/2701
Zitat von BuboBubo
und genau deswegen arbeiten die Leute statt mit der robots.txt lieber mit der .htaccessZitat von wys
per .htaccess kannst du wirklich effizient den Zugriff verweigern, während du bei der Lösung per robots.txt darauf hoffen musst, dass die "pösen Spider" deine robots.txt überhaupt lesen und akzeptieren
Okay,
ich hab mir nun eine .htaccess generieren lassen bei Spamdatenbank
Sollte man die robots.txt zusätzlich pflegen, getreu dem Motto "doppelt hält besser" oder reicht in diesem FAll eine einfache robots.txt aus?
Ist es ausreichend, die .htaccess einmal wöchentlich zu aktualisieren?Code:User-agent: * Disallow: /folder1/ Disallow: /folder2/
Vielen Dank nochmal,
Sandra
P.S. Mann, mann, mann.... wenn man einmal anfängt mit Webdesign..... jeden Tag ein neuer "Abgrund"![]()
Nochmal: Eine "robots.txt" muß ein Spider nicht beachten. An einer .htaccess hingegen kommt er nicht vorbei.Zitat von BuboBubo
Wenn Du über .htaccess vorgehst kannste Dir die robots.txt im Grunde einfach sparen.
Die eigentliche Frage ist, wie wichtig Dir der Ausschluss bestimmter Spider ist. Ist es nicht so wichtig, reicht IMO eine robots.txt. Willst Du aber die "bösen Spider" aussperren, vergiss die robots.txt einfach und mach es per .htaccess.
Ja, so is dat haltZitat von BuboBubo
![]()
Gruß ...
wys
da htaccess vorrang hat und die einzig halbwegs vernuenftige loesung bietet, kann man es dabei im grunde belassen. wie gesagt, robots.txt interessiert sowieso keinen, der es nur darauf angelegt hat, schaden zu verursachen.
in eile kam er,
in schwarzem gewand,
aus den tiefen des waldes,
ein einsamer mann, ein geschoepf der freiheit,
ein geschoepf ohne furcht,
doch alle nannten sie ihn nur T O D
So isses und das meinte ich auch gesagt zu haben.Zitat von HoRnominatoR
@HoRnominatoR
Was meinst Du mit "die einzig halbwegs vernuenftige loesung "? Gibt es Spider, die an einer .htaccess vorbei kommen? Wäre dankbar für Aufklärung.
Gruß ...
wys
Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)