| Author |
Message |
Roos
Junior Support


Joined: Jan 14, 2005
Posts: 224
|
Posted:
Sun 04 Dec 2005 2:39 |
|
Was het maar zo simpel dat de oplossing voor elk probleem opgeschreven stond in readme.txt. Als je goed gekeken had, had je gezien dat Mozes en BlueLion ook niet direkt een oplossing weten... |
|
|
|
 |
Mozes
MOD, gepensioneerd


Joined: Aug 27, 2004
Posts: 263
|
Posted:
Mon 05 Dec 2005 23:18 |
|
1 ding is zeker.
je site word goed opgepikt door de zoek machines
Dom dat ik er niet eerder aan dacht.
maar daar is de robot.txt voor om dergelijke bots te weren.
FAQ: http://www.robotstxt.org/wc/faq.html
Voorbeeld van een robot.txt (zelf gebruik een enorm lange lijst, Ik weer ook zoekmachines)
Voorbeeld robots.txt tekst;
| Code: |
User-agent:*
Disallow: http://www.google.com/bot.html
Disallow: http://help.yahoo.com/help/us/ysearch/slurp
Disallow: /account.php
Disallow: /index.php
Disallow: /admin.php |
op die manier kan je het helemaal uitbreiden..
waterdicht is het natuurlijk niet.
alhoewel ik er heel goede resultaten mee behaal.
slechts heel af en toe komt er weer een bot in de lijst voor.
en dat zijn dan weer nieuwe type bots.
toevoegen aan de robot.txt dan ook weer die weert van je site..
je kan je robot.txt testen via de volgende site
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
//Edit ik kwam zojuist deze lange lijst tegen
Kan nooit kwaad om ook deze erin te plaatsen
| Code: |
User-agent: BotRightHere
Disallow: /
User-agent: WebZip
Disallow: /
User-agent: larbin
Disallow: /
User-agent: b2w/0.1
Disallow: /
User-agent: Copernic
Disallow: /
User-agent: psbot
Disallow: /
User-agent: Python-urllib
Disallow: /
User-agent: NetMechanic
Disallow: /
User-agent: URL_Spider_Pro
Disallow: /
User-agent: CherryPicker
Disallow: /
User-agent: EmailCollector
Disallow: /
User-agent: EmailSiphon
Disallow: /
User-agent: WebBandit
Disallow: /
User-agent: EmailWolf
Disallow: /
User-agent: ExtractorPro
Disallow: /
User-agent: CopyRightCheck
Disallow: /
User-agent: Crescent
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: ProWebWalker
Disallow: /
User-agent: CheeseBot
Disallow: /
User-agent: LNSpiderguy
Disallow: /
User-agent: Alexibot
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: MIIxpc
Disallow: /
User-agent: Telesoft
Disallow: /
User-agent: Website Quester
Disallow: /
User-agent: WebZip
Disallow: /
User-agent: moget/2.1
Disallow: /
User-agent: WebZip/4.0
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebSauger
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: NetAnts
Disallow: /
User-agent: Mister PiX
Disallow: /
User-agent: WebAuto
Disallow: /
User-agent: TheNomad
Disallow: /
User-agent: WWW-Collector-E
Disallow: /
User-agent: RMA
Disallow: /
User-agent: libWeb/clsHTTP
Disallow: /
User-agent: asterias
Disallow: /
User-agent: httplib
Disallow: /
User-agent: turingos
Disallow: /
User-agent: spanner
Disallow: /
User-agent: InfoNaviRobot
Disallow: /
User-agent: Harvest/1.5
Disallow: /
User-agent: Bullseye/1.0
Disallow: /
User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /
User-agent: CherryPickerSE/1.0
Disallow: /
User-agent: CherryPickerElite/1.0
Disallow: /
User-agent: WebBandit/3.50
Disallow: /
User-agent: NICErsPRO
Disallow: /
User-agent: Microsoft URL Control - 5.01.4511
Disallow: /
User-agent: DittoSpyder
Disallow: /
User-agent: Foobot
Disallow: /
User-agent: SpankBot
Disallow: /
User-agent: BotALot
Disallow: /
User-agent: lwp-trivial/1.34
Disallow: /
User-agent: lwp-trivial
Disallow: /
User-agent: BunnySlippers
Disallow: /
User-agent: Microsoft URL Control - 6.00.8169
Disallow: /
User-agent: URLy Warning
Disallow: /
User-agent: Wget/1.6
Disallow: /
User-agent: Wget/1.5.3
Disallow: /
User-agent: Wget
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: cosmos
Disallow: /
User-agent: moget
Disallow: /
User-agent: hloader
Disallow: /
User-agent: humanlinks
Disallow: /
User-agent: LinkextractorPro
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Mata Hari
Disallow: /
User-agent: LexiBot
Disallow: /
User-agent: Web Image Collector
Disallow: /
User-agent: The Intraformant
Disallow: /
User-agent: True_Robot/1.0
Disallow: /
User-agent: True_Robot
Disallow: /
User-agent: BlowFish/1.0
Disallow: /
User-agent: JennyBot
Disallow: /
User-agent: MIIxpc/4.2
Disallow: /
User-agent: BuiltBotTough
Disallow: /
User-agent: ProPowerBot/2.14
Disallow: /
User-agent: BackDoorBot/1.0
Disallow: /
User-agent: toCrawl/UrlDispatcher
Disallow: /
User-agent: WebEnhancer
Disallow: /
User-agent: suzuran
Disallow: /
User-agent: TightTwatBot
Disallow: /
User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /
User-agent: VCI
Disallow: /
User-agent: Szukacz/1.4
Disallow: /
User-agent: QueryN Metasearch
Disallow: /
User-agent: Openfind data gatherer
Disallow: /
User-agent: Openfind
Disallow: /
User-agent: Xenu's Link Sleuth 1.1c
Disallow: /
User-agent: Xenu's
Disallow: /
User-agent: Zeus
Disallow: /
User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /
User-agent: RepoMonkey
Disallow: /
User-agent: Microsoft URL Control
Disallow: /
User-agent: Openbot
Disallow: /
User-agent: URL Control
Disallow: /
User-agent: Zeus Link Scout
Disallow: /
User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /
User-agent: Webster Pro
Disallow: /
User-agent: EroCrawler
Disallow: /
User-agent: LinkScan/8.1a Unix
Disallow: /
User-agent: Keyword Density/0.9
Disallow: /
User-agent: Kenjin Spider
Disallow: /
User-agent: Iron33/1.0.2
Disallow: /
User-agent: Bookmark search tool
Disallow: /
User-agent: GetRight/4.2
Disallow: /
User-agent: FairAd Client
Disallow: /
User-agent: Gaisbot
Disallow: /
User-agent: Aqua_Products
Disallow: /
User-agent: Radiation Retriever 1.1
Disallow: /
User-agent: Flaming AttackBot
Disallow: /
User-agent: Oracle Ultra Search
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: PerMan
Disallow: /
User-agent: searchpreview
Disallow: /
User-agent: TurnitinBot
Disallow: /
User-agent: wget
Disallow: /
User-agent: ExtractorPro
Disallow: /
User-agent: WebZIP/4.21
Disallow: /
User-agent: WebZIP/5.0
Disallow: /
User-agent: HTTrack 3.0
Disallow: /
User-agent: TurnitinBot/1.5
Disallow: /
User-agent: WebCopier v3.2a
Disallow: /
User-agent: WebCapture 2.0
Disallow: /
User-agent: WebCopier v.2.2
Disallow: / |
|
|
|
|
 |
Roos
Junior Support


Joined: Jan 14, 2005
Posts: 224
|
Posted:
Tue 06 Dec 2005 7:30 |
|
Goeie tip, Mozes. Ik heb de lange lijst erachter geplakt in robots.txt. Het schijnt alleen nog niet te helpen, want de bots gaan onverminderd door.. |
|
|
|
 |
Mozes
MOD, gepensioneerd


Joined: Aug 27, 2004
Posts: 263
|
Posted:
Tue 06 Dec 2005 8:49 |
|
Verander
Disallow: http://www.google.com/bot.html
Disallow: http://help.yahoo.com/help/us/ysearch/slurp
dat eens naar
User-agent: Googlebot
Disallow: /
User-agent: Mozilla/5.0
Disallow: /
//edit... zet er dit ook eens bij.
helemaal als laatste.
Disallow: /
Ps.
Maak de list in MS eens leeg.
zodat je goed kan zien welke er nog steeds doorkomen.
als ik zo kijk is het aantal hits niet meer toegenomen.
ps.
je hebt robots.txt toch wel in de root van je server staan?
Nog een edit Lol..
ik zie dat je het goed hebt staan roos..
maar je weert bv niet msnbot, bot, Mozilla/5.0, Googlebot, NOSPAMexperimental,
voeg ze toe aan de lijst, is helaas wel een shit klusje..  |
|
|
|
 |
Roos
Junior Support


Joined: Jan 14, 2005
Posts: 224
|
Posted:
Mon 12 Dec 2005 0:12 |
|
Ik heb de lijst uitgebreid met de bots die jij noemt, Mozes, maar helaas, het maakt geen verschil. Dezelfde referals worden er gewoon weer bijgezet.
Het aantal hits is dus wel toegenomen, en niet zo'n beetje ook, sinds Protector eraf is, komen er echt duizenden hits extra per dag bij en dat vind ik niet leuk. Als dit nu allemaal echte bezoekers warean, dan had je mij niet horen klagen. Maar nee, die bots kunnen me gestolen worden. Ik hoop toch dat iemand me nog op weg kan helpen met de installatie van Sentinel...
De lijst van referers in MS schoon ik dagelijks op, ik wil niet meer dan 35 referers erin hebben staan om nog een beetje overzicht te houden op wat er bij komt.
Veel van de refers zijn startpaginadochters die ik beheer en die verwijder ik natuurlijk niet, want de plaatsing daarvan in de refers is goed voor de Google-ranking, hoe meer m'n startpagina's gelinkt worden en overal vermeld, hoe hoger de Google-positie (en die is erg hoog, ik bezet meestal de 1e of 2e plaats, in ieder geval altijd de eerste bladzijde) |
|
|
|
 |
BlueLion
Administrator


Joined: Aug 21, 2004
Posts: 2837
|
Posted:
Mon 12 Dec 2005 0:34 |
|
Even een resumé Roos. Jouw site wordt geindexeerd door verschillende Bots. Waaronder ook die van oa Google. Die bots maken een soort kopietje/foto van jouw pagina's. Wat een dataoverdracht genereerd van 1-10kb. Wil je dit niet meer? Of beperkt?
Welke bots horen er volgens jouw niet thuis?
Welke bots mogen wel blijven komen?
Wil je wel geindexeerd blijven worden?
Ben je niet in de war met bots en referals? Een referal is iemand die via een link op een andere site bij jouw terecht komt.
BL |
|
|
|
 |
Roos
Junior Support


Joined: Jan 14, 2005
Posts: 224
|
Posted:
Mon 12 Dec 2005 0:42 |
|
Ik weet natuurlijk wat referals zijn, maar denk ik het even verwarde met de bots.
UIteraard wil ik geindexeerd blijven worden, ben alleen maar blij dat m'n site zo goed gevonden wordt door de diverse zoekmachines. Ik heb een hostingpakket met een datalimiet tot 8 Gig per maand, en zit daar nog lang niet overheen (tot nu toe is het verbruik ik dacht iets van 4 Gig), maar ik ben wel bang dat dit blijft stijgen als er meer een meer bots bij blijven komen zodat ik uiteindelijk bij moet gaan betalen, want dat is niet de bedoeling.
Maar waar het mij nu eigenlijk om gaat is dat er meerdere keren per minuut, duizenden keren per dag refers worden toegevoegd aan de statistieken, en die wil ik niet in hebben staan. Ze zitten constant in m'n MS Analysis, dit kon ik in Protector grotendeels voorkomen door bepaalde woorden in het filter te stoppen. Nu gaat dat dus niet meer. Ik dacht dat door robots.txt uit te breiden, het ook zou stoppen of verminderen, maar hiermee blijkt dus mijn verwarring, want dit is dus niet zo. |
|
|
|
 |
BlueLion
Administrator


Joined: Aug 21, 2004
Posts: 2837
|
Posted:
Mon 12 Dec 2005 0:50 |
|
|
|
 |
Roos
Junior Support


Joined: Jan 14, 2005
Posts: 224
|
Posted:
Mon 12 Dec 2005 0:54 |
|
Ja, precies, dat lijstje bedoel ik. Staan er nu alweer 50 zie ik, net een uurtje geleden ofzo had ik het nog opgeschoond en stonden er nog maar 35, je ziet hoe snel dit gaat... |
|
|
|
 |
Mozes
MOD, gepensioneerd


Joined: Aug 27, 2004
Posts: 263
|
Posted:
Mon 12 Dec 2005 1:13 |
|
|
|
 |
BlueLion
Administrator


Joined: Aug 21, 2004
Posts: 2837
|
Posted:
Mon 12 Dec 2005 1:16 |
|
|
|
 |
Mozes
MOD, gepensioneerd


Joined: Aug 27, 2004
Posts: 263
|
Posted:
Mon 12 Dec 2005 1:43 |
|
Heb je via je weblogin oftwel je acp bij host,
toegang tot je website statistieken?
ik heb er bv het volgende instaan.
hierin zie ik dus welke geblokt worden door me robots.txt, en welke er toch doorglippen.
En wat ze verbruiken aan Bandbreedte.
het cijfer voor de + houd in ze paseren de robots.txt
cijfers achter de + zijn geblokt.
die er door glippen voeg ik weer aan het lijstje toe. |
|
|
|
 |
Roos
Junior Support


Joined: Jan 14, 2005
Posts: 224
|
Posted:
Mon 12 Dec 2005 4:58 |
|
Ik heb de wijziging in robots.txt aangebracht en leesrechten gegeven, hij stond op 600 bij mij i.p.v. 644. We zullen zien...
Ik heb bij de host wel statistieken in het controlpanel , maar die zijn niet uitgebreid, er staat volgens mij alleen het dataverkeerverbruik en de verbruikte webspace. Ik zal eens kijken of er misschien nog meer staat.
//edit: Helaas... het helpt niet, in hetzelfde tempo komen ze er weer bij dezelfde referals...
In het controlpanel van mijn host heb ik geen inzage in een dergelijk overzichtje zoals jij dat hebt... |
|
|
|
 |
Roos
Junior Support


Joined: Jan 14, 2005
Posts: 224
|
Posted:
Mon 12 Dec 2005 17:57 |
|
Ik ga het nu toch maar overnieuw proberen met Protector, ik zag een nieuwere versie hier staan bij de downloads (ik had 1.15b2 erop staan en ik zie hier 1.15b3 staan), hopenlijk gaat het met deze versie niet mis.
Ik moet toch wat he, er zit een enorm stijgende lijn in het dataverkeer-verbuik, ik zag dat in de maand december over de eerste 10 dagen al ruim 2.300 Gig verbruikt is, ik kom op deze manier wel erg dicht bij het maximum van 8 Gig aan het eind van de maand. |
|
|
|
 |
zeromechanic
Administrator


Joined: Oct 01, 2004
Posts: 1614
Location: Emmeloord
|
Posted:
Mon 12 Dec 2005 18:37 |
|
Ik dacht dat robots.txt alleen werd gehonoreerd door "goede"bots zoals google.
Maar dat "slechte"bots ( spambots etc) deze links laten liggen.
Ik denk dat als je de bots echt definitief van je site wil weren, dat je iets met je .htaccess moet doen.
Anders zet je het IP van de bots die je niet wilt hebben als een deny in je .htaccess |
_________________ Heftruck Monteurs gezocht.
Voor hulp en advies aan elkaar
http://www.zeromechanic.nl
http://www.aanbodopeenrij.nl |
|
|
 |
|
|