PHP Web Host - Quality Web Hosting For All PHP Applications
  Inloggen or Registreer
 • Startpagina • Nieuwe download • Je instellingen • Forums • 
Navigation
 Home
· Search
· Recommend Us
· Feedback
· Top 10
· Web Links
· Statistics
 News
· Topics
· Stories Archive
· Submit News
 Members
· Your Account
· Private Messages
· Members List
 Downloads
· Downloads
· Most popular
 Forum
· Forums
· Forum Search
· Forum FAQ
· Forum Rules
 Documentation
 Site Info
· Legal Notices
· Disclaimer
· Privacy
· Terms of Use
 
Languages
Kies interface taal:

Dutch English
 
Sentinel
· 69.251.10.*
· 195.2.241.*
· 91.121.71.*
· 72.55.133.*
· 78.43.14.*
· 115.68.52.*
· 83.244.130.*
· 213.251.189.*
· 64.15.158.*
· 84.40.30.*

NukeSentinel(tm)
 
Caught by Sentinel
You have been warned!
We have caught 2794 shameful hackers.

NukeSentinel(tm)
 
Kalender
<< maart 2010 >>

z m d w d v z
  123456
78910111213
14151617181920
21222324252627
28293031     

 
PHP-Nuke Nederland: Forums


View next topic
View previous topic
Post new topic   Reply to topic
Author Message
Roos
Junior Support
Junior Support



Joined: Jan 14, 2005
Posts: 224

PostPosted: Sun 04 Dec 2005 2:39 Reply with quote Back to top

Was het maar zo simpel dat de oplossing voor elk probleem opgeschreven stond in readme.txt. Als je goed gekeken had, had je gezien dat Mozes en BlueLion ook niet direkt een oplossing weten...
View user's profile Send private message Visit poster's website
Mozes
MOD, gepensioneerd
MOD, gepensioneerd



Joined: Aug 27, 2004
Posts: 268

PostPosted: Mon 05 Dec 2005 23:18 Reply with quote Back to top

1 ding is zeker.
je site word goed opgepikt door de zoek machines Very Happy

Dom dat ik er niet eerder aan dacht.
maar daar is de robot.txt voor om dergelijke bots te weren.
FAQ: http://www.robotstxt.org/wc/faq.html

Voorbeeld van een robot.txt (zelf gebruik een enorm lange lijst, Ik weer ook zoekmachines)

Voorbeeld robots.txt tekst;

Code:
User-agent:*
Disallow: http://www.google.com/bot.html
Disallow: http://help.yahoo.com/help/us/ysearch/slurp
Disallow: /account.php
Disallow: /index.php
Disallow: /admin.php


op die manier kan je het helemaal uitbreiden..

waterdicht is het natuurlijk niet.
alhoewel ik er heel goede resultaten mee behaal.
slechts heel af en toe komt er weer een bot in de lijst voor.
en dat zijn dan weer nieuwe type bots.
toevoegen aan de robot.txt dan ook weer die weert van je site..

je kan je robot.txt testen via de volgende site
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi


//Edit ik kwam zojuist deze lange lijst tegen

Kan nooit kwaad om ook deze erin te plaatsen Cool

Code:
User-agent: BotRightHere
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: larbin
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: Copernic
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: NetMechanic
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: Alexibot
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: RMA
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: asterias
Disallow: /

User-agent: httplib
Disallow: /

User-agent: turingos
Disallow: /

User-agent: spanner
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Microsoft URL Control - 5.01.4511
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: Microsoft URL Control - 6.00.8169
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: moget
Disallow: /

User-agent: hloader
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: TightTwatBot
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Szukacz/1.4
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Openfind data gatherer
Disallow: /

User-agent: Openfind
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: searchpreview
Disallow: /

User-agent: TurnitinBot
Disallow: /

User-agent: wget
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: WebZIP/4.21
Disallow: /

User-agent: WebZIP/5.0
Disallow: /

User-agent: HTTrack 3.0
Disallow: /

User-agent: TurnitinBot/1.5
Disallow: /

User-agent: WebCopier v3.2a
Disallow: /

User-agent: WebCapture 2.0
Disallow: /

User-agent: WebCopier v.2.2
Disallow: /
View user's profile Send private message Send e-mail Visit poster's website
Roos
Junior Support
Junior Support



Joined: Jan 14, 2005
Posts: 224

PostPosted: Tue 06 Dec 2005 7:30 Reply with quote Back to top

Goeie tip, Mozes. Ik heb de lange lijst erachter geplakt in robots.txt. Het schijnt alleen nog niet te helpen, want de bots gaan onverminderd door..
View user's profile Send private message Visit poster's website
Mozes
MOD, gepensioneerd
MOD, gepensioneerd



Joined: Aug 27, 2004
Posts: 268

PostPosted: Tue 06 Dec 2005 8:49 Reply with quote Back to top

Verander
Disallow: http://www.google.com/bot.html
Disallow: http://help.yahoo.com/help/us/ysearch/slurp


dat eens naar


User-agent: Googlebot
Disallow: /

User-agent: Mozilla/5.0
Disallow: /


//edit... zet er dit ook eens bij.
helemaal als laatste.
Disallow: /

Ps.
Maak de list in MS eens leeg.
zodat je goed kan zien welke er nog steeds doorkomen.
als ik zo kijk is het aantal hits niet meer toegenomen.

ps.
je hebt robots.txt toch wel in de root van je server staan?

Nog een edit Lol..
ik zie dat je het goed hebt staan roos..
maar je weert bv niet msnbot, bot, Mozilla/5.0, Googlebot, NOSPAMexperimental,

voeg ze toe aan de lijst, is helaas wel een shit klusje.. Twisted Evil
View user's profile Send private message Send e-mail Visit poster's website
Roos
Junior Support
Junior Support



Joined: Jan 14, 2005
Posts: 224

PostPosted: Mon 12 Dec 2005 0:12 Reply with quote Back to top

Ik heb de lijst uitgebreid met de bots die jij noemt, Mozes, maar helaas, het maakt geen verschil. Dezelfde referals worden er gewoon weer bijgezet.
Het aantal hits is dus wel toegenomen, en niet zo'n beetje ook, sinds Protector eraf is, komen er echt duizenden hits extra per dag bij en dat vind ik niet leuk. Als dit nu allemaal echte bezoekers warean, dan had je mij niet horen klagen. Maar nee, die bots kunnen me gestolen worden. Ik hoop toch dat iemand me nog op weg kan helpen met de installatie van Sentinel...
De lijst van referers in MS schoon ik dagelijks op, ik wil niet meer dan 35 referers erin hebben staan om nog een beetje overzicht te houden op wat er bij komt.
Veel van de refers zijn startpaginadochters die ik beheer en die verwijder ik natuurlijk niet, want de plaatsing daarvan in de refers is goed voor de Google-ranking, hoe meer m'n startpagina's gelinkt worden en overal vermeld, hoe hoger de Google-positie (en die is erg hoog, ik bezet meestal de 1e of 2e plaats, in ieder geval altijd de eerste bladzijde)
View user's profile Send private message Visit poster's website
BlueLion
Administrator
Administrator



Joined: Aug 21, 2004
Posts: 2838

PostPosted: Mon 12 Dec 2005 0:34 Reply with quote Back to top

Even een resumé Roos. Jouw site wordt geindexeerd door verschillende Bots. Waaronder ook die van oa Google. Die bots maken een soort kopietje/foto van jouw pagina's. Wat een dataoverdracht genereerd van 1-10kb. Wil je dit niet meer? Of beperkt?
Welke bots horen er volgens jouw niet thuis?
Welke bots mogen wel blijven komen?
Wil je wel geindexeerd blijven worden?
Ben je niet in de war met bots en referals? Een referal is iemand die via een link op een andere site bij jouw terecht komt.


BL
View user's profile Send private message Send e-mail Visit poster's website
Roos
Junior Support
Junior Support



Joined: Jan 14, 2005
Posts: 224

PostPosted: Mon 12 Dec 2005 0:42 Reply with quote Back to top

Ik weet natuurlijk wat referals zijn, maar denk ik het even verwarde met de bots.
UIteraard wil ik geindexeerd blijven worden, ben alleen maar blij dat m'n site zo goed gevonden wordt door de diverse zoekmachines. Ik heb een hostingpakket met een datalimiet tot 8 Gig per maand, en zit daar nog lang niet overheen (tot nu toe is het verbruik ik dacht iets van 4 Gig), maar ik ben wel bang dat dit blijft stijgen als er meer een meer bots bij blijven komen zodat ik uiteindelijk bij moet gaan betalen, want dat is niet de bedoeling.
Maar waar het mij nu eigenlijk om gaat is dat er meerdere keren per minuut, duizenden keren per dag refers worden toegevoegd aan de statistieken, en die wil ik niet in hebben staan. Ze zitten constant in m'n MS Analysis, dit kon ik in Protector grotendeels voorkomen door bepaalde woorden in het filter te stoppen. Nu gaat dat dus niet meer. Ik dacht dat door robots.txt uit te breiden, het ook zou stoppen of verminderen, maar hiermee blijkt dus mijn verwarring, want dit is dus niet zo.
View user's profile Send private message Visit poster's website
BlueLion
Administrator
Administrator



Joined: Aug 21, 2004
Posts: 2838

PostPosted: Mon 12 Dec 2005 0:50 Reply with quote Back to top

Je bedoelt dus dit lijstje: http://www.rosettenet.nl/modules.php?name=MS_Analysis&file=index&op=MSAnalysisGeneral&screen=2&overview=3&sortby=


BL
View user's profile Send private message Send e-mail Visit poster's website
Roos
Junior Support
Junior Support



Joined: Jan 14, 2005
Posts: 224

PostPosted: Mon 12 Dec 2005 0:54 Reply with quote Back to top

Ja, precies, dat lijstje bedoel ik. Staan er nu alweer 50 zie ik, net een uurtje geleden ofzo had ik het nog opgeschoond en stonden er nog maar 35, je ziet hoe snel dit gaat...
View user's profile Send private message Visit poster's website
Mozes
MOD, gepensioneerd
MOD, gepensioneerd



Joined: Aug 27, 2004
Posts: 268

PostPosted: Mon 12 Dec 2005 1:13 Reply with quote Back to top

ik dacht dat het om dit lijstje ging
http://www.rosettenet.nl/modules.php?name=MS_Analysis&file=index&op=MSAnalysisGeneral&screen=10&overview=3&sortby=

je hebt robots.txt lees gerechten gegeven ? (644)


Image

ps, haal het volgende eens weg uit je robots.txt.
het staat gelijk aan het begin ervan.
User-agent: Mediapartners-Google*
Disallow:


en plaats er dit voor terug
User-agent: *
Disallow: /


Last edited by Mozes on Mon 12 Dec 2005 1:17; edited 1 time in total
View user's profile Send private message Send e-mail Visit poster's website
BlueLion
Administrator
Administrator



Joined: Aug 21, 2004
Posts: 2838

PostPosted: Mon 12 Dec 2005 1:16 Reply with quote Back to top

Roos wrote:
Ja, precies, dat lijstje bedoel ik.


Zie ook: http://www.phpnuke-nederland.com/ftopict-995.html en inmiddels in dat aantal websites waarvan de referal wordt genoteerd en niet (meer) bestaat aardig opgelopen.


BL
View user's profile Send private message Send e-mail Visit poster's website
Mozes
MOD, gepensioneerd
MOD, gepensioneerd



Joined: Aug 27, 2004
Posts: 268

PostPosted: Mon 12 Dec 2005 1:43 Reply with quote Back to top

Heb je via je weblogin oftwel je acp bij host,
toegang tot je website statistieken?

ik heb er bv het volgende instaan.
hierin zie ik dus welke geblokt worden door me robots.txt, en welke er toch doorglippen.
En wat ze verbruiken aan Bandbreedte.
het cijfer voor de + houd in ze paseren de robots.txt
cijfers achter de + zijn geblokt.
Image

die er door glippen voeg ik weer aan het lijstje toe.
View user's profile Send private message Send e-mail Visit poster's website
Roos
Junior Support
Junior Support



Joined: Jan 14, 2005
Posts: 224

PostPosted: Mon 12 Dec 2005 4:58 Reply with quote Back to top

Ik heb de wijziging in robots.txt aangebracht en leesrechten gegeven, hij stond op 600 bij mij i.p.v. 644. We zullen zien...

Ik heb bij de host wel statistieken in het controlpanel , maar die zijn niet uitgebreid, er staat volgens mij alleen het dataverkeerverbruik en de verbruikte webspace. Ik zal eens kijken of er misschien nog meer staat.

//edit: Helaas... het helpt niet, in hetzelfde tempo komen ze er weer bij dezelfde referals...
In het controlpanel van mijn host heb ik geen inzage in een dergelijk overzichtje zoals jij dat hebt...
View user's profile Send private message Visit poster's website
Roos
Junior Support
Junior Support



Joined: Jan 14, 2005
Posts: 224

PostPosted: Mon 12 Dec 2005 17:57 Reply with quote Back to top

Ik ga het nu toch maar overnieuw proberen met Protector, ik zag een nieuwere versie hier staan bij de downloads (ik had 1.15b2 erop staan en ik zie hier 1.15b3 staan), hopenlijk gaat het met deze versie niet mis.
Ik moet toch wat he, er zit een enorm stijgende lijn in het dataverkeer-verbuik, ik zag dat in de maand december over de eerste 10 dagen al ruim 2.300 Gig verbruikt is, ik kom op deze manier wel erg dicht bij het maximum van 8 Gig aan het eind van de maand.
View user's profile Send private message Visit poster's website
zeromechanic
Administrator
Administrator



Joined: Oct 01, 2004
Posts: 1638
Location: Emmeloord

PostPosted: Mon 12 Dec 2005 18:37 Reply with quote Back to top

Ik dacht dat robots.txt alleen werd gehonoreerd door "goede"bots zoals google.
Maar dat "slechte"bots ( spambots etc) deze links laten liggen.

Ik denk dat als je de bots echt definitief van je site wil weren, dat je iets met je .htaccess moet doen.

Anders zet je het IP van de bots die je niet wilt hebben als een deny in je .htaccess

_________________
http://www.proj3ct-cms.nl
View user's profile Send private message Visit poster's website
Display posts from previous:       
Post new topic   Reply to topic

View next topic
View previous topic
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001-2008 phpBB Group
:: Theme & Graphics by Daz :: Ported for PHP-Nuke by nukemods.com ::
All times are GMT + 10 Hours
Forums ©
 
Web site powered by PHP-Nuke

All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2004-2009 by BlueLion.
SEO enhanced with the Sitemapper script
You can syndicate our news using the file backend.php or ultramode.txt
Powered by PHP Powered by MySQL Apache Webserver Valid robots.txt
PHP-Nuke Copyright © 2004 by Francisco Burzi. This is free software, and you may redistribute it under the GPL. PHP-Nuke comes with absolutely no warranty, for details, see the license.
Pagina rendering: 0.30 seconden
_RN_FOOTER_CREDITS