Squid中屏蔽蜘蛛抓取
来自Jamesqi
“Squid中屏蔽蜘蛛抓取”和“在Squid设置中多管齐下防止蜘蛛频繁抓取”在这里有相同的下面内容。
--James Qi 2008年10月29日 (三) 00:07 (CST)我们的Wiki网站受到各种搜索引擎蜘蛛频繁抓取导致服务器负载过高的情况持续很长时间了,以前基本都是用封IP的办法解决。
只用IP限制来对付猖獗的各种搜索引擎蜘蛛看来是不行,有可能2、3天服务器都很稳定,但也说不定什么时候又出来新的蜘蛛来骚扰,为了排查、处理一次,短则需要半个小时,长则需要半天的时间,真是恼人!
用IP限制还有一个麻烦,就是怕把Baidu等误封了,于是还要想其它的办法。今天在Squid中进行了多种设置来联合起作用:
- 设置maxconn参数限制同一IP的并发访问数为20;
- 设置acl badbot browser Sosospider来屏蔽搜搜蜘蛛等已知名称的蜘蛛;(为此把useragent_log打开以便记录发现)
- 设置acl badurl url_regex Recentchangeslinked来屏蔽带特征内容的URL。(还可以用来屏蔽整个网站,代替以前用的Hosts文件)
搜索引擎中保留了最大的三个:谷歌、百度和雅虎,其它的搜搜、搜狗、有道、奇虎什么的既不能带来流量,又频繁到访耽误事,统统给封了!
希望这些办法能联合生效,解决好服务器的稳定性问题,让我们把注意力重新集中到网站的内容和组织发展上去。
标签:Squid、搜索引擎、蜘蛛。 |
相关内容:
|
别名:用Squid来限制搜索引擎蜘蛛的访问、Squid中屏蔽蜘蛛抓取。