雅虎的蜘蛛啊,你不要太勤快!
“雅虎的蜘蛛啊,你不要太勤快!”和“为雅虎蜘蛛设置抓取频率限制”在这里有相同的下面内容。
--James Qi 2008年11月11日 (二) 10:36 (CST)采取文件缓存等一些措施后,MediaWiki服务器的负载明显降低,但偶然还是会升高,这两天看到老网站区号查询、邮编查询所在的服务器连续两个上午负载很高,正常访问困难,估计是因为这两个网站近期做了一些改版,有些蜘蛛来重新爬行吧。
详细查看了access.log, usragent.log 两个文件,没有发现特别的IP来捣乱,却发现雅虎蜘蛛(Yahoo! Slurp 和 Yahoo! China Slurp)访问量最大,大约是百度蜘蛛(BaiduSpider)的5倍,是谷歌蜘蛛(googlebot)的10倍,而实际上网站来自雅虎的流量简直都在5%以下,要不是看在雅虎搜索还有一定名气的份上,真想象对待搜搜、有道、奇虎等的蜘蛛一样完全屏蔽起来。
以前知道雅虎蜘蛛有个专门的指令可以放在robots.txt中来限制抓取频率:Crawl-delay,意思是两次抓取之间的间隔时间,开始用的是10,但实际日志中肯定不是10秒才访问一次,而是1秒钟有多次访问。
后来查询资料,说是因为雅虎美国、雅虎中国有两种蜘蛛,每种蜘蛛又有多组服务器可能会同时出击而不互相协调配合,真是垃圾技术啊,难怪雅虎搜索越来越差。为了达到限制频率,需要乘以40(雅虎共有越40组服务器),也就是Crawl-delay=400,在会实际两次抓取中间隔为10秒。
上传了robots.txt以后,短期内雅虎蜘蛛还是快速爬行,可能是因为还没有读取更新的robots.txt,只有先在Squid中把Slurp全部拒绝再说,稍后再打开。
标签:雅虎、蜘蛛。 |
相关内容:
|
别名:雅虎的蜘蛛啊,你不要太勤快!、雅虎的蜘蛛来访太频繁,需要设置抓取频率限制。