Squid中屏蔽蜘蛛抓取

来自Jamesqi
跳转至: 导航搜索

“Squid中屏蔽蜘蛛抓取”和“在Squid设置中多管齐下防止蜘蛛频繁抓取”在这里有相同的下面内容。

--James Qi 2008年10月29日 (三) 00:07 (CST)

  我们的Wiki网站受到各种搜索引擎蜘蛛频繁抓取导致服务器负载过高的情况持续很长时间了,以前基本都是用封IP的办法解决。

  只用IP限制来对付猖獗的各种搜索引擎蜘蛛看来是不行,有可能2、3天服务器都很稳定,但也说不定什么时候又出来新的蜘蛛来骚扰,为了排查、处理一次,短则需要半个小时,长则需要半天的时间,真是恼人!

  用IP限制还有一个麻烦,就是怕把Baidu等误封了,于是还要想其它的办法。今天在Squid中进行了多种设置来联合起作用:

  1. 设置maxconn参数限制同一IP的并发访问数为20;
  2. 设置acl badbot browser Sosospider来屏蔽搜搜蜘蛛等已知名称的蜘蛛;(为此把useragent_log打开以便记录发现)
  3. 设置acl badurl url_regex Recentchangeslinked来屏蔽带特征内容的URL。(还可以用来屏蔽整个网站,代替以前用的Hosts文件)

  搜索引擎中保留了最大的三个:谷歌、百度和雅虎,其它的搜搜、搜狗、有道、奇虎什么的既不能带来流量,又频繁到访耽误事,统统给封了!

  希望这些办法能联合生效,解决好服务器的稳定性问题,让我们把注意力重新集中到网站的内容和组织发展上去。

标签:Squid搜索引擎蜘蛛
相关内容:
  1. 2010-07-08 22:42:29 让搜索引擎新收录1000万个页面
  2. 2010-03-13 11:36:54 又来一个害人的悟空蜘蛛:WukongSpider
  3. 2009-12-26 11:34:54 禁止搜索引擎收录维客网站(MediaWiki平台)的讨论(Talk)页面
  4. 2009-12-22 11:00:46 用Yahoo! Site Explorer向雅虎搜索引擎提供Sitemap
  5. 2009-12-21 17:43:56 向微软的Bing搜索引擎提供Sitemap
  6. 2009-09-07 22:09:20 腾讯搜搜独立了,网站解除对Sosospider屏蔽
  7. 2009-04-15 09:32:03 近期在当当网购买的一些网络技术相关书籍
  8. 2008-11-22 18:36:07 给有道管理员的信(蜘蛛频率问题)
  9. 2008-11-11 10:36:54 为雅虎蜘蛛设置抓取频率限制
  10. 2008-11-10 11:14:55 给搜搜蜘蛛(Sosospider)的信(请勿骚扰)
  11. 2008-11-06 22:47:49 启用Squid和MediaWiki的File Cache双重缓存
  12. 2008-10-29 00:07:51 在Squid设置中多管齐下防止蜘蛛频繁抓取
  13. 2008-10-27 22:01:03 常见搜索引擎蜘蛛(爬虫、机器人)IP地址段
  14. 2008-10-24 12:32:13 调整Squid反向代理参数提高命中率
  15. 2008-10-18 10:39:27 关闭一些以前的Wiki网站

别名:用Squid来限制搜索引擎蜘蛛的访问Squid中屏蔽蜘蛛抓取

关于“Squid中屏蔽蜘蛛抓取”的留言:

目前暂无留言

新增相关留言