|
|
第77行: |
第77行: |
| | | |
| James Qi | | James Qi |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257801.html 1],[http://my.mashable.com/a024041 1],[http://www.bloglines.com/blog/a024041 1],[http://blog.rayli.com.cn/a024041/ 1],
| + | |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257804.html 2],[http://my.mashable.com/a024042 2],[http://www.bloglines.com/blog/a024042 2],[http://blog.rayli.com.cn/a024042/ 2],
| + | ---- |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257805.html 3],[http://my.mashable.com/a024043 3],[http://www.bloglines.com/blog/aa024043 3],[http://blog.rayli.com.cn/a024043/ 3],
| + | |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257806.html 4],[http://my.mashable.com/a024044 4],[http://www.bloglines.com/blog/a024044 4],[http://blog.rayli.com.cn/a024044/ 4],
| + | 后记:虽然Soso回信说已经降低了抓取速度,但我从日志中看还是有不少来自Soso的,并且几次负载高峰期发现依然是Soso的访问最多,真是精力过剩啊!只有还是屏蔽其IP了! |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257807.html 5],[http://my.mashable.com/a024045 5],[http://www.bloglines.com/blog/a024045 5],[http://blog.rayli.com.cn/a024045/ 5],
| |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257808.html 6],[http://my.mashable.com/a024046 6],[http://www.bloglines.com/blog/a024046 6],[http://blog.rayli.com.cn/a024046/ 6],
| |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257809.html 7],[http://my.mashable.com/a024047 7],[http://www.bloglines.com/blog/a024047 7],[http://blog.rayli.com.cn/a024047/ 7],
| |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257810.html 8],[http://my.mashable.com/a024048 8],[http://www.bloglines.com/blog/a024048 8],[http://blog.rayli.com.cn/a024048/ 8],
| |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257811.html 9],[http://my.mashable.com/a024049 9],[http://www.bloglines.com/blog/a024049 9],[http://blog.rayli.com.cn/a024049/ 9],
| |
− | ,[http://blog.ccidnet.com/blog-htm-uid-257812.html 0],[http://my.mashable.com/a024050 0],[http://www.bloglines.com/blog/a024050 0],[http://blog.rayli.com.cn/a024050/ 0],
| |
| | | |
| {{TAG|搜搜|蜘蛛}} | | {{TAG|搜搜|蜘蛛}} |
| {{日志底部}} | | {{日志底部}} |
2008年11月26日 (三) 23:34的版本
--
James Qi 2008年11月10日 (一) 11:14 (CST)
下面是按照http://help.soso.com/webspider.shtml 中的说明,发给 mailto:sosospider@tencent.com 的邮件:
给Sosospider的信
您好!
贵公司的Sosospider 查询页面速度过快,124.115.0.xxx,124.115.4.xxx,等IP多次让我们服务器负载过高。
我们用robots.txt拒绝了你们的收录,后来干脆在Squid服务器中设置了拒绝“deny”Sosospider,时间超过一年你们的蜘蛛还是依然如故不断来骚扰。
特来信请求,以后不要访问这些域名的网站:
- 18dao.cn
- 18dao.net
- 18dao.org
- 027.net
- 027.cn
或者不要再访问 211.91.135.101 这个IP地址上的所有网站。
你们可以自己去谷歌上搜索 Sosospider这个关键词,排在前面的是如下内容:
- soso网络蜘蛛(sosospider)导致服务器瘫痪的最终解决方案- 天狼工作室
- Tommy 碎碎念: 另人厌恶的sosospider - 繁
- 从Sosospider的疯狂抓取频率
- 从昨天晚上开始基本上就无法打开网站了,该死的sosospider
- 原来正是恶名昭彰的腾讯sosospider。 ...
请你们正视这些问题,尽快提高技术水平,谢谢。
James Qi
收到Sosospider的回信
站长:
您好!
对于spider抓取给贵网站造成的压力,我们深表歉意,并立刻请工程师对你陈述的进行了检查,
在分别对贵网站www子域的robot进行解析时,并未发现有禁止sosospider采集的标识,如果方便,
请您提供robots文件以便检查原因。
目前我们已经降低对贵网站的抓取频率,此外,降低速度的同时,可能也会影响页面进索引,从而
被用户检索到的速度,希望您能理解。
如果您还有其他的疑问,请随时与我们联系,我们会积极协助您解决。
2008-11-10
sosospider
再次去邮件补充一个域名
您好!
我们原来在robots.txt中设置了屏蔽Sosospider无效,后来就去掉了,改从Squid中拒绝访问。
谢谢你们配合降低了抓取速度,另外你们还有一个Sosoimagespider也请降低抓取速度。
除了上次说的几个域名以外,还有一个域名也请一并降低抓取速度:
- 18dao.cn
- 18dao.net
- 18dao.org
- 027.net
- 027.cn
- jamesqi.com (这次新增)
并请将这些域名的所有子域名都降低抓取速度。
你们网站的搜索结果完全是Google的内容,你们不是和谷歌合作用他们的搜索了吗?怎么还要继续抓取呢?
James Qi
后记:虽然Soso回信说已经降低了抓取速度,但我从日志中看还是有不少来自Soso的,并且几次负载高峰期发现依然是Soso的访问最多,真是精力过剩啊!只有还是屏蔽其IP了!
关于“给搜搜蜘蛛(Sosospider)的信(请勿骚扰)”的留言:
留言:
Soso在做自己的搜索引擎,和Google合作似乎快要到期了
新增相关留言 ✍