重新修改robots.txt让搜索引擎正常收录MediaWiki网站

来自Jamesqi
跳转至: 导航搜索

--James Qi 2009年10月20日 (二) 16:27 (CST)

  去年10月份记录了一篇《设置Robots.txt来降低MediaWiki网站的负载》,效果还是不错的,将baidu中不正确的一些收录URL逐步消除了,也减轻了一些服务器的负担。今年采取了升级服务器硬件、更换线路条件更好机房、采取负载均衡和多级缓存等方式来提高了服务器的负载能力,应该是可以不再限制各个搜索引擎的爬虫,于是将squid中的ip解封,给Sosospider写邮件,后来发现soso又收录了大量不正确的URL,这两天不得不再花一些时间来把所有robots.txt都更新一遍,有这几方面的变化:

  1. 增加了sitemap的提示
  2. 屏蔽了google webmastertools中看到的错误页面URL“thumb.php?f=”等
  3. 屏蔽了soso中收录的“index.php?page=*&title=Special:Log”、“action=”等
  4. 屏蔽了MediaWiki 1.15.0繁体网站中的“/*%E7%89%B9%E6%AE%8A:%E9%9A%8F%E6%9C%BA%E9%A1%B5%E9%9D%A2”等
  5. 解除了对yahoo蜘蛛的爬行频率限制

  修改后的robots.txt类似这样:

# robots.txt file from 18dao wiki project
# add for ipshu.jamesqi.com by jamesqi 2009-10-20

Sitemap: http://ipshu.jamesqi.com/index.php?title=Special:Recentchanges&feed=rss
Sitemap: http://ipshu.jamesqi.com/index.php?title=Special:Newpages&feed=rss
User-agent: *

#Disallow: /QC
#Disallow: /User
#Disallow: /Data
#Disallow: /Task
#Disallow: /index.php?title=QC
#Disallow: /index.php?title=User
#Disallow: /index.php?title=Data
#Disallow: /index.php?title=Task

Disallow: /thumb.php?f=
Disallow: /index.php?page=*&title=Special:Log
Disallow: /index.php?from=*&title=Special:Allpages

Disallow: /skins/
Disallow: /*Special:Random
Disallow: /*%E7%89%B9%E6%AE%8A:%E9%9A%8F%E6%9C%BA%E9%A1%B5%E9%9D%A2
Disallow: /*Special:Search?search=
Disallow: /*%E7%89%B9%E6%AE%8A:Search&search=&go=%E8%BF%9B%E5%85%A5
Disallow: /*Special:Search
Disallow: /*%E7%89%B9%E6%AE%8A:%E6%90%9C%E7%B4%A2
Disallow: /*Special:Movepage/
Disallow: /*%E7%89%B9%E6%AE%8A:%E7%A7%BB%E5%8A%A8%E9%A1%B5%E9%9D%A2
Disallow: /*action=
Disallow: /*oldid=
Disallow: /*diff=
Disallow: /*printable=
Disallow: /*Special:Recentchangeslinked/
Disallow: /*%E7%89%B9%E6%AE%8A:%E9%93%BE%E5%87%BA%E6%9B%B4%E6%94%B9/

Disallow: /*Special:Whatlinkshere/
Disallow: /*%E7%89%B9%E6%AE%8A:%E9%93%BE%E5%85%A5%E9%A1%B5%E9%9D%A2/

Disallow: /*Special:Contributions/
Disallow: /*%E7%89%B9%E6%AE%8A:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/
Disallow: /*Special:Preferences
Disallow: /*%E7%89%B9%E6%AE%8A:%E5%8F%82%E6%95%B0%E8%AE%BE%E7%BD%AE
Disallow: /*Special:Watchlist
Disallow: /*%E7%89%B9%E6%AE%8A:%E7%9B%91%E8%A7%86%E5%88%97%E8%A1%A8

##Crawl-delay: 300           # set to 300 seconds to wait between successive requests to the same server for Yahoo Slurp
##Request-rate: 1/10         # maximum rate is one page every 5 seconds

  修改了这些以后又给youdaobot@corp.youdao.com、sogou-spider@sogou.com也发去了邮件,要求恢复正常抓取、收录。再继续跟踪、观察看看。

标签:Robots.txtMediaWiki
相关内容:
  1. 2010-11-10 22:20:28 MediaWiki-1.15升级到1.16.0步骤
  2. 2010-11-04 22:52:58 开启MediaWiki的搜索建议(Search Suggest)功能
  3. 2010-11-03 11:26:02 MediaWiki-1.15.0升级到1.16.0中出现的问题
  4. 2010-11-02 23:52:05 MediaWiki-1.15准备升级到1.16
  5. 2010-10-22 22:29:00 想写一本关于MediaWiki的书,有人需要吗?
  6. 2010-09-20 11:33:29 直接操作MediaWiki的MySQL数据库
  7. 2010-09-04 00:20:09 修改模板对付MediaWiki及扩展程序的Bug
  8. 2010-08-31 00:47:49 分割大容量MediaWiki数据库
  9. 2010-07-08 23:08:13 用HTML和站间链接减小MediaWiki数据库记录
  10. 2010-06-12 12:27:01 将数据导入MediaWiki进行到底
  11. 2010-05-20 22:01:46 导入大量名录数据到MediaWiki网站的例子
  12. 2010-05-05 15:06:09 不懂PHP编程也可以修改MediaWiki程序
  13. 2010-04-03 22:45:40 MediaWiki导入XML数据中需要转义的字符
  14. 2010-04-02 00:38:01 用MediaWiki搭建多语言网站群框架
  15. 2010-04-01 16:05:48 在美国VPS上升级MediaWiki

关于“重新修改robots.txt让搜索引擎正常收录MediaWiki网站”的留言:

新增留言

--116.77.136.86 (IP 位置 | 谁是 | 贡献) 2010年11月16日 (二) 23:33 (CST)

留言: 您好?请问能解释一下怎么写robot的么?

我特别不理解为什么要(/*)加星号

顺便请问如何在编辑时

的编辑框框的上部加入文字?

编辑框和保存本页按钮之间可以加在copyright

最下面可以加在edittools

那么最上面呢?

回复:您好!写robots.txt的语法说明在网上可以找到很多,例如Google的说明百度的说明等,更多可以去搜索引擎中查找。MediaWiki的编辑框上部可以通过URL中添加editintro参数来实现,例如[1]这个链接中的preload=%E6%A8%A1%E6%9D%BF%3A%E7%AD%BE%E5%90%8D,修改模板:签名说明就可以改变编辑框上部的内容。--James Qi 2010年11月17日 (三) 00:12 (CST)

新增相关留言