重新修改robots.txt让搜索引擎正常收录MediaWiki网站
来自Jamesqi
--James Qi 2009年10月20日 (二) 16:27 (CST)
去年10月份记录了一篇《设置Robots.txt来降低MediaWiki网站的负载》,效果还是不错的,将baidu中不正确的一些收录URL逐步消除了,也减轻了一些服务器的负担。今年采取了升级服务器硬件、更换线路条件更好机房、采取负载均衡和多级缓存等方式来提高了服务器的负载能力,应该是可以不再限制各个搜索引擎的爬虫,于是将squid中的ip解封,给Sosospider写邮件,后来发现soso又收录了大量不正确的URL,这两天不得不再花一些时间来把所有robots.txt都更新一遍,有这几方面的变化:
- 增加了sitemap的提示
- 屏蔽了google webmastertools中看到的错误页面URL“thumb.php?f=”等
- 屏蔽了soso中收录的“index.php?page=*&title=Special:Log”、“action=”等
- 屏蔽了MediaWiki 1.15.0繁体网站中的“/*%E7%89%B9%E6%AE%8A:%E9%9A%8F%E6%9C%BA%E9%A1%B5%E9%9D%A2”等
- 解除了对yahoo蜘蛛的爬行频率限制
修改后的robots.txt类似这样:
# robots.txt file from 18dao wiki project # add for ipshu.jamesqi.com by jamesqi 2009-10-20 Sitemap: http://ipshu.jamesqi.com/index.php?title=Special:Recentchanges&feed=rss Sitemap: http://ipshu.jamesqi.com/index.php?title=Special:Newpages&feed=rss User-agent: * #Disallow: /QC #Disallow: /User #Disallow: /Data #Disallow: /Task #Disallow: /index.php?title=QC #Disallow: /index.php?title=User #Disallow: /index.php?title=Data #Disallow: /index.php?title=Task Disallow: /thumb.php?f= Disallow: /index.php?page=*&title=Special:Log Disallow: /index.php?from=*&title=Special:Allpages Disallow: /skins/ Disallow: /*Special:Random Disallow: /*%E7%89%B9%E6%AE%8A:%E9%9A%8F%E6%9C%BA%E9%A1%B5%E9%9D%A2 Disallow: /*Special:Search?search= Disallow: /*%E7%89%B9%E6%AE%8A:Search&search=&go=%E8%BF%9B%E5%85%A5 Disallow: /*Special:Search Disallow: /*%E7%89%B9%E6%AE%8A:%E6%90%9C%E7%B4%A2 Disallow: /*Special:Movepage/ Disallow: /*%E7%89%B9%E6%AE%8A:%E7%A7%BB%E5%8A%A8%E9%A1%B5%E9%9D%A2 Disallow: /*action= Disallow: /*oldid= Disallow: /*diff= Disallow: /*printable= Disallow: /*Special:Recentchangeslinked/ Disallow: /*%E7%89%B9%E6%AE%8A:%E9%93%BE%E5%87%BA%E6%9B%B4%E6%94%B9/ Disallow: /*Special:Whatlinkshere/ Disallow: /*%E7%89%B9%E6%AE%8A:%E9%93%BE%E5%85%A5%E9%A1%B5%E9%9D%A2/ Disallow: /*Special:Contributions/ Disallow: /*%E7%89%B9%E6%AE%8A:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/ Disallow: /*Special:Preferences Disallow: /*%E7%89%B9%E6%AE%8A:%E5%8F%82%E6%95%B0%E8%AE%BE%E7%BD%AE Disallow: /*Special:Watchlist Disallow: /*%E7%89%B9%E6%AE%8A:%E7%9B%91%E8%A7%86%E5%88%97%E8%A1%A8 ##Crawl-delay: 300 # set to 300 seconds to wait between successive requests to the same server for Yahoo Slurp ##Request-rate: 1/10 # maximum rate is one page every 5 seconds
修改了这些以后又给youdaobot@corp.youdao.com、sogou-spider@sogou.com也发去了邮件,要求恢复正常抓取、收录。再继续跟踪、观察看看。
标签:Robots.txt、MediaWiki。 |
相关内容:
|