MediaWiki导入XML数据中需要转义的字符
来自Jamesqi
--James Qi 2010年4月3日 (六) 22:45 (CST)
导入XML数据到MediaWiki中的工作我们很早前(2006年)就做过了,也积累了好些经验,不过老是容易忘记,再次处理数据时又需要找资料,这次记录下来。
需要注意的几个地方:
- xml文件字符集应该是utf-8,文件为unix格式,不要用asc-ii或者gb2312等字符集,也不要用dos格式文件;
- 尽量避免出现wiki中的链接和模板字符,可以更换成全角符号:
- [ (可以出现在正文,不能出现在标题) 替换为 [
- ] (可以出现在正文,不能出现在标题) 替换为 ]
- { (可以出现在正文,不能出现在标题) 替换为 {
- } (可以出现在正文,不能出现在标题) 替换为 }
- | (可以出现在正文,不能出现在标题) 替换为 |
- 需要做转义的字符,有5个XML中定义的标准:
- 和符号 & (可以出现在正文,也可出现在标题) 转义为 &
- 小于号 < (可以出现在正文,不能出现在标题) 转义为 <
- 大于号 > (可以出现在正文,不能出现在标题) 转义为 >
- 双引号 " (可以出现在正文,也可出现在标题) 转义为 "(MeidaWiki中这一个导出进行了转义,导入可不用先转义)
- 单引号 ' (可以出现在正文,也可出现在标题) 转义为 '(MeidaWiki中这一个导出没有转义,导入也不用先转义)
- 从access或者execl等数据导出文本文件时,分隔符用制表符,以避免与其它字符混淆,便于后期处理。
前段时间准备做一些名录数据的导入操作,但其它事情太忙,后面再逐步安排。
标签:MediaWiki、XML、转义字符。 |
相关内容:
|