试用百度搜索开放平台
来自Jamesqi
--James Qi 2009年4月29日 (四) 23:26 (CST)
看到有消息说百度一周前(2009年4月22日)推出了“百度搜索开放平台”,就去试了试,下面是记录:
先把新闻报道、帮助文件、贴吧讨论都看了看,这是属于所谓阿拉丁计划的一部分,初推出的时候有很多限制,目前只接受“确定性”资源。我先注册了一个帐号(不能与百度帐号共用),需要上传身份证复印件的图片。收到验证邮件后点击链接激活帐号,就完成了注册。(发现一个小问题,验证方法: 添加元标记 提供的meta标记显示<meta name='varify-v1' content='baidu-M94rpJkQluuZMDyf' />,这个varify应该是verify吧?还是百度工程师的创新词汇?)
用获得的用户名、密码进入后可以开始添加资源,但关键的资源模板限制比较多,例如:
文字类模板 - 标题+一行摘要:
<?xml version="1.0" encoding="gbk"?> <!-- XML文档需以gbk方式编码;除link外,所有标签为必有字段--> <DOCUMENT> <!--需要大写,标记整个xml文件的开始和结束--> <item> <!--标记每个关键词所对应信息的开始和结束,不得嵌套出现。同一份XML文档中item的个数上限为10000个 --> <key>放羊的星星</key> <!--关键词,当用户在百度检索此关键词时,即可检索到item中指定的内容。每个key的长度限制为1-76字节--> <display> <!--表示该关键词要显示的搜索结果信息,包含以下的url、title等标签。display标签中的文本长度上限为2k--> <url><![CDATA[http://www.baidu.com/s?wd=%B7%C5%D1%F2%B5%C4%D0%C7%D0%C7]]></url> <!--表示资源的链接地址,即title指向的链接。url的长度限制为6-512字节--> <title>放羊的星星-百度视频</title> <!--资源名称,即展示在百度搜索结果页中的标题。长度限制为4-63字节--> <showurl><![CDATA[www.baidu.com/s?wd=放羊的星星]]></showurl> <!--资源所在页面的链接地址,用于显示在搜索结果的下方。不需要有”http://”的部分;Showurl的长度限制为2-42字节,如果超过42字节,请截断,并增加省略符号“…”,并保证截断后的showurl加上省略符号总长度不超过42字节。--> <pagesize>17k</pagesize> <!--资源所在页面的大小,以K为单位--> <date>2008-11-26</date> <!--资源的最后更新日期,格式为yyyy-mm-dd,例如:2008-10-26--> <content1>约有126,402个放羊的星星相关的视频 放羊的星星 第1集 放羊的星星 第2集 放羊的星星 第3集 放羊的星星 第4集 放羊的星星 第5集 放羊的星星 第6集 ...</content1> <!--表示搜索结果的文字内容(摘要),为一段内容,会被动折行,文字长度限制为50-140字节,如果超过140字节,请截断,并增加省略符号“…”,且保证内容加上省略符号总长度不超过140字节--> <link linkurl="http://video.baidu.com/v?word=%B7%C5%D1%F2%B5%C4%D0%C7%D0%C7+19&ct=301989888&rn=20&pn=0&db=0&s=0&fbl=1024" linkcontent="19(最新一集)" /> <!—linkurl指链接指向的地址,长度限制为6-512字节;linkcontent指链接的文字描述(anchor),其长度限制为1-18字节,如果超过18字节,请截断,并增加省略符号“…”,且保证文字内容加上省略符号总长度不超过18字节;Link标签的个数限制为0-6(即:可以为空,不提供)。尽量不要提供链接,除非特别必要。否则可能导致无法通过审核。-> <link linkurl="http://video.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=15&word=%B7%C5%D1%F2%B5%C4%D0%C7%D0%C7%20%BB%A8%D0%F5" linkcontent="拍摄花絮" /> </display> </item> </DOCUMENT>
表格类模板 - 2列模板:
<?xml version="1.0" encoding="gbk"?> <!-- XML文档需以gbk方式编码;除content1、link外,所有标签为必有字段--> <DOCUMENT> <!--需要大写,标记整个xml文件的开始和结束--> <item> <!--标记每个关键词所对应信息的开始和结束,不得嵌套出现。同一份XML文档中item的个数上限为10000个 --> <key> 浙江卫视节目表</key> <!--关键词,当用户在百度检索此关键词时,即可检索到item中指定的内容。每个key的长度限制为1-76字节--> <display> <!--表示该关键词要显示的搜索结果信息,包含以下的url、title等标签。display标签中的文本长度上限为2k--> <url><![CDATA[http://tvmao.com/program/ZJTV-ZJTV1-w5.html]]></url> <!--表示资源的链接地址,即title指向的链接。url的长度限制为6-512字节--> <title>浙江卫视节目表</title> <!--资源名称,即展示在百度搜索结果页中的标题。长度限制为4-63字节--> <showurl><![CDATA[tvmao.com/program/ZJTV-ZJTV1-w5.html]]></showurl> <!--资源所在页面的链接地址,用于显示在搜索结果的下方。不需要有”http://”的部分;Showurl的长度限制为2-42字节,如果超过42字节,请截断,并增加省略符号“…”,并保证截断后的showurl加上省略符号总长度不超过42字节。--> <pagesize>12k</pagesize> <!--资源所在页面的大小,以K为单位--> <date>2009-02-24</date> <!--资源的最后更新日期,格式为yyyy-mm-dd,例如:2008-10-26--> <!--<content1></content1>--> <!--表示搜索结果的文字内容(摘要),只能有一行,且长度限制为0-78字节,如果超过78字节,请截断,并增加省略符号“…”,并保证内容加上省略符号总长度不超过78字节。--> <form col0="日期" col0link="" col1="节目" col1link="" /> <form col0="星期四 03-05 06:43" col0link="" col1="今日证劵早间版" col1link="" /> <form col0="星期四 03-05 07:30" col0link="" col1="经典剧场电视剧:新白娘子传奇" col1link="" /> <form col0="星期四 03-05 12:00" col0link="" col1="百姓剧场电视剧:新白娘子传奇" col1link="" /> <form col0="星期四 03-05 17:00" col0link="" col1="今日证劵晚间版" col1link="" /> <form col0="星期四 03-05 17:50" col0link="" col1="天气海洋预报" col1link="" /> <!--用于表示表格的每一行内容,第一个form指表格的第一行内容,第二个form指第二行,以此类推,form的个数限制为1-6个。col0—指表格该行的第一列,col0link-指表格该行第一列的链接;col1—指表格该行的第二列,col1link-指表格该行第二列的链接;col的个数上限为2个(即最多为col1),每个单元格中,字符的长度限制为1-50字节,如果超过50字节,请截断,并增加省略符号“…”,并保证内容加上省略符号总长度不超过50字节。Collink的个数上限为2个(即最多为col2link),长度限制为0-512字节。需要说明的是,collink也为必填属性,如果某个或某些表格项没有添加链接的需求,也需要有collink属性,写为collink=””即可。--> <link linkurl="http://tvmao.com/program/ZJTV-ZJTV1-w5.html" linkcontent="更多" /> <!--该标签用于指定表格里最后一行靠右的链接内容,包含linkurl、linkcontent标签。<linkurl>指链接指向的地址,如果没有特别情况,建议与本item的url标签中的链接保持一致。长度限制为6-512字节。<Linkcontent>指链接的文字描述(anchor),如果没有特别情况,建议写为“查看更多”“更多内容”此类文字。其长度限制为1-30字节,如果超过30字节,请截断,并增加省略符号“…”,并保证文字内容加上省略符号总长度不超过30字节。需要注意的是如果数据条数小于6个,或者本身数据只用5行就能展示完,则xml文件中不用包含<linkurl>和<lincontent>标签。--> </display> </item> </DOCUMENT>
这确实与普通的Sitemaps有很大区别,百度就是喜欢搞自己的标准,让别人来适应。我以前曾经按照百度的所谓“互联网论坛收录开放协议”折腾出sitemap_baidu.xml,好像一点作用都没有,上传后跟踪了几天,根本就没有被百度的蜘蛛爬过。
根据这样的XML文件要求,必须做重新整理或者开发才能符合,那就很需要费一番功夫,还不一定值得,五一以后再说吧。
标签:百度、搜索、XML。 |
相关内容:
|
关于“试用百度搜索开放平台”的留言: