robots.txt最新研究(搜索引擎对sitemap的支持程度)
在网站搜索引擎优化 中,为了规范搜索引擎的活动,在搜索引擎组织中有一个robots协议,该协议最初的目的是规范搜索引擎机器人的搜索动作,如果站长不愿意某些页面被搜索引擎收录,或者不希望某些搜索引擎收录该网站.则可以在robots里面定以.
而搜索引擎机器人也会在进入网站之后,第一部搜索网站内部的robots文件,进而按照规范进行搜索.在SEO搜索引擎优化过程中,我们也可以在网站跟目录下加入robots进行规范操作.而google新近提出了支持网站地图(sitemap)的策略.这里我们就有必要研究一下robots了.
robots的规范如下:
# Robots.txt file from http://www.zhaozhihui.com.cn
# All robots will spider the domain
User-agent: *
Disallow:
解释说明:
User-agent:用于描述搜索引擎蜘蛛的名字,在” Robots.txt “文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在” Robots.txt “文件中,”User-agent:*”这样的记录只能有一条。
Disallow:用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。
另外:搜索引擎不会立即对robots.txt 文件所作的更改作出反应,必须等到搜索引擎下一次读取该文件。这段时间,依搜索引擎及具体网站情况,从几小时到几天不等。
这里仅仅多robots文件做了一些简单的介绍,google帮助中提到了google搜索引擎对于网站sitemap的支持,只需要如下填写:
# Robots.txt file from http://www.zhaozhihui.com.cn
# All robots will spider the domain
User-agent: *
Disallow:
sitemap: http://www.zhaozhihui.com.cn/sitemap.xml
但是这一条Google虽然支持,但是在监测中经常收到莫名其妙的“不正确的sitemap引用”提示。
yahoo则一直不知道到底开没开始支持sitemap自发现。
所以在SEO搜索引擎优化中,我们还是要期待更好,更完善的针对robots的搜索引擎算法.
北京seo-赵志辉博客原创 作者:赵志辉
转载请注明作者和出处.
本篇文章原创地址:http://www.zhaozhihui.com.cn/research/robotsitmap1/

