robots:yahoo蜘蛛slurp解析与robots.txt的限制
昨天北京seo博客分析了:《robots:搜索引擎蜘蛛(spider)名字大全》的文章,今天对yahoo蜘蛛slurp的服务器现状以及针对yahoo蜘蛛的robots.txt写法中针对yahoo slurp这个核心词汇的独特命令Crawl-delay进行分析。
目前很多网站存在yahoo蜘蛛slurp爬行过多造成网站访问速度降低的情况。由于目前国内网站主要收录网站是百度蜘蛛、google蜘蛛。就有必要在robots.txt写法中做一些限制。
yahoo slurp为什么会如此频繁的访问网站呢?
北京seo找到的解答是:雅虎美国和雅虎中国有2套蜘蛛在运行,Slurp来源于40多个IP网段,不同网段蜘蛛会分段抓取。
如何如何限制yahoo蜘蛛slurp的访问频率呢?
北京seo给你的解答是:使用robots.txt文件进行限制。robots标准写法是: 全文阅读 »
2008-09-03 10:49 | 分类于 未分类 | 小小菜鸟
北京seo:robots.txt标准写法及实例
非常庆幸能够进入慧聪网做seo,因为这个平台,也因为有一个优秀的boss指导。更因为在自己接触到了大量seo实质性的工作,友情链接交换,板块优化方案,seo策略规划,部门培训,以及部门沟通协作等。
————这里是北京seo博客最美丽的分界线————–
昨天工作有接触到robots.txt协议的使用。感觉其作用强大。故重新整理下知识点。我在6月份的时候写了篇关于robots协议的用法以及robots.txt标准写法的文章:robots.txt最新研究(搜索引擎对sitemap的支持程度)
今天北京seo以实例来演示下robot.txt标准:
Disallow – User-agent,允许所有蜘蛛采集,disallow告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件(/代表跟目录):
User-agent: *
Disallow: / 全文阅读 »
2008-08-06 12:35 | 分类于 百度谷歌 | 小小菜鸟
在网站搜索引擎优化 中,为了规范搜索引擎的活动,在搜索引擎组织中有一个robots协议,该协议最初的目的是规范搜索引擎机器人的搜索动作,如果站长不愿意某些页面被搜索引擎收录,或者不希望某些搜索引擎收录该网站.则可以在robots里面定以.
而搜索引擎机器人也会在进入网站之后,第一部搜索网站内部的robots文件,进而按照规范进行搜索.在SEO搜索引擎优化过程中,我们也可以在网站跟目录下加入robots进行规范操作.而google新近提出了支持网站地图(sitemap)的策略.这里我们就有必要研究一下robots了.
robots的规范如下:
# Robots.txt file from http://www.zhaozhihui.com.cn
# All robots will spider the domain
User-agent: *
Disallow:
解释说明:
User-agent:用于描述搜索引擎蜘蛛的名字,在” Robots.txt “文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在” Robots.txt “文件中,”User-agent:*”这样的记录只能有一条。
Disallow:用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。
另外:搜索引擎不会立即对robots.txt 文件所作的更改作出反应,必须等到搜索引擎下一次读取该文件。这段时间,依搜索引擎及具体网站情况,从几小时到几天不等。
这里仅仅多robots文件做了一些简单的介绍,google帮助中提到了google搜索引擎对于网站sitemap的支持,只需要如下填写:
# Robots.txt file from http://www.zhaozhihui.com.cn
# All robots will spider the domain
User-agent: *
Disallow:
sitemap: http://www.zhaozhihui.com.cn/sitemap.xml
但是这一条Google虽然支持,但是在监测中经常收到莫名其妙的“不正确的sitemap引用”提示。
yahoo则一直不知道到底开没开始支持sitemap自发现。
所以在SEO搜索引擎优化中,我们还是要期待更好,更完善的针对robots的搜索引擎算法.
北京seo-赵志辉博客原创 作者:赵志辉
转载请注明作者和出处.
本篇文章原创地址:http://www.zhaozhihui.com.cn/research/robotsitmap1/
2008-01-06 22:26 | 分类于 SEO技术 | 小小菜鸟