robots:yahoo蜘蛛slurp解析与robots.txt的限制
robots:yahoo蜘蛛slurp解析与robots.txt的限制
昨天北京seo博客分析了:《robots:搜索引擎蜘蛛(spider)名字大全》的文章,今天对yahoo蜘蛛slurp的服务器现状以及针对yahoo蜘蛛的robots.txt写法中针对yahoo slurp这个核心词汇的独特命令Crawl-delay进行分析。
目前很多网站存在yahoo蜘蛛slurp爬行过多造成网站访问速度降低的情况。由于目前国内网站主要收录网站是百度蜘蛛、google蜘蛛。就有必要在robots.txt写法中做一些限制。
yahoo slurp为什么会如此频繁的访问网站呢?
北京seo找到的解答是:雅虎美国和雅虎中国有2套蜘蛛在运行,Slurp来源于40多个IP网段,不同网段蜘蛛会分段抓取。
如何如何限制yahoo蜘蛛slurp的访问频率呢?
北京seo给你的解答是:使用robots.txt文件进行限制。robots标准写法是:
User-agent: *
Disallow:
User-agent: slurp
Disallow:
Crawl-delay: 100
User-agent属性说明:robots.txt中Crawl-delay属性目前是雅虎Slurp独有的,用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒。
Crawl-delay: 100说明:雅虎美国和雅虎中国有2套蜘蛛在运行,每个蜘蛛都是遵循Crawl-delay间隔的,因此为了进一步降低Slurp压力,希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。
Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。
参考内容内容地址:yahoo官方日志:http://ysearchblog.cn/2006/07/yahoo_slurp.html


最新评论