爬行蜘蛛(spider, bot)是搜索引擎采集网站内容的工具。不同搜索引擎使用自各的蜘蛛从网站那里抓取内容页面。大多数搜索引擎的蜘蛛都有自己的身份标识。本文收集整理经常会光顾中国国内网站的爬行采集蜘蛛,供搜索引擎优化或其它作用参考:

Baiduspider/2.0: 百度的采集蜘蛛,做国内的网站,这个应该是最重要的蜘蛛
Googlebot/2.1: 谷歌(Google)的采集蜘蛛,第二重要的蜘蛛
bingbot/2.0: 必应(Bing)的采集蜘蛛,以前是Msnbot,现在改名了
JikeSpider: 人民网旗下的即刻搜索网站的采集蜘蛛,好像发展不慢啊
Sogou web spider/4.0: 搜狐旗下的搜狗搜索引擎的采集蜘蛛标识, 现在还有个New-Sogou-Spider/1.0,估计是新版本的。
Sosospider:腾讯旗下的搜搜网的采集蜘蛛
YoudaoBot/1.0:网易旗下搜索引擎有道的采集蜘蛛
Yahoo! Slurp China: 雅虎中国的采集蜘蛛, 这个蜘蛛的采集频度比其它蜘蛛高,而且现今雅虎网站也带来不了多少流量,所以最好在robots.txt中加入以下代码限制这个蜘蛛的采集频率:
User-agent: Yahoo! Slurp China
Crawl-delay: 1000

Mediapartners-Google: 这个是谷歌的,但不是搜索引擎的采集蜘蛛,是谷歌广告联盟AdSense采集页面内容,以提供和页面内容相关广告的蜘蛛,如果不放AdSense广告,可以把这个蜘蛛屏蔽了
YandexBot/3.0:俄罗斯最大的搜索引擎yandex的采集蜘蛛
MJ12bot/v1.4.0:英国一个搜索引擎优化公司的采集蜘蛛,采集页面用来分析每个网站的外链数量。

如果有遗漏,欢迎补充。

原创文章,转载请注明转自搜索引擎优化和网站推广入门
本文链接: http://www.seozr.com/post/29