首页 > 营销学院 > 正文
干货:几大搜索引擎蜘蛛介绍和爬取策略介绍(下篇)
1411 2020-04-14 15:07 FR

欢迎回来,上期我们聊了三个搜索引擎蜘蛛和它们的爬取策略:几大搜索引擎蜘蛛介绍和爬取策略介绍(上篇),今天继续这个话题。

先来简单聊聊搜索引擎蜘蛛的四种抓取策略:深度优先、宽度优选、先宽后深权重优选以及重访抓取策略。

所谓深度优选就是蜘蛛在页面发现第一个超链接后,它会爬取这个超链接,爬取进入后会继续爬取当前页面的第一个超链接,以此类推。

宽度优选明显不同于前者。蜘蛛会把页面中所有链接都爬取一次,再顺着这些链接往下爬。

权重优选一般是现在搜索引擎普遍采用的策略。从字面意思“先宽后深”也能理解,蜘蛛会先把页面中所有链接爬取一次,再分析这些URL的权重,权重高就深度爬取,权重低就宽度爬取或者不爬取。

最后一个重访抓取策略主要涉及到蜘蛛来的频次。此策略下蜘蛛会分析你的页面权重、更新频率、质量以及外链数量等等,优秀的页面蜘蛛会短时间内重新过来爬取,像新浪网这类网站。

下面继续上期的内容,介绍几大搜索引擎蜘蛛:

4.微软必应蜘蛛:有关注的朋友一定了解,必应跟雅虎两者之间有深度的合作关系,所以必应基本运行模式和雅虎蜘蛛差不多,这里就不重复提了。

5.搜狗蜘蛛:搜狗蜘蛛的一个特点就是爬取速度比较快,但其抓取数量对比速度来说稍微少点。另外,搜狗一个最大的特点是不抓取 robot. text文件,这一点注意下。

6.搜搜蜘蛛:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录。不过在2011年,搜搜宣布开始采用自己的独立搜索技术,但毕竟曾经跟谷歌“学习”,搜搜蜘蛛和谷歌蜘蛛还是有着诸多相似之处。

7.有道蜘蛛:和其他搜索引擎蜘蛛类似,一般高权重网站的链接有道蜘蛛都能将其收录。爬行原理也是通过链接之间的爬行。


一个把企业官网的线索量提升138%的工具——识微互动

推荐
标签云
热门文章