首页 > 营销学院 > 正文
干货:几大搜索引擎蜘蛛介绍和爬取策略介绍(上篇)
242 2020-04-13 15:25:57 FR

搜索引擎蜘蛛是搜索引擎的一个自动程序,一种按照一定规则,自动抓取互联网信息的程序或脚本。它能访问互联网上的网页、图片、视频等内容,建立索引数据库,这也是用户能在搜索引擎中搜索到你的网站内容的原因。

如果要查看某搜索引擎是否爬取过你们的网站,可查看服务器的日志,爬取时间、频率等都能看到。当了解了搜索引擎蜘蛛后,我们就可以在一定程度上避免因为不当操作带来的不必要处罚。

下面介绍几大搜索引擎蜘蛛和爬取策略:

1.百度蜘蛛:重点介绍对象。它可根据服务器的负载能力调节访问密度,大大降低服务器的压力。根据经验,百度蜘蛛通常会重复抓取同一个页面,导致其他页面无法被抓取到而不能被收录。这种情况可以采取 robots协议的方法来调节。

robots之前详细介绍过,可以看这里:网站robots文件的作用是什么?

2.谷歌蜘蛛:谷歌蜘蛛属于比较活跃的一类,每28天左右就派出蜘蛛检索有更新或者有修改的网页。与百度蜘蛛相比,谷歌蜘蛛最大的不同就是它的爬取深度要比百度蜘蛛多一些。

3.雅虎中国蜘蛛:如果某个网站在谷歌网站下没有很好的收录,在雅虎下收录也不会太好。雅虎蜘蛛的数量庞大,但其效率并不高,所以雅虎蜘蛛的搜索结果质量并不很好。

今天就分享到此,下期我们继续介绍其他搜索引擎蜘蛛和爬取策略。