网站资讯 news
您现在的位置:首页 > 网站资讯 > Spider的深度优先抓取策略
NEWS

新闻资讯

Spider的深度优先抓取策略

发布时间:2017/03/04 网站资讯 浏览次数:858

昆山网站建设

Spider有深度优先策略和广度优先策略两种策略对网页进行抓取,本文讨论Spider的深度优先抓取策略。

首先我们来想象一只老鼠,在一座不见天日的迷宫内,老鼠在入口处进去,要从出口出来。那老鼠会怎么走?当然是这样的:老鼠如果遇到直路,就一直往前走,如果遇到分叉路口,就任意选 择其中的一个继续往下走,如果遇到死胡同,就退回到最近的一个分叉路口,选择另一条道路再走下去,如果 遇到了出口,老鼠的旅途就算结束了。深度优先搜索法的基本原则就是这样:按照某种条件往前试探搜索,如 果前进中遭到失败(正如老鼠遇到死胡同)则退回头另选通路继续搜索,直到找到条件的目标为止。
用简单的话说,深度优先策略就是Spider一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条道路。
如图所示,当Spider把1页面当作入口时,Spider在1页面上发现了2、5、6、9四个页面的链接,然后,Spider会按照图中所示的顺序对页面进行抓取。当第一条路抓到3页面时到头了,它就会返回到2页面抓取第二条路上的4页面,在4页面也抓到头了,才会再回到1页面去抓取5页面,并按照这个思路一路抓下去,一条一条的6、7、8、9、10一个页面一个页面的抓下去。
这也是最初的搜算引擎的算法,即在任何一个页面都穷举链接。其实就是一条道走到黑,这样理解起来更容易。

当然,也可以这样理解,我们到了一个大景区,把一个景点上的分景点一个一个看个透,再去看另外的景点。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部