网站资讯 news
您现在的位置:首页 > 网站资讯 > Spider的深度优先抓取策略
NEWS

新闻资讯

  • HM“碰瓷”新疆棉引发消费圈巨震
    2021/03/29

    HM事件从开始至今,在短短几天时间里持续发酵,除了引起了国人的不满,更是遭到了央视的怒批。但是除了这些表面上大家看到的...

  • 百度惊雷算法3.0调整方法
    2021/01/15

    在1月13日的早上,各大SEO站长聚集百度站长群里开始讨论百度惊雷算法3.0即将在中旬发布,也有很多从事SEO的朋友问我,此次该...

  • 企业开发微信公众号有什么好处?
    2020/12/17

    自2013年以来,这是一个二维代码盛行的时代。那些发展到今天的商人有他们自己的二维代码。二维代码的背后是wechat公共平台。...

  • 织梦网站后台增加复制文档功能
    2020/11/05

    打开后台目录(/dede)下archives_do.php约430行下添加: 1 /*----------------------------- 2 //复制文档 3 ----------------...

  • 谷歌浏览器如何长截图
    2020/11/04

    很多人不知道google浏览器如何截图,今天小编就来教大家。 方法/步骤: 1,打开“谷歌浏览器”,右键单击网页空白处,然后点击“...

  • 谷歌浏览器怎么翻译网页?
    2020/07/01

    正常情况下,你的浏览器会自动提示您是否要翻译网页。 但是如果没有自动弹出,我们应该怎么样去打开这个chrome自带的网页翻译...

  • dedecms5.7发布文章提示“标题不能为空”的解决方法
    2020/06/15

    本文实例讲述了dedecms5.7后台发布文章提示“标题不能为空”的解决方法。分享给大家供大家参考。具体分析如下: 有人发现在使用...

Spider的深度优先抓取策略

发布时间:2017/03/04 网站资讯 浏览次数:1274

昆山网站建设

Spider有深度优先策略和广度优先策略两种策略对网页进行抓取,本文讨论Spider的深度优先抓取策略。

首先我们来想象一只老鼠,在一座不见天日的迷宫内,老鼠在入口处进去,要从出口出来。那老鼠会怎么走?当然是这样的:老鼠如果遇到直路,就一直往前走,如果遇到分叉路口,就任意选 择其中的一个继续往下走,如果遇到死胡同,就退回到最近的一个分叉路口,选择另一条道路再走下去,如果 遇到了出口,老鼠的旅途就算结束了。深度优先搜索法的基本原则就是这样:按照某种条件往前试探搜索,如 果前进中遭到失败(正如老鼠遇到死胡同)则退回头另选通路继续搜索,直到找到条件的目标为止。
用简单的话说,深度优先策略就是Spider一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条道路。
如图所示,当Spider把1页面当作入口时,Spider在1页面上发现了2、5、6、9四个页面的链接,然后,Spider会按照图中所示的顺序对页面进行抓取。当第一条路抓到3页面时到头了,它就会返回到2页面抓取第二条路上的4页面,在4页面也抓到头了,才会再回到1页面去抓取5页面,并按照这个思路一路抓下去,一条一条的6、7、8、9、10一个页面一个页面的抓下去。
这也是最初的搜算引擎的算法,即在任何一个页面都穷举链接。其实就是一条道走到黑,这样理解起来更容易。

当然,也可以这样理解,我们到了一个大景区,把一个景点上的分景点一个一个看个透,再去看另外的景点。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部