网站资讯 news
您现在的位置:首页 > 网站资讯 > Spider的抓取更新策略
NEWS

新闻资讯

  • 老而不死的三种编程语言
    2019/11/07

    老而不死的三种编程语言 导读: 在软件世界中,铁打的二进制,流水的语言。从计算机诞生至今,不知诞生了多少门编程语言。译...

  • AI人工智能的10种常用算法
    2019/09/25

    ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子...

  • 网站如何进行安全设置
    2019/08/28

    为了安全起见,建议先做好全站数据和文件的备份,以下教程是AB模板网的总结经验,本人也是这样设置,并且没有任何问题) 1、...

  • What’s your problem?
    2019/07/08

    今天在路上走着走着,突然下暴雨了,我抬头问天:What‘s your problem?  在前两天的百度AI开发者大会上,百度创始人、...

  • 西部数码网站备案率先告别幕布,备案全程电子化,全网首推!
    2019/07/05

    网站备案已经伴随中国互联网的发展走过了十余年。网站备案过程中的真实性核验环节,需要网站负责人到指定的核验点进行现场拍...

  • 如何做好百度移动搜索引擎优化?
    2019/06/19

    移动数字时代已经到来,没有给人们太多的思考时间,而越来越多的用户通过手机进行社交、查看新闻、移动办公及浏览网页等,随...

  • 华为CEO任正非接受媒体专访:5G领先美国2-3年
    2019/05/31

    5G已经成为了当前行业的一个焦点,不过由于近日美国方面的因素让华为业务受到影响,外界都在关注这一次华为能否挺过来,华为...

Spider的抓取更新策略

发布时间:2017/03/04 网站资讯 浏览次数:780

昆山网站建设

Spider为什么要再次抓取更新网页,但是,我们也知道,Spider不可能也没必要对所有的网页都进行再次抓取和更新,那么,Spider又是采用什么样的策略确定对已索引网页的再次抓取更新呢?
依照用户需求的原理,我们大致了解到Spider的更新机制一般会从以下四个方面来确定:
1、用户体验。对,这是所有商业模式的出发点。整个互联网网页数量巨大,已经被搜索引擎抓取并索引的页面也至少是千亿级别,那么,用户真的需要这么多内容吗?实际上是不需要的,我们知道,大部分用户在进行一次搜索之后,通常只会看搜索结果的前三页,就基本上找到了自己需要的信息。很少的用户去浏览第四页或更靠后的搜索结果。那么,Spider就会根据用户的需要,优先更新用户所需要的内容。所有用户提交查询结果的前几页,都是值得保证索引并及时更新的。所以搜索引擎会搜集所有用户的搜索请求,统计所有用户可能看到的网页,继而进行优先抓取和更新。也就是说,被搜到的机会越多,更新的机率也就越大。所以,在互联网上,同样是强者更强。
2、历史更新频率。其实这也是从用户出发,搜索引擎会尝试发现某一个网页中内容的更新频率,因为Spider的再次抓取就是为了发现变化,如果某个网页一直没有变化,Spider就会降低访问频率,甚至就不再来抓取。也就是说,Spider会不断调整自己的更新频率来适应网页的更新频率,因此,SEO工作者,保持自己的网站更新是保证Spider抓取更新的有效手段。
3、网页的类型。我们经常会说,首页更新了没有,其实就是这个道理,因为不同的网页类型有不同的更新频率。在同一点站点上,网站的首页、目录页(列表页)、专题页、文章页的更新频率肯定是不同的,而Spider对于不同的页面的更新频率肯定是不一样的,通常情况下,首页的Spider最经常光顾的页面,而文章页很可能Spider来了一次之后,就不再来了。理论上,网页的类型并不多,搜索引擎很容易就会对网站的页面进行归类,并调整自己的再次抓取频率。
4、网页权重。除了上述三点之外,权重也非常重要。而搜索引擎所谓的网页权重评级其实也是基于用户体验的。在其他条件相同的条件下,权重越高的网站,那么,更新的频率也就越频繁。
当然,在实际的工作中,Spider并不会单独采取以上某一种策略,通常会综合考量以上四个方面,进行调整Spider的再次抓取更新频率。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部