网站资讯 news
您现在的位置:首页 > 网站资讯 > Spider的分类
NEWS

新闻资讯

  • 老而不死的三种编程语言
    2019/11/07

    老而不死的三种编程语言 导读: 在软件世界中,铁打的二进制,流水的语言。从计算机诞生至今,不知诞生了多少门编程语言。译...

  • AI人工智能的10种常用算法
    2019/09/25

    ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子...

  • 网站如何进行安全设置
    2019/08/28

    为了安全起见,建议先做好全站数据和文件的备份,以下教程是AB模板网的总结经验,本人也是这样设置,并且没有任何问题) 1、...

  • What’s your problem?
    2019/07/08

    今天在路上走着走着,突然下暴雨了,我抬头问天:What‘s your problem?  在前两天的百度AI开发者大会上,百度创始人、...

  • 西部数码网站备案率先告别幕布,备案全程电子化,全网首推!
    2019/07/05

    网站备案已经伴随中国互联网的发展走过了十余年。网站备案过程中的真实性核验环节,需要网站负责人到指定的核验点进行现场拍...

  • 如何做好百度移动搜索引擎优化?
    2019/06/19

    移动数字时代已经到来,没有给人们太多的思考时间,而越来越多的用户通过手机进行社交、查看新闻、移动办公及浏览网页等,随...

  • 华为CEO任正非接受媒体专访:5G领先美国2-3年
    2019/05/31

    5G已经成为了当前行业的一个焦点,不过由于近日美国方面的因素让华为业务受到影响,外界都在关注这一次华为能否挺过来,华为...

Spider的分类

发布时间:2017/03/04 网站资讯 浏览次数:663

昆山网站建设

网络上讨论Spider的分类的文章很多,但大体上都是依照Spider的作用及表现出来的特征,把它分成三类:

1、批量型Spider
一般具有明显的抓取范围目标,设置抓取数据量的限制,或者抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标就会停止。普通站长和SEO人员使用的采集工具或程序(比如火车头等采集工具等),所派出的Spider大都属于批量型Spider,一般只抓取固定网站的固定内容(被人工限制了),或者设置对某一资源的固定目标数据量(比如只抓某类文件),当抓取的数据或者时间在达到设置限制后就会自动停止,这种Spider就是很典型的批量型Spider。

2、 增量型Spider
增量型Spider也可以称之为通用爬虫。一般可以称为搜索引擎的网站或程序,使用的都是增量型Spider,但是站内搜索引擎除外,自有站内搜索引擎一般是不需要Spider的。增量型Spider和批量型Spider不同,没有固定目标,范围和时间限制,一般会无休止地抓取下去,直到把全网的数据抓完为止。增量型Spider不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚至在一定时间之后该页面会被删除,优秀的增量型Spider需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理(这就是对旧页面的再次抓取或更新)。当下百度、Google网页搜索等全文搜索引擎的Spider,一般都是增量型的Spider。

3、垂直型Spider
垂直型Spider也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般聚焦在某一个限制范围内进行增量型(就是上面说的抓完为止)的抓取,此类型的Spider不像增量弄Spider一样追求大而广的覆盖面,而是在增量型Spider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别,现在的搜索引擎Spider还不能百分之百的进行准确分类,并且垂直型Spider也不能像增量型Spider那样进行全互联网爬取,因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型 Spider,那么就会利用增量型Spider以站点为单位进行内容分类,然后再派出垂直型Spider抓取符合自己内容要求的站点;没有增量型Spider作为基础的垂直搜索引擎,一般会采用人工添加抓取站点的方式来引导垂直型Spider作业,当然在同一个站点内也会存在不同的内容,此时垂直型Spider也需要进行内容判断,但是工作量相对来说已经缩减优化了很多,百度和Google等大型搜索引擎下的垂直搜索使用的都用的都是垂直型Spider。虽然现在使用比较广泛的垂直型Spider对网页的识别度已经很高,但是总会有些不足,这也使得搜索引擎上的SEO有了很大空间。
我们所有的SEO工作人员,除了在最初会因为建站的采集(很多站长都在用)原因用到批量型Spider外,我们主要的研究对象是增量型Spider,因为我们面对的是资源丰富的搜索引擎运营者。当然,垂直型Spider也可以看做加了限制的增量型Spider,不是吗?

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部