网站资讯 news
您现在的位置:首页 > 网站资讯 > Spider对网页的分类
NEWS

新闻资讯

Spider对网页的分类

发布时间:2017/03/04 网站资讯 浏览次数:850

昆山网站建设

Spider在整个互联网上游荡,像个幽灵一样,又或者像采蘑菇的小姑娘,那么,那些网页是他要抓取拿来放在自己的篮子里的“蘑菇”呢?

Spider在整个的抓取过程中,首先要避免重复抓取,于是Spider程序建立了自己的URL列表和待抓取列表(实际中是由哈希表来记录URL的两个状态)。Spider在抓取到一个页面之后,提取这个页面上的所有链接,并把提取到的链接和已经抓取的URL列表中的链接进行逐一对比,如果发现该链接已经抓取过,它就会直接丢弃,如果发现还未抓取,就放在待抓取的URL队列的未尾等待抓取。

我们知道:对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。

因此,Spider要对网页进行一下分类,它经过分析,把网页大致分为如下四类:
1、已经抓取过的页面,即Spider已经抓取过的页面,此类页面已加入搜索引擎的索引。
2、待抓取页面,也就是这些页面的URL已经被Spider加入到了特抓取URL队列中,只是还没有进行抓取,他们的特性是第一类页面中有链接指向他们,有抓取的入口。
3、可抓取页面,Spider根据互联网上的链接关系,最终是可以找到这些页面的。也就是说当下可能还不知道这些页面的存在,但是随着Spider增量型的抓取,最终会发现这些页面的存在。这类页面通常在第二类页面中有他们的链接,从而给spider提供了抓取入口。
4、暗网中的页面,这些网页和表层网络上的网页是脱钩的,可能这些页面中有链接指向以上三类网页,但是通过以上三类网页并不能找到这些页面,就是说,上述三类页面中没有提供暗网中的页面的链接,因而也就没有spider入口。比如,网站内需要手动提交查询才能获得的网页,就属于暗网中的网页,据专业人士估计暗网要比非暗网大几个数量级。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部