网站资讯 news
您现在的位置:首页 > 网站资讯 > 分布式计算与分布式Spider
NEWS

新闻资讯

分布式计算与分布式Spider

发布时间:2017/03/04 网站资讯 浏览次数:890

昆山网站建设

把庞大的计算任务分解成若干个小的计算任务,交给大量的具有合理计算能力的服务器来进行计算就是分布式计算。

由于Spider要抓取的网页太多,如果搜索引擎只用一台服务器一个单一的Spider进行抓取,那么这台服务器需要非常强大的计算能力,而互联网浩如烟海,不管多强大的计算能力的超级计算机都是不可能具备这种能力的,或者说,即使有,也需要耗费太多的时间,根本不能满足用户的需要。因此,为了完成对全互联网的快速抓取,现行的大搜索引擎都会采用分布式计算。
谈到分布式计算,就涉及任务分发机制。整个分布式Spider系统需要保证所有的Spider之间不会有重复的抓取情况发生,也就需要为他们分配好各自的抓取范围。类似于人类劳动分工中“分片包干”式的工作分发机制。
这时就需要给每个Spider界定自己的抓取范围,或者说,每个Spider只抓取指定类型的网页。或者只抓取某个固定的地域,或者只抓取某种类型的站点。
常规网站分类方法有四种:
第一种,按照优秀站点、普通站点、垃圾站点、降权站点和屏蔽(就是站长们说的K站)站点这样的质量分类法;
第二种,对网站的首页、网站的目录页、网站的内容页、网站的专题页进行分类;
第三种,按照网站的文件类型,网页文本、视频、图片等,甚至还可以根据网络文件(PDF、Word、Excel……)进行分类抓取;
第四种,按照站点的行业进行分类。
我们大致稍微思考一下,就会知道,如果在整个Spider系统设计中,为了减少搜索引擎和被抓取站点服务器之间的握手次数(两个或多个Spider碰面的机会,这其实是影响效率的主要因素。),站点级别中按照第一种方法是最合理的,通常估计也是被搜索引擎优先采用的。注意:这也是我们SEO工作者在实际的日志阅读中经常提到的“降权蜘蛛”(什么是降权蜘蛛?)的发现原理。

但,不管采用哪种网站分类,采用分布式Spider是搜索引擎在海量数据的互联网环境下必须采用的工作方式。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部