网站资讯 news
您现在的位置:首页 > 网站资讯 > 实战中的SPider抓取策略
NEWS

新闻资讯

实战中的SPider抓取策略

发布时间:2017/03/03 网站资讯 浏览次数:729

昆山网站建设

我们说SPider在实际的抓取网页过程中,会采取两种抓取策略,分别是广度优先策略和深度优先策略,理论上不管是采用哪种策略,SPider只要有足够的时间,都可以把整个互联网的上网页抓取一遍,这只是理论上,实际上,网站内容不断产生,搜索引擎的资源再丰富也是有限的,如何能在有限的时间里抓取更多对用户有价值的内容是搜索引擎最重要的研究课题。因此,通常情况下,SPider会采用两种策略结合的抓取方法。怎么结合呢?
1、在域名级别的页面使用广度优先的策略。尽可能地多收集网站,把网站都纳入搜索引擎的索引库,已避免重要的网站内容被错过。
2、在网站内页级别则结合使用广度优先和深度优先的策略。对高权重网站进行重点抓取,也就是说,网站权重越高,抓取量也会越大,我们看一些大的网站,刚出来新闻,就被抓取了,而有的刚上线的网站,在一定的时间段内总是只被搜索引擎索引首页,就是这样的道理。

上面这一段话呢,其实是基于SPider单纯想抓取全互联网数据的假设基础上,当然,这是SPider有理想。但这种理想从某种意义上永远也不可能实现,因此,SPider就引入了对网页的评级系统,重要页面优先抓,就是那些影响力大,传播能力强的网站页面会被优先抓取。这跟明星的一举一动会被新闻优先报道是一样的道理。那么,SPider采用的策略,主要是以下两个:
1、权重网页优先抓取
页面重要了就优先抓取,那么,什么是重要页面呢?除了网站本身的重要性外,SPider主要是看导入链接的多少和导入链接的质量。理论上,导入链接越多,这个页面越重要,导入链接的质量越高,这个页面越重要。
2、大站点优先
这个很好理解,被搜索引擎认为是“大站”的网站,通常情况下,服务器更稳定,网站结构更优秀,用户体验更完美,资讯内容及时,网站资料更权威,内容更丰富,网页数量也最多,这也是为什么网站越稳定,内容越丰富越容易被认为是大站的原因。我们经常看到新浪、网易的内容会被百度秒收,原因就在于SPider是在这些网站上7*24小时不断抓取的。如果有新内容,马上就会被索引。

基于以上这些策略,SEO工作人员需要深刻理解这些策略用于指导自己的工作。把依靠更多的更优质的外部链接来引导SPider得提升网站权重, 同时又要对内容进行长期运营来提高网站的重要性两方面的工作同时做好。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部