网站资讯 news
您现在的位置:首页 > 网站资讯 > 昆山网站建设专家云风网络解析网页去重原理
NEWS

新闻资讯

昆山网站建设专家云风网络解析网页去重原理

发布时间:2017/03/08 网站资讯 浏览次数:694

昆山网站建设

在一般的搜索引擎架构之中,去重这个动作是在Spider开始抓取部分就开始了的,这是因为“去重”这个动作采取的越早,那么,搜索引擎后期浪费的资源也就越少。这就出现了,针对于同一个网站,搜索引擎会去判断这个网站上重复的内容有多少,如果过多,那么,这个网站的价格就不高;对于不同的网站,那么,你的网站上内容是不是与其他网站上有很多重复的内容,如果重复的内容过多,那么对方的网站权重高,发布早,你的网站就是没有价值的。
有时候尽管你是原创者,也会因为对方网站的权重高,把你的网站内容当作抄袭而“去重”掉,这没有办法,谁让你没有那么大牌呢。

搜索引擎的去重工作一般除了在抓取时去重外,在分词之后和索引之前这个阶段的可能性最大(当然也可能在分词之前),搜索引擎会在页面已经分出的关键词中提取有代表性的关键词,给这些关键词定义出“关键特征”或称“指纹”或称“DNA”。每一个网页都会被搜索引擎定义出这样的“关键特征”或者“指纹”,当新抓取的网页关键词特征或“指纹”与已经进了索引库的关键词的指纹有重合时,搜索引擎就直接视为重复内容,放弃索引。(想想吧,采集的页面,搜索引擎会不会要。)

有资料表明,搜索引擎不仅仅依分词步骤分出的有意义的词进行指纹计算,还会用单个字向后移动的方式进行切词,比如,“百度推出了绿萝算法(什么是绿萝算法?)”会被切成“百度推”“度推出”“推出了”“出了绿”“了绿萝”“绿萝算”“萝算法”。然后从这些词中提取部分特征作为指纹特征,并参与去重对比。

以上提到的这些,也只是搜索引擎最基本的算法,还会有更复杂的算法。所以说,我们的“伪原创(什么是伪原创?)”工作会变得越来越没有价值。因为,伪原创很有可能会把文章变得不通顺,或者,被搜索引擎给“去重”掉。既失去了用户体验,又失去了搜索引擎,多不划算。

去重算法还有很多重要的具体算法,如果想深入了解,可以了解一下I-Match、SimHash、Shingle及余弦去重等算法,这里不作过多探讨了。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部