网站资讯 news
您现在的位置:首页 > 网站资讯 > 搜索引擎如何做内容处理
NEWS

新闻资讯

搜索引擎如何做内容处理

发布时间:2017/03/08 网站资讯 浏览次数:542

昆山网站建设

这一类的内容在互联网上最多,但是却都忽略了一些细节,而细节恰是SEO工作的重中之重。在网上查找这方面的资料的时候,一定不要浮光掠影的浅尝辄止,要真的看懂。

我们来看搜索引擎的内容处理步骤。
Spider把内容抓取回来之后,放在搜索引擎自己的服务器上之后,要分步进行如下处理:
1、判断页面类型
抓取的页面是普通网页,还是PDF文档,还是WORD文档,还是EXCEL表格等独立的文件文档。如果是普通网页,那么是普通的文本内容,还是视频,还是图片,是普通文章页,还是论坛帖子。做完判断之后,下一步,分别进行内容处理。

2、提取文本信息
所有的主流搜索引擎都在想办法读懂Javascript、FLASH、图片和视频,但是对于普通的网页,搜索引擎的索引还主要是以文本为主,这是会涉及到网页的三个标签(什么是网页的三个标签)中的内容,虽然现在已经有信息说,标签中的内容对网站的影响越来越小了,但经过笔者试验,至少百度,对三个标签还是很看重的。

3、降噪
如果是普通网页,搜索引擎会对页面进行降噪处理,就是把与该页面无关的内容,包括广告、导航、链接、图片、登录框、版权信息等内容全部剔除掉,只提取该网页的主体内容,有的同行说百度在这一步时,并不会把所有的主体内容之外的东西都扔掉,经过试验,的确如此,因此,做为一个精确的SEO工作者,应当把可以利用的元素在页面中充分利用,比如推荐内容,比如导出链接的锚文本等,都尽可能地对当前页面有优化地处理一下。

4、去停止词
停止词(什么是停止词)对于搜索引擎判断页面内容作用不突出,因此,在接下来对剩余的文本内容做分词处理时,搜索引擎会去除掉“得”“的”“地”“之”“啊”“却”“且”之类的停止词,这样有利于搜索引擎对于内容的处理、分词和理解,并且可以有效地减少计算量。但近来,有些理论又证明,在普通用户搜索时,带有停止词的搜索关键词也有丰富的用户群在采用,因此,搜索引擎估计也会加大他们的分词科学性,对停止词的算法进行升级。

经过以上四步,Spider抓取到搜索引擎的内容基本上被“清洗”干净了,余下的就是对内容进行正向索引和倒排索引处理了。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部