网站资讯 news
您现在的位置:首页 > 网站资讯 > 正向索引与倒排索引
NEWS

新闻资讯

正向索引与倒排索引

发布时间:2017/03/08 网站资讯 浏览次数:986

昆山网站建设

网页经过搜索引擎的分词、理解、切分等处理后,在搜索引擎的服务器上,就只剩下能够体现网页主体内容的文本了,此时可以对网页进行索引了。

正向索引指的是文件对应关键词的形式,如下表所示:
文件序号
网页内容经过分词切分出的关键词
文件1
关键词1、关键词3、关键词5,关键词13、……
文件2
关键词2、关键词4、关键词11,关键词13、……
文件3
关键词2、关键词5、关键词12,关键词19、……
文件4
关键词8、关键词9、关键词109、……
文件5
关键词10、关键词7、关健词6、关键词88、……
……
……
文件n
关键词88、关键词105、关键词4、……

如果用这种索引直接参与排名让用户搜索,并提供结果给用户,那么,与不分词,结果区别不大,还是需要对所有的文件进行一次检索,才能找到用户需要的内容提供给用户,如果用户搜索的是长尾词,这种索引对文件内容相关度的计算对资源消耗就太厉害了。

那么,为了使得索引文件可以直接用于排名,搜索引擎会把上面的对应关系进行转换,做成倒排索引,也就是关键词对应文件的形式,如下表所示:
关键词
网页文件
关键词1
文件1、文件2、文件3、文件12、……
关键词2
文件3、文件5、文件13、文件21、……
关键词3
文件1、文件15、文件5、文件22、……
关键词4
文件12、文件88、文件109、文件77、……
……
……
关键词n
文件99、文件15、文件88、文件190、……

显然,这样的索引结构就非常方便地可以直接用于搜索排名了。比如,用户搜索了关键词1,那么,搜索引擎只用包含有关键词1的文件进行相关度和权重计算;如果用户搜索了关键词1+关键词5,这样的组合词,那么,搜索引擎把包含关键词1同时又包含关键词5的文件调出来,进行相关度和权重计算,呈现搜索结果和排名速度大大加快!

在倒排索引中,不仅仅记录了包含相应关键词文件的ID,也记录关键词出现的频率(密度),每个关键词对应的文件频率,以及关键词出现在文件中的位置等信息。在排名过程中,这些信息会被分别进行权重加权处理,并应用到最终的排名结果中。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部