网站资讯 news
您现在的位置:首页 > 网站资讯 > 正向索引与倒排索引
NEWS

新闻资讯

  • HM“碰瓷”新疆棉引发消费圈巨震
    2021/03/29

    HM事件从开始至今,在短短几天时间里持续发酵,除了引起了国人的不满,更是遭到了央视的怒批。但是除了这些表面上大家看到的...

  • 百度惊雷算法3.0调整方法
    2021/01/15

    在1月13日的早上,各大SEO站长聚集百度站长群里开始讨论百度惊雷算法3.0即将在中旬发布,也有很多从事SEO的朋友问我,此次该...

  • 企业开发微信公众号有什么好处?
    2020/12/17

    自2013年以来,这是一个二维代码盛行的时代。那些发展到今天的商人有他们自己的二维代码。二维代码的背后是wechat公共平台。...

  • 织梦网站后台增加复制文档功能
    2020/11/05

    打开后台目录(/dede)下archives_do.php约430行下添加: 1 /*----------------------------- 2 //复制文档 3 ----------------...

  • 谷歌浏览器如何长截图
    2020/11/04

    很多人不知道google浏览器如何截图,今天小编就来教大家。 方法/步骤: 1,打开“谷歌浏览器”,右键单击网页空白处,然后点击“...

  • 谷歌浏览器怎么翻译网页?
    2020/07/01

    正常情况下,你的浏览器会自动提示您是否要翻译网页。 但是如果没有自动弹出,我们应该怎么样去打开这个chrome自带的网页翻译...

  • dedecms5.7发布文章提示“标题不能为空”的解决方法
    2020/06/15

    本文实例讲述了dedecms5.7后台发布文章提示“标题不能为空”的解决方法。分享给大家供大家参考。具体分析如下: 有人发现在使用...

正向索引与倒排索引

发布时间:2017/03/08 网站资讯 浏览次数:1612

昆山网站建设

网页经过搜索引擎的分词、理解、切分等处理后,在搜索引擎的服务器上,就只剩下能够体现网页主体内容的文本了,此时可以对网页进行索引了。

正向索引指的是文件对应关键词的形式,如下表所示:
文件序号
网页内容经过分词切分出的关键词
文件1
关键词1、关键词3、关键词5,关键词13、……
文件2
关键词2、关键词4、关键词11,关键词13、……
文件3
关键词2、关键词5、关键词12,关键词19、……
文件4
关键词8、关键词9、关键词109、……
文件5
关键词10、关键词7、关健词6、关键词88、……
……
……
文件n
关键词88、关键词105、关键词4、……

如果用这种索引直接参与排名让用户搜索,并提供结果给用户,那么,与不分词,结果区别不大,还是需要对所有的文件进行一次检索,才能找到用户需要的内容提供给用户,如果用户搜索的是长尾词,这种索引对文件内容相关度的计算对资源消耗就太厉害了。

那么,为了使得索引文件可以直接用于排名,搜索引擎会把上面的对应关系进行转换,做成倒排索引,也就是关键词对应文件的形式,如下表所示:
关键词
网页文件
关键词1
文件1、文件2、文件3、文件12、……
关键词2
文件3、文件5、文件13、文件21、……
关键词3
文件1、文件15、文件5、文件22、……
关键词4
文件12、文件88、文件109、文件77、……
……
……
关键词n
文件99、文件15、文件88、文件190、……

显然,这样的索引结构就非常方便地可以直接用于搜索排名了。比如,用户搜索了关键词1,那么,搜索引擎只用包含有关键词1的文件进行相关度和权重计算;如果用户搜索了关键词1+关键词5,这样的组合词,那么,搜索引擎把包含关键词1同时又包含关键词5的文件调出来,进行相关度和权重计算,呈现搜索结果和排名速度大大加快!

在倒排索引中,不仅仅记录了包含相应关键词文件的ID,也记录关键词出现的频率(密度),每个关键词对应的文件频率,以及关键词出现在文件中的位置等信息。在排名过程中,这些信息会被分别进行权重加权处理,并应用到最终的排名结果中。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部