网站资讯 news
您现在的位置:首页 > 网站资讯 > 搜索引擎中文分词的方法
NEWS

新闻资讯

  • 韩红孙楠结婚
    2024/03/25

    韩红孙楠喜结良缘,两位歌坛巨星引发粉丝热议 7月15日,韩红和孙楠在北京举行了盛大的婚礼,两位歌坛巨星的喜结良缘引发了广...

  • 疫苗外溢是什么意思
    2024/03/25

    国家20条防疫政策 党中央对进一步优化防控工作的二十条措施作出重要部署、提出明确要求,各地各部门要不折不扣把各项优化措施...

  • 红与白的搜查档案
    2024/03/25

    第一集岩谷慎太郎(八神的男友、实业家):升毅八神秋子(潮流模特儿):加藤夏希渡部卓也(八神的经理人):汤江健幸渕田仁...

  • 顾正文为什么退飞
    2024/03/25

    这两个月的忙碌,终于有些缓解。前天有空上网,我突然想去飞车的论坛看一看。 当我看到那些依然支持这我的玩家们,说得那些鼓...

  • 鸽子血纹身多少钱
    2024/03/25

    用动物血液纹身,如果纹好的话,确实很神奇!—也就是大家说的,喝酒才出现!!! 换一想法,大家想一想,人的血型4种,假如一A型...

  • 青岛到上海汽车
    2024/03/25

    青岛到上海的大巴在路上运行时间大约为10个小时,以卧铺车为主,以前做过几次,中午12点多从四方汽车站始发,晚上10点左右到...

  • 好乐买官网
    2024/03/25

    1.好乐买官网网址为www.okbuy.com 2.打开百度搜索“好乐买”网页链接,后面带有官网的就是了 拓展延伸: 好乐买OkBuy成立于2007...

搜索引擎中文分词的方法

发布时间:2017/03/08 网站资讯 浏览次数:2259

昆山网站建设

中文实在是太博大精深了,据说,中文是世界上最最复杂的语言。因此,对于中文搜索引擎来说,分词成为了难点中的难点,通常情况下,搜索引擎采用以下两种方式进行中文分词。

1、基于词典匹配
这种分词方法是使用搜索引擎自己的词典对网页内容进行拆分、理解,然后按照匹配方向的不同进行正向匹配或逆向匹配,或者,按照不同的长度进行最长匹配或最短匹配。大致有三种方法:正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最小切分(切成单义词)。但是不管用什么样的匹配方式,都是与搜索引擎自有词典进行对比,并依照词典对网页进行拆分,那么,这种拆分和理解的准确性就取决于词典本身的完整性和更新情况。而目前的互联网,新词不断涌现,诸如“不明觉厉”“累觉不爱”之类的词在刚刚出现之时,搜索引擎根本无法给予正确的分词。而新词几乎天天都在出现,基于词典匹配的方式并不精准。

2、基于统计
这种分词方法不依靠搜索引擎本身的词典,而是对大量文字样本进行分析,统计,然后把相邻出现次数比较多的几个字当成一个词来处理。这种分词方法,在一定程度上解决了搜索引擎词典更新的问题,也有利于消除歧义。

但互联网内容庞大,中文词汇浩如烟海,甚至还有一字多义,一词多义的情况出现,搜索引擎很难一下子准确分词。举个例子:
我想静静,不要问我静静是谁?
前面的应当是安静一下的静,后者则把静静理解为一个人,搜索引擎能这么高情商吗?

再比如:
“以前喜欢一个人,现在喜欢一个人”
“以前谁都看不上,现在谁都看不上”
要想真正准确理解这些话,一般的人第一眼不见得能理解正确,何况只是以程序出现的搜索引擎。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设

相关推荐
点击这里给我发消息 技术咨询
回到顶部