网站资讯 news
您现在的位置:首页 > 网站资讯 > 搜索引擎中文分词的方法
NEWS

新闻资讯

搜索引擎中文分词的方法

发布时间:2017/03/08 网站资讯 浏览次数:896

昆山网站建设

中文实在是太博大精深了,据说,中文是世界上最最复杂的语言。因此,对于中文搜索引擎来说,分词成为了难点中的难点,通常情况下,搜索引擎采用以下两种方式进行中文分词。

1、基于词典匹配
这种分词方法是使用搜索引擎自己的词典对网页内容进行拆分、理解,然后按照匹配方向的不同进行正向匹配或逆向匹配,或者,按照不同的长度进行最长匹配或最短匹配。大致有三种方法:正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最小切分(切成单义词)。但是不管用什么样的匹配方式,都是与搜索引擎自有词典进行对比,并依照词典对网页进行拆分,那么,这种拆分和理解的准确性就取决于词典本身的完整性和更新情况。而目前的互联网,新词不断涌现,诸如“不明觉厉”“累觉不爱”之类的词在刚刚出现之时,搜索引擎根本无法给予正确的分词。而新词几乎天天都在出现,基于词典匹配的方式并不精准。

2、基于统计
这种分词方法不依靠搜索引擎本身的词典,而是对大量文字样本进行分析,统计,然后把相邻出现次数比较多的几个字当成一个词来处理。这种分词方法,在一定程度上解决了搜索引擎词典更新的问题,也有利于消除歧义。

但互联网内容庞大,中文词汇浩如烟海,甚至还有一字多义,一词多义的情况出现,搜索引擎很难一下子准确分词。举个例子:
我想静静,不要问我静静是谁?
前面的应当是安静一下的静,后者则把静静理解为一个人,搜索引擎能这么高情商吗?

再比如:
“以前喜欢一个人,现在喜欢一个人”
“以前谁都看不上,现在谁都看不上”
要想真正准确理解这些话,一般的人第一眼不见得能理解正确,何况只是以程序出现的搜索引擎。

云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设,电话:13912673321

相关推荐
点击这里给我发消息 技术咨询
回到顶部