新闻资讯
-
2024/03/25
韩红孙楠喜结良缘,两位歌坛巨星引发粉丝热议 7月15日,韩红和孙楠在北京举行了盛大的婚礼,两位歌坛巨星的喜结良缘引发了广...
-
2024/03/25
国家20条防疫政策 党中央对进一步优化防控工作的二十条措施作出重要部署、提出明确要求,各地各部门要不折不扣把各项优化措施...
-
2024/03/25
第一集岩谷慎太郎(八神的男友、实业家):升毅八神秋子(潮流模特儿):加藤夏希渡部卓也(八神的经理人):汤江健幸渕田仁...
-
2024/03/25
这两个月的忙碌,终于有些缓解。前天有空上网,我突然想去飞车的论坛看一看。 当我看到那些依然支持这我的玩家们,说得那些鼓...
-
2024/03/25
用动物血液纹身,如果纹好的话,确实很神奇!—也就是大家说的,喝酒才出现!!! 换一想法,大家想一想,人的血型4种,假如一A型...
-
2024/03/25
青岛到上海的大巴在路上运行时间大约为10个小时,以卧铺车为主,以前做过几次,中午12点多从四方汽车站始发,晚上10点左右到...
-
2024/03/25
1.好乐买官网网址为www.okbuy.com 2.打开百度搜索“好乐买”网页链接,后面带有官网的就是了 拓展延伸: 好乐买OkBuy成立于2007...
中文实在是太博大精深了,据说,中文是世界上最最复杂的语言。因此,对于中文搜索引擎来说,分词成为了难点中的难点,通常情况下,搜索引擎采用以下两种方式进行中文分词。
1、基于词典匹配
这种分词方法是使用搜索引擎自己的词典对网页内容进行拆分、理解,然后按照匹配方向的不同进行正向匹配或逆向匹配,或者,按照不同的长度进行最长匹配或最短匹配。大致有三种方法:正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最小切分(切成单义词)。但是不管用什么样的匹配方式,都是与搜索引擎自有词典进行对比,并依照词典对网页进行拆分,那么,这种拆分和理解的准确性就取决于词典本身的完整性和更新情况。而目前的互联网,新词不断涌现,诸如“不明觉厉”“累觉不爱”之类的词在刚刚出现之时,搜索引擎根本无法给予正确的分词。而新词几乎天天都在出现,基于词典匹配的方式并不精准。
2、基于统计
这种分词方法不依靠搜索引擎本身的词典,而是对大量文字样本进行分析,统计,然后把相邻出现次数比较多的几个字当成一个词来处理。这种分词方法,在一定程度上解决了搜索引擎词典更新的问题,也有利于消除歧义。
但互联网内容庞大,中文词汇浩如烟海,甚至还有一字多义,一词多义的情况出现,搜索引擎很难一下子准确分词。举个例子:
我想静静,不要问我静静是谁?
前面的应当是安静一下的静,后者则把静静理解为一个人,搜索引擎能这么高情商吗?
再比如:
“以前喜欢一个人,现在喜欢一个人”
“以前谁都看不上,现在谁都看不上”
要想真正准确理解这些话,一般的人第一眼不见得能理解正确,何况只是以程序出现的搜索引擎。
云风网络是集昆山网站制作,昆山网页设计,昆山网站推广于一体的昆山网络公司,业务涵盖:昆山手机网站制作,昆山网站设计,昆山网络建设,昆山做网站,昆山网站建设
上一篇: 中文分词
下一篇: 搜索引擎为什么要去重