码迷,mamicode.com
首页 > 其他好文 > 详细

IK 歧义分析-A部分

时间:2018-12-10 15:45:49      阅读:216      评论:0      收藏:0      [点我收藏+]

标签:部分   put   交集   lin   源代码   文章   begin   map   中文   

今天看了一下IK的源代码,网上已经有很多文章,此文章是他们的补充。
比如有个字符串 “张三说的确实在理”, 经过分词后变成

第一部分: 张三 三(数词)
第二部分: 说的 的确 确实 实在 在理

其中第一部分是有交集的,于是可以进入judge阶段,最终“三”被PK下去,只留下了“张三”。 然后加入最优集合
this.pathMap.put(path.getPathBegin(), path);

第二部分也是有交集的,于是这5个词进入judge, 最终留下“说的” “确实” “在理”,三个词,然后加入最优集合。

最终将这两个部分的词加入结果集中
private LinkedList<Lexeme> results;

最终result集合经过数量词合并(合并英文数词+中文数词,英文数词+中文量词,中文数词+中文量词)及停词剔除,输入最终的分词结果。

IK 歧义分析-A部分

标签:部分   put   交集   lin   源代码   文章   begin   map   中文   

原文地址:http://blog.51cto.com/12597095/2328412

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!