码迷,mamicode.com
首页 > 编程语言 > 详细

中文分词常用算法之基于词典的双向最大匹配

时间:2015-05-25 21:58:18      阅读:144      评论:0      收藏:0      [点我收藏+]

标签:

算法描述:

  1. S1为带切分字符串,FMM为S1正向最大匹配切分结果,BMM为S1逆向最大匹配切分结果
  2. 如果FMM和BMM长度不相等则输出长度较短的那个否则转3
  3. 如果FMM和BMM的结果相同则输出任意一个否则输出单个字字数最少的结果

Java实现代码:

 1 public static List<String> SegDouble(String text) {
 2         List<String> FMM = FMM(text);
 3         List<String> BMM = BMM(text);
 4         if (FMM.size() != BMM.size()) {
 5             if (FMM.size() > BMM.size())
 6                 return BMM;
 7             else
 8                 return FMM;
 9         } else {
10             int i, iFMM = 0, iBMM = 0;
11             boolean isSame = true;
12             for (i = 0; i < FMM.size(); i++) {
13                 if (!FMM.get(i).equals(BMM.get(i)))
14                     isSame = false;
15                 if (FMM.get(i).length() == 1)
16                     iFMM++;
17                 if (BMM.get(i).length() == 1)
18                     iBMM++;
19             }
20             if (isSame)
21                 return FMM;
22             else
23                 return iFMM < iBMM ? FMM : BMM;
24 
25         }
26 
27     }

小结:

双向最大匹配是要基于最大正向匹配和最大逆向匹配的一个算法,即将两种算法都进行一遍,然后根据大颗粒度词越多越好,非词典词和单字词越少越好的原则,选取两种算法中的一个结果予以输出。只要词典足够优秀,双向最大匹配的正确率还是挺高的。

中文分词常用算法之基于词典的双向最大匹配

标签:

原文地址:http://www.cnblogs.com/stardjyeah/p/4528788.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!