中文分词算法在前两篇文章中介绍了正向最大匹配算法和逆向最大匹配算法
本篇文章主要介绍最少单词数算法。顾名思义,就是最少的单词数。
算法思想是首先查找词典中最长的单词,匹配看是不是所要分词的字符串的子串,如果是则就是分词的词,迭代以上结果,每次都会在字符串中最长的单词分词,就可以得到最少的单词数
不多说了 直接上代码:
package com;
import java.ut...
分类:
其他好文 时间:
2014-05-08 05:05:21
阅读次数:
380
中文分词应用很广泛,网上也有很多开源项目。我在这里主要讲一下中文分词里面算法的简单实现,废话不多说了,现在先上代码
package com;
import java.util.ArrayList;
import java.util.List;
public class Segmentation1 {
private List dictionary = new ArrayList();
...
分类:
其他好文 时间:
2014-05-07 16:30:27
阅读次数:
317
上一篇文章中介绍了正向最大匹配,可以看到有时候效果不是很好,这里在介绍一种逆向最大匹配的算法。词典和匹配的字符串都和上一篇文章相同
只是本算法是从后到前搜索字符串,然后找到最长的匹配结果输出。上代码...
分类:
其他好文 时间:
2014-05-07 15:10:53
阅读次数:
238