中文分词算法在前两篇文章中介绍了正向最大匹配算法和逆向最大匹配算法
本篇文章主要介绍最少单词数算法。顾名思义,就是最少的单词数。
算法思想是首先查找词典中最长的单词,匹配看是不是所要分词的字符串的子串,如果是则就是分词的词,迭代以上结果,每次都会在字符串中最长的单词分词,就可以得到最少的单词数
不多说了 直接上代码:
package com;
import java.ut...
分类:
其他好文 时间:
2014-05-08 05:05:21
阅读次数:
380
中文分词应用很广泛,网上也有很多开源项目。我在这里主要讲一下中文分词里面算法的简单实现,废话不多说了,现在先上代码
package com;
import java.util.ArrayList;
import java.util.List;
public class Segmentation1 {
private List dictionary = new ArrayList();
...
分类:
其他好文 时间:
2014-05-07 16:30:27
阅读次数:
317
上一篇文章中介绍了正向最大匹配,可以看到有时候效果不是很好,这里在介绍一种逆向最大匹配的算法。词典和匹配的字符串都和上一篇文章相同
只是本算法是从后到前搜索字符串,然后找到最长的匹配结果输出。上代码...
分类:
其他好文 时间:
2014-05-07 15:10:53
阅读次数:
238
使用分词类库,分词类库请参见:http://www.xunsearch.com/scws/
如何使用PHP实现全文检索功能?
很多人可能马上可以想出几种方案,比如:文件检索法、采用SQL的like语句等方法,但这些方法效率都相当的低。
这里介绍一种比较高效的PHP全文检索实现方法,这就是采用MYSQL的FULLTEXT字段类型。但是MYSQL的FULLTEXT字段对中文的支持不是很好,本...
分类:
数据库 时间:
2014-05-07 05:00:43
阅读次数:
513
最近修改页面排版的一些问题,发现关于内容分词换行有两个主要的CSS:word-wrap 和
word-break特别是word-wrap还有个取值break-word,更使得这两个属性容易混淆。先来看看这两个属性的定义和取值吧:word-warp:用来表明是否允许长单词内断句而移至下一行。norma...
分类:
Web程序 时间:
2014-05-01 03:41:37
阅读次数:
529
2014-04-29
00:20题目:给定一个长字符串,和一个词典。如果允许你将长串分割成若干个片段,可能会存在某些片段在词典里查不到,有些则查得到。请设计算法进行分词,使得查不到的片段个数最少。解法:用空间换取时间的动态规划算法,首先用O(n^2)的时间判断每一个片段是否在字典里。这个过程其实可以...
分类:
其他好文 时间:
2014-04-29 14:53:55
阅读次数:
470
最近学习java字符串部分,用正则表达式做了一个简单的统计单词出现次数的小程序,目前只能统计英文。整个程序包括三个包,分别为output,run,wordcountwordCount包执行单词统计逻辑的工具包,使用HashMap存储某个字符串出现的次数。setPattern用来在类外部设置不同的正则...
分类:
编程语言 时间:
2014-04-29 10:38:46
阅读次数:
594
ES设置mapping的方法Mapping就是对索引库中索引的字段名及其数据类型进行定义,类似于关系数据库中表建立时要定义字段名及其数据类型,ES有默认的mapping,如果要自定义其分词器、是否分词、是否存储等可以对其进行mapping设置。1:配置文件设置方法
在ES安装文件的config/m....
分类:
移动开发 时间:
2014-04-28 04:42:47
阅读次数:
1435