Ansj是一个比较优秀的中文分词组件,具体情况就不在本文介绍了。ansj作者在其官方代码中,提供了对lucene接口的支持。如果用在Solr下,还需要简单的扩展一下。1、基于maven管理 ansj是基于maven进行开发管理的。我们首先修改一下其pom.xml,具体如下所示: 4.0.0 ...
分类:
其他好文 时间:
2015-05-05 16:24:03
阅读次数:
162
1、WordCount源码 将源码文件WordCount.java放到Hadoop2.6.0文件夹中。import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configur....
分类:
其他好文 时间:
2015-05-05 10:24:24
阅读次数:
113
分词对于搜索引擎,输入法输入提示,语音识别等其它人机交互系统等都很有用。互联网的海量信息为分词研究提供了大量的,动态更新的原始资料库。很多互联网公司都有基于互联网内容的分词系统。并且采用HADOOP等分析大量数据。这些听上去很高大上,但是仔细想想基本原理应该是比较容易理解的,我们每个程序员也很容易可...
分类:
其他好文 时间:
2015-05-03 13:13:17
阅读次数:
237
这9577组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。 一一?逐一
一下子?一会儿
一丝不动?纹丝不动
一举成名?一鸣惊人
一乾二净?六根清净
一人得道?鸡犬升天
...
分类:
其他好文 时间:
2015-04-30 22:02:23
阅读次数:
151
好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。然后我知道了.Net下还有一个盘古分词(http://panguse...
分类:
Web程序 时间:
2015-04-30 06:23:53
阅读次数:
156
目录一Lucene.Net概述二 分词三 索引四 搜索五 实践中的问题一Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括“核心”与“外围”两部分。外围部分实现辅助功能,而核心部分包括:Lucene.Net.Index 提供索引管理,词组排序。Lucene.N....
分类:
Web程序 时间:
2015-04-30 06:21:21
阅读次数:
144
转自:http://blog.csdn.net/pukuimin1226/article/details/17558247添加:2013-12-25更新:2013-12-26 新增分页功能。更新:2013-12-27 新增按分类查询功能,调整索引行新增记录的图片字段。最新盘古分词dll和词典管理工具...
分类:
Web程序 时间:
2015-04-30 06:20:38
阅读次数:
190
在研究中发现,哈工大的LTP在分词、实体识别等方面的效果甚至要优于中科院ICTCLAS,而且LTP还具备了目前在中文信息处理领域较为罕见的语义角色标注(SRL)功能。以前我都是直接以get方式通过LTP-Cloud去使用的,但是由于受限于网速,当语料较大时 执行速度较慢。于是近期考虑在自己的机子上安装,由于个人比较喜欢用ython编程,所以就安装了官方发布的pyltp。在安装过程中遇到了不少问题,...
分类:
编程语言 时间:
2015-04-27 20:12:51
阅读次数:
303
jieba中文分词的使用
import jieba
sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service']
# jieba.suggest_freq('雾霾', True)
# jieba.suggest_freq('百搭', True)
words = [list(jieba.cut(doc)) for...
分类:
编程语言 时间:
2015-04-27 16:58:00
阅读次数:
301
Solr的schema.xml默认配置分词后条件取 OR例如:大众1.6T系统会自动分词为 【大众】 【1.6T】(ps:不同分词器分词效果不同) 会搜索出包含 【大众 OR 1.6T】 的结果。想要让Solr搜索默认为 【大众 AND 1.6T】则只需要修改solr\collection1\c.....
分类:
其他好文 时间:
2015-04-24 00:40:55
阅读次数:
221