码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
编译Ansj之Solr插件
Ansj是一个比较优秀的中文分词组件,具体情况就不在本文介绍了。ansj作者在其官方代码中,提供了对lucene接口的支持。如果用在Solr下,还需要简单的扩展一下。1、基于maven管理 ansj是基于maven进行开发管理的。我们首先修改一下其pom.xml,具体如下所示: 4.0.0 ...
分类:其他好文   时间:2015-05-05 16:24:03    阅读次数:162
初学Hadoop之WordCount分词统计
1、WordCount源码 将源码文件WordCount.java放到Hadoop2.6.0文件夹中。import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configur....
分类:其他好文   时间:2015-05-05 10:24:24    阅读次数:113
基于互联网内容的中文分词小实验
分词对于搜索引擎,输入法输入提示,语音识别等其它人机交互系统等都很有用。互联网的海量信息为分词研究提供了大量的,动态更新的原始资料库。很多互联网公司都有基于互联网内容的分词系统。并且采用HADOOP等分析大量数据。这些听上去很高大上,但是仔细想想基本原理应该是比较容易理解的,我们每个程序员也很容易可...
分类:其他好文   时间:2015-05-03 13:13:17    阅读次数:237
中文分词之9577组同义词
这9577组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。 一一?逐一 一下子?一会儿 一丝不动?纹丝不动 一举成名?一鸣惊人 一乾二净?六根清净 一人得道?鸡犬升天 ...
分类:其他好文   时间:2015-04-30 22:02:23    阅读次数:151
让盘古分词支持最新的Lucene.Net 3.0.3
好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。然后我知道了.Net下还有一个盘古分词(http://panguse...
分类:Web程序   时间:2015-04-30 06:23:53    阅读次数:156
使用Lucene.Net实现全文检索
目录一Lucene.Net概述二 分词三 索引四 搜索五 实践中的问题一Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括“核心”与“外围”两部分。外围部分实现辅助功能,而核心部分包括:Lucene.Net.Index 提供索引管理,词组排序。Lucene.N....
分类:Web程序   时间:2015-04-30 06:21:21    阅读次数:144
lucene.net 3.0.3、结合盘古分词进行搜索的小例子(分页功能)
转自:http://blog.csdn.net/pukuimin1226/article/details/17558247添加:2013-12-25更新:2013-12-26 新增分页功能。更新:2013-12-27 新增按分类查询功能,调整索引行新增记录的图片字段。最新盘古分词dll和词典管理工具...
分类:Web程序   时间:2015-04-30 06:20:38    阅读次数:190
哈工大自然语言处理工具pyltp的本地安装方法
在研究中发现,哈工大的LTP在分词、实体识别等方面的效果甚至要优于中科院ICTCLAS,而且LTP还具备了目前在中文信息处理领域较为罕见的语义角色标注(SRL)功能。以前我都是直接以get方式通过LTP-Cloud去使用的,但是由于受限于网速,当语料较大时 执行速度较慢。于是近期考虑在自己的机子上安装,由于个人比较喜欢用ython编程,所以就安装了官方发布的pyltp。在安装过程中遇到了不少问题,...
分类:编程语言   时间:2015-04-27 20:12:51    阅读次数:303
python下结巴中文分词
jieba中文分词的使用 import jieba sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service'] # jieba.suggest_freq('雾霾', True) # jieba.suggest_freq('百搭', True) words = [list(jieba.cut(doc)) for...
分类:编程语言   时间:2015-04-27 16:58:00    阅读次数:301
Solr分词搜索结果不准确
Solr的schema.xml默认配置分词后条件取 OR例如:大众1.6T系统会自动分词为 【大众】 【1.6T】(ps:不同分词器分词效果不同) 会搜索出包含 【大众 OR 1.6T】 的结果。想要让Solr搜索默认为 【大众 AND 1.6T】则只需要修改solr\collection1\c.....
分类:其他好文   时间:2015-04-24 00:40:55    阅读次数:221
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!