一、NLPIR是什么? NLPIR(汉语分词系统)由中科大张华平博士团队开发,主要功能包括:中文分词,词性标注,命名实体识别,用户词典功能,详情见官网:http://ictclas.nlpir.org/。 二、java环境下的使用: 主要参考了如下资料:http://www.360doc.com/c
分类:
编程语言 时间:
2016-02-28 09:48:22
阅读次数:
305
在Elasticsearch中,内置了很多分词器(analyzers),但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,但是smartcn中文分词器..
分类:
其他好文 时间:
2016-02-20 10:33:20
阅读次数:
228
对于中文搜索引擎来说, 中文分词是整个系统最基础的部分之一, 因为目前基于单字的中文搜索算法并不是太好。 当然, 本文不是要对中文搜索引擎做研究, 而是分享如果用 PHP 做一个站内搜索引擎。 本文是这个系统中的一篇。我使用的分词工具是中科院计算所的开源版本的 ICTCLAS。 另外还有开源的 Ba...
分类:
Web程序 时间:
2016-01-05 22:16:24
阅读次数:
217
摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在windows系统下编译JAVA,生成可以执行的jar文件。NLPIR的下载地址:http://ictclas.nl...
分类:
编程语言 时间:
2015-11-18 12:02:30
阅读次数:
301
NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集。在Linux系统中的使用方法:http://jingyan.baidu.com/article/915...
分类:
其他好文 时间:
2015-10-24 00:09:55
阅读次数:
744
大体上参考链接:http://blog.csdn.net/luojinping/article/details/8788743最后注意下SegTag.java文件1 public SegTag(int segPathCount) {2 this.segPathCount = ...
分类:
其他好文 时间:
2015-08-12 21:30:42
阅读次数:
147
张华平博士在微博上回复了私信,如果这两天有哪位朋友出现了 License过期的问题,访问这个网址https://github.com/NLPIR-team/NLPIR ,进入里面的License目录,下载相关证书,复制到Data文件夹替换掉即可...
分类:
其他好文 时间:
2015-08-02 18:18:24
阅读次数:
176
今天使用的时候出现了证书过期,修改了过后出现的是Cannot open Configure file 之类的问题,但是如果项目里存在Data文件夹,这个错误是不应该存在的
搞了一个晚上,目前就找到了一个解决方案
就是调整本机的时间,这个问题是我在8月1号出现的,我调回了7月30,但是还是用不了,原来是一旦执行过后显示了证书过期Data文件就会进行相应的修改并且保存
所以解决方案就是下...
分类:
其他好文 时间:
2015-08-02 01:04:03
阅读次数:
132
它一直喜欢的搜索方向,虽然无法做到。但仍保持了狂热的份额。记得那个夏天、这间实验室、这一群人,一切都随风而逝。踏上新征程。我以前没有自己。面对七三分技术的商业环境,我选择了沉淀。社会是一个大机器,我们只是一个小螺丝钉。我们不能容忍半点扭扭捏捏。于一个时代的产物。也终将被时代所抛弃。言归正题,在luc...
分类:
Web程序 时间:
2015-06-28 12:28:48
阅读次数:
117
NLPIR工具 支持自定义词表; 可以离线使用;下载地址:http://ictclas.nlpir.org/newsdownloads?DocId=389在线演示:http://ictclas.nlpir.org/nlpir/自然语言处理与信息检索共享平台:(nlpir相关的一些软件、文档、论文.....
分类:
编程语言 时间:
2015-06-18 12:53:51
阅读次数:
5300