=。=折腾死①你想要http://maven.ansj.org/org/ansj/ansj_seg/找一个尽可能高的版本号,比方2.0.7,点进去之后找到相应的jar,比方ansj_seg-2.0.7.jar②然后。http://maven.ansj.org/org/nlpcn/nlp-lang/在...
分类:
其他好文 时间:
2015-12-15 14:38:26
阅读次数:
133
Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考http://www.cnblogs.com/luxh/p/5016894.html 配置和solr和tomcat的1、从http://iamyida.iteye.com/...
分类:
其他好文 时间:
2015-12-03 21:14:38
阅读次数:
286
NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集。在Linux系统中的使用方法:http://jingyan.baidu.com/article/915...
分类:
其他好文 时间:
2015-10-24 00:09:55
阅读次数:
744
由于ik没有歧义分词的功能,打算用anjs 对前端传递过来的数据用anjs进行分词anjs 操作文档官网地址:http://nlpchina.github.io/ansj_seg/刚刚开始由于jar包问题折腾了一会,所以将jar 共享出来jar 包下载地址:http://yunpan.cn/cmuT...
分类:
Web程序 时间:
2015-09-01 19:53:00
阅读次数:
189
对于切词确实是一个复杂的功能,足以写上好几篇论文,但是如果仅仅想对一个句子、一个段落、一篇文章进行切词,可以利用中国自然语言开源组织中各位大牛写好的工具。已经打包成jar包,可以直接调用了,无须自己再考虑复杂的算法。
当然这种切词是对于自然语言的,对于一些有规律的字符串,请自行利用indexOf、substring、split的各类Java自带函数,没有使用额外java包的必要。
首先假如有如...
分类:
编程语言 时间:
2015-08-04 11:23:02
阅读次数:
236
目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。...
分类:
其他好文 时间:
2015-05-14 16:43:27
阅读次数:
350
cws_evaluation是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smart...
分类:
其他好文 时间:
2015-05-12 11:48:11
阅读次数:
295
在上一节【编译Ansj之Solr插件】中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包、在schema中配置相关类型、将ansj和nlp-lang等jar包配置到solr.....
分类:
其他好文 时间:
2015-05-06 12:27:33
阅读次数:
172
Ansj是一个比较优秀的中文分词组件,具体情况就不在本文介绍了。ansj作者在其官方代码中,提供了对lucene接口的支持。如果用在Solr下,还需要简单的扩展一下。1、基于maven管理 ansj是基于maven进行开发管理的。我们首先修改一下其pom.xml,具体如下所示: 4.0.0 ...
分类:
其他好文 时间:
2015-05-05 16:24:03
阅读次数:
162
http://www.hankcs.com/nlp/corpus/several-revenue-segmentation-system-used-set-of-source-tagging.html我发现几个民间的分词项目的词典很乱,ansj分词的作者承认arrays.dic是从结巴分词抄过来的,...
分类:
其他好文 时间:
2015-01-15 12:35:19
阅读次数:
280