1、在Linux下安装ICTCLAS2015?1) 环境 Eclipse、Linux、ICTCLAS2015、jna-platform-4.1.0.jar( JNA类库)?2) 安装ICTCLAS2015 在Linux下的 Eclipse中新建MapReduce Project,假设工程名为RF.....
分类:
其他好文 时间:
2015-10-28 17:03:43
阅读次数:
299
NIO入门前段时间在公司里处理一些大的数据,并对其进行分词、提取关键字等。虽说任务基本完成了(效果也不是特别好),对于Java还没入门的我来说前前后后花了2周的时间,我自己也是醉了。当然也有涉及到机器学习的知识,我想陆陆续续的记录下我的这一次任务的过程,也算做一个总结。首先,手上有这么个达G级别的文...
分类:
编程语言 时间:
2015-10-28 01:30:27
阅读次数:
272
中文分词系统工程报告一、研究背景 随着互联网的快速发展,信息也呈了爆炸式的增长趋势。在海量的信息中,我们如何快速抽取出有效信息成为了必须要解决的问题。由于信息处理的重复性,而计算机又善于处理机械的、重复的、有规律可循的工作,因此自然就想到了利用计算机来帮助人们进行处理。在用计算机进行自然语言处理时,...
分类:
其他好文 时间:
2015-10-26 23:50:30
阅读次数:
755
index : ??? analysis : ??????? analyzer : ??????????? descAnalyzer : ??????????????? tokenizer : [standard,lang,letter,whitespace,uax_url_email] ????????...
分类:
其他好文 时间:
2015-10-25 06:25:37
阅读次数:
370
类型常用的也就这些了,还有一些类型大家可以参考官网,另外一个比较重的方面的就是分词了(analyzer),不管在目前任何检索系统是分词决定这检索 的查全与查准及索引的膨涨率等。在Es中analyze...
分类:
其他好文 时间:
2015-10-24 06:49:01
阅读次数:
2277
NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集。在Linux系统中的使用方法:http://jingyan.baidu.com/article/915...
分类:
其他好文 时间:
2015-10-24 00:09:55
阅读次数:
744
搜索可以说是开发中很常见的场景了,同样这次也一样。。。 之前的组合多数是选择 Mysql + Sphinx ,这次因为工作原因不再使用这种组合,虽然是老牌组合,但是确实限制诸多,而且每次配环境也是个问题,挺烦的。。...
分类:
系统相关 时间:
2015-10-23 18:59:03
阅读次数:
331
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。1.下载scws官方提供的类(这里使用的是pscws第四版的)http://www.xunsearch.com/scws/down/pscws4-20081221.tar.bz2下载...
分类:
Web程序 时间:
2015-10-23 18:14:13
阅读次数:
261
原文:http://blog.chinaunix.net/uid-20236190-id-1643667.html只是copy过来,防止原文被删掉,原文的排版格式更清晰,建议大家看原文。CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John ...
分类:
其他好文 时间:
2015-10-23 18:01:44
阅读次数:
194
秉着能偷懒就偷懒的精神,关于AC自动机本来不想看的,但是HanLp的源码中用户自定义词典的识别是用的AC自动机实现的。唉~没办法,还是看看吧AC自动机理论Aho Corasick自动机,简称AC自动机,要学会AC自动机,我们必须知道什么是Trie,也就是字典树。Trie树,又称单词查找树或键树,是一...
分类:
编程语言 时间:
2015-10-21 19:00:11
阅读次数:
1107