码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
基于Hadoop2.6.0 + ICTCLAS2015的并行化中文分词
1、在Linux下安装ICTCLAS2015?1) 环境 Eclipse、Linux、ICTCLAS2015、jna-platform-4.1.0.jar( JNA类库)?2) 安装ICTCLAS2015 在Linux下的 Eclipse中新建MapReduce Project,假设工程名为RF.....
分类:其他好文   时间:2015-10-28 17:03:43    阅读次数:299
Java NIO入门
NIO入门前段时间在公司里处理一些大的数据,并对其进行分词、提取关键字等。虽说任务基本完成了(效果也不是特别好),对于Java还没入门的我来说前前后后花了2周的时间,我自己也是醉了。当然也有涉及到机器学习的知识,我想陆陆续续的记录下我的这一次任务的过程,也算做一个总结。首先,手上有这么个达G级别的文...
分类:编程语言   时间:2015-10-28 01:30:27    阅读次数:272
简单中文分词系统的实现
中文分词系统工程报告一、研究背景 随着互联网的快速发展,信息也呈了爆炸式的增长趋势。在海量的信息中,我们如何快速抽取出有效信息成为了必须要解决的问题。由于信息处理的重复性,而计算机又善于处理机械的、重复的、有规律可循的工作,因此自然就想到了利用计算机来帮助人们进行处理。在用计算机进行自然语言处理时,...
分类:其他好文   时间:2015-10-26 23:50:30    阅读次数:755
Es 自定义分词
index : ??? analysis : ??????? analyzer : ??????????? descAnalyzer : ??????????????? tokenizer : [standard,lang,letter,whitespace,uax_url_email] ????????...
分类:其他好文   时间:2015-10-25 06:25:37    阅读次数:370
ES Index Search的理解
类型常用的也就这些了,还有一些类型大家可以参考官网,另外一个比较重的方面的就是分词了(analyzer),不管在目前任何检索系统是分词决定这检索 的查全与查准及索引的膨涨率等。在Es中analyze...
分类:其他好文   时间:2015-10-24 06:49:01    阅读次数:2277
ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集
NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集。在Linux系统中的使用方法:http://jingyan.baidu.com/article/915...
分类:其他好文   时间:2015-10-24 00:09:55    阅读次数:744
Elasticsearch 中文分词插件 jcseg 安装 (Ubuntu 14.04 下)
搜索可以说是开发中很常见的场景了,同样这次也一样。。。 之前的组合多数是选择 Mysql + Sphinx ,这次因为工作原因不再使用这种组合,虽然是老牌组合,但是确实限制诸多,而且每次配环境也是个问题,挺烦的。。...
分类:系统相关   时间:2015-10-23 18:59:03    阅读次数:331
Thinkphp3.2使用scws中文分词 提取关键词
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。1.下载scws官方提供的类(这里使用的是pscws第四版的)http://www.xunsearch.com/scws/down/pscws4-20081221.tar.bz2下载...
分类:Web程序   时间:2015-10-23 18:14:13    阅读次数:261
中文分词
原文:http://blog.chinaunix.net/uid-20236190-id-1643667.html只是copy过来,防止原文被删掉,原文的排版格式更清晰,建议大家看原文。CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John ...
分类:其他好文   时间:2015-10-23 18:01:44    阅读次数:194
中文分词系列(二) 基于双数组Tire树的AC自动机
秉着能偷懒就偷懒的精神,关于AC自动机本来不想看的,但是HanLp的源码中用户自定义词典的识别是用的AC自动机实现的。唉~没办法,还是看看吧AC自动机理论Aho Corasick自动机,简称AC自动机,要学会AC自动机,我们必须知道什么是Trie,也就是字典树。Trie树,又称单词查找树或键树,是一...
分类:编程语言   时间:2015-10-21 19:00:11    阅读次数:1107
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!