参考:http://www.docin.com/p-903107459.html http://www.doc88.com/p-2364567227186.html 主要针对类似“4S店”,“学习ing”等类似的中英文混合文本。 使用字符串匹配算法,对于待切分分本,系统首先进行初切分,然后再进行具有 ...
分类:
其他好文 时间:
2016-07-24 20:42:11
阅读次数:
223
通过MapReduce实现 TF-IDF值的统计 数据:文章ID 文件内容 结果数据: 在整个的处理过程中通过两步来完成 第一步主要生成三种格式的文件 1、使用分词工具将文章内容进行拆分成多个词条;并记录文章的总词条数 关于分词工具的使用请参考 TF-IDF第一步处理后结果: 2、记录词条在多少篇文 ...
分类:
其他好文 时间:
2016-07-22 18:58:47
阅读次数:
559
1:导入Lucene相关的jar包 其中: lucene-core-3.6.2.jar(核心包) lucene-analyzers-3.6.2.jar(分词器) lucene-highlighter-3.6.2.jar(高亮) lucene-memory-3.6.2.jar(高亮) IKAnalyz ...
分类:
Web程序 时间:
2016-07-20 19:28:25
阅读次数:
216
http://sighan.cs.uchicago.edu/bakeoff2005/
http://www.52nlp.cn/中文分词入门之资源...
分类:
其他好文 时间:
2016-07-17 16:54:19
阅读次数:
1176
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码 a和副词代码d并在一起。 a ...
分类:
其他好文 时间:
2016-07-15 17:04:27
阅读次数:
230
sphinx是国外的一款搜索软件。 coreseek是在sphinx的基础上,增加了中文分词功能,换句话说,就是支持了中文。 Coreseek发布了3.2.14版本和4.1版本,其中的3.2.14版本是2010年发布的,它是基于Sphinx0.9.9搜索引擎的。而4.1版本是2011年发布的,它是基 ...
分类:
其他好文 时间:
2016-07-15 16:49:54
阅读次数:
222
之前零零散散用过几次,配置好了就没管过。后来再用的时候就忘了怎么配置,又找了很多资料(太麻烦了)。现总结一下当作笔记: 首先,下载中科院分词项目。 github网址:https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR%20SDK/NLPIR-I ...
分类:
编程语言 时间:
2016-07-13 15:39:32
阅读次数:
262
前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn中文分词器以及对结果的高亮显示。1. 中文分词使用中文分词的话,首先到添加中文分词的jar包。
...
分类:
Web程序 时间:
2016-07-12 23:30:51
阅读次数:
275
wgethttps://download.elastic.co/elasticsearch/release/org/elasticsearch/distribution/tar/elasticsearch/2.3.3/elasticsearch-2.3.3.tar.gz集群安装:三个节点:master,slave1,slvae2vielasticsearch.ymlcluster.name:my-applicationnode.name:node-3(节点独有的名称,注..
分类:
其他好文 时间:
2016-07-12 15:37:35
阅读次数:
152
“少理论,少模型”,“多实践”,“多应用”的学习态度,今天带来的是关于站内搜索的基础使用,目前检索这个领域有非常多优秀的框架了,但是身为一个全文检索领域的经典祖先,我们还是需要了解和掌握其精华的。本文主要内容有Lucene简介、索引库的建立、关键字搜索、检索分页、网站排名优化、分词、搜索结果高亮等。要求掌握其基本开发流程,并可以使用servlet+easyUI+lucene+jsp+js等技术做一个简易的站内搜索的功能模块。...
分类:
Web程序 时间:
2016-07-11 17:12:44
阅读次数:
219