备注:win7 64位系统,netbeans编程 基本代码框架参见我的另一篇文章:NLPIR分词功能 代码实现: 1 package cwordseg; 2 3 import java.io.UnsupportedEncodingException; 4 // import utils.System ...
分类:
其他好文 时间:
2016-04-18 20:19:38
阅读次数:
917
ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在Configure.xml中设置),支持多编码 ...
分类:
其他好文 时间:
2016-04-18 19:00:04
阅读次数:
309
IK分词器相对于mmseg4J来说词典内容更加丰富,但是没有mmseg4J灵活,后者可以自定义自己的词语库。IK分词器的配置过程和mmseg4J一样简单,其过程如下: 1.引入IKAnalyzer.jar包到solr应用程序的WEB-INF/lib/目录下 2.打开solr的home/conf目录下 ...
分类:
其他好文 时间:
2016-04-16 18:39:53
阅读次数:
124
Lucene简介 首先说明的是--Lucene.Net只是一个全文检索开发包,不是一个成型的搜索引擎, 它的功能就是负责将文本数据按照某种分词算法进行切词,分词后的结果存储在索引库中,从索引库检索数据的速度灰常快. 对以上加粗的词汇稍作下阐述: 文本数据:Lucene.Net只能对文本信息进行检索, ...
分类:
Web程序 时间:
2016-04-16 16:56:26
阅读次数:
129
Java调用NLPIC实现分词和标注工作,Python调用Word2Vec实现词向量相似度计算...
分类:
编程语言 时间:
2016-04-12 13:01:22
阅读次数:
1329
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 Mahout相关资源 ?Mahout主页:http://mahout.apache.o ...
分类:
编程语言 时间:
2016-04-12 07:04:40
阅读次数:
419
Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。 讲师本人之前在互联网大数据、国家水电数据中心方面的项 ...
分类:
其他好文 时间:
2016-04-12 00:18:23
阅读次数:
312
Discuz!在线中文分词服务是基于API返回分词结果的。在项目中,我们只需要一个函数即可方便地进行分词、关键词提取。以下是根据Discuz!在线分词服务API写的函数,测试可正常运行: 代码代码如下: 分词示例,通过url访问: 代码代码如下: http://keyword.discuz.com/ ...
分类:
Web程序 时间:
2016-04-11 11:41:26
阅读次数:
1280
1.下载附加的中科院分词工具包(要下载的到我的博客里面免费下载即可)
2.解压后会看到如下几个文件夹
3.把java工程导入eclipse中,点击import,再选择existing project into workspace
4.导入sample文件下的JnaTest_NLPIR的java工程文件,按确定即可导入
5.在NlpirTest类下修改路径问题:...
分类:
编程语言 时间:
2016-04-10 14:57:49
阅读次数:
152
一、搭建solr服务器1、Apache官网下载solr,本次使用4.9.1版本2、解压solr,找到example,将webapps中的war包复制到tomcat的webapps下3、运行tomcat,关闭tomcat,得到解压后的solr文件夹,删除war包4、将example\lib\ext\* ...
分类:
其他好文 时间:
2016-04-07 18:25:50
阅读次数:
146