码迷,mamicode.com
首页 >  
搜索关键字:ictclas    ( 50个结果
【原创】中文分词系统 ICTCLASS2015 的JAVA封装和多线程执行(附代码)
本文针对的问题是 ICTCLASS2015 的多线程分词,为了实现多线程做了简单的JAVA封装。如果有需要可以自行进一步封装其它接口。 首先ICTCLASS2015的传送门(http://ictclas.nlpir.org/),其对中文分词做的比较透彻,而且有一定的可调式性。但是应用到实际开发...
分类:编程语言   时间:2015-06-16 16:39:59    阅读次数:268
中科院NLPIR中文分词java版
摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在windows系统下编译JAVA,生成可以执行的jar文件。NLPIR的下载地址:http://ictclas.nl...
分类:编程语言   时间:2015-06-12 23:47:26    阅读次数:314
科研项目之经验之谈
preface:在走着走着的道路上,总会有些想法或者总结的念头,便想要记录下来,以备不时之需。ps:卤主搞自然语言处理相关,仅这块有些想法。 一、学好理论基础 卤主等有想法再些。 二、从数据入手,分析数据,看准需要实现的目标 无论科研还是工作,大同小异:做东西。在掌握基本方法(SVM, HMM, CRF, RF, LR等分类,聚类,回归工具)与工具(语言工具python,分...
分类:其他好文   时间:2015-06-02 18:03:01    阅读次数:154
NLPIR简介及使用配置
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;官方网址:http://ictclas.nlpir.org(地址一直在变,要是不能用直接搜NLPIR).....
分类:其他好文   时间:2015-05-10 12:45:23    阅读次数:254
NLP
近期有同学问我有哪些较好的nlp工具。之前我们都知道中科院的ictclas,能够实现分词、词性标注功能,而且最新版的还增加了几个篇章级的功能,如新词识别,关键词抽取等,在接口方面ictclas有java,c++,python版本。另外,从去年开始我一直在用哈工大的ltp,它的基础性功能比ictcla...
分类:其他好文   时间:2015-05-05 21:21:18    阅读次数:148
哈工大自然语言处理工具pyltp的本地安装方法
在研究中发现,哈工大的LTP在分词、实体识别等方面的效果甚至要优于中科院ICTCLAS,而且LTP还具备了目前在中文信息处理领域较为罕见的语义角色标注(SRL)功能。以前我都是直接以get方式通过LTP-Cloud去使用的,但是由于受限于网速,当语料较大时 执行速度较慢。于是近期考虑在自己的机子上安装,由于个人比较喜欢用ython编程,所以就安装了官方发布的pyltp。在安装过程中遇到了不少问题,...
分类:编程语言   时间:2015-04-27 20:12:51    阅读次数:303
Eclipse下C++调用NLPIR分词系统
最近在研究文本挖掘,对于中文文本,首先要进行分词,那么就用到了NLPIR分词系统。总结了一下网上的资料:下面介绍一下如何用C++调用NLPIR分词系统:step 1:下载最新版的NLPIR分词系统:http://ictclas.nlpir.org/。解压后如下图:step 2:打开IDE(我用的是e...
分类:编程语言   时间:2015-03-16 16:21:42    阅读次数:172
java实现NLPIR(ICTCLAS)分词
1、NLPIR简介         NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。     下载地址:http://ictclas.nlpir.org/downloads   2、目录介绍    ...
分类:编程语言   时间:2015-03-10 15:35:18    阅读次数:676
【文本挖掘】词性标注记法
ICTCLAS 汉语词性标注集汉语文本词性标注标记集Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。a 形容词 取英语形容词adjective的第1个字母。ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。an 名形词 具有名词功能的形容词。形容词代码a和名词代码...
分类:其他好文   时间:2015-02-10 18:37:34    阅读次数:214
ictclas4j进行中文分词
ICTCLAS是中科院计算所开发的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而现在C#,Delphi和Java版本已经纷纷出炉。下面是java版的例子。 纯Java版本的ICTCLAS(即ictclas4j),下载地址:http://pan.baidu.com/s/1jGGFXNS(这是0.9.1版的,官网经常打不开,这是我在百度云盘的分享) ...
分类:其他好文   时间:2014-12-23 17:27:44    阅读次数:328
50条   上一页 1 2 3 4 5 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!