码迷,mamicode.com
首页 >  
搜索关键字:汉语分词    ( 12个结果
中文分词简单理解及 jieba的简单运用
汉语分词中的基本问题:分词规范,歧义的切分和未登录词的识别 分词规范:(一般也就是指“词”的概念的纠缠不清的问题,),一方面来源于 单字词和词素之间的划界,另一方面就是词和短语(词组)的划界问题 歧义切分问题: 交集型切分歧义:汉字串AJB 其中 AJ,JB同时为词,此时的J 称作交集串 例如:结合 ...
分类:其他好文   时间:2019-01-01 15:26:12    阅读次数:236
汉语分词工具的研发-----
当时打酱油做的大创,除了看源代码之外,什么数学原理,始终没有动手实践过,站在巨人的肩上,就这么完成了大创。。 想不到时隔两年还要被迫回来学习,所以呀 出来混 还是要脚踏实地 亲力亲为 当时偷的懒 早晚都还要还回来的。 说到分词: 一:ICTCLAS 研制出了汉语词法分析系统ICTCLAS(Insti ...
分类:其他好文   时间:2017-05-13 14:52:55    阅读次数:153
文本情感分类(一):传统模型
前言:四五月份的时候,我参加了两个数据挖掘相关的竞赛,分别是物电学院举办的“亮剑杯”,以及第三届 “泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是,两个比赛中,都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候,由于我还是初涉,水平有限,仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后 ...
分类:其他好文   时间:2017-04-24 14:06:58    阅读次数:197
关于NLPIR应用在KETTLE中的探索
一:什么是NLPIR? NLPIR汉语分词系统(自然语言处理与信息检索共享平台),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了 ...
分类:其他好文   时间:2016-05-09 15:50:35    阅读次数:170
NLPIR分词工具的使用(java环境下)
一、NLPIR是什么? NLPIR(汉语分词系统)由中科大张华平博士团队开发,主要功能包括:中文分词,词性标注,命名实体识别,用户词典功能,详情见官网:http://ictclas.nlpir.org/。 二、java环境下的使用: 主要参考了如下资料:http://www.360doc.com/c
分类:编程语言   时间:2016-02-28 09:48:22    阅读次数:305
ZH奶酪:Java调用NLPIR汉语分词系统
NLPIR工具 支持自定义词表; 可以离线使用;下载地址:http://ictclas.nlpir.org/newsdownloads?DocId=389在线演示:http://ictclas.nlpir.org/nlpir/自然语言处理与信息检索共享平台:(nlpir相关的一些软件、文档、论文.....
分类:编程语言   时间:2015-06-18 12:53:51    阅读次数:5300
NLPIR简介及使用配置
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;官方网址:http://ictclas.nlpir.org(地址一直在变,要是不能用直接搜NLPIR).....
分类:其他好文   时间:2015-05-10 12:45:23    阅读次数:254
java实现NLPIR(ICTCLAS)分词
1、NLPIR简介         NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。     下载地址:http://ictclas.nlpir.org/downloads   2、目录介绍    ...
分类:编程语言   时间:2015-03-10 15:35:18    阅读次数:676
汉语自动分词
调用“海量智能分词”提供的动态链接库,实现汉语自动分词,并且搭建图形界面用于操作和显示。 首先下载“海量智能分词”软件,解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.lib。 图形界面使用MFC搭建,新建基于对话框的MFC应用程序,同时要将HLSSplit.li...
分类:其他好文   时间:2014-12-30 11:51:17    阅读次数:152
汉语分词软件的使用 (python底下)
目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词,稍微做一下推荐,还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词,基本实现原理有三:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于...
分类:编程语言   时间:2014-10-17 23:14:23    阅读次数:319
12条   1 2 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!