码迷,mamicode.com
首页 >  
搜索关键字:新词发现    ( 11个结果
【NLP】分词 新词
基于大规模语料的新词发现算法 https://blog.csdn.net/xgjianstart/article/details/52193258 互联网时代的社会语言学:基于SNS的文本数据挖掘 http://www.matrix67.com/blog/archives/5044 ...
分类:其他好文   时间:2019-01-11 21:16:33    阅读次数:213
Python 自然语言处理
一. 中文分词技术 中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”,规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词很难进行处理,统计分词能够较好应对新词发现能特殊场景,但太过于依赖语料的质量,因此实践中多是采用两者的结合,即混合分词。 1.1 规则分 ...
分类:编程语言   时间:2018-12-17 02:42:01    阅读次数:173
Hanlp 在Python环境中安装、介绍及使用
Hanlp HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁 Hanl ...
分类:编程语言   时间:2018-11-04 01:40:20    阅读次数:279
看到一个词语提取小工具,分享给有标签、词库需求的同学们
关于词语小工具的描述快戳下面链接~~~https://forum.huaweicloud.com/thread-8391-1-1.html不想看文章,想立即试用小工具的,请戳下面~~~http://fe2e6fd859034d40a3269f7b541e31de.apigw.cn-north-1.huaweicloud.com/
分类:其他好文   时间:2018-04-24 11:50:19    阅读次数:140
Mmseg中文分词算法解析
Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project。使用场景涉及搜索索引创建时的中文分词、新词发现的中文分词、语义词向量空间构建过程的中文分词和文章特征向量提取前的中文 ...
分类:编程语言   时间:2017-05-16 11:00:05    阅读次数:180
weka 初练之 文本分类
0.注意weka的中文编码RunWeka.ini 》fileEncoding=utf-81.首先对分词后的 无新词发现的分词文件,转换成arff文件 命令java weka.core.converters.TextDirectoryLoader -dir D:\weibo\catagory\data ...
分类:其他好文   时间:2016-12-11 21:08:37    阅读次数:201
关于NLPIR应用在KETTLE中的探索
一:什么是NLPIR? NLPIR汉语分词系统(自然语言处理与信息检索共享平台),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了 ...
分类:其他好文   时间:2016-05-09 15:50:35    阅读次数:170
NLPIR简介及使用配置
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;官方网址:http://ictclas.nlpir.org(地址一直在变,要是不能用直接搜NLPIR).....
分类:其他好文   时间:2015-05-10 12:45:23    阅读次数:254
java实现NLPIR(ICTCLAS)分词
1、NLPIR简介         NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。     下载地址:http://ictclas.nlpir.org/downloads   2、目录介绍    ...
分类:编程语言   时间:2015-03-10 15:35:18    阅读次数:676
【算法设计】基于大规模语料的新词发现算法
对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢?这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解...
分类:编程语言   时间:2014-10-23 20:44:05    阅读次数:264
11条   1 2 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!