搜索关键字：新词发现，搜索到11个结果！码迷,mamicode.com！

【NLP】分词新词

基于大规模语料的新词发现算法 https://blog.csdn.net/xgjianstart/article/details/52193258 互联网时代的社会语言学：基于SNS的文本数据挖掘 http://www.matrix67.com/blog/archives/5044 ...

分类：其他好文时间：2019-01-11 21:16:33 阅读次数：213

Python 自然语言处理

一. 中文分词技术中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”，规则分词主要是通过人工设立词库，按照一定方式进行匹配切分，实现简单高效，但对新词很难进行处理，统计分词能够较好应对新词发现能特殊场景，但太过于依赖语料的质量，因此实践中多是采用两者的结合，即混合分词。 1.1 规则分 ...

分类：编程语言时间：2018-12-17 02:42:01 阅读次数：173

Hanlp 在Python环境中安装、介绍及使用

Hanlp HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。功能：中文分词词性标注命名实体识别依存句法分析关键词提取新词发现短语提取自动摘要文本分类拼音简繁 Hanl ...

分类：编程语言时间：2018-11-04 01:40:20 阅读次数：279

看到一个词语提取小工具，分享给有标签、词库需求的同学们

关于词语小工具的描述快戳下面链接~~~https://forum.huaweicloud.com/thread-8391-1-1.html不想看文章，想立即试用小工具的，请戳下面~~~http://fe2e6fd859034d40a3269f7b541e31de.apigw.cn-north-1.huaweicloud.com/

分类：其他好文时间：2018-04-24 11:50:19 阅读次数：140

Mmseg中文分词算法解析

Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候，我採用都是基于mmseg中文分词算法开发的Jcseg开源project。使用场景涉及搜索索引创建时的中文分词、新词发现的中文分词、语义词向量空间构建过程的中文分词和文章特征向量提取前的中文 ...

分类：编程语言时间：2017-05-16 11:00:05 阅读次数：180

weka 初练之文本分类

0.注意weka的中文编码RunWeka.ini 》fileEncoding=utf-81.首先对分词后的无新词发现的分词文件，转换成arff文件命令java weka.core.converters.TextDirectoryLoader -dir D:\weibo\catagory\data ...

分类：其他好文时间：2016-12-11 21:08:37 阅读次数：201

关于NLPIR应用在KETTLE中的探索

一：什么是NLPIR？ NLPIR汉语分词系统(自然语言处理与信息检索共享平台),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造十余年，内核升级10次。全球用户突破20万，先后获得了 ...

分类：其他好文时间：2016-05-09 15:50:35 阅读次数：170

NLPIR简介及使用配置

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；官方网址：http://ictclas.nlpir.org（地址一直在变，要是不能用直接搜NLPIR）.....

分类：其他好文时间：2015-05-10 12:45:23 阅读次数：254

java实现NLPIR（ICTCLAS）分词

1、NLPIR简介 NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造十余年，内核升级10次。下载地址：http://ictclas.nlpir.org/downloads 2、目录介绍 ...

分类：编程语言时间：2015-03-10 15:35:18 阅读次数：676

【算法设计】基于大规模语料的新词发现算法

对中文资料进行自然语言处理时，我们会遇到很多其他语言不会有的困难，例如分词——汉语的词与词之间没有空格，那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已／结婚／的／和／尚未／结婚／的”，还是“已／结婚／的／和尚／未／结婚／的”呢？这就是所谓的分词歧义难题。不过，现在很多语言模型都已能比较漂亮地解...

分类：编程语言时间：2014-10-23 20:44:05 阅读次数：264

共11条 1 2 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)