本科阶段学了三四遍的HMM,机器学习课,自然语言处理课,中文信息处理课;如今学研究生的自然语言处理,又碰见了这个老熟人; 虽多次碰到,但总觉得一知半解,对其了解不够全面,借着这次的机会,我想要直接搞定这个大名鼎鼎的模型,也省着之后遇到再费心。 Outline 模型引入与背景介绍 从概率图讲起 贝叶斯 ...
分类:
其他好文 时间:
2019-12-24 23:48:08
阅读次数:
103
机内码、国际码、区位码之间的换算 字符编码的两种表示方式: ASCII(字符的表示);GB2312(国标码,汉字编码) 区位码:1980年,为了使每个汉字有一个全国统一的代码,我国颁布了汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基 ...
分类:
其他好文 时间:
2019-07-28 13:30:03
阅读次数:
123
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 ...
分类:
编程语言 时间:
2018-06-22 13:29:29
阅读次数:
215
NLP+句法结构(三)︱中文句法结构(CIPS2016、依存句法、文法)转自:https://www.cnblogs.com/maohai/p/6453389.html 摘录自:CIPS2016 中文信息处理报告《第一章 词法和句法分析研究进展、现状及趋势》P8 -P11 CIPS2016> 中文信 ...
分类:
其他好文 时间:
2018-01-13 17:00:54
阅读次数:
218
转载:http://blog.sina.com.cn/s/blog_8184e033010109ug.html 基本简介 GB码,全称是GB2312-80《信息交换用汉字编码字符集基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码 ...
分类:
其他好文 时间:
2017-09-25 20:53:36
阅读次数:
919
在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。中文分词是中文信息处理的一个基础环节,已被广泛应用于中文文本处理、信息提取 ...
分类:
其他好文 时间:
2017-07-05 15:53:45
阅读次数:
176
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来。然后做中文分词+词频统计,最后将统计结果简单做个标签云。效果例如以下: 兴许:中文分词是中文信息处理的基础。分词之后。事实上还有特别多有趣的文本挖掘工作能够做。也是个知识发现的过程,以后有机会再学习下。 * 中文分词经常 ...
分类:
编程语言 时间:
2017-05-20 00:04:56
阅读次数:
193
以下内容全部来自宗成庆博士的《统计自然语言处理(中文信息处理)》一书的第五章(部分)。 还有许多其他的平滑方法,不介绍了。最后,总结一下: ...
分类:
编程语言 时间:
2017-04-21 20:16:26
阅读次数:
151
摘录自:CIPS2016 中文信息处理报告《第三章 语篇分析研究进展、现状及趋势》P21 CIPS2016
中文信息处理报告下载链接:http://cips-upload.bj.bcebos....
分类:
其他好文 时间:
2017-02-19 20:28:08
阅读次数:
276
在学习nlp自然语言处理的过程中,免不了要使用中文分词资源作为分词依据或前期调研。所以想研究中文分词,第一步需要解决的就是资源问题。 作为中文信息处理的壁垒,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法(正向、逆向)等需要一个好的词 ...
分类:
其他好文 时间:
2016-09-03 14:56:01
阅读次数:
197