1.基本概念:
NLP:自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。
语言的基本属性:语音和文字 2.研究内容: 3.基本问题: a)形态学(morph...
分类:
其他好文 时间:
2014-06-03 13:45:29
阅读次数:
428
这篇博客根据中文自然语言预处理的步骤分成几个板块。以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例:一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不...
分类:
编程语言 时间:
2014-06-03 06:45:21
阅读次数:
385
一、信息论基础: 熵: 联合熵:实际上就是描述一对随机变量平均所需要的信息量。
条件熵:给定随机变量 X 的情况下,随机变量 Y 的条件熵定义为: 熵率: 相对熵(KL距离):两个概率分布 p(x) 和 q(x) 的相对熵定义为:
交叉熵:如果一个随机变量 X ~ p(x),q(x)为用于近似 p(...
分类:
其他好文 时间:
2014-05-31 15:39:37
阅读次数:
319
1.形式语言:是用来精确地描述语言(包括人工语言和自然语言)及其结构的手段。形式语言学
也称代数语言学。 2.自动机:识别器是有穷地表示无穷语言的另一种方法。每一个语言的句子都能被一定的识别器所接受。 *有限状态转换机(FST)
除了前面提到的单词拼写检查、词法分析、词性标注...
分类:
其他好文 时间:
2014-05-31 15:18:10
阅读次数:
631
第一章 语言模型(自然语言处理课程讲义,Michael Collins,哥伦比亚大学)1.1
介绍在这一节,我们将考虑一个问题,即如何为一个例句集建立语言模型。语言模型最初从语音识别发展起来;对现代的语言识别系统,语言模型依然起着中心作用。语言模型在其他自然语言处理应用中也被广泛应用。我们将在本章讨...
分类:
其他好文 时间:
2014-05-26 20:34:56
阅读次数:
1356
第一章 语言模型(自然语言处理课程讲义,Michael Collins,哥伦比亚大学)1.1
介绍在这一节,我们将考虑一个问题,即如何为一个例句集建立语言模型。语言模型最初从语音识别发展起来;对现代的语言识别系统,语言模型依然起着中心作用。语言模型在其他自然语言处理应用中也被广泛应用。我们将在本章讨...
分类:
其他好文 时间:
2014-05-23 07:01:08
阅读次数:
489
机器学习入门教材有许多,入门方式多种多样,我是半路出家,简单总结一下我的机器学习之路。2011年考入北邮计算机研究生学院,主要是NLP方向。之前没有接触过机器学习,本科也不是计算机专业,而是工商管理。
2011年研究生阶段,两节课对我影响很大:
第一节课是计算语言学,最开始了解和接触机器学习,是在上这节课的时候,老师推荐的教材《统计自然语言处理基础》。在老师的课上,有讲到HMM(隐马尔...
分类:
其他好文 时间:
2014-05-22 08:24:51
阅读次数:
307
第一章 语言模型(Michael Collins的自然语言处理课程讲义,哥伦比亚大学) 1.1
介绍在这一节,我们将考虑一个问题,即如何为一个例句集建立语言模型。语言模型最初从语音识别发展起来;对现代的语言识别系统,语言模型依然起着中心作用。语言模型在其他自然语言处理应用中也被广泛应用。我们将在本章...
分类:
其他好文 时间:
2014-05-21 19:57:32
阅读次数:
404