HMM简介 HMM用于研究非确定性生成模式,HMM是一个与时间无关的模型(有待改进),并且n阶HMM模型是指下一个状态只与前n个有关,通常只研究一阶HMM模型(有待改进)。从可观察的参数中确定该过程的隐含参数,然后利...
分类:
其他好文 时间:
2015-09-16 22:03:45
阅读次数:
259
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f....
分类:
编程语言 时间:
2015-09-13 22:48:35
阅读次数:
236
一、结巴中文分词采用的算法
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
二、结巴中文分词支持的分词模式
目前结巴分词支持三种分词模式:
精确模式,试图将句子最精确地切开,适...
分类:
编程语言 时间:
2015-08-29 18:50:49
阅读次数:
483
第10章隐马尔可夫模型隐马尔可夫模型(hidden Markov model, HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。10.1 隐马尔可夫模型的基本概念定义10.1 (隐马尔可夫模型) 隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的...
分类:
其他好文 时间:
2015-08-28 21:19:20
阅读次数:
1672
隐马尔可夫模型问题有3个,即评估、解码、学习。其中评估问题描述为给定一个隐马尔可夫模型参数和一个观察序列,求该观察序列的概率。我们使用前向算法(forwardalgorith)来解决这个问题。其c代码如下:hmm.h文件#ifndef_HMM_H_#define_HMM_H_//宏定义#defineNN3#defineMM4#defi..
分类:
编程语言 时间:
2015-08-21 11:28:42
阅读次数:
205
本文主要讨论隐马尔科夫模型的三大要素,三大假设和三大问题。1、引入 隐马尔可夫模型是一个关于时序的概率模型,它描述了一个由隐藏的马尔可夫链生成状态序列,再由状态序列生成观测序列的过程。其中,状态之间的转换以及观测序列和状态序列之间都存在一定的概率关系。隐马尔可夫模型主要用来对上述过程进行建模。为了....
分类:
其他好文 时间:
2015-08-15 18:15:00
阅读次数:
1151
EM 算法是求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行估计,是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据、截尾数据以及带有噪声等所谓的不完全数据,可以具体来说,我们可以利用EM算法来填充样本中的缺失数据、发现隐藏变量的值、估计HMM中的参数、估计有限混合分布中的参数以及可以进行无监督聚类等等。贴相关几个好文章:从最大似然到EM算法浅解混合高斯模型(Mixtu...
分类:
编程语言 时间:
2015-08-06 22:21:12
阅读次数:
326
前言文章标题的两个概念也许对于许多同学们来说都相对比较陌生,都比较偏向于于理论方面的知识,但是这个算法非常的强大,在很多方面都会存在他的影子。2个概念,1个维特比算法,1个隐马尔可夫模型。你很难想象,输入法的设计也会用到其中的一些知识。HMM-隐马尔可夫模型隐马尔可夫模型如果真的要展开来讲,那短短的一篇文章当然无法阐述的清,所以我会以最简单的方式解释。隐马尔可夫模型简称HMM,根据百度百科中的描述...
分类:
编程语言 时间:
2015-08-04 00:47:26
阅读次数:
137
该节主要是把《机器学习实战》书上第三章关于决策树的相关代码照样子实现了一遍。对其中一些内容作了些补充,对比ID3与C45区别,同时下载了一个大样本集实验决策树的准确率。首先,对于决策树的原理,很多很好的博客值得一看:从决策树学习谈到贝叶斯分类算法、EM、HMM决策树算法总结这两个已经详解了关于决策树的所有,慢慢品读吧。下面是书上外加添加的部分程序,首先是tree.py里面的程序:import ope...
分类:
编程语言 时间:
2015-07-31 22:01:49
阅读次数:
282
声明:本文主要是基于网上的材料做了文字编辑,原创部分甚少。参考资料见最后。
隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。HMM首先出现,MEMM其次,CRF最后。三个算法...
分类:
其他好文 时间:
2015-07-20 16:23:48
阅读次数:
250