隐马尔科夫模型HMM

时间：2015-07-04 14:08:47 阅读：243 评论：0 收藏：0 [点我收藏+]

http://blog.csdn.net/pipisorry/article/details/46618991

马尔科夫过程

马尔科夫过程可以看做是一个自动机，以一定的概率在各个状态之间跳转。

考虑一个系统，在每个时刻都可能处于N个状态中的一个，N个状态集合是 {S1,S2,S3,...SN}。我们现在用q1,q2,q3,…qn来表示系统在t=1,2,3,…n时刻下的状态。在t=1时，系统所在的状态q取决于一个初始概率分布PI，PI(SN)表示t=1时系统状态为SN的概率。

马尔科夫模型有两个假设：

1. 系统在时刻t的状态只与时刻t-1处的状态相关；（也称为无后效性）

2. 状态转移概率与时间无关；（也称为齐次性或时齐性）

第一条具体可以用如下公式表示：

P(qt=Sj|qt-1=Si,qt-2=Sk,…)= P(qt=Sj|qt-1=Si)

其中，t为大于1的任意数值，Sk为任意状态

第二个假设则可以用如下公式表示：

P(qt=Sj|qt-1=Si)= P(qk=Sj|qk-1=Si)

其中，k为任意时刻。

下图是一个马尔科夫过程的样例图：

技术分享

可以把状态转移概率用矩阵A表示，矩阵的行列长度均为状态数目，aij表示P(Si|Si-1)。

隐马尔科夫过程

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析。是在被建模的系统被认为是一个马尔可夫过程与未观测到的（隐藏的）的状态的统计马尔可夫模型。

与马尔科夫相比，隐马尔科夫模型则是双重随机过程，不仅状态转移之间是个随机事件，状态和输出之间也是一个随机过程，如下图所示：

此图是从别处找来的，可能符号与我之前描述马尔科夫时不同，相信大家也能理解。

该图分为上下两行，上面那行就是一个马尔科夫转移过程，下面这一行则是输出，即我们可以观察到的值，现在，我们将上面那行的马尔科夫转移过程中的状态称为隐藏状态，下面的观察到的值称为观察状态，观察状态的集合表示为 O={O1,O2,O3,…OM}。

相应的，隐马尔科夫也比马尔科夫多了一个假设，即输出仅与当前状态有关，可以用如下公式表示：

P(O1,O2,…,Ot|S1,S2,…,St)=P(O1|S1)*P(O2|S2)*...*P(Ot|St)

其中，O1,O2,…,Ot为从时刻1到时刻t的观测状态序列，S1,S2,…,St则为隐藏状态序列。

另外，该假设又称为输出独立性假设。

隐马模型基本要素及基本三问题

举个例子

举个常见的例子来引出下文，同时方便大家理解！比如我在不同天气状态下去做一些事情的概率不同，天气状态集合为{下雨，阴天，晴天}，事情集合为{宅着，自习，游玩}。假如我们已经有了转移概率和输出概率，即P(天气A|天气B)和P(事情a|天气A)的概率都已知道，那么则有几个问题要问（注意，假设一天我那几件事情中的一件），

1.假如一周内的天气变化是下雨->晴天->阴天->下雨->阴天->晴天->阴天，那么我这一周自习->宅着->游玩->自习->游玩->宅着->自习的概率是多大？

2.假如我这一周做事序列是自习->宅着->游玩->自习->游玩->宅着->自习，不知道天气状态的情况下这个做事序列的概率是多大？

3.假如一周内的天气变化是下雨->晴天->阴天->下雨->阴天->晴天->阴天，那我们这一周最有可能的做事序列是什么？

4.假如我这一周做事序列是自习->宅着->游玩->自习->游玩->宅着->自习，那么这一周的天气变化序列最有可能是什么？

HMM的三个基本要素

综上所述，我们可以得到隐马尔科夫的基本要素，即一个五元组{S,N,A,B,PI}；

S：隐藏状态集合；

N：观察状态集合；

A：隐藏状态间的转移概率矩阵；

B：输出矩阵（即隐藏状态到输出状态的概率）；

PI：初始概率分布（隐藏状态的初始概率分布）；

其中，A,B,PI称为隐马尔科夫的参数，用X表示。

由上述问题可以引出隐马尔科夫的三个基本问题的其中两个。

HMM的三个基本问题

1. 给定模型（五元组），求某个观察序列O的概率（样例问题2）。

2. 给定模型和观察序列O，求可能性最大的隐藏状态序列（样例问题4）。

3. 对于给定的观察序列O，调整HMM的参数，使观察序列出现的概率最大。

基本算法

针对以下三个问题，人们提出了相应的算法

1 评估问题：前向算法

2 解码问题： Viterbi算法

3 学习问题： Baum-Welch算法(向前向后算法)

前向算法对于第一个基本问题，计算公式为：

技术分享

即对于观察序列O，我们需要找出所有可能的隐藏状态序列S，计算出在给定模型下S输出为O的概率（就是样例问题一啊），然后计算概率之和。

直观上看，假如序列O的长度为T，模型的隐藏状态集合大小为N，那么一共有NT个可能的隐藏状态序列，计算复杂度极高O(NT)，暴力算法太慢了。

解决方案就是动态规划（Dynamic Programming）。

假设观察序列为O1,O2,O3,….,Ot. 在时刻i（1<i<=t）时，定义C为产生序列O1,O2,…,Oi且Si=Sk的概率：

其中，Sk为任意一个隐藏状态值。

则C(i+1,Or)的计算公式为：

其中，Sr为任意一个隐藏状态值。A为转移概率。B为隐藏状态到观察状态的概率。为了便于理解，还是看图：

技术分享

C(3,下雨)考虑了t=1和t=2的所有组合情况，同时也是C(4,下雨|阴天|晴天)的子问题。C(3,阴天)和C(3,晴天)也是如此计算，而C(i+1,Sr)计算公式则可以表示成：

技术分享

由图知：C(4,阴天)=[C(3,下雨)*A(下雨,阴天)+C(3,阴天)*A(阴天,阴天)+C(3,晴天)*A(晴天,阴天)]*B(阴天,自习)。

通过图片，大家应该能直观的理解该算法了，该算法又称为前向算法，那还有后向算法？是的，后向算法就是这个算法倒过来嘛，也是动态规划，这里就不赘述了，有兴趣的看参考文献。另外，这里没有讲解如何初始化概率，也可以去参考文献里查证。

维特比算法

现在，HMM的第一个基本问题解决了，下面开始解决第二个问题，第二个问题又称为解码问题，同样的，暴力算法是计算所有可能性的概率，然后找出拥有最大概率值的隐藏状态序列。与问题一的暴力解决方案类似，复杂度为O(NT)。

那应该用什么方案呢？

毫无疑问，还是动态规划啊！

假设观察序列为O1,O2,O3,….,Ot. 在时刻i（1<i<=t）时，定义D为观察O1,O2,…,Oi且Si=Sk时产生该观察序列的最大概率：
技术分享

其中，S1,S2,….S(i-1),在此时也已经可以得到，因为它们是子问题啊。

童鞋们有么有看到该公式和上面的前向算法的差异？一个是对子问题求和，一个是对子问题求最大值啊。

当然，对于本问题来说，因为需要求出的是使得观察序列概率最大的隐藏状态的序列，而不是最大概率，所以，在算法计算过程中，还需要记录前一个隐藏状态的值。比如C(4,阴天)的最大值是有子问题C(3,下雨)得来的，那么需要在C(4,阴天)这个节点记录前置状态为下雨。

由于本算法和前向算法只是计算公式的不同，所以参考图是一样的，本算法还可以参考上面算法的图；同样的，解释中没有提到初始化，可以去看参考文献。

本算法又称为维特比算法，维特比是人名，这个老先生在上世纪70年代发明的该算法，但在现代人看来没什么神秘，可见问题在解决后可能会很简单，所以不管是生活上还是学术上都不要畏惧，勇于战而后知战之易矣。

相信理解了前向算法和维特比算法后，大家对样例问题2和样例问题4都能解决了吧，对于样例问题3，其实跟维特比算法差不多，只不过是在观察状态的空间中寻找最优解。

对于基本问题三，本人还没有理解的太透彻，这里就不献丑了。

隐马尔科夫过程的应用

HMM一开始是在信息论中应用的，后来才被应用到自然语言处理还有其他图像识别等各个方面。下面举两个例子说明他的应用，一个是输入法的整句解码，一个是语音识别。有图为证：

输入法把拼音看做是观察状态，需要得到的汉字为隐藏状态，这样，输入法的整句解码就变成了维特比解码，其转移概率即是二元语言模型，其输出概率即是多音字对应不同拼音的概率。

将上图中的拼音换成语音，就成了语音识别问题，转移概率仍然是二元语言模型，其输出概率则是语音模型，即语音和汉字的对应模型。

from:http://blog.csdn.net/pipisorry/article/details/46618991

ref:隐马尔科夫模型(Hidden Markov Models)介绍

标签：hmm 隐马尔科夫马尔科夫

原文地址：http://blog.csdn.net/pipisorry/article/details/46754515

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行