码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习 —— 概率图模型(学习:非完整数据)

时间:2016-03-29 23:47:33      阅读:257      评论:0      收藏:0      [点我收藏+]

标签:

1、综述

  PGM的学习问题实际上是对参数进行推断。对于给定的数据,需要求出系统参数,从而完善系统的CPD。但是某些情况下,PGM的数据集可能是不完整的。数据集不完整可以分为两种情况:1、数据采集受到了影响;2、使用了隐变量。数据采集受到影响可能出于两种情况,第一种是影响与被采集数据是无关的,例如投硬币,结果硬币找不到了。第二种是和被采集数据有关的,例如在收发数据时,高电平总是踩空。故在使用不完整的数据对模型进行训练之前,需要对造成不完整的原因进行判断。如果对上述两种情况进行建模,则有以下图模型:

技术分享

  其中,theta是系统参数,y是数据集,O是观测变量(O=1,观测;)。

  如果系统参数在没有先验的情况下,应该使用likelihood函数对系统参数进行推测。以简单的CPD为例,不完整数据与完整数据的likelihood对比如下图所示:

技术分享技术分享

  显然在数据完整的情况下,参数之间是不存在耦合的,我们可以分别对theta_x与theta_y,进行优化求解。很好理解,数据一旦被观测到,那么参数之间的trait就被堵死了。但是如果数据是不完整的,那么theta_x与theta_y则耦合了,不能分别优化。因为var_x没有被完全观测到,theta_y与theta_x之间存在通路。分析似然函数可知,其存在多个峰。系统参数的辨识更加困难了。

2、基于似然函数优化的参数辨识

  似然函数存在多个峰,且有局部最优值。但是如果要获得一组有意义的参数还能有什么办法?只能求似然函数的最值。归根结底的思想还是该组参数使得数据发生的可能性最大。所以,可以使用优化方法来对似然函数进行求解。最简单的——梯度下降法。

技术分享

  其梯度解析解如下所示:

技术分享

  其核心是计算P(xi,ui|d[m],theta).此概率可通过标定团树获得。

  优化算法的优点是:很灵活,可以用于所有的CPD,包括非表类CPD.缺点是:该算法是条件优化的,需要保证所有参数之间不矛盾。并且每次更新参数都要重新标定团树。

3、最大期望算法

  最大期望算法的思想其实很简单,我们拿到数据的目标是为了推测系统参数;但是数据不完全,如果我们有了系统参数,就可以把数据推测完全。所以这是个循环的过程,事实证明,不断的循环迭代可以使得最终参数估计逼近真实系统参数。

技术分享

  在E-step中,假设已知系统参数theta,在给定theta的情况下,对所有的可能的组合x,u求取其概率。完整数据则求完整概率,不完整数据则求其边际缺失变量后概率。在M-step中,再利用充分统计对系统参数theta进行更新。

  比如在贝耶斯分类器中,我们只有数据而没有数据的class值。(还真能丢。。。。。)那么此时如果使用EM算法,则贝耶斯分类器从有监督学习分类器变为了无监督学习的聚类器。

  EM算法的优点是收敛迅速,每一步都需要使用充分统计。缺点是临近收敛时收敛速度下降。

 

  

  

机器学习 —— 概率图模型(学习:非完整数据)

标签:

原文地址:http://www.cnblogs.com/ironstark/p/5335026.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!