标签:
书接上文 :从朴素贝叶斯分类器到贝叶斯网络(上)
三、贝叶斯网络
贝叶斯网络(Bayesian Network)是一种用于表示变量间依赖关系的数据结构,有时它又被称为信念网络(Belief Network)或概率网络(Probability Network)。在统计学习领域,概率图模型(PGM,Probabilistic Graphical Models)常用来指代包括贝叶斯网络在内的更加宽泛的一类机器学习模型,例如隐马尔可夫模型(HMM,Hidden Markov Model)也是一种PGM。
具体而言,贝叶斯网络是一个有向无环图(Directed Acyclic Graph),其中每个节点都标注了定量的概率信息,并具有如下结构特点:
(1)一个随机变量集构成了图结构中的节点集合。变量可以是离散的,也可以是连续的。
(2)一个连接节点对的有向边集合反映了变量间的依赖关系。如果存在从节点X指向节点Y的有向边,则称X是Y的一个父节点。
(3)每个节点Xi都有一个(在给定父节点情况下的)条件概率分布,这个分布量化了父节点对其之影响。
在一个正确构造的网络中,箭头显式地表示了X对Y的直接影响。而这种影响关系往往来自于现实世界的经验分析。一旦设计好贝叶斯网络的拓扑结构,只要再为每个节点指定当给定具体父节点时的条件概率,那么一个基本的概率图模型就建立完成了。尽管现实中贝叶斯网络的结构可能非常复杂,但无论多么复杂的拓扑本质上都是由一些基本的结构单元经过一定之组合演绎出来的。而且最终的拓扑和对应的条件概率完全可以给出所有变量的联合分布,这种表现方式远比列出所有的联合概率分布要精简得多。图1给出了三种基本的结构单元,下面我们将分别对它们进行介绍。
图1 三种基本的结构单元
其次,另外一种与之相反的情况如图1中的中图所示。此时X和Z是完全独立的。我们通常把左图的情况称为“Common Cause”,而把中图的情况称为“Common Effect”。
最后,对于图1中右图所示的链式结构,X和Z不再是相互独立的。但在给定Y时,X和Z就是独立的。因为P(Z|X,Y)=P(Z|Y)。
文献[1]中给出了一个简单的贝叶斯网络示例,如图2所示。假设你在家里安装了一个防盗报警器。这个报警器对于探测盗贼的闯入非常可靠,但是偶尔也会对轻微的地震有所反应。你还有两个邻居John和Mary,他们保证在你工作时如果听到警报声就给你打电话。John听到警报声时总是会给你打电话,但是他们有时候会把电话铃声当成警报声,然后也会打电话给你。另一方面,Mary特别喜欢大声听音乐,因此有时候根本听不见警报声。给定了他们是否给你打电话的证据,我们希望估计如果有人入室行窃的概率。
图2 贝叶斯网络示例
现在暂时忽略图中的条件概率分布,而是将注意力集中于网络的拓扑结构上。在这个防盗网络的案例中,拓扑结构表明盗贼和地震直接影响到警报的概率(这相当于一个Common Effect的结构),但是John或者Mary是否打电话仅仅取决于警报声(这相当于一个Common Cause的结构)。因此网络表示出了我们的一些假设:“John和Mary不直接感知盗贼,也不会注意到轻微的地震”(这表明当给定随机变量Alarm时,“盗贼或地震”都独立于“打电话”),并且他们不会在打电话之前交换意见(所以在给定随机变量Alarm时,John打电话和Mary打电话就是条件独立的)。
注意网络中没有对应于Mary当前正在大声听音乐或者电话铃声响起来使得John误以为是警报的节点。这些因素实际上已经被概括在与从Alarm到JohnCalls或者到MaryCalls这两条边相关联的不确定性中了。这同时体现了操作中的惰性与无知:要搞清楚为什么那些因素会以或多或少的可能性出现在任何特殊情况下,需要大量的工作,而且无论如何我们都没有合理的途径来获取相关信息。上面的概率实际上概括了各种情况的潜在无限集合,其中包括报警器可能会失效的情况(诸如环境湿度过高、电力故障、电线被切断、警铃里卡了一只死老鼠等等)或者John和Mary没有打电话报告的情况(诸如出去吃午饭了、外出度假、暂时性失聪、直升机刚巧飞过而噪声隆隆等)。如此一来,一个小小的智能体可以处理非常庞大的世界,至少是近似地处理。如果我们能够引入附加的相关信息,近似的程度还可以进一步地提高。
标签:
原文地址:http://blog.csdn.net/baimafujinji/article/details/50443430