贝叶斯公式定义如下,
公式大家都知道,如何理解呢?下面给一个机器识别相关的例子,直观地说明。
在机器识别中,假设机器要识别“一”所在的这个小图像块表示什么字符(可以想象为拿手机对着一页书拍了张照片,机器要认出照片中“一”这个区域代表的是什么字)。
我们先看“一”字在几何上的特点是什么呢?大概认为是 宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近。
其中
“待识别的图像是一” 是 “事件”,
“宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近” 是 “信息”,
则 P(信息|事件) 的物理意义为, 在图像代表的字符为“一”的情况下, 它的几何特点为 “宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近” 的概率。
基本上,在编写类似OCR这样的模式识别软件时,我们都需要做数据字典,此时每个字符到底是什么是已知的,要做的是尽量准确地提出其特征。对这个例子而言就是要提取字符“一”的几何特点描述,固化为数据字典中“一”这个内码对应的描述数据。用贝叶斯公式的语音来说,就是要不断修正 P(信息|事件)。
再看,
P(信息)表示什么呢? 表示在所有待识别的图像小方块中,满足 “宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近” 这个几何特点的小方块占所有小方块的比例是多少,或者说概率是多少。
P(事件),表示“一”这个字的字频, 也即是在所有文章中出现“一”的概率有多少(我们认为机器需要识别所有的中文文章)
现在来看 P(事件|信息),
P(事件|信息) 表示 当软件遇到一个小图像块,而这个小图形块的几何特点是“宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近”时, 它是“一”的概率 —— 可以认为这就是对机器识别,或人工智能最简单的描述。
可以看到,
1. P(事件|信息)与 P(信息|事件)正相关,这表示我们在进行机器学习训练时,对“一”的几何特征训练得越精确(即是P(信息|事件)越大),则在对实际样张的识别中,遇到这样的几何特征时,将它识别为“一”是正确的概率越高(即是P(事件|信息)越大)。
2. P(事件|信息)与 P(信息)负相关,这表示如果很多待识别的小图像方块几何特点都是“宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近”(P(信息)很大), 就意味着“如果这么多字符的特点都是这个吊样,那么我就没把握说它恰好是“一”了”(P(事件|信息)很小);反之,如果只有“一“的特点是“宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近”(P(信息)很小),其它字符的特点都不是这样,那我遇到这个具有这个特点的小图像块,就可以信心满满地说它就是“一”字了(P(事件|信息)很大)。
3. P(事件|信息)与 P(事件)正相关,这表示如果“一”的字频很高、在所有的文章中出现的频率很高(P(事件)大),那我说待识别的小图像块是“一”的正确性概率当然就比较高(P(事件|信息)大);反之,如果“一”是个生僻字,在一般的文章中根本就没出现过几次(P(事件)小),那我说待识别的小图像块是“一”的正确性概率当然也就比较低了(P(事件|信息)小)。