使用随机事件的发生的频率描述概率的方法,就是通常说的古典概型,或者称为频率学派。另外有一个更加综合的观点就是贝叶斯学派,在贝叶斯学派的观点下概率表示的是事件的不确定性大小。
使用概率表示不确定性,虽然不是唯一的选择,但是是必然的,因为如果想使用比较自然的感觉进行合理的综合的推断的话。在模式识别领域,对概率有一个更综合的了解将会非常有帮助。例如在多项式曲线拟合的过程中,对观察的目标变量使用频率学派的观点来理解看起来比较合适。但是我们希望确定最佳模型的参数w的不确定性情况,于是我们可以看见在贝叶斯理论中不仅可以描述参数的不确定性,实际上选择模型本身也是不确定的。
比较通俗的理解就是,贝叶斯观点下,在模型中,通常我们需要建模一个先验分布,比如说在多项式曲线的拟合过程中,我们不仅要选择确定模型的参数,我们还需要建立参数的先验,于是很容易结合到贝叶斯公式:。在公式(1.43)中右边的p(D|w)是一个在w下的函数,表示的是在w确定下的数据出现的情况,因此我们称之为似然函数。定义了似然之后,对于贝叶斯理论我们可以使用(1.44)表示。
在贝叶斯理论和频率学理论中,似然函数p(D|w)都扮演着非常重要的角色。在频率学观点中,w被当做是一个确定的参数,这个参数由某种形式的估计来确定,这个估计是基于可能数据集的分布来获得。而在贝叶斯观点中,参数的情况来自于一个对w的分布建模。
贝叶斯观点的优势在于在模型中包含先验的知识是很自然的。例如在抛硬币的试验中,如果抛三次硬币出现了三次都是正面,那么根据频率学的观点,使用最大似然进行估计那么得到出现正面的可能性为1,这就是说以后都是以1的概率出现正面。相反在贝叶斯的理论中,引入一个合理的先验将会避免这样极端的结论。
虽然在频率学派和贝叶斯学派中存在很多的争论,但是事实上没有纯粹的频率观点或者贝叶斯观点。然而在实际的应用中,对贝叶斯理论应用有一个很大的批评,就是说通常先验的选择是基于数学理论方便性来进行选择,而不是反应任何的先验信念。
虽然说贝叶斯框架是在18世纪就已经提出了,但是贝叶斯理论的应用受限于计算贝叶斯方法的整个过程,尤其是在预测或者比较模型的时候需要marginalize整个的参数空间。但是随着采样方法的发展,如Markov chain Monte Carlo,使得其可以应用于小规模的问题。另外deterministic approximation
schemes(variational Bayes and expectation propagation)的反正,是采样方法的一种可选替代,也使得贝叶斯方法可以应用在大规模的应用中。
其实简单按照[2]中的比喻来说,打麻将过程中,如果只按照出在桌面上的牌的情况来确定自己出什么牌的就是频率学派;而如果是考虑牌由谁打出来的基础上,考虑桌面上牌的情况,那么我们就可以理解为贝叶斯学派。
参考资料:
[1]. Pattern Recongnition and Machine Learning, author Christopher M. Bishop, section 1.2.3 Bayesian probabilities.