今天看了一下朴素贝叶斯算法。在看到如果样本的某个特征是连续属性的情况下,需要计算出在所有类别下该特征(该特征在不同类别下的)高斯分布,说白了就是求出来在某一类别下该特征的均值和标准差。那么,给某一个特征的值,在带入该特征在各类的概率密度函数(PDF),就可以得到书中所说的“后验概率”。
那么问题来了,对于离散属性的特征,这样是没有问题的。但是PDF某一点的值,大学学的知识说是没有意义的。求出一个f(x)值后,用的话肯定是和一定的区域相关的!只求一个f(x)是取法解释的。其实,对于书里的做法,可以这样解释:对于每一类所求出的“后验概率”,均乘一个x的邻域的大小,又因为每类都要乘相同大小的值,最终又转化成了概率密度函数的值。最大似然函数也是这样。
其实,更重要的是对PDF的思考:概率密度函数度量的是密度,是一个邻域的频数与邻域长度的比值。
版权声明:本文为博主原创文章,未经博主允许不得转载。
原文地址:http://blog.csdn.net/u010594850/article/details/46771177