码迷,mamicode.com
首页 > 其他好文 > 详细

朴素贝叶斯分类器学习

时间:2015-02-11 18:08:30      阅读:204      评论:0      收藏:0      [点我收藏+]

标签:

1.朴素贝叶斯概率模型的数学实质:独立条件概率。 朴素在这里的含义就是各影响因子概率发生独立。

 

2.朴素贝叶斯分类器的数学模型:条件概率模型

P(C|F1F2...Fn)=P(C)P(F1F2...Fn|C)/P(F1F2...Fn)                    (1)

这里Fn代表的是独立变量C的若干个特征变量(影响因子)。

我们知道,对于数据的分类,Fn是已知的,对于P(F1F2...Fn)来说,他们只受到Fn的影响和独立变量C没有关系,所以对于(1)式,我们进行化简

P(C|F1F2...Fn)~P(C)P(F1F2...Fn|C)                                       (2)(~代表正比于)

因为各特征变量是独立的,所以对于(2)式,我们可以把它变成

P(C|F1F2...Fn)~P(C)P(F1|C)P(F2|C)...P(Fn|C)                         (3)

最后,我们说

P(C|F1F2...Fn)= Z*P(C)P(F1|C)P(F2|C)...P(Fn|C)                     (4)

 

3.对于(4)式,我们对于每一个量进行一下解释

    P(C|F1F2...Fn)这是我们的目标,在已知一个独立变量C的特征变量Fn的情况下,怎么把独立变量C合理的分类

    P(C) 这是独立变量C的先验概率,仅仅是一个值。

先验概率分为两类:

a.根据历史数据得到  e.g.根据概率论中大数定理,当训练样本数量足够多且来自于样本空间的随机选取时,可以以训练集中各类样本所占的比例来估计P(C)的值

b.人的主观判断   e.g. 对于C的性别进行分类 P(male)=P(female)=1/2

    P(Fn|C)这是一个独立概率分布,这就是我们需要用已知的数据进行训练得到(就是一个条件概率),方法分为参数估计和非参数估计

a.参数估计:假定条件概率具有某种分布形式,例如正态分布二项分布

b.非参数估计:不假设或者不知道条件概率具有某种分布形式,根据数据所具有的特征发生的频率代表它的概率,常用的方法是最大似然估计法,如果是一个连续连续数据可以选择高斯分布。另一种方法是离散化连续数值的方法。

    Z是一个常数,只和Fn有关,通常用来使后验概率的和为1

 

4.如果要是在对一个独立变量X进行分类时发现了它有一些新的特征,这在训练时是没有的,所以会出现概率为0的情况,这时候就要对数据进行修正,确保不会出现概率为0导致无法分类的情况。

 

以上我们讨论完了朴素贝叶斯概率分布模型,下面我们从概率模型中构造一个分类器

分类器的构成包括了刚才我们讨论的朴素贝叶斯分类模型决策规则。根据决策规则的不同,分类是不一样的。(让我想到了matlab作业要我们对数据进行聚类分析。不同的规则带来不同的结果。) e.g.最小错误率贝叶斯分类器, 最大似然比贝叶斯分类器,最小风险贝叶斯分类器。

这里对于分类器的实现不展开说了,放在具体实现的随笔里。

 

本文仅仅是对自己学习的知识的一个整理,没有独创新的见解。

资料来源

http://zh.wikipedia.org/zh-cn/%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%88%86%E7%B1%BB%E5%99%A8

朴素贝叶斯分类器学习

标签:

原文地址:http://www.cnblogs.com/muhriz/p/4286431.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!