数据挖掘十大算法——Naive Bayes

时间：2015-08-12 10:18:11 阅读：206 评论：0 收藏：0 [点我收藏+]

简介

Naive和Bayes

Naive：假定向量中的所有特征是相互独立的
Bayes：技术分享

面向的问题

NB主要用于解决有监督分类问题。相比于其他模型，其具备简单（不需要复杂的迭代式参数估计，由此方便处理大数据）、可解释性强（生成模型）、效果佳的特点。

目标

针对二分类问题，利用训练集数据学习一个判断阈值α，对于新来的数据做判定，大于α的数据属于正类，小于α的数据属于负类。有监督分类中存在两大流派 diagnostic paradigm 和 sampling paradigm ，前者注重于发现类间的区别，后者注重于发现类本身的分布形式，NB兼而有之。

算法描述

由Bayes公式，

P (i | x) = f ( x | i ) P ( i ) f ( x )

$P(i|x)=\dfrac{f(x|i)P(i)}{f(x)}$

P(i) $P(i)$ 是类别先验概率，很好估计，

f(x) $f(x)$ 在所有样本上一致，因此可以忽略。那么问题就是怎么求

f(x|i) $f(x|i)$ 。根据朴素性假设

f(x|i)=∏pj=1f(xj|i) $f(x|i)=\prod{_{j=1}^p}f(x_j|i)$ ，这样，多元问题就被我们拆分为单变量估计问题。此时，我们可以采用直方图形式估计，也可以进行正态假设估计等。

一个优雅的特点

根据上述算法描述，可以得知，如果对 $P(i|x)$ 作任意的严格单调性变换，并相应地改变阈值α，分类结果将保持不变。即

P (i | x) > P (i | y) ? T (P (i | x)) > T (P (i | y))

$P(i|x)>P(i|y)\Rightarrow T(P(i|x))>T(P(i|y))$

P (i | x) > α ? T (P (i | x)) > T (α)

$P(i|x)>α\Rightarrow T(P(i|x))>T(α)$ 那么我们可以对目标函数进行例如比例变换，log变换等操作。

讨论

独立性假设是NB中的一个核心观点，但是很明显在现实中，这个假设通常都是不合理的，偏偏NB又能产生很好的效果。由“不合理”的假设得到合理的结果，这看起来是违背常理。下面我们讨论具体原因

复杂度

独立单变量模型的复杂度远低于相关多变量模型，在估计时少量数据即可达到较好的精度。

模型变种

Laplacian correction

先验概率 $n_j/N$ 修正为 $(n_j+{c{_j}{^-1}})/(N+1)$ ，这样可以对具备新特征的样本进行处理

Logistic Regression

与NB很相似，但是参数估计不能用直接简单的概率完成，而需要通过迭代的方法。因此更为复杂

应用实例

Time with Emp(T)	Size of Loan(S)	Homeowner(H)	Default(D)
5	10000	1	N
20	10000	1	N
1	25000	1	N
1	15000	3	N
15	2000	2	N
6	12000	1	N
1	5000	2	Y
12	8000	2	Y
3	10000	1	Y
1	5000	3	Y

我们期望通过左侧三列数据，预测该用户进行信用欺诈的可能性。

各特征的估计

连续数据离散化

我们注意到，这里的T，S都是毕竟分散的连续型数据，因此我们可以通过设定阈值的方法使其离散化。
T 我们设定阈值为10， S 我们设定阈值为10000
由此可得：

$f(T<10|D=N)=4/6$
$f(T≥10|D=N)=2/6$
$f(T<10|D=Y)=3/4$
$f(T≥10|D=Y)=1/4$

$f(S<10000|D=N)=5/6$
$f(S≥10000|D=N)=1/6$
$f(S<10000|D=Y)=3/4$
$f(S≥10000|D=Y)=1/4$

现在，有一个新用户申请信用卡，他的 T=5， S=7000，H=1

则， $\dfrac{P(Y|x)}{P(N|x)}=\dfrac{P(1)f(T|1)f(S|1)f(H|1)}{P(0)f(T|0)f(S|0)f(H|1)}=0.422$

又根据 $P(1|x) = 1-P(0|x)$ , 可得 $P(0|x)=0.703$ , $P(1|x)=0.296$

如果我们设定阈值为0.5，则该用户是可以被授信的

（完）

数据挖掘十大算法——Naive Bayes

标签：数据挖掘算法

原文地址：http://blog.csdn.net/jmy5945hh/article/details/47439167

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

数据挖掘十大算法——Naive Bayes

简介

Naive和Bayes

面向的问题

目标

算法描述

一个优雅的特点

讨论

复杂度

模型变种

Laplacian correction

相关关系引入

Logistic Regression

应用实例

各特征的估计

连续数据离散化