参考《机器学习实战》 朴素(naive)贝叶斯遵循以下原则: 设特征为x,y;类别为c。
在已知x、y特征的情况下,判断其类为ci的概率为: 自然, 我们选取概率较大的为对应的分类结果:
朴素贝叶斯就是根据这一原则进行分类器设计的。书中以垃圾邮件分类为例做了详述。 垃圾邮件分类的基本过程: 数据集:...
分类:
其他好文 时间:
2014-06-06 23:35:03
阅读次数:
526
贝叶斯分类是统计学的一个分类方法,基于贝叶斯定理。首先贝叶斯分类的一个核心假设是一个属性值对给定类的影响独立于其他属性的值(类条件独立)。
先来看下条件概率:
设A、B是两个事件,且P(B)>0,则称 为在事件B发生的条件下,事件A的条件概率。
再来看一下贝叶斯定理:。
其中:
X 是类标识未知的数据样本(或数据元组)
如:35岁收入$4000的顾客
...
分类:
其他好文 时间:
2014-06-01 09:52:51
阅读次数:
235
Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变
量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是否患
有某种病。
在讲解Logistic回归理论之前,我们先从LR分类器说起。LR分类器,即Logistic Regression Classifier。
在分类情形下,经过学习后的LR分...
分类:
其他好文 时间:
2014-05-31 17:59:42
阅读次数:
279
摘要:有监督学习是对一类算法的研究,这类算法从表面实例推断出一般性的假说,得出的假说又可以进一步用来预测未发生的实例。换言之,有监督学习的目标,就是根据预测特征,为分类标签的概率分布建立简洁的模型。得到的分类器会被用于为测试实例贴上分类标签,其中,测试实例的分类特征是已知的,但其分类标签是未知的。本...
分类:
其他好文 时间:
2014-05-29 09:16:49
阅读次数:
210
GML AdaBoost Matlab Toolbox是一款非常优秀的AdaBoost工具箱,内部实现了Real AdaBoost, Gentle AdaBoost和Modest AdaBoost三种方法。AdaBoost的训练和分类的结构都是相似的,可以参考前一篇《Boosting》,只简介一下GML。GML内部弱分类器使用的CART决策树。决策树的叶子表示决策,内部每个分支都是决策过程。从根部...
分类:
其他好文 时间:
2014-05-24 17:56:00
阅读次数:
375
今天继续,下面是开始要生成正负例来训练分类器了,首先:// TRAIN DETECTOR ==========================================================
// Initialize structures
tld.imgsize = size(tld.source.im0.input);
//为fern准备的训练集
tld.X = ...
分类:
其他好文 时间:
2014-05-20 16:47:18
阅读次数:
474
SVM(支持向量机),一种二类分类器,之所以称之为向量机,是因为它本身就产生一个二值决策结果,即使一种决策“机”,支持向量机的泛化错误低(具有结构风险最小),具有很强的学习能力,因此很多人认为它是最好的监督学习算法。SVM与Logistic回归的联系:
logistic回归的目的就是从特征...
分类:
其他好文 时间:
2014-05-19 17:48:15
阅读次数:
364
分类中通常使用将多个弱分类器组合成强分类器进行分类的方法,统称为集成分类方法(Ensemble Method)。比较简单的如在Boosting之前出现Bagging的方法,首先从从整体样本集合中抽样采取不同的训练集训练弱分类器,然后使用多个弱分类器进行voting,最终的结果是分类器投票的优胜结果。这种简单的voting策略通常难以有很好的效果。直到后来的Boosting方法问世,组合弱分类器的威...
分类:
其他好文 时间:
2014-05-18 13:51:17
阅读次数:
312
度量类别可分离性的量主要有:
欧氏距离(正态分布,协方差相等,且为单位阵)
是最简单的一种描述方法。它把两个类别中心之间的欧式距离作为两个不同类别间不相似性的度量。
马氏(Mahalanobis)距离(正态分布,协方差相等)
它用来描述两个具有相同的协方差矩阵C,不同的期望值和的类别之间的不相似性,具体表达式是:
Mahalanobis距离...
分类:
其他好文 时间:
2014-05-13 09:08:38
阅读次数:
337