数据分类的两个阶段:学习阶段(构造分类模型)和分类阶段(使用模型预测给定数据的类标号)和分类阶段(使用模型预测给定数据的类标号)。 决策树归纳 构造一颗树,从根到叶子节点的路径,该叶子节点就存放着该元组的预测类。 决策树分类器的构造不需要任何领域知识和参数设置,因此适合于探测式知识发现。决策树可以处...
分类:
其他好文 时间:
2015-03-15 18:06:31
阅读次数:
296
1. e1701简介
R语言的e1071包提供了对libsvm的接口。库libsvm包括了常用的核,如线性,多项式,RBF,sigmoid等。多分类通过一对一的投票机制(one-against-one voting scheme)而实现。predict()是训练函数,plot()可视化数据,支持向量,决策边界(如果提供的话)。参数调整tune()。
用e1071包中svm函数...
分类:
其他好文 时间:
2015-03-15 09:27:31
阅读次数:
451
Boosting原理众做周知,boosting就是所谓的有多个弱分类器组成一个强分类器。而什么叫做弱分类学习和什么时候需要使用弱分类学习呢?弱分类学习弱分类学习:识别一组概念的正确率仅比随机猜的概率高一点。
同理,当需要分类的训练组具有上述特点时,可以优先考虑使用boosting算法。...
分类:
编程语言 时间:
2015-03-14 06:15:32
阅读次数:
226
SVM能实现功能即在给出的正负样本中找到一条分割线(面),将正负样本分割出来。而这条分割线(面)即我们所说的分类器,其记录的正样本的特征,以及和负样本的区别。当有新的样本过来时,则通过和分类器比较即可分辨出新的样本是否属于正样本行列。
以车辆识别为例,SVM的一般使用步骤如下:
1、获取正负样本。
前面说了SVM能够找到一条存在与正负样本之间的分割线(面),那么何为正负样本呢?
所谓...
分类:
其他好文 时间:
2015-03-11 17:25:59
阅读次数:
183
本博客所有文章分类的总目录链接:http://www.cnblogs.com/asxinyu/p/4288836.html1.微软Infer.NET机器学习组件目录1.Infer.NET连载(一)介绍2.Infer.NET连载(二)贝叶斯分类器例子后续继续更新中。。如文章链接打开有误,请关注博客,因...
分类:
Web程序 时间:
2015-03-11 16:25:30
阅读次数:
170
Bagging 和 Boosting 都是一种将几个弱分类器(可以理解为分类或者回归能力不好的分类器)按照一定规则组合在一起从而变成一个强分类器。但二者的组合方式有所区别。 一、Bagging Bagging的思想很简单,我选取一堆弱分类器用于分类,然后最终结果投票决定,哪个票数多就属于哪一...
分类:
其他好文 时间:
2015-03-11 10:41:39
阅读次数:
169
统计建模和工程开发很相似。在工程开发中,人们有多种方法搭建一套键-值存储系统,每种设计针对使用模式有一套不同的假设。在统计建模中,也有很多算法来构造一个分类器,每种算法对数据也有各自的假设集合。当处理少量数据时,因为实验成本很低,我们尽可能多的尝试各种算法,从而选出效果最优的算法。但提到“大数据”,...
分类:
其他好文 时间:
2015-03-10 17:04:14
阅读次数:
126
许多地方得SVM讲得都很晦涩,不容易理解,最近看到一篇不错的博文写得很好,同时加上自己的理解,重新梳理一下知识要点
http://blog.csdn.net/zouxy09/article/details/17291543
一、引入
SVM是个分类器。我们知道,分类的目的是学会一个分类函数或分类模型(或者叫做分类器),该模型能把数据库中的数据项映射到给定类别中的某一个,从而可...
分类:
编程语言 时间:
2015-03-09 19:07:25
阅读次数:
15861
KNN即K-Nearest Neighbor,是数据挖掘中一种最简单的分类方法,即要判断某一个样本属于已知样本种类中的哪一类时,通过计算找出所有样本中与测试样本最近或者最相似的K个样本,统计这K个样本中哪一种类最多则把测试样本归位该类。如何衡量两个样本的相似度?可以用向量的p-范数来定义。
假设有两个样本X=(x1, x2, ..., xn),Y=(y1, y2, ..., yn),则他们之间的相似度可以用以下向量p-范数定义:...
分类:
其他好文 时间:
2015-03-08 17:22:38
阅读次数:
208
利用opencv的hog+svm实现细胞识别分类器
图像处理中的细胞识别和人脸识别可以这样来类比,图像中的一张张人脸就是一个个细胞。
模式识别的关键在于样本库的选取,识别率也只能在和样本库比较接近的环境下才能保证。主要工作是三部分一是特征提取,二是样本库的训练train,三是目标检测detect。
一.特征提取
特征提取采用的是HOG特征即HOG描述子,该特征在行人检测中效果非常好。...
分类:
其他好文 时间:
2015-03-08 00:11:35
阅读次数:
819