标签:工作 十分 一条直线 分类 简单的 span log 表示 com
一、支持向量机:
1.优点:泛化错误率较低,计算开销不大,结果易解释。
2.缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。
3.适用数据类型:数值型和标称型数据。
二、重要概念:
1.分隔超平面:
将数据集分隔开来的直线称为分隔超平面。如果所给的数据集是二维的,分隔超平面是一条直线;数据集是三维的,分隔超平面是一个平面。
2.间隔:
这里点到分隔面的距离。
3.支持向量:
离分隔超平面最近的那些点。
三、寻找最大间隔
分割超平面的形式可以写成。点A到分隔超平面的距离表达成。
现在的目标就是找出分类器定义的W和b。必须找出具有最小间隔的数据点,这些数据点就是支持向量。找到支持向量后,对该间隔最大化。
四、SVM的一般流程:
1.收集数据:可以使用任意方法。
2.准备数据:需要数值型数据。
3.分析数据:有助于可视化分隔超平面。
4.训练算法:SVM的大部分时间都源自于训练,该过程主要实现两个参数的调优。
5.测试算法:十分简单的计算过程就可以实现。
6.使用算法:几乎所有分类问题都可以使用SVM,值得一提的是,SVM本身是一个二类分类器,对多类问题应用SVM需要对代码做一些修改。
五、SMO高效优化算法
SMO表示序列最小优化。SMO算法是将大优化问题分解为多个小优化问题来求解。SMO算法的目标是求一系列alpha和b。
SMO算法的工作原理:每次循环中选择两个aplha进行优化处理。一旦找到一堆合适的alpha,那么就增大其中一个同时减小另一个。
六、核函数
核函数可以将数据转换成易于分类器理解的形式。
标签:工作 十分 一条直线 分类 简单的 span log 表示 com
原文地址:http://www.cnblogs.com/SunDM12/p/7820240.html