支持向量机-分类器之王

时间：2020-07-05 15:28:57 阅读：70 评论：0 收藏：0 [点我收藏+]

1. 支持向量机（Support Vector Machine, SVM）：

　　一种知名的二元线性/非线性分类方法，由俄罗斯的统计学家Vapnik等人所提出。它使用一个非线性转换(Nonlinear Transformation)将原始数据映像(Mapping)至较高维度的特征空间 (Feature Space) 中，然后在高维度特征空间中，它找出一个最佳的线性分割超平面(Linear Optimal Separating Hyperplane) 来将这两个类别的数据分割开来。

技术图片

2.决策边界和支持向量

（1）此分割超平面也可称为决策边界(Decision Boundary)，藉由挑选适当的非线性转换，以及将数据映像至足够高维度的特征空间，这两个类别的数据在高维度特征空间中通常能被一个超平面分隔开来
（2）SVM利用支持向量(Support Vector)作为建构分割超平面的重要数据。
（3）最佳的超平面是指：边界(Margin)最大化的超平面。
（4）支持向量（Support Vector）定义：落在最佳超平面边界的边缘上的数据。支持向量是最重要且最关键的训练数据，因为它们是最难被分类正确的，如果它们能正确分类，其他数据都可以正确分类了。换句话说，如果我们移除支持向量机以外的所有训练数据，并且重新训练SVM，我们依然会得到相同的超平面。
（5）一旦找到支持向量和最大边界超平面（MMH），则支持向量机模型就已经训练好了。
（6）支持向量可用来计算SVM预期分类错误率的边界，因此分类错误率与数据维度、数据总量无关，只与支持向量的数量有关，因此一个支持向量数量稀少的SVM分类器，即使面对信息的维度十分高时，其泛化能力（Generalization）仍然会很好。
（7）可构建复杂的非线性决策边界，SVM具有极高的正确率。
（8）在建模时，不使用全量数据，而是从数据中挑选出支持向量（Support Vector）再建立模型，其复杂度取决于支持向量的数目，而不是全信息的数量，因此SVM很少出现过拟合情况。
（9）分割线具有一个标准：对于之前未见到的数据，能具有最小分类错误率。
（10）训练模型阶段，SVM就是在寻找具有最大边界的超平面（Maximum Marginal Hyperplane）.

　　技术图片