感知机的简单理解

时间：2017-04-15 20:03:36 阅读：265 评论：0 收藏：0 [点我收藏+]

标签：推导 ase 变量过程移动参考分享 target 感知

一，感知机模型

1，超平面的定义

令w₁，w₂，...w_n，v都是实数(R) ，其中至少有一个w_i不为零，由所有满足线性方程w₁*x₁+w₂*x₂+...+w_n*x_n=v

的点X=[x₁,x₂,...x_n]组成的集合，称为空间R的超平面。

从定义可以看出：超平面就是点的集合。集合中的某一点X，与向量w=[w₁，w₂，...w_n]的内积，等于v

特殊地，如果令v等于0，对于训练集中某个点X：

w*X=w₁*x₁+w₂*x₂+...+w_n*x_n>0，将X标记为一类

w*X=w₁*x₁+w₂*x₂+...+w_n*x_n<0，将X标记为另一类

2，数据集的线性可分

对于数据集T={(X₁, y₁),(X₂, y₂)...(X_N, y_N)}，X_i belongs to Rⁿ，y_i belongs to {-1, 1}，i=1,2,...N

若存在某个超平面S：w*X=0

将数据集中的所有样本点正确地分类，则称数据集T线性可分。

所谓正确地分类，就是：如果w*X_i>0，那么样本点(X_i, y_i)中的 y_i 等于1

如果w*X_i<0，那么样本点(X_i, y_i)中的 y_i 等于-1

因此，给定超平面 w*X=0，对于数据集 T中任何一个点(X_i, y_i)，都有y_i(w*X_i)>0，这样T中所有的样本点都被正确地分类了。

如果有某个点(X_i, y_i)，使得y_i(w*X_i)<0，则称超平面w*X对该点分类失败，这个点就是一个误分类的点。

3，感知机模型

f(X)=sign(w*X+b)，其中sign是符号函数。

感知机模型，对应着一个超平面w*X+b=0，这个超平面的参数是(w,b)，w是超平面的法向量，b是超平面的截距。

我们的目标是，找到一个(w,b)，能够将线性可分的数据集T中的所有的样本点正确地分成两类。

如何找到(w,b)？---感知机学习算法做的事

二，感知机学习算法

既然我们的目标是将T中所有的样本点正确地分类，那么对于某个(w,b)，先看一下它在哪些点上分类失败了。由前面所述：

如果有某个点(X_i, y_i)，使得y_i(w*X_i)<0，则称超平面w*X对该点分类失败。采用所有误分类的点到超平面的距离来衡量分类失败的程度。

n维空间Rⁿ中一点X_i到超平面w*X+b=0的距离公式：技术分享，可参考点到平面的距离公式。

对于误分类的点，有y_i(w*X_i)<0。而距离总是大于0的，因此，某个误分类的点到超平面的距离表示为：

技术分享

||w||是一个常数，对最小化L(w,b)没有影响，故忽略之。

假设所有的误分类点都在集合M中，得到的损失函数如下：

技术分享

最终，将寻找(w,b)问题转化为最小化损失函数，即转化为一个最优化问题。（损失函数越小，说明误分类的样本点“越少”---或者说分类失败的程度越低）

而这个优化问题可以用梯度下降法来寻找最优的(w,b)

1，为什么使用梯度下降？

minL(w,b)没有 analytical solution，我的理解是：不能通过数学公式各种推导，最终求得一个关于最优的w 和 b 的解。比如，Stanford CS229课程中cs229-notes1.pdf 中求解 linear regression 的代价函数J(θ)的参数θ，可以使用Normal Equation 方法：直接根据公式得到θ

Gradient descent gives one way of minimizing J. Let’s discuss a second way of doing so, 
this time performing the minimization explicitly and without resorting to an iterative algorithm.

上面说的second way of doing so. second way就是Normal Equation方法

梯度下降，则是一种迭代算法，使用不断迭代(w,b)的方式，使得L(w,b)变得越来越小。

另外一个原因是（不知道对不对）：在《机器学习基石》视频中讲到NP-Hard问题。

x 技术分享

梯度方向是函数L(w,b)增加最快的方向，而现在要最小化L(w,b)，在当前的(w,b)点，从梯度的负方向搜索下一个(w,b)点，那么找到的(w,b)就是使L(w,b)减少的最快的方向上的那个点(还与搜索的步长有关)了。

现在证明为什么梯度方向是函数f(x)增加最快的方向，这里涉及到几个概念：

①梯度

梯度是个向量，由于x=[x₁,x₂,...x_n]是n维的，梯度就是对x的各个分量x_i求偏导数：技术分享

②增加的方向---方向导数

给定一个函数f(x)，通俗地讲方向导数就是决定自变量x 可以往哪个方向移动。比如在f(x)边界上，x往某个方向移动时，就不在定义域的范围内了，那x是不能往该方向变化的。假设 d 是f(x)的一个可行方向，||d||=1，那么函数f 的值在 x 处沿着方向d 的增长率increase_rate，可以用内积表示：

那么现在，到底往哪个方向增长，能够使 increase_rate 最大呢？也即，d取哪个方向，使 increase_rate 最大？

根据柯西-施瓦兹不等式有：(后面算法的收敛性证明也会用到)

也就是说，increase_rate的最大值为：

而当 d = 技术分享时，根据内积的定义：

increase_rate等于：技术分享此时，increase_rate取最大值，且可行方向d 就是梯度方向！

因此，若要最小化L(w,b)，往梯度的负方向搜索(w,b)，能使L(w,b)下降得最快。

根据前面的介绍，梯度实际上是求偏导数，因此L(w,b)分别对w 和 b 求偏导数：

技术分享

而在感知机中是一次只选择一个误分类点对(w,b)进行迭代更新，选择梯度的负方向进行更新，故更新的公式如下所示：

技术分享

三，感知机学习算法的收敛性证明

由于数据集T是线性可分的，假设存在一个理想的超平面w_opt，且||w_opt||=1，w_opt能够将T中的所有样本点正确地分类。

如前所述，若正确分类，则对于数据集 T中任何一个点(X_i, y_i)，都有y_i(w*X_i)>0

取r=min{y_i(w_opt*X_i)} ，并且令R=max||x_i|| ，则迭代次数k满足下列不等式：

技术分享

具体证明过程见《统计学习方法》p32-p33页

在证明过程中，推导出了两个不等式，一个是：w_k*w_opt >= knr (k是迭代次数，n是迭代步长，r是min{y_i(w_opt*X_i))

超平面w_opt是理想的超平面，能够完美地将所有的样本点正确地分开。w是采用感知机学习算法使用梯度下降不断迭代求解的超平面，二者之间的内积，用来衡量这两个超平面的接近程度。因为两个向量的内积越大，说明这两个向量越相似(接近),也就是说:不断迭代后的w_k越来越接近理想的超平面w_opt了。（向量的模为1，||w_opt||=1）

第二个不等式是：