码迷,mamicode.com
首页 > 其他好文 > 详细

CS229 笔记07

时间:2017-11-21 01:10:39      阅读:139      评论:0      收藏:0      [点我收藏+]

标签:amp   case   最小   fun   导数   func   sum   扩展   一个   

CS229 笔记07

Optimal Margin Classifier

  • 回顾SVM

    \[ \begin{eqnarray*} h_{W,b}&=&g(W^{\rm T}x+b)\\[1em] g(z)&=&\begin{cases}1&z\geq0\\[1em]-1&z<0\end{cases}\\[1em] y&\in&\{-1,1\}\\[1em] \hat\gamma^{(i)}&=&y^{(i)}\left(W^{\rm T}x+b\right)\tag{Functional Margin}\\[1em] \gamma^{(i)}&=&y^{(i)}\left(\frac{W^{\rm T}}{||W||}x+\frac{b}{||W||}\right)\tag{Geometric Margin}\\[1em] \hat\gamma&=&\min_i \hat\gamma^{(i)}\\[1em] \gamma&=&\min_i \gamma^{(i)}\\[1em] \end{eqnarray*} \]

  • Optimal Margin Classifier(最大间隔分类器)

    由于函数间隔 \(\hat\gamma?\) 是可以通过改变 \(W?\)\(b?\) 来任意缩放的,所以这里说的“最大间隔”指的是几何间隔 \(\gamma?\) ,而几何间隔所需要满足的条件是,对于任意的样本 \((x^{(i)},y^{(i)})?\) ,都有 \(\gamma^{(i)}\geq\gamma?\) ,即:

    \[ \max \gamma\{\text{s.t. }}y^{(i)}\left(\frac{W^{\rm T}}{||W||}x+\frac{b}{||W||}\right)\geq\gamma \]

    这就是最大间隔分类器最原始的想法,在满足所有样本到超平面的距离都大于 \(\gamma\) 的前提下,最大化这个 \(\gamma\) 。但是这就有一个问题,当找到这么一组 \((W,b)\) 满足上面的最优化条件后, \((2W,2b)\) 也将满足上面的最优化条件(因为 \((W,b)\)\((2W,2b)\) 其实就是同一个超平面),所以需要限定一下缩放的原则,比如规定 \(||W||=1\) ,或者 \(W_1=1\) 等等,这个原则可以有多种方式选定。假设约定 \(||W||=1\) ,那么上面的优化问题就转变成以下的形式:

    \[ \max \gamma\{\text{s.t. }}y^{(i)}\left(W^{\rm T}x^{(i)}+b\right)\geq\gamma {\text{ and }} ||W||=1 \]

    然而这并不是一个很好的优化问题,因为这个 \(||W||=1\) 是一个很糟糕的非凸性约束( \(W\) 将在一个球面上取值,而球面集并不是一个凸集),所以还需要把优化问题再换一种表达方式。既然在约束条件里面很难给 \(W\) 作一个约束(因为很难找到一个约束条件既能防止 \(W\) 任意缩放,又能保证 \(W\) 的取值集合是一个凸集),那么可以尝试把 \(W\) 放到目标优化函数里面:

    \[ \max \gamma=\max \frac{\hat\gamma}{||W||}\{\text{s.t. }}y^{(i)}\left(W^{\rm T}x^{(i)}+b\right)\geq\hat\gamma \]

    但是这时候目标函数 \(\hat\gamma/||W||\) 又不是一个凸函数了。注意到 \(\hat\gamma\) 是可以任意缩放的,那么可以令 \(\hat\gamma=1\) ,得到:

    \[ \max \frac{1}{||W||}\{\text{s.t. }}y^{(i)}\left(W^{\rm T}x^{(i)}+b\right)\geq1 \]

    把最大化目标函数转为最小化其倒数,并平方:

    \[ \min ||W||^2\{\text{s.t. }}y^{(i)}\left(W^{\rm T}x^{(i)}+b\right)\geq1 \]

    这就是最大间隔分类器的最终形式,其目标优化函数是一个凸函数,约束集是一个凸集。

Lagrange Multiplier

  • Lagrange Multiplier(拉格朗日常数法)的一般形式

    要解决的问题为:

    \[ \min f(w)\{\text{s.t. }}h_i(w)=0,\,(i=1,2,\cdots,l) \]

    要求解以上问题,首先要创建一个拉格朗日算子:

    \[ {\mathcal L}(w,\beta)=f(w)+\sum_i\beta_ih_i(w) \]

    其中的 \(\beta_i\) 被称为Lagrange Multiplier(拉格朗日乘数)。

    然后令它的偏导数为0,求解方程组即可:

    \[ \begin{eqnarray*} \frac{\partial{\mathcal L}(w,\beta)}{\partial w}&=&0\\[1em] \frac{\partial {\mathcal L}(w,\beta)}{\partial\beta}&=&0\\[1em] \end{eqnarray*} \]

  • Lagrange Multiplier(拉格朗日常数法)的扩展形式

    要求解的问题为:

    \[ \min_w f(w)\\begin{eqnarray*} {\text{s.t. }}g_i(w)&\leq&0,\,(i=1,2,\cdots,k)\tag{1}\h_i(w)&=&0,\,(i=1,2,\cdots,l)\tag{2}\\end{eqnarray*} \]

    拉格朗日算子为:

    \[ {\mathcal L}(w,\alpha,\beta)=f(w)+\sum_{i=1}^k\alpha_ig_i(w)+\sum_{i=1}^l\beta_ih_i(w)\tag{3} \]

    定义 \(\Theta_P(w)\) 为:

    \[ \Theta_P(w)\xlongequal{def}\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}{\mathcal L}(w,\alpha,\beta)\tag{4} \]

    现在考虑另一个优化问题:

    \[ p^*=\min_w\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}{\mathcal L}(w,\alpha,\beta)=\min_w\Theta_P(w) \]

    \(g_i(w)>0\) ,不满足条件 \((1)\) ,那么根据等式 \((3)\)\((4)\)\(\Theta_P(w)\) 将是一个无穷大值。若 \(h_i(w)\neq0\) ,不满足条件 \((2)\) ,同理 \(\Theta_P(w)\) 也将是一个无穷大值。

    若同时满足条件 \((1)\) 和条件 \((2)\) ,那么显然:

    \[ \Theta_P(w)=f(w) \]

    所以原来的优化问题也转变成新的优化问题:

    \[ \min_w f(w)=\min_w \Theta_P(w)=p^* \]

Dual Problem

  • Dual Problem(对偶问题)

    定义:
    \[ \Theta_D(\alpha, \beta)=\min_w{\mathcal L}(w,\alpha,\beta)\d^*=\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}\min_w{\mathcal L}(w,\alpha,\beta)=\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}\Theta_D(\alpha,\beta) \]
    \(d^*\) 就是 \(p^*\) 的对偶问题,其实就是交换了 \(\min\)\(\max\) 的位置。在通常情况下, \(d^*\leq p^*\)

CS229 笔记07

标签:amp   case   最小   fun   导数   func   sum   扩展   一个   

原文地址:http://www.cnblogs.com/genkun/p/7868857.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!