LASSO问题及其最优解

时间：2014-11-06 23:18:45 阅读：2348 评论：0 收藏：0 [点我收藏+]

转载，原文地址：http://blog.csdn.net/xidianzhimeng/article/details/20856047

Sparsity 是当今机器学习领域中的一个重要话题。John Lafferty 和 Larry Wasserman 在 2006 年的一篇评论中提到：

Some current challenges … are high dimensional data, sparsity, semi-supervised learning, the relation between computation and risk, and structured prediction.John Lafferty and Larry Wasserman. Challenges in statistical machine learning. Statistica Sinica. Volume 16, Number 2, pp. 307-323, 2006.

Sparsity 的最重要的客户大概要属 high dimensional data 了吧。现在的机器学习问题中，具有非常高维度的数据随处可见。例如，在文档或图片分类中常用的 bag of words 模型里，如果词典的大小是一百万，那么每个文档将由一百万维的向量来表示。高维度带来的的一个问题就是计算量：在一百万维的空间中，即使计算向量的内积这样的基本操作也会是非常费力的。不过，如果向量是稀疏的的话（事实上在 bag of words 模型中文档向量通常都是非常稀疏的），例如两个向量分别只有

当然高维度带来的问题不止是在计算量上。例如在许多生物相关的问题中，数据的维度非常高，但是由于收集数据需要昂贵的实验，因此可用的训练数据却相当少，这样的问题通常称为small ——我们一般用

f (x) = \sum j = 1 p w j x j = w T x

使用 square loss 来进行学习的话，就变成最小化如下的问题

J (w) = 1 n \sum i = 1 n ( y i - f ( x i ) ) 2 = 1 n ∥ y

这里

eq: 1 »

w ˆ = (X T X) - 1 X T y

然而，如果

者更确切地说，将会有无穷多个解。也就是说，我们的数据不足以确定一个解，如果我们从所有可行解里随机选一个的话，很可能并不是真正好的解，总而言之，我们 overfitting 了。

解决 overfitting 最常用的办法就是 regularization ，例如著名的 ridge regression 就是添加一个

J R (w) = 1 n ∥ y - X w ∥ 2 + λ ∥ w ∥ 2

直观地来看，添加这个 regularizer 会使得模型的解偏向于 norm 较小的

min w 1 n ∥ y - X w ∥ 2 ,

其中

不过，特别是在像生物或者医学等通常需要和人交互的领域，稀疏的解除了计算量上的好处之外，更重要的是更具有可解释性。比如说，一个病如果依赖于 5 个变量的话，将会更易于医生理解、描述和总结规律，但是如果依赖于 5000 个变量的话，基本上就超出人肉可处理的范围了。

在这里引入稀疏性的方法是用

eq: 2 »

J L (w) = 1 n ∥ y - X w ∥ 2 + λ ∥ w ∥ 1

该问题通常被称为 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一个 convex optimization 问题，不过不再具有解解析解。它的优良性质是能产生稀疏性，导致

可是，为什么它能产生稀疏性呢？这也是一直让我挺感兴趣的一个问题，事实上在之前申请学校的时候一次电话面试中我也被问到了这个问题。我当时的回答是背后的理论我并不是很清楚，但是我知道一个直观上的理解。下面我们就先来看一下这个直观上的理解。

首先，很 ridge regression 类似，上面形式的 LASSO 问题也等价于如下形式：

解决 overfitting 最常用的办法就是 regularization ，例如著名的 ridge regression 就是添加一个

J R (w) = 1 n ∥ y - X w ∥ 2 + λ ∥ w ∥ 2

直观地来看，添加这个 regularizer 会使得模型的解偏向于 norm 较小的

min w 1 n ∥ y - X w ∥ 2 ,

其中

在这里引入稀疏性的方法是用

eq: 2 »

J L (w) = 1 n ∥ y - X w ∥ 2 + λ ∥ w ∥ 1

首先，很 ridge regression 类似，上面形式的 LASSO 问题也等价于如下形式：

min w 1 n ∥ y - X w ∥ 2 ,

也就是说，我们将模型空间限制在

fig: 1 »

可以看到，

相比之下，

不过，如果只限于 intuitive 的解释的话，就不那么好玩了，但是背后完整的理论又不是那么容易能够搞清楚的，既然这次的标题是 Basics ，我们就先来看一个简单的特殊情况好了。

接下来我们考虑 orthonormal design 的情况：

注意到 LASSO 的目标函数 (eq: 2) 是 convex 的，根据 KKT 条件，在最优解的地方要求 gradient

def: 1 »

定义 subgradient; subdifferential

对于在

f (x) - f (x 0) \geq v \cdot (x - x 0)

由在点

注意 subgradient 和 subdifferential 只是对凸函数定义的。例如一维的情况，

性质 condition for global minimizer

点

证明很简单，将

eq: 3 »

w ˆ = 1 n X T y

然后我们再来看 LASSO ，假设

gradient 存在，此时

由于 gradient 在最小值点必须要等于零，我们有

\partial J L ( w ) \partial w j ∣∣∣ w ˉ j = 0

亦即

- 2 n ( X T y - X T X w ˉ ) j + λ sign ( w ˉ j ) = 0

根据 orthonormal design 性质以及 least square 问题在 orthonormal design 时的解 (eq: 3) 化简得到

w ˉ j = w ˆ j - λ 2 sign ( w ˉ j )

从这个式子也可以明显看出

w ˉ j = w ˆ j - λ 2 sign ( w ˆ j ) = sign ( w ˆ j ) ( ∣∣

再用一次

∣∣ w ˆ j ∣∣ - λ 2 = ∣∣ w ˉ j ∣∣ \geq 0

于是刚才的式子可以进一步写为

eq: 4 »

w ˉ j = sign (w ˆ j) (∣∣ w ˆ j ∣∣ - λ 2 ) +

这里

gradient 不存在，此时

根据 subgradient 在最小值点处的性质的性质，此时比有

0 = w ˉ j \in \partial J L (w ˉ) = {- 2 n ( X T

亦即存在

0 = 2 w ˉ j - 2 w ˆ j + λ e 0 = 2 w ˆ j + λ e 0

于是

| w ˆ j | = λ 2 | e 0 | \leq λ 2

又因为

fig: 2 »

图上画了原始的 least square 解，LASSO 的解以及 ridge regression 的解，用上面同样的方法（不过由于 ridge regularizer 是 smooth 的，所以过程却简单得多）可以得知 ridge regression 的解是如下形式

2 1 + 2 λ w ˆ j

可以 ridge regression 只是做了一个全局缩放，而 LASSO 则是做了一个 soft thresholding ：将绝对值小于

l2正则可以防止参数估计的过拟合，但是选择合适lambda比较困难，需要交叉验证。如果有个特征与输出结果不相关，则L2会给一个特别小的值，但是不会为0.

l1正则会产生稀疏解，即不相关的的特征对应的权重为0，就相当于降低了维度。但是l1的求解复杂度要高于l2,并且l1更为流行

LASSO问题及其最优解

标签：des blog http io ar os 使用 sp for

原文地址：http://www.cnblogs.com/yi-ming/p/4080146.html

踩

(0)

(1)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

LASSO问题及其最优解

定义 subgradient; subdifferential

性质 condition for global minimizer

gradient 存在，此时 wˉj≠0

gradient 不存在，此时 wˉj=0

gradient 存在，此时

gradient 不存在，此时