斯坦福2014机器学习笔记五----正则化

时间：2017-10-22 23:42:46 阅读：466 评论：0 收藏：0 [点我收藏+]

标签：矩阵 2-2 基础上开始新规 .com 机器 mda 额外

一、纲要

　　欠拟合和过拟合

　　代价函数正则化

　　正则化线性回归

　　正则化逻辑回归

二、内容详述

　　1、欠拟合和过拟合

　　欠拟合，也叫高偏差，就是没有很好的拟合数据集的情况。如下图中的左图所示

　　过拟合，也叫高方差，就是虽然高阶多项式可以完美的拟合所有的数据，但会导致函数过于庞大，变量太多而我们又没有足够的数据来约束这个模型，这就是过度拟合。过度拟合的原因，简单来说就是过多的特征变量和过少的数据集。如下图右。

技术分享

　　过拟合带来的效果就是，虽然可以完美的拟合现有的数据集，但是在预测新数据方面却表现的不尽如人意。所以最适合的还是中间的方式。

　　当然上面是线性回归的过拟合问题，逻辑回归中也存在这样的问题，就以多项式理解，阶数越高，拟合程度越好，但是预测方面就表现的很差。那么如何解决这些问题呢？这里就要引入“正则化”的概念！

技术分享

　　2、代价函数正则化

　　以第一个问题中的线性回归过拟合为例，我们应该怎样用正则化解决技术分享这个问题呢？我们知道如果让高次项系数为0的话，我们就可以比较好的进行拟合。所以我们假设代价函数是，然后在求解代价函数J最小化的

过程中我们就会使Θ_3、Θ₄尽可能的小，这样的话高次项就趋于0，就能很好的解决这个问题。这就给了我们正则化算法的启示。

　　我们在代价函数J后面加入一个正则项，代价函数就变为技术分享，其中λ为正则化参数。需要注意的是，这里的正则项Θ的Θ_j是从j=1开始到j=n为止，而不包括Θ₀，虽然加与不加Θ₀的结果相差不大，但是按照惯例一般Θ₀单独考虑。所以我们在使用梯度算法的时候Θ₀的参数更新要与其他Θ_j分开考虑。

　　这里需要强调的一点是，正则化参数的选择非常重要，如果λ过大，那么就会使得Θ_j(j=1,2,3...n)都基本趋于0，也就是只剩下h_θ(x)=θ₀，就如下图的情况，这样就变成了欠拟合的问题(Too big lamda)，而当λ选择合适的话，过拟合的曲线(Unregulated)就会变成良好的Regulated

技术分享

　　3、正则化线性回归

　　正则化线性回归的代价函数J为技术分享，在使用梯度下降法之前需要对J进行偏导，，然后带入梯度下降法得到：，之前说过这里Θ₀的参数更新要与其他Θ_j分开考虑的原因。对θ_j进行调整得到，这个式子是不是很熟悉？跟之前的梯度下降法参数更新公式很像，区别只是θ_j变成了θ_j(1-α*(λ/m))，这里1-α*(λ/m)就是一个小于1的常数，可能是0.99或0.98.这里可以看出正则化线性回归的梯度下降算法的变化在于，每次都在原有的更新规则的基础上令θ额外减去一个值。