【机器学习具体解释】线性回归、梯度下降、最小二乘的几何和概率解释

时间：2017-06-22 19:47:50 阅读：298 评论：0 收藏：0 [点我收藏+]

线性回归

即线性拟合，给定N个样本数据 $（x_1,y_1）,(x_2,y_2)....(x_N,y_N)$ 当中 $x_i$ 为输入向量， $y_i$ 表示目标值，即想要预測的值。採用曲线拟合方式，找到最佳的函数曲线来逼近原始数据。通过使得代价函数最小来决定函数參数值。
採用斯坦福大学公开课的样例：假如一套房子的价格仅仅考虑由房屋面积(Living area)与卧室数目(bedrooms)两个因素决定，如今拿到手有m个样本，例如以下图所看到的。

此例中。输入 $x=(x_1,x_2)$ 为2维向量。分别相应房屋面积和卧室数目, $y$ 相应价格。如今想依据上述样本数据，预測新的输入 $x^{(k)}$ 相应的 $y^{(k)}$ 。
技术分享
我们採用 $x$ 的线性函数 $h_θ(x)=θ_0+θ_1x_1+θ_2x_2$ 来近似 $y$ 值，当中 $θ_0$ 为偏移量。

令 $x_0=1$ ,简写为 $h_θ(x)=θ^Tx$ 。

如今的问题是怎样选择 $θ$ 的值，来使得 $h_θ(x^{(i)})$ 最大程度接近 $y^{(i)}$ 值。

最小二乘代价函数

採用最小二乘法定义代价函数 $J(θ)=\frac12∑_{i=1}^m(h_θ(x^{(i)})?y^{(i)})^2$ ,表示每一个样本的预測值与真实值得差值平方的累加和。
如今问题转化为代价函数 $J(θ)$ 最小相应的 $θ$ 值。当中因子 $\frac12$ 是为了后面的计算方便。

梯度下降：

梯度下降的思想是沿着函数负梯度方向，不断更新 $θ$ 值，每次更新一次。函数值下降一次。算法例如以下：

1.初始化 $θ$ 值；
2.更新 $θ$ 值，使得 $J(θ)$ 值更小： $θ:=θ?α?_θJ(θ)$ 。
3.假设 $J(θ)$ 值能够继续降低，返回第2步；

当中 $α$ 称为学习率，决定着每一次迭代跨越的步长。 $θ^T=(θ_0,θ_1,θ_2)$ 为一个三维向量，梯度偏导数计算方法：
技术分享
对于单个样本数据，则更新方法为 $θ_j:=θ_j?α(h_θ(x)?y)x_j$

关于梯度下降与梯度上升：
注意到，我们上述求偏导数得到 $(h_θ(x)?y)x_j$ ，此方向为梯度上升方法，因为我们要求 $J(θ)$ 的最小值，所以应沿着负梯度方向，即 $θ_j:=θ_j?α(h_θ(x)?y)x_j$ ，若提取负号，就变为 $θj:=θj+α(y?h_θ(x))x_j$ ,尽管变为正号，仍然是沿着负梯度方向，仅仅是公式形式变了。在《机器学习实战》中。就採用的后一种形式 $θ_j:=θ_j+α(y?h_θ(x))x_j$ ，在那本书里被称为梯度上升，实际上仍然为负梯度方向。

1.批梯度下降(batch gradient descent)
技术分享
上述为批梯度下降 $θ$ 值得更新算法，每一次更新 $θ$ 值，都须要计算整个样本集数据。即综合全局梯度方向算出下一步最优梯度方向。

在学习率 $α$ 比較小的情况下。上述算法必定收敛。同一时候因为 $J(θ)$ 为凸二次函数，局部最优值，即全局最优值。
可是对于样本集非常大的情况下，此种算法必定导致效率非常低，因为每一次对 $θ$ 的更新，都需计算每一个样本的预測值与真实值的差。

2.随机梯度下降（stochastic gradient descent）
技术分享
算法的长处是，遍历整个数据集。每一次更新 $θ$ 的值仅仅计算单个样本数据的梯度方向。可是此种算法不一定收敛到最小值。可能会在最小值附近震荡。在数据量非常大的情况下。仍建议採用随机梯度下降算法。

3.mini-batch梯度下降
把批梯度下降与随机梯度下降算法折中。即每次採用若干样本的梯度综合，更新 $θ$ 的值，被称为mini-batch梯度下降。
$θ_j=θ_j+α∑_n(y^{(i)}?h_θ(x^{(i)}))$ (for every j)

解析式求解

改写 $J(θ)$ 成矩阵的形式：
$J(θ)=\frac12∑_{i=1}^m(h_θ(x^{(i)})?y^{(i)})^2=\frac12(Xθ?Y)^T(Xθ?Y)$ 。当中X为m×n, $θ$ 为n×1， $Y=(y^{(1)},y^{(2)}...y^{(m)})^T$
令 $?_θJ(θ)=?θ\frac12(θ^TX^TXθ?θ^TX^TY?Y^TXθ+Y^TY)=\frac12(2X^TXθ?2X^TY)=X^TXθ?X^TY=0$
解得 $θ=(X^TX)^{?1}X^TY$ ;
当 $X^TX$ 为神秘矩阵时。通常选择在原始函数中加入正则项，确保矩阵非神秘。

一种简单的正则化项为： $E(θ)=\frac12θ^Tθ$ , 原始目表函数变为 $J(θ)+λE(θ)=\frac12∑^m_{i=1}(h_θ(x^{(i)})?y^{(i)})^2+\fracλ2θ^Tθ$ ,当中 $λ$ 为调和因子,对目标函数求导并令为0，解得 $θ=(X^TX+λI)^{?1}X^TY$

最小二乘法的概率解释与几何解释

1.概率解释

假定原始拟合函数为： $y^{(i)}=θ^Tx^{(i)}+?^{(i)}$ 。即每一个样本受到一个噪声 $?^{(i)}$ 因子的影响，同一时候噪声分别服从正态高斯分布，即均值为0，方差为 $σ^2$ 。

$?(i)$ ~ $N(0,σ^2)$
$\Longrightarrow P(?^{(i)})=\frac1{\sqrt{2π}σ}exp(?\frac{(?^{(i)})^2}{2σ^2})$
$\Longrightarrow P(y^{(i)}|x^{(i)};θ)=\frac1{\sqrt{2π}σ}exp(?\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2σ^2})$
写法 $P(y^{(i)}|x^{(i)};θ)$ 表示在參数 $θ$ 的情况下，给定 $x^{(i)}。y^{(i)}$ 服从的分布。

因为假定噪声因子之间 $?^{(i)}$ 为独立同分布，写出其似然函数为。如今的目的是採用最大释然预计得方法计算出最优的參数 $θ$ 值
技术分享
改成对数释然函数为：

我们目的要最大化释然函数。即要求最小化第二项 $\frac12∑^m_{i=1}(h_θ(x^{(i)})?y(i))^2$ 。此即我们的最小二乘的方法。
採用最小二乘的方法作为优化目标即潜在的使用了最大释然预计的方法。

2.几何解释

以下从几何角度解释最小二乘法的原理:为了结合以下的图形解释，须要改变一下数据的表示方法。

假定样本量的数目为 $N$ ，样本i记为 $(x_i,t_i)$ ，且样本特征xi的维数为 $M$ , $M<N$ 。
1.全部样本目标真实值 $t_i$ 。构成一个N维列向量 $t=(t_1,t_2...t_N)^T$ ;
2.全部样本的特征数据x构成一个N×M的矩阵X;矩阵X的第j个列向量记维 $φ_j$ 。即 $X=(φ_0,φ_1,...,φ_{M?1})$
3.假定真实最优參数为 $θ^?=(θ_0,θ_1,...θ_{M?1})^T$ ,则有 $t=Xθ^?=(φ_0,φ_1,...,φ_{M?1})θ^?$
技术分享
我们的目的是寻找最好的拟合參数 $θ$ ，使得拟合出的预測值 $y=Xθ=(φ_0,φ_1,...,φ_{M?1})θ$ 离真实值向量 $t$ 近期。注意到 $X$ 是样本数据，是固定值，每一列的 $φ_i$ 即相当于 $M$ 维空间的一个基向量。 $(φ_0,φ_1,...,φ_{M?1})$ ,即构成了 $M$ 维子空间的一组基向量。记做子空间 $S$ 。

子空间 $S$ 中不论什么向量都能够通过基向量的线性组合表示。最小二乘法在几何上解释，即寻找一个向量 $y$ 与向量 $t$ 之间欧式距离最小。如今的目的即是在 $S$ 中寻找一个向量 $y$ ,使得 $y$ 离向量 $t$ 的距离近期。最由图中能够看出，离 $t$ 近期的向量 $y$ 即是向量 $t$ 向子空间 $S$ 的正交投影。

局部加权回归（LWR）

LWR算法是非參数模型的一种。因为每一次预測新的数据，都须要採用原始样本计算一次，必定降低了效率。线性回归算法属于參数模型的一种，当得到最优參数 $θ$ ,预測新的数据时，就不须要原始数据样本了。

最小二乘法的目标(代价)函数是 $J(θ)=\frac12∑^m_{i=1}(h_θ(x^{(i)})?y(i))^2$ 。它採用了整体样本数据的性质，来预測新的数据,即所以样本的权重同样，不考虑局部性质。它的缺点是若原始数据分布由多个模型函数共同产生，採用最小二乘法的原则并不能最佳地逼近原始数据形态。

而局部加权回归通过增大预測的数据 $x^{(i)}$ 附近的样本点的权重。较小相对较远的样本数据的权重，来预測输出值 $h(x^{(i)})$ 。
局部加权回归算法：
技术分享
当中ω(i)为第i个样本的权重
一种经常使用的权重分布函数为。相似高斯分布曲线：

參数τ控制偏离预測点距离权重的下降幅度。

技术分享

參考：机器学习公开课—Andrew Ng

【机器学习具体解释】线性回归、梯度下降、最小二乘的几何和概率解释

标签：position 注意 and 面积点距 ever tar 控制权重

原文地址：http://www.cnblogs.com/blfbuaa/p/7066760.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行