Normal Equations 的由来与推导

时间：2014-11-25 23:31:39 阅读：225 评论：0 收藏：0 [点我收藏+]

假设我们有m个样本。特征向量的维度为n。因此，可知样本为{(x⁽¹⁾,y⁽¹⁾), (x⁽²⁾,y⁽²⁾),... ..., (x^(m),y^(m))},其中对于每一个样本中的x⁽ⁱ⁾,都有x⁽ⁱ⁾={x₁⁽ⁱ⁾, x_n⁽ⁱ⁾,... ...,x_n⁽ⁱ⁾}。令 H(θ)=θ₀+ θ₁x₁ +θ₂x₂+... + θ_nx_n，则有

bubuko.com,布布扣

这个图片很好示意，但是维度标记错误了。X 是 m*(n+1) 维， θ 包含θ₀

_{为（n+1)
* 1 维。}

若希望H(θ)=Y，则有

X · θ = Y

我们先来回忆一下两个概念：单位矩阵和矩阵的逆，看看它们有什么性质。

（1）单位矩阵E

AE=EA=A

（2）矩阵的逆A^-1

要求：A必须为方阵

性质：AA^-1=A^-1A=E

再来看看式子 X · θ = Y

若想求出θ，那么我们需要做一些转换：

step1：先把θ左边的矩阵变成一个方阵。通过乘以X^T可以实现，则有

X^TX · θ = X^TY

step2：把θ左边的部分变成一个单位矩阵，这样就可以让它消失于无形了……

(X^TX)^-1(X^TX) · θ = (X^TX)^-1X^TY

step3：由于(X^TX)^-1(X^TX) = E，因此式子变为

Eθ = (X^TX)^-1X^TY

E可以去掉，因此得到

θ = (X^TX)^-1X^TY

这就是我们所说的Normal Equation了。

上面描述的不是严格数学证明推导，参考NG的讲义：

_{通过cost
function 来计算参数的值：}

_{损失函数迭代推导目标函数：}

_{目标函数推导过程：}

_{同样得到也是 θ
= (X^TX)^-1X^TY}

Normal Equation VS Gradient Descent

Normal Equation 跟 Gradient Descent（梯度下降）一样，可以用来求权重向量θ。但它与Gradient Descent相比，既有优势也有劣势。

优势：

Normal Equation可以不在意x特征的scale。比如，有特征向量X={x₁, x₂}, 其中x₁的range为1~2000，而x₂的range为1~4，可以看到它们的范围相差了500倍。如果使用Gradient Descent方法的话，会导致椭圆变得很窄很长，而出现梯度下降困难，甚至无法下降梯度（因为导数乘上步长后可能会冲出椭圆的外面）。但是，如果用Normal Equation方法的话，就不用担心这个问题了。因为它是纯粹的矩阵算法。

劣势：

相比于Gradient Descent，Normal Equation需要大量的矩阵运算，特别是求矩阵的逆。在矩阵很大的情况下，会大大增加计算复杂性以及对计算机内存容量的要求。

Normal Equations 的由来与推导

标签：机器学习算法 normal equations 线性回归

原文地址：http://blog.csdn.net/huruzun/article/details/41493063

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行