首页 > 其他好文 > 详细

线性回归 Linear regression(4) 局部加权回归

时间：2015-04-08 21:08:58 阅读：236 评论：0 收藏：0 [点我收藏+]

标签：

这篇文章将介绍过拟合和欠拟合的概念，并且介绍局部加权回归算法。

过拟合和欠拟合

之前在线性回归中，我们总是将单独的x作为我们的特征，但其实我们可以考虑将 $技术分享$ ，甚至x的更高次作为我们的特征，那么我们通过线性回归得到的就将是一个多次函数了。

我们可以想象当我们只用x作为我们的特征的时候，我们的数据可能实际呈现的样子是一个二次函数的样子，也就是说我们的假设有一定的问题，那么我们求得的最小二乘值将相当的大了。但是如果我们有10组样本，我们选择一个10次方的特征，那么可以想象，最后我们得到的曲线将是一个能经过所有的10组样本的曲线，也就是说最小二乘的值直接等于0了。

技术分享

可以看出左边的图和右边的图都有一定问题，而其实中间建立的二次模型假设才是我们想要的。

所以，对于一个监督学习模型来说，过小的特征集合使得模型过于简单，过大的特征集合使得模型过于复杂。

对于特征集过小的情况，称之为欠拟合（underfitting）；

对于特征集过大的情况，称之为过拟合（overfitting）

解决此类学习问题的方法：

1) 特征选择算法：一类自动化算法，在这类回归问题中选择用到的特征

2) 非参数学习算法：缓解对于选取特征的需求，引出局部加权回归

局部加权回归

局部加权回归就是一种非参数学习算法，非参数学习算法的定义是：一个参数数量会随m（训练集大小）增长的算法。通常定义为参数数量随m线性增长。换句话说，就是算法所需要的东西会随着训练集合线性增长，算法的维持是基于整个训练集合的，即使是在学习以后。

局部加权回归的意思就是：对于一个确定的询问点x，我们都要进行一次局部加权回归求得相应的Θ，算法流程是：

找到合适的Θ，最小化 $技术分享$ ， $技术分享$ 就是我们对于当前x这个询问求得的线性回归y。

其中 $技术分享$ 表示对于每一个样本的权值，可以有多种取值，

一种相对标准公平的选择是： $技术分享$

$技术分享$ 被称作波长函数，它控制了权值随距离下降的速率。它越小，钟形越窄，ω衰减的很快；它越大，衰减的就越慢。

而ω可以简单的看出当样本距离询问点比较接近时，权值就是越大，相反越远就会越小。

这个算法的优缺点也很容易被看出来：

优点就是，局部加权回归缓解了特征选择的需要，很大程度上缓解了欠拟合的问题。

缺点就是，每一次有个新的询问，我们都有重新遍历样本，重新收敛参数θ，这样对于效率来说会非常的慢。

线性回归 Linear regression(4) 局部加权回归

标签：

原文地址：http://www.cnblogs.com/samsons/p/4396164.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！