线性回归Linear regression

时间：2018-02-28 17:34:38 阅读：161 评论：0 收藏：0 [点我收藏+]

基本思想：寻找一条直线，最大程度的“拟合”样本特征和样本输出标记之间的关系

技术分享图片

如横轴房屋面积，纵轴房屋价格

由实际值x⁽ⁱ⁾代入到拟合直线方程中得到的y_hat，即y的预测值。

假设找到最佳拟合的直线方程：y = ax + b, 则对于每一个样本点x⁽ⁱ⁾，根据直线方程其预测值为：， 真值为y⁽ⁱ⁾。

因此，我们当然希望y⁽ⁱ⁾和y_hat⁽ⁱ⁾的差距尽量小。其差距可表示为：

（用绝对值表示的话，它不是一个处处可导的表达式，不便于后续计算）

考虑所有样本，其总差距为：

技术分享图片

理所当然，我们希望其总差距尽可能小，将代入上式可得：

技术分享图片 ------------------------（1）

（在(1)式中，只有a，b两个未知数，监督学习中x⁽ⁱ⁾和y⁽ⁱ⁾都是已知数。）

技术分享图片

损失函数：度量出模型没有拟合住的那一部分

效用函数：度量拟合的程度

通过分析问题，确定问题的损失函数或效用函数；通过最优化损失函数或效用函数，获得机器学习的模型。近乎所有参数学习的算法都是这样的套路。

如线性回归，多项式回归，逻辑回归，SVM，神经网络，...

它们都是学习相应参数来最优化其目标函数。其区别在于他们的模型不同，建立的目标函数不同，优化的方式不同。

P.S.

技术分享图片

对于分类问题（左图），横纵坐标都是样本的特征，输出标记由点是红色还是蓝色表示。而对于回归问题（右图），纵轴是样本的输出标记。

因为在回归问题中，我们需要预测的是连续的值，而不是简单的用红色蓝色就可以表示。因此当要表示两个特征的回归问题时，就需要在三维空间中进行数据可视化。

样本特征只有一个，称为：简单线性回归

样本特征多个，多元线性回归

原文地址：https://www.cnblogs.com/zzzzy/p/8484483.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行