码迷,mamicode.com
首页 > 其他好文 > 详细

线性回归-误差,似然函数

时间:2018-09-15 01:19:36      阅读:368      评论:0      收藏:0      [点我收藏+]

标签:com   统一   gravity   最小   关系   资料   描述   tps   例子   

一、线性回归

在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。

回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

下面我们来举例何为一元线性回归分析,图1为某地区的房屋面积(feet)与价格($)的一个数据集,在该数据集中,只有一个自变量面积(feet),和一个因变量价格($),所以我们可以将数据集呈现在二维空间上,如图2所示。利用该数据集,我们的目的是训练一个线性方程,无限逼近所有数据点,然后利用该方程与给定的某一自变量(本例中为面积),可以预测因变量(本例中为房价)。本例中,训练所得的线性方程如图3所示。

技术分享图片 

         图1、房价与面积对应数据集

技术分享图片

                           图2、二维空间上的房价与面积对应图

技术分享图片

                                              图3、线性逼近

同时,分析得到的线性方程为:

技术分享图片

接下来还是该案例,举一个多元线性回归的例子。如果增添了一个自变量:房间数,那么数据集可以如下所示:

技术分享图片

                                 图4、房价与面积、房间数对应数据集

那么,分析得到的线性方程应如下所示:

技术分享图片

因此,无论是一元线性方程还是多元线性方程,可统一写成如下的格式:

技术分享图片

上式中x0=1,而求线性方程则演变成了求方程的参数ΘT

线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以有前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算,这样就可以表达特征与结果之间的非线性关系。

 

二、真实值、预测值、误差:

技术分享图片

 

 对误差的深入理解:

  [假设]:误差 ε 是独立同分布的,并且服从均值为0方差为θ^2的高斯分布,

   误差特点:
  1.误差指的是实际值与预测值之间的差值
  2.独立:张三和李四一起来贷款,他俩没关系。
  3.同分布:张三和李四都是我们张三和李四都来的是我们假定的这家银行来贷款 
  4.高斯分布:银行可能会多贷款,也可能少贷款,但是绝大多数情况