码迷,mamicode.com
首页 > 编程语言 > 详细

机器学习算法笔记1_1:线性回归

时间:2016-04-22 19:27:11      阅读:143      评论:0      收藏:0      [点我收藏+]

标签:

形式

h(x)=i=0nθixi=θTx

代价函数:

J(θ)=12i=1m(h(x(i)θ)?y(i))2

  1. LMS(Least Mean Squares)算法

    1. 参数更新原则
      梯度下降法,参数沿着使代价函数下降最快的方向改变,其中α为学习速率
      技术分享
      • 单样本更新
        技术分享
        技术分享
        可以看到,当误差(y(i)?hθ(x(i)))越大时,参数更新幅度越大,反之较小。
        这只是针对一个样本的情况,当有多个样本时,有以下两种方法更新参数
      • 批处理算法
        技术分享
      • 随机梯度下降法(stochastic gradient descent)
        技术分享
        由于批处理算法每次更新都需要浏览整个数据集,所以,通常来说(特别是训练街特别大的时候),随机梯度下降法具有更快的收敛速度。
  2. LMS的矩阵表示

    1. 矩阵知识

      1. 矩阵导数
        技术分享

      2. 技术分享

        • 如果AB是方阵则trAB=trBA,同理
          技术分享

        • 其他性质
          技术分享
          技术分享
          (4)中要求A为非奇异矩阵

    2. 矩阵表示LMS
      技术分享
      技术分享
      (2)(3)可得
      技术分享
      所以
      技术分享
      其中第二步到第三步是因为J(θ)是一个实数,而对于实数a有a=tr(a)
      第三步到第四步是因为trA=trAT;
      第四步到第五步利用了公式(5),其中AT=θ,B=BT=XTX,C=I
      J(θ)最小时,其对于θ的导数为0,即有XTXθ=XTyθ=(XTX)?1XTy
  3. 线性回归代价函数J解释

    • 形式:将目标变量和自变量通过下式联系起来:
      技术分享
      其中?(i)是误差项并且假设它服从高斯(Gaussian)独立同分布(IID, independently and identically distributed)
      技术分享

      技术分享
      为了强调这个函数是由θ决定,我们将其称为似然函数:
      技术分享
      由于?(i)是独立同分布的,所以
      技术分享
      根据最大似然法则,我们应该选择使上面似然概率最大的θ,为了方便,将其化为下面的对数似然函数形式
      技术分享
      所以,最大化似然函数等价于最小化下式:
      技术分享
      这就是我们前面提到的代价函数
  4. 局部加权线性回归(LWR locally weighted linear regression)
    技术分享
    ω很大时,该项在代价函数中的作用变得很明显;反之,对应项的误差将会被忽略。

    • 目的: 防止过拟合

    • ω的选择:
      技术分享
      x(i)为第i个样本点,x为查询点,两者越接近,对应项权重越靠近1,否则,趋近于0;τ被称为带宽(bandwidth)参数,它控制权重相对于x(i)?x改变的快慢。
      这是我们接触的第一个非参数方法
      (斯坦福机器学习教程)

机器学习算法笔记1_1:线性回归

标签:

原文地址:http://blog.csdn.net/bupt_wx/article/details/51208521

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!