码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习-最小二乘法

时间:2017-06-06 22:07:09      阅读:172      评论:0      收藏:0      [点我收藏+]

标签:面向   weight   支持向量机   height   tail   blog   选择   理解   因变量   

最小二乘法是机器学习中的基础知识点,一致对最小二乘法的理解不够深入,今天就花点时间来深入理解和探讨一下最小二乘法

最小二乘法,又称最小平方法,基本公式通俗来讲,二者先取个差值,在来个平方,最后搞一个和号上去,这就是最小二乘问题的思想,下面介绍下

最小二乘法

   我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢? 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面...

   对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:

        (1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
        (2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
        (3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。

  最常用的是普通最小二乘法( Ordinary  Least Square,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小。(Q为残差平方和)- 即采用平方损失函数。

  样本回归模型:

                  技术分享                   其中ei为样本(Xi, Yi)的误差

   平方损失函数:

                      技术分享

   则通过Q最小确定这条直线,即确定技术分享,以技术分享为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。求Q对两个待估参数的偏导数:

                   技术分享    

    根据数学知识我们知道,函数的极值点为偏导为0的点。

    解得:

                   技术分享

 

这就是最小二乘法的解法,就是求得平方损失函数的极值点。

 

最小二乘法分为线性和非线性两种,线性最小二乘法很好解决,可以将公式(1)变换为矩阵方程(公式2),最后直接求解矩阵方程即可,不需要迭代,这种解被称为“解析解”

 

技术分享(1)

技术分享(2)

 非线性最小二乘问题则不然,它要复杂得多,没有办法变换为矩阵方程形式,以至于它必须将问题化简为每一步均为可以直接求解的子问题,整个求解过程是迭代的。

线性最小二乘问题与非线性最小二乘的关系,就是非线性最小二乘问题的求解过程。

1. 对原问题中的每一个函数fi(x)在x0处进行一阶泰勒展开,因为一阶泰勒展开属于线性函数(公式3),于是通过这种手段,就可以将非线性最小二乘问题简化为线性最小二乘问题来求解。

技术分享               (3)

2. 对得到的线性最小二乘问题,进行直接求解。这里面涉及到两个矩阵,一个是雅克比矩阵(公式4),一个是赫森矩阵(公式5)。

技术分享                        (4)

技术分享(5)

3. 得到子问题的解析解xk+1之后(公式2),xk+1与xk之间便自然地建立了等式关系(公式6)。

技术分享(6)

4. 更新参数xk(k=k+1, k=1....n),回到步骤1,直到满足收敛条件,得到最优解x*

 

没错,就是讲非线性转化为线性问题去解决,下面说名几个注意点:

第一:步骤1中,一定要一阶泰勒展开,不能采用二阶以上,因为只有一阶泰勒展开才是线性函数,才能转换为线性最小二乘问题来直接求解。

第二:步骤2中,雅克比矩阵和赫森矩阵都是属于子问题的,不是原问题的。

第三:步骤3中,是为了得到新求解的参数xk+1与之前参数xk之间的关系,形成一种“链式反应”,也就是迭代了。

第四:步骤4中,收敛条件一般有1.梯度近乎为0。2.变量变化很小。3.目标函数值变化很小等。

第五:许多优化算法,都可以用于解决非线性最小二乘问题。

第六:函数fi(x)往往都是如下形式(公式7),千万别以为fi(x)就是hi(x)

 

技术分享(7)

 

解释完了,一团乱麻很正常,我们致力于应用,能理解更好,实在理解不了就理解应用场景,毕竟现在都是面向场景式编程。

说白了,最小二乘法可以得到平方损失函数最小的点,也就是全局最小,通俗点就是拟合度比较好,所以我们一般都是用于拟合数据建立线性模型用于预测

下面给出线性最小二乘法的Java实现:

技术分享
package org.yujoo.baas.base;

/** 
 * 最小二乘法 y=ax+b 
 *  
 * @author yu joo
 *  
 */  
public class Theleastsquaremethod {  
  
    private static double a;  
  
    private static double b;  
  
    private static int num;  
  
    /** 
     * 训练 
     *  
     * @param x 
     * @param y 
     */  
    public static void train(double x[], double y[]) {  
        num = x.length < y.length ? x.length : y.length;  
        calCoefficientes(x,y);  
    }  
  
    /** 
     * a=(NΣxy-ΣxΣy)/(NΣx^2-(Σx)^2) 
     * b=y(平均)-a*x(平均) 
     * @param x 
     * @param y 
     * @return 
     */  
    public static void calCoefficientes (double x[],double y[]){  
        double xy=0.0,xT=0.0,yT=0.0,xS=0.0;  
        for(int i=0;i<num;i++){  
            xy+=x[i]*y[i];  
            xT+=x[i];  
            yT+=y[i];  
            xS+=Math.pow(x[i], 2.0);  
        }  
        a= (num*xy-xT*yT)/(num*xS-Math.pow(xT, 2.0));  
        b=yT/num-a*xT/num;  
    }  
  
    /** 
     * 预测 
     *  
     * @param xValue 
     * @return 
     */  
    public static double predict(double xValue) {  
        System.out.println("a="+a);  
        System.out.println("b="+b);  
        return a * xValue + b;  
    }  
  
    public static void main(String args[]) {  
        double[] x = { 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 } ;    
        double[] y = {23 , 44 , 32 , 56 , 33 , 34 , 55 , 65 , 45 , 55 } ;    
        Theleastsquaremethod.train(x, y);  
        System.out.println(Theleastsquaremethod.predict(10.0));  
    }  
  
}  
技术分享

 当然如果你不想写也可以使用Apache开源库commons math,提供的功能更强大,

http://commons.apache.org/proper/commons-math/userguide/fitting.html

 

<dependency>  
          <groupId>org.apache.commons</groupId>  
            <artifactId>commons-math3</artifactId>  
            <version>3.5</version>  
 </dependency>  

 

技术分享
private static void testLeastSquareMethodFromApache() {  
        final WeightedObservedPoints obs = new WeightedObservedPoints();  
        obs.add(-3, 4);  
        obs.add(-2, 2);  
        obs.add(-1, 3);  
        obs.add(0, 0);  
        obs.add(1, -1);  
        obs.add(2, -2);  
        obs.add(3, -5);  
  
        // Instantiate a third-degree polynomial fitter.  
        final PolynomialCurveFitter fitter = PolynomialCurveFitter.create(3);  
  
        // Retrieve fitted parameters (coefficients of the polynomial function).  
        final double[] coeff = fitter.fit(obs.toList());  
        for (double c : coeff) {  
            System.out.println(c);  
        }  
    }
技术分享

最小二乘法使用的前提条件是数据连续的而非离散,最常使用的场景就是回归模型,在监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面。最小二乘法就是回归问题解决的基本方法,同时,最小二乘法在数学上称为曲线拟合。

 

参考1:最优化理论与算法

参考2:利用Levenberg_Marquardt算法求解无约束的非线性最小二乘问题~

参考3:利用信赖域算法求解无约束的非线性最小二乘问题~

参考4:http://blog.csdn.NET/wsj998689aa/article/details/41558945

 
 
 
 

机器学习-最小二乘法

标签:面向   weight   支持向量机   height   tail   blog   选择   理解   因变量   

原文地址:http://www.cnblogs.com/jooyu/p/6953491.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!