标签:面向 weight 支持向量机 height tail blog 选择 理解 因变量
最小二乘法是机器学习中的基础知识点,一致对最小二乘法的理解不够深入,今天就花点时间来深入理解和探讨一下最小二乘法
最小二乘法,又称最小平方法,基本公式通俗来讲,二者先取个差值,在来个平方,最后搞一个和号上去,这就是最小二乘问题的思想,下面介绍下
最小二乘法
我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢? 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面...
对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:
(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。
最常用的是普通最小二乘法( Ordinary Least Square,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小。(Q为残差平方和)- 即采用平方损失函数。
样本回归模型:
其中ei为样本(Xi, Yi)的误差
平方损失函数:
则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。求Q对两个待估参数的偏导数:
根据数学知识我们知道,函数的极值点为偏导为0的点。
解得:
这就是最小二乘法的解法,就是求得平方损失函数的极值点。
最小二乘法分为线性和非线性两种,线性最小二乘法很好解决,可以将公式(1)变换为矩阵方程(公式2),最后直接求解矩阵方程即可,不需要迭代,这种解被称为“解析解”
(1)
(2)
非线性最小二乘问题则不然,它要复杂得多,没有办法变换为矩阵方程形式,以至于它必须将问题化简为每一步均为可以直接求解的子问题,整个求解过程是迭代的。
线性最小二乘问题与非线性最小二乘的关系,就是非线性最小二乘问题的求解过程。
1. 对原问题中的每一个函数fi(x)在x0处进行一阶泰勒展开,因为一阶泰勒展开属于线性函数(公式3),于是通过这种手段,就可以将非线性最小二乘问题简化为线性最小二乘问题来求解。
(3)
2. 对得到的线性最小二乘问题,进行直接求解。这里面涉及到两个矩阵,一个是雅克比矩阵(公式4),一个是赫森矩阵(公式5)。
(4)
(5)
3. 得到子问题的解析解xk+1之后(公式2),xk+1与xk之间便自然地建立了等式关系(公式6)。
(6)
4. 更新参数xk(k=k+1, k=1....n),回到步骤1,直到满足收敛条件,得到最优解x*
没错,就是讲非线性转化为线性问题去解决,下面说名几个注意点:
第一:步骤1中,一定要一阶泰勒展开,不能采用二阶以上,因为只有一阶泰勒展开才是线性函数,才能转换为线性最小二乘问题来直接求解。
第二:步骤2中,雅克比矩阵和赫森矩阵都是属于子问题的,不是原问题的。
第三:步骤3中,是为了得到新求解的参数xk+1与之前参数xk之间的关系,形成一种“链式反应”,也就是迭代了。
第四:步骤4中,收敛条件一般有1.梯度近乎为0。2.变量变化很小。3.目标函数值变化很小等。
第五:许多优化算法,都可以用于解决非线性最小二乘问题。
第六:函数fi(x)往往都是如下形式(公式7),千万别以为fi(x)就是hi(x)
(7)
解释完了,一团乱麻很正常,我们致力于应用,能理解更好,实在理解不了就理解应用场景,毕竟现在都是面向场景式编程。
说白了,最小二乘法可以得到平方损失函数最小的点,也就是全局最小,通俗点就是拟合度比较好,所以我们一般都是用于拟合数据建立线性模型用于预测
下面给出线性最小二乘法的Java实现:
package org.yujoo.baas.base; /** * 最小二乘法 y=ax+b * * @author yu joo * */ public class Theleastsquaremethod { private static double a; private static double b; private static int num; /** * 训练 * * @param x * @param y */ public static void train(double x[], double y[]) { num = x.length < y.length ? x.length : y.length; calCoefficientes(x,y); } /** * a=(NΣxy-ΣxΣy)/(NΣx^2-(Σx)^2) * b=y(平均)-a*x(平均) * @param x * @param y * @return */ public static void calCoefficientes (double x[],double y[]){ double xy=0.0,xT=0.0,yT=0.0,xS=0.0; for(int i=0;i<num;i++){ xy+=x[i]*y[i]; xT+=x[i]; yT+=y[i]; xS+=Math.pow(x[i], 2.0); } a= (num*xy-xT*yT)/(num*xS-Math.pow(xT, 2.0)); b=yT/num-a*xT/num; } /** * 预测 * * @param xValue * @return */ public static double predict(double xValue) { System.out.println("a="+a); System.out.println("b="+b); return a * xValue + b; } public static void main(String args[]) { double[] x = { 0 , 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 } ; double[] y = {23 , 44 , 32 , 56 , 33 , 34 , 55 , 65 , 45 , 55 } ; Theleastsquaremethod.train(x, y); System.out.println(Theleastsquaremethod.predict(10.0)); } }
当然如果你不想写也可以使用Apache开源库commons math,提供的功能更强大,
http://commons.apache.org/proper/commons-math/userguide/fitting.html
<dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-math3</artifactId> <version>3.5</version> </dependency>
private static void testLeastSquareMethodFromApache() { final WeightedObservedPoints obs = new WeightedObservedPoints(); obs.add(-3, 4); obs.add(-2, 2); obs.add(-1, 3); obs.add(0, 0); obs.add(1, -1); obs.add(2, -2); obs.add(3, -5); // Instantiate a third-degree polynomial fitter. final PolynomialCurveFitter fitter = PolynomialCurveFitter.create(3); // Retrieve fitted parameters (coefficients of the polynomial function). final double[] coeff = fitter.fit(obs.toList()); for (double c : coeff) { System.out.println(c); } }
最小二乘法使用的前提条件是数据连续的而非离散,最常使用的场景就是回归模型,在监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面。最小二乘法就是回归问题解决的基本方法,同时,最小二乘法在数学上称为曲线拟合。
参考1:最优化理论与算法
参考2:利用Levenberg_Marquardt算法求解无约束的非线性最小二乘问题~
参考4:http://blog.csdn.NET/wsj998689aa/article/details/41558945
标签:面向 weight 支持向量机 height tail blog 选择 理解 因变量
原文地址:http://www.cnblogs.com/jooyu/p/6953491.html