标签:策略 block 基础上 ide 模型训练 简单 span 模型选择 www
我的个人笔记是用
typora
排版,所以存在差异,直接复制粘贴存在问题
下面资料是个人总结,势必存在错误,不要偏信,千万不要!
如果你愿意分享可以提出我的错误,感谢。
最小二乘法:\(E(\omega) = \frac{1}{2} \sum_{n=1}^{N} \{y(x_n,\omega)-d_n\}^2\)
? 利用最小二乘法描述误差,现有N个采样点\((x_n,d_n)\),以及拟合的曲线函数\(y(x_n, \omega)\),总误差就是采样点和拟合曲线上的对应点的误差平方和。
拟合曲线:\(y(x,\omega) = \underbrace{\omega_0 + \omega_1x + \omega_2x^2+\omega_3x^3+...+\omega_Nx^N}_{N+1}\)
? 拟合曲线通过修改\(\omega\)以及曲线阶数实现拟合,N阶曲线函数如上式所示,各项系数组成调整参数\(\omega\)。阶数越高曲线能够拟合的能力越大,模型越复杂。
过拟合和欠拟合
? 出现在选取不同复杂程度模型进行训练的过程中:
随之模型复杂度的增加,训练误差和测试误差均下降,且误差都很大的情况属于欠拟合;
随之模型复杂度的增加,训练误差下降,但是测试误差反而上升,且测试误差较大时,此时属于过拟合
在欠拟合到过拟合的过程中会存在平缓的区域,可以看作是较好的的模型选择,此时的训练误差和测试误差都较小。
解决欠拟合的方法是增加模型复杂度,解决过拟合的方法是增加数据量。
可逆矩阵的性质:
可以说可逆矩阵是由一组有唯一解的线性方程组系数组成;唯一解也对应非线性相关,以及行列式非0,满秩条件。
矩阵的秩
? 在线性代数中,一个矩阵A的列秩是A的线性独立的纵列的极大数目。类似地,行秩是A的线性无关的横行的极大数目。方阵列秩和行秩总是相等的,因此它们可以简单地称作矩阵A的秩。
行列式和秩
行列式非0等同于方阵满秩,等同于矩阵行无相关性,等同于唯一解。(注:题外话,非方阵也可以满列秩或满行秩,但是只有方阵才有行列式和逆矩阵存在)
方阵A非奇异的等价条件:
矩阵的行列式:方阵A的行列式用\(det(A)\)或\(|A|\)表示。行列式可以看做是有向面积或体积的概念在一般的欧几里得空间中的推广。利用代数余子式求矩阵的行列式:已知方阵A如下所示
\(\pmatrix{a_{11}&a_{12}&a_{13}&...&a_{1n} \\ a_{21} &a_{22}&...&...& a_{2n} \\ ...&&&&... \\ a_{n1}&a_{n2}&...&...& a_{nn}}\)
\(|A|=\sum_{j=1}^n(-1)^{(1+j)}a_{1j}S_{1j}\),\(S_{1j}\)指\(a_{1j}\)的代数余子式,是去除第一行第j列后形成的子矩阵的行列式,依次类推直到2阶方阵行列式或3阶方阵的行列式。
欧几里得范数(2范数):
韦达定理
设一元二次方程\(ax^2+bx+c=0\),则两个根\(x_1,x_2\)有如下关系:
韦达定理不仅可以说明一元二次方程根与系数的关系,还可以推广说明一元n次方程根与系数的关系。对于一元n次方程\(a_0+a_1x+a_2x^2+...+a_{n-1}x^{n-1}+a_nx^n=0\),有:
对于求方阵\(A_{n*n}\)的特征值\(Ax=\lambda {x}\),A的特征值是\(det(A-\lambda{I})=0\),解得是\(\lambda\),所以得到是一元n次方程。其中只有\((a_{11}-\lambda)(a_{22}-\lambda)...(a_{nn}-\lambda)\)中含有\(\lambda^n\)和$ \lambda^{n-1}\(,而\)\lambda^n\(的系数为\)(-1)^n\(,\)\lambda^{n-1}\(的系数为\)(-1)^{n-1}\sum_{i=1}^{n}{a_{ii}}$,所以根据韦达定理所有特征根的和解得为:
\(\sum_{i=1}^n \lambda_i=-\frac{(-1)^{n-1}\sum_{i=1}^{n}{a_{ii}}}{(-1)^n}=\sum_{i=1}^{n}{a_{ii}}=tr(A)\)
所以方阵的迹是方阵特征值的和。
2范数是凸函数所以可以通过求导得到极小值点
求解\(Ax=b\)(A是一个矩阵,b是一个列向量)实质上就是求\(||Ax-b||^2\)的最小值,所以对x求导得到极小值。因为\(Ax-b\)是列向量,所以有\(||Ax-b||^2 = (Ax-b)^T(Ax-b)\),所以有:
\(||Ax-b||^2=(x^TA^T-b^T)(Ax-b)=(x^TA^TAx-x^TA^Tb-b^TAx+b^Tb)\)
因为\(x^TA^Tb\)是标量所以其转置就是本身即\(x^TA^Tb=b^TAx\),因此上式转换为$(x^TA^TAx-2x^TA^Tb+b^Tb) $。
另外,因为\(\frac{\partial x^TAx}{\partial x}=(A+A^T)x\),\(\frac{\partial a^TXb}{\partial X}=ab^T\),\(\frac{\partial a^TX^Tb}{\partial X}=ba^T\)因此得到:
\(\frac{\partial ||Ax-b||^2}{\partial x}=2A^TAx-2A^Tb=2A^T(Ax-b)\),令导数为0得到极小值点\(\widehat{x}=(A^TA)^{-1}A^Tb\)。
但是如果\((A^TA)\)不是可逆方阵就会出现问题,得到不到极小值点,所以可以添加一个项\(\Gamma\)帮助运算,\(\Gamma=\alpha I\)得到\(||Ax-b||^2+||\Gamma x||^2\),导数为\(2(A^TA+\Gamma ^T \Gamma)-2A^Tb\),假设\((A^TA+\Gamma^T\Gamma)\)是可逆方阵,得到:
\(\widehat{x}=(A^TA+\Gamma^T\Gamma)^{-1}A^Tb\),这里面的\(\Gamma\)就是岭回归系数。
岭回归
? 有时训练样本数量少,这样将导致数据矩阵无法求逆;又比如样本特征中存在大量相似的特征,导致很多参数所代表的意义重复,线性相关性导致行列式非0。这个时候,我们就应用结构风险最小化的模型选择策略,在经验风险最小化的基础上加入正则化因子。当正则化因子选择为模型参数的二范数的时候,整个回归的方法就叫做岭回归。
正则化
已有最小二乘法误差表达式\(E(\omega) = \frac{1}{2} \sum_{n=1}^{N} \{y(x_n,\omega)-d_n\}^2\),训练时\(d_n\)理解为列向量,所以有\(E(w)=\frac{1}{2} \{y(x,w)-d\}^T\{y(x,w)-d\}=\frac{1}{2}||y(x,w)-d||^2\)。
? 过拟合的实质就是数据集没有那没多的特征,或者说数据集小、数据集内数据相关性大。通过正则化可以解决模型训练的过拟合的问题,我们希望得到能使误差最小的\(w\)值,2范数是凸函数,存在极小值,所以可以直接求导,假设\(y(x,w)=Xw\),于是有\(E(w)=\frac{1}{2}||Xw-d||^2\),根据二中介绍的矩阵求解得到\(\widehat E(w)=X^T(Xw-d)\),这里就存在\(X^TX\)是否可逆的问题,可以通过增加正则项,也就是之前的岭回归项来使\(X^TX\)可逆,也就得到了:\(E(w)=\frac{1}{2} ||Xw-d||^2+\frac{\lambda}{2}||w||^2\)。已知对于向量x有\(\frac{\partial ||x||^2}{\partial x}=2x\),\(w\)本身是系数列向量,所以有\(\widehat E(w)=(X^TX+\lambda I)w-X^Td\),所以得到极小值点为\(w=(X^TX+\lambda I)^{-1}X^Td\),我们称\(\frac{\lambda}{2}||w||^2\)为正则项。正则化项的实际效果体现在降低\(w\)的值
参考资料:
[1]: 正则化项
[2]: 矩阵和向量的范数
[3]: 协方差
标签:策略 block 基础上 ide 模型训练 简单 span 模型选择 www
原文地址:https://www.cnblogs.com/oneflyleader/p/13284150.html