学过一点统计的人都会知道最小二乘法,最简单的曲线拟合方式。最小二乘法是通过最小化误差平方和来求解模型参数ω的,记为:
Min12∑i=1n{y(x,ω)?t}2
但这一优化目标难免出现模型过拟合的情况,所以通常会在误差平方和之上在加上一项
λωTω,以惩罚过于复杂的模型(以多项式模型为例,系数
ω的平方和越大,说明模型的复杂程度越高,而
λ表明这个惩罚的力度),记为:
Min12∑i=1n{y(x,ω)?t}2+λωTω
但不知道大家考虑过没有,这个优化目标只是我们直觉上认为最好的目标,它的统计学原理在哪里呢?
通常我们认为因变量t是由某个系统方程
y(x,ω)加上一个服从零均值正态分布的随机扰动,记为:
p(t|x,ω,β)=N{t|y(x,ω),β?1)}
注意这里的
β=1σ2,代表随机扰动的强度,
β的值越大,扰动越弱。
那么如果整个训练集有n个样本点,那么从极大似然估计的角度看,基于该训练集的似然函数是:
p(t|x,ω,β)=∏i=1nN(ti|y(xi,w),β?1)
相应的对数似然函数为:
lnp(t|x,ω,β)=?β2∑i=1n{y(xi,w)?ti}2+n2lnβ?n2ln(2π)
那么如果只对
ω求似然函数极大值,对数似然函数等式右侧的后两项不包含
ω,可以先去除,而第一项的系数
β2替换成1不影响参数
ω的极值点位置,而将第一项的负号变成正号,那么就由原来求对数似然函数的极大值就变成了求以下函数的极小值:
Min∑i=1n{y(xi,ω)?ti}2
而这恰恰是最小二乘法的优化目标。所以说最小二乘法的统计学原理即是在默认因变量受到的干扰为零均值正态分布的情况下,由最大似然估计推导出的优化目标。
而进一步将贝叶斯方法引入对参数的估计。我们先验地认为参数
ω服从均值为0方差相同且相互独立的正态分布,参数
α代表着先验的认为参数的波动程度,
α越大,波动越小,记为:
p(ω|α)=N(ω|0,α?1I)=(α2π)M+12exp{?α2ωTω}
其中(M+1)代表着一个有M+1个参数。
由贝叶斯定理知,后验分布同先验分布和似然函数的乘积成正比,记为:
p(ω|x,t,α,β)∝p(t|x,ω,β)p(ω|α)
得到后验分布后取对数似然函数(与参数
ω无关的项先去除),记为:
lnp(ω|x,t,α,β)=?β2∑i=1n{y(xi,ω)?ti}2?α2ωTω
方程左右同时除以
β,取相反值之后就变成了带惩罚项的最小二乘法(岭回归)的优化目标。注意在最开始的地方衡量对模型复杂度惩罚力度的
λ参数,现在变成了
αβ,即与先验分布参数
ω的波动程度
α成正比,
α越大,先验的认为参数波动越小,对模型复杂程度的惩罚力度就应该越强,而与
β成反比关系,
β越小,因变量围绕均值的波动越大,对模型复杂程度的惩罚力度越大。就后一点说明一下,如果因变量受到的随机扰动越强,那么样本点的散布状况很有可能是随机扰动造成的,我们就不能允许模型通过提高复杂程度去捕捉这种散布状况,所以说
β和
λ成反比关系。