标签:style blog http color os 使用 ar strong div
2. 一般初始化为0
在Logistic回归中,我们要使得对数最大似然值最大,即求为0时的Θ,根据上述推论,更新规则如下:
牛顿方法的收敛速度:二次收敛
每次迭代使解的有效数字的数目加倍:假设当前误差是0.01,一次迭代后,误差为0.001,再一次迭代,误差为0.0000001。该性质当解距离最优质的足够近才会发现。
Θ是一个向量而不是一个数字,一般化的公式为:
是目标函数的梯度,H为Hessian矩阵,规模是n*n,n为特征的数量,它的每个元素表示一个二阶导数:
上述公式的意义就是,用一个一阶导数的向量乘以一个二阶导数矩阵的逆
优点:若特征数和样本数合理,牛顿方法的迭代次数比梯度上升要少得多
缺点:每次迭代都要重新计算Hessian矩阵,如果特征很多,则H矩阵计算代价很大
标签:style blog http color os 使用 ar strong div
原文地址:http://www.cnblogs.com/rcfeng/p/3971922.html