本文摘自张贤达的《矩阵分析与应用》第四章第5节 ...
分类:
其他好文 时间:
2020-06-13 19:21:55
阅读次数:
55
Using subgradient method to solve lasso problem The problem is to solve: $$\underset{\beta}{\operatorname{minimize}}\left\{\frac{1}{2 N} \sum_{i=1}^{N ...
分类:
其他好文 时间:
2020-05-10 19:25:21
阅读次数:
167
学习率learning_rate: 学习率表示每次参数更新的幅度 1.表达式:Wn+1 = Wn - learning_rate * ▽ Wn+1:更新后的参数 Wn:当前参数 learning_rate:学习率 ▽:损失函数的梯度(导数) 也就是参数的更新向着梯度下降的方向 2.定义损失函数 lo ...
分类:
其他好文 时间:
2019-09-09 11:42:19
阅读次数:
241
感知机: 1.感知机关键在于损失函数最小化 2.当初值和分类点选择顺序不同时,算得的结果不同。 3.当线性不可分时,感知机算法不收敛,迭代结果震荡。 4.感知机和随机梯度下降。 5.pocket algorithm 口袋算法:每次梯度下降时和“口袋”比较,将损失更小的放到“口袋”里。 6.voted ...
分类:
其他好文 时间:
2018-11-09 16:12:10
阅读次数:
169
Large scale machine learning Learning with large datasets 如果我们有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。我们应该怎样应对一个有 100 万条记录的训练集? 以线性回归模型为例,每一次梯度下降迭代,我们都需要计算训练集的 ...
分类:
其他好文 时间:
2018-02-10 13:06:53
阅读次数:
210
哎,刚刚submit上paper比较心虚啊,无心学习,还是好好码码文字吧。
subgradient中文名叫次梯度,和梯度一样,完全可以多放梯度使用,至于为什么叫子梯度,是因为有一些凸函数是不可导的,没法用梯度,所以subgradient就在这里使用了。注意到,子梯度也是求解凸函数的,只是凸函数不是处处可导。f:X→Rf: \mathcal{X}\rightarrow \mathbb{R}是一个凸函...
分类:
其他好文 时间:
2015-06-06 12:06:38
阅读次数:
218
本文主要包含如下3部分内容:$\lambda$-强凸函数的定义和性质。$\mu$-平滑函数的定义和性质。通过共轭次梯度定理建立起上面两个概念之间的一个联系。 定义1[强凸函数]:若函数$f(\cdot)$是集合$C$上的$\lambda$-强凸函数,那么$f(\cdot) - \frac{\lam....
分类:
其他好文 时间:
2015-05-06 17:26:11
阅读次数:
135