码迷,mamicode.com
首页 >  
搜索关键字:sgd    ( 215个结果
随机梯度下降(SGD)
关于什么是梯度下降,请看我之前发的一个博文:http://blog.csdn.net/lilyth_lilyth/article/details/8973972 梯度下降能帮助我们找到局部最优值,取得很小的损失,但是在数据量达到数十万时,迭代次数高,运算速度慢,十分不适合。这时候可以考虑使用随机梯度下降算法。 所谓随机梯度下降是   每次用 每个样本的损失函数(即样本数为1时的损失函数)对th...
分类:其他好文   时间:2014-07-23 13:39:56    阅读次数:256
一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则。但对于这种带 L1 正则的最大熵模型,直接采用标准的随机梯度下降法(SGD)会出现效率不高和难以真正产生稀疏性等问题。本文为阅读论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty...
分类:其他好文   时间:2014-06-19 12:01:04    阅读次数:286
一种并行随机梯度下降法
本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 后的一则读书笔记,重点介绍在 Google 的软件框架 DistBelief 下设计的一种用来训练大规模深度神经网络的随机梯度下降法 — Downpour SGD,该方法通过分布式地部署多个模型副本和一个“参数服务器”,同时实现了模型并行和数据并行,且对机器失效问题具有很好的容错性。结合 Adagrad 自适应学习率使用,对非凸优化问题...
分类:其他好文   时间:2014-06-18 00:55:39    阅读次数:433
儿童节扣扣讲座心得
1.在高纬度大数量的数据情况下,用线性+松弛因子做SVM效果是很不错的2.在高纬度大数量的情况下,一般用批量梯度下降做计算效果会很好3.在低纬度大数量的情况下,可以用牛顿法来求解,一般迭代两三次就好了4.有个叫Le BOTTON 的人,对常用目标函数的SGD公式做了很好的推导5.有一个响亮求导的书叫...
分类:其他好文   时间:2014-06-02 08:07:18    阅读次数:250
转:一些论文的概括!
摘要: 月中在香港参加recsys2013会议,文章不少,对我有价值的并不算多,再跟目前工作相关的就更少了。这里过滤了几篇我觉得比较有意思的文章,加上了自己的理解,作为导读。 A Fast Parallel SGD for Matrix Factorization...月中在香港参加recsys20...
分类:其他好文   时间:2014-05-09 00:11:11    阅读次数:339
215条   上一页 1 ... 20 21 22
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!