码迷,mamicode.com
首页 >  
搜索关键字:sgd    ( 215个结果
笔记:CS231n+assignment2(作业二)(二)
一、参数更新策略 1.SGD 也就是随机梯度下降,最简单的更新形式是沿着负梯度方向改变参数(因为梯度指向的是上升方向,但是我们通常希望最小化损失函数)。假设有一个参数向量x及其梯度dx,那么最简单的更新的形式是: x += - learning_rate * dx 其中learning_rate是一 ...
分类:其他好文   时间:2016-08-14 14:26:50    阅读次数:683
SGD实现逻辑回归
逻辑回归常用于分类问题,最简单诸如二分类问题:是否是垃圾邮件?比赛是赢是输? 对于线性回归问题, z = w0*x0+w1*x1+w2*x2+... 一般的通过最小二乘法学习参数w来预测给定一个x值时z的大小,其值域在(-∞,+∞),而对于分类问题,显然预测值是离散的,通过引入S函数先将值域y缩小到 ...
分类:其他好文   时间:2016-07-07 19:16:56    阅读次数:921
SGD实现推荐系统
对数据集movie ml-100k 有用户,电影,评分,时间戳四个数据字段, 以用户-电影组成的评分矩阵R,可以用SVD方法转化成两个因子矩阵P,Q ,用两个因子的乘积R'来作为原先矩阵的近似,R由于用户看的电影数目及一个电影所能吸引用户的数量,决定了R是稀疏的,然而R'是R的近似,相对于R是稠密的 ...
分类:其他好文   时间:2016-07-07 01:01:12    阅读次数:446
深度学习之(十一)Deep learning中的优化方法:随机梯度下降、受限的BFGS、共轭梯度法
Deep learning中的优化方法   三种常见优化算法:SGD(随机梯度下降),LBFGS(受限的BFGS),CG(共轭梯度法)。      1.SGD(随机梯度下降)        随机梯度下降(Stochastic Gradient Descent, SGD)是随机和优化相结合的产物,是一种很神奇的优化方法,属于梯度下降的一种,适用于大规模问题。   ...
分类:其他好文   时间:2016-06-24 15:36:58    阅读次数:629
Caffe 源碼閱讀(一) Blob.hpp
Blob 四維度(N K H W) N : SGD 一次 mini-batch 個數 K : 如果是圖片表示圖片通道數 如果是中間結果 則理解爲 feature map 個數 H、W : 如果是圖片理解爲圖片的高度寬度 如果是feature map理解爲核的寬度及高度 重點包括 個部分: 1、數據成 ...
分类:其他好文   时间:2016-06-11 15:53:16    阅读次数:134
机器学习中使用的神经网络第六讲笔记
Geoffery Hinton教授的Neuron Networks for Machine Learning的第六讲介绍了随机梯度下降法(SGD),并且介绍了加快学习速度的动量方法(the momentum method)、针对网络中每一个连接的自适应学习步长(adaptive learning rates for each connection)和RMSProp算法。这几个算法的难度很大,需要反复...
分类:其他好文   时间:2016-05-18 18:35:59    阅读次数:373
神经网络更新参数的几种方法
梯度下降中,计算完各个参数的导数之后就需要更新参数值了,最常用的更新参数方法就是:   【SGD】: x += - learning_rate * dx    但是这种方法收敛速度非常慢,其实除了这个更新参数的方法,还有很多的方法可以进行参数更新。     【Momentum update】:   这个方法对于深度学习的网络参数...
分类:其他好文   时间:2016-05-07 10:25:55    阅读次数:224
因子分解机FM原理及SGD训练
1.背景 Steffen Rendle于2010年提出Factorization Machines(下面简称FM),并发布开源工具libFM。FM的提出主要对比对象是SVM,与SVM相比,有如下几个优势 (1)对于输入数据是非常稀疏(比如自动推荐系统),FM可以,而SVM会效果很差,因为训出的SVM模型会面临较高的bias。 (2)FMs拥有线性的复杂度, 可以通过 primal 来优化而不依...
分类:其他好文   时间:2016-04-22 19:03:03    阅读次数:263
优化算法动画演示Alec Radford's animations for optimization algorithms
Alec Radford has created some great animations comparing optimization algorithms SGD, Momentum, NAG, Adagrad, Adadelta,RMSprop (unfortunately no Adam) ...
分类:编程语言   时间:2016-03-28 13:28:40    阅读次数:448
让CNN跑起来,以下是调参的所有秘密
知乎上看到的 - 收集高质量标注数据 - 输入输出数据做好归一化,以防出现数值问题,方法就是主成分分析啥的。- 参数初始化很重要。太小了,参数根本走不动。一般权重参数0.01均方差,0均值的高斯分布是万能的,不行就试更大的。偏差参数全0即可。- 用SGD ,minibatch size 128。或者
分类:其他好文   时间:2016-03-09 10:57:06    阅读次数:166
215条   上一页 1 ... 17 18 19 20 21 22 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!