1 线性目标的梯度优化 损失函数: 算法1 : 批量梯度下降BGD 每次迭代使用所有样本来对参数进行更新。 损失函数: 代数形式: 矩阵形式: 更新: 代数形式伪代码: 矩阵形式伪代码: 算法2:随机梯度下降SGD 每次迭代使用一个样本来对参数进行更新。 一个样本的损失函数: 代数形式伪代码: 矩阵 ...
分类:
其他好文 时间:
2020-01-17 00:10:24
阅读次数:
92
下面是第五章部分内容的收获。 用C语言编写内核 一直以来我们都是用汇编语言编写程序的,但接下来我们或许很少用汇编语言编写代码了,大多数都是使用C语言。为什么要这样呢?书上的解释我看的不是很懂,只能结合书上谈谈我的见解,个人觉得有两个原因: 汇编语言编写代码较高级语言来说还是麻烦很多的,毕竟大家试试就 ...
分类:
其他好文 时间:
2020-01-16 23:52:06
阅读次数:
85
在机器学习、深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较,今天来学习一下:https://arxiv.org/pdf/1609.0 ...
分类:
编程语言 时间:
2020-01-06 19:30:38
阅读次数:
136
操作步骤: 本例介绍以U盘方式,通过ServerGuide引导在System x 服务器上安装Windows Server 2012 R2操作系统。 本文是《System x 服务器使用ServerGuide引导光盘安装Windows Server 2008 R2操作系统》(知识库编号:154478 ...
多层感知机 上图所示的多层感知机中,输入和输出个数分别为4和3,中间的隐藏层中包含了5个隐藏单元(hidden unit)。由于输入层不涉及计算,图3.3中的多层感知机的层数为2。由图3.3可见,隐藏层中的神经元和输入层中各个输入完全连接,输出层中的神经元和隐藏层中的各个神经元也完全连接。因此,多层 ...
分类:
其他好文 时间:
2019-12-26 19:31:08
阅读次数:
116
第一阶段 机器学习基础与凸优化 【核心知识点】 - KNN,Weighted KNN、近似KNN - KD树,近似KD树、哈希算法、LSH - 岭回归、LASSO、ElasticNet - 正则:L1, L2, L-inifity Norm - LR、GD、SGD、小批量SGD - 凸集,凸函数、判 ...
分类:
其他好文 时间:
2019-11-12 16:14:59
阅读次数:
168
引入动量(Momentum)方法一方面是为了解决“峡谷”和“鞍点”问题;一方面也可以用于SGD 加速,特别是针对高曲率、小幅但是方向一致的梯度。 如果把原始的 SGD 想象成一个纸团在重力作用向下滚动,由于质量小受到山壁弹力的干扰大,导致来回震荡;或者在鞍点处因为质量小速度很快减为 0,导致无法离开 ...
分类:
编程语言 时间:
2019-11-05 01:20:26
阅读次数:
220
为高效找到使损失函数的值最小的参数,关于最优化(optimization)提了很多方法。 其中包括: SGD(stochastic gradient descent,随机梯度下降)Momentum(冲量算法)AdagradAdam 各优化算法比较实验(python) # -*- coding: ut ...
分类:
编程语言 时间:
2019-10-28 16:13:48
阅读次数:
82
1 import torch 2 import matplotlib.pyplot as plt 3 4 # torch.manual_seed(1) # reproducible 5 6 # fake data 7 x = torch.unsqueeze(torch.linspace(-1, 1,... ...
分类:
其他好文 时间:
2019-10-26 15:19:35
阅读次数:
83
现代深度学习系统中(比如MXNet, TensorFlow等)都用到了一种技术——自动微分。在此之前,机器学习社区中很少发挥这个利器,一般都是用Backpropagation进行梯度求解,然后进行SGD等进行优化更新。手动实现过backprop算法的同学应该可以体会到其中的复杂性和易错性,一个好的框 ...
分类:
其他好文 时间:
2019-10-26 13:30:24
阅读次数:
65