正如之前所述,梯度矢量具有方向和大小。梯度下降法算法用梯度乘以一个称为学习速率(有时也称为步长)的标量,以确定下一个点的位置。例如,如果梯度大小为 2.5,学习速率为 0.01,则梯度下降法算法会选择距离前一个点 0.025 的位置作为下一个点。 超参数是编程人员在机器学习算法中用于调整的旋钮。大多 ...
分类:
其他好文 时间:
2018-03-02 22:13:54
阅读次数:
169
迭代方法图(图 1)包含一个标题为“计算参数更新”的华而不实的绿框。现在,我们将用更实质的方法代替这种华而不实的算法。 假设我们有时间和计算资源来计算 w1 的所有可能值的损失。对于我们一直在研究的回归问题,所产生的损失与 w1 的图形始终是凸形。换言之,图形始终是碗状图,如下所示: 图 2. 回归 ...
分类:
其他好文 时间:
2018-03-02 22:13:14
阅读次数:
237
在梯度下降法中,批量指的是用于在单次迭代中计算梯度的样本总数。到目前为止,我们一直假定批量是指整个数据集。就 Google 的规模而言,数据集通常包含数十亿甚至数千亿个样本。此外,Google 数据集通常包含海量特征。因此,一个批量可能相当巨大。如果是超大批量,则单次迭代就可能要花费很长时间进行计算 ...
分类:
其他好文 时间:
2018-03-02 22:08:04
阅读次数:
131
0. 背景 Junbo Zhao等人提出的“基于能量的GAN”网络,其将判别器视为一个能量函数而不需要明显的概率解释,该函数可以是一个可训练的损失函数。能量函数是将靠近真实数据流形的区域视为低能量区域,而远离的视为高能量区域。和“概率GAN”相似,训练中,生成器会尽可能生成最小能量时候的伪造样本,而 ...
分类:
Web程序 时间:
2018-03-02 01:15:27
阅读次数:
244
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可 ...
分类:
其他好文 时间:
2018-03-01 20:11:57
阅读次数:
930
cnn网络中,网络更新一次参数是根据loss反向传播来,这个loss是一个batch_size的图像前向传播得到的loss和除以batch_size大小得到的平均loss。 softmax_loss前向传播中有这样一段代码: loss/get_normalizer(normalization_,va ...
分类:
其他好文 时间:
2018-03-01 17:06:50
阅读次数:
153
1. 使用 with tf.name_scope('layer') 加标签 2. pycharm terminal 中进入project目录 输入 tensorboard --logdir=logs 将得到的网址 http://DESKTOP-V7I30OQ:6006 输入浏览器,即可得到 3. 查 ...
分类:
其他好文 时间:
2018-02-27 19:19:46
阅读次数:
412
用于Kafka 0.10的结构化流集成从Kafka读取数据并将数据写入到Kafka。 1. Linking 对于使用SBT/Maven项目定义的Scala/Java应用程序,用以下工件artifact连接你的应用程序: 对于Python应用程序,你需要在部署应用程序时添加上面的库及其依赖关系。查看D ...
分类:
其他好文 时间:
2018-02-26 17:41:51
阅读次数:
431
0 背景 在这之前大家在训练GAN的时候,使用的loss函数都是sigmoid_cross_entropy_loss函数,然而xudon mao等人发现当使用伪造样本去更新生成器(且此时伪造样本也被判别器判为对的时候)会导致梯度消失的问题。虽然此时伪造样本仍然离真实样本分布距离还挺远。也就是之前的损 ...
分类:
Web程序 时间:
2018-02-25 00:08:02
阅读次数:
210
1. 损失函数 损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示。 损失函数越小,模型的鲁棒性就越好。 损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分。模型的风险结构包括了 ...
分类:
其他好文 时间:
2018-02-24 00:58:46
阅读次数:
447