TensorFlow四种Cross Entropy算法实现和应用 对比两个函数tf.nn.softmax_cross_entropy_with_logits和tf.nn.sparse_softmax_cross_entropy_with_logits 从神经网络视角看均方误差与交叉熵作为损失函数时的 ...
分类:
其他好文 时间:
2018-01-12 11:29:00
阅读次数:
177
(本文是根据 "neuralnetworksanddeeplearning" 这本书的第三章 "Improving the way neural networks learn" 整理而成的读书笔记,根据个人口味做了删减) 上一章,我们学习了改善网络训练的代价函数:交叉熵函数。今天要介绍神经网络容易遇 ...
分类:
Web程序 时间:
2018-01-07 16:05:48
阅读次数:
409
交叉熵损失: 给定两个概率分布p和q,通过q来表示p的交叉熵为: 从上述公式可以看出交叉熵函数是不对称的,即H(p,q)不等于H(q,p)。 交叉熵刻画的是两个概率分布之间的距离,它表示通过概率分布q来表示概率分布p的困难程度。所以使用交叉熵作为 神经网络的损失函数时,p代表的是正确答案,q代表的是 ...
分类:
其他好文 时间:
2017-12-16 23:17:08
阅读次数:
363
作者:匿名用户链接:https://www.zhihu.com/question/35322351/answer/67193153来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 看了一下,几乎所有的回答都只解释了“为什么可以用sigmoid”,而没有解释“为什么要用s ...
分类:
其他好文 时间:
2017-12-06 17:51:17
阅读次数:
138
最近在看深度学习的"花书" (也就是Ian Goodfellow那本了),第五章机器学习基础部分的解释很精华,对比PRML少了很多复杂的推理,比较适合闲暇的时候翻开看看。今天准备写一写很多童鞋们w未必完全理解的最大似然估计的部分。 单纯从原理上来说,最大似然估计并不是一个非常难以理解的东西。最大似然 ...
分类:
其他好文 时间:
2017-11-27 14:17:27
阅读次数:
243
一. 信息论背景 信息论的研究内容,是对一个信号包含信息的多少进行量化。所采用的量化指标最好满足两个条件: (1)越不可能发生的事件包含的信息量越大; (2)独立事件有增量的信息(就是几个独立事件同时发生的信息量等于每一个信息量的和)。 遵循以上原则,定义一个事件$\mathsf{x}=x$的自信息 ...
分类:
其他好文 时间:
2017-10-29 16:43:53
阅读次数:
268
作者:知乎用户链接:https://www.zhihu.com/question/41252833/answer/108777563来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 熵的本质是香农信息量()的期望。 现有关于样本集的2个概率分布p和q,其中p为真实分布, ...
分类:
其他好文 时间:
2017-10-27 13:27:04
阅读次数:
124
http://www.jianshu.com/p/75f7e60dae95 作者:陈迪豪 来源:CSDNhttp://dataunion.org/26447.html 交叉熵介绍 交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大 ...
分类:
编程语言 时间:
2017-10-20 18:43:50
阅读次数:
192
0 前言 上课的时候老师讲到了信息论中的一些概念,看到交叉熵,这个概念经常用在机器学习中的损失函数中。 这部分知识算是机器学习的先备知识,所以查资料加深一下理解。 Reference: 信息熵是什么,韩迪的回答:https://www.zhihu.com/question/22178202 如何通俗 ...
分类:
其他好文 时间:
2017-10-15 21:22:47
阅读次数:
383
1、Recursive Nerual Networks能够更好地体现每个词与词之间语法上的联系这里我们选取的损失函数仍然是交叉熵函数 2、整个网络的结构如下图所示: 每个参数的更新时的梯队值如何计算,稍后再给大家计算相应的数学公式 这里先列出节点的合并规则 1、即假设将一句话中的词先两个合并,并通过 ...
分类:
编程语言 时间:
2017-10-06 23:10:00
阅读次数:
334