一、信息熵 若一个离散随机变量 \(X\) 的可能取值为 \(X = \{ x_{1}, x_{2},...,x_{n}\}\),且对应的概率为: \[ p(x_{i}) = p(X=x_{i}) \] 那么随机变量 \(X\) 的熵定义为: \[ H(X) = -\sum_{i=1}^{n}p(x ...
分类:
其他好文 时间:
2021-06-30 18:03:09
阅读次数:
0
1. 概述 KL散度存在不对称性,为解决这个问题,在KL散度基础上引入了JS散度。 \[ J S\left(P_{1} \| P_{2}\right)=\frac{1}{2} K L\left(P_{1} \| \frac{P_{1}+P_{2}}{2}\right)+\frac{1}{2} K L ...
分类:
Web程序 时间:
2021-06-15 17:39:50
阅读次数:
0
Intro 交叉熵,用来衡量两个随机变量之间的相似度。 KL散度(相对熵),量化两种概率分布P和Q之间差异。 计算公式 交叉熵 \(CE(p,q) = - (\sum_{i=1}^{n}[p_{i}*log(q_{i}) + (1-p_{i})*log(1-q_{i})])\) KL散度 \(D_{ ...
分类:
其他好文 时间:
2020-12-10 10:51:19
阅读次数:
3
C51算法理论上用Wasserstein度量衡量两个累积分布函数间的距离证明了价值分布的可行性,但在实际算法中用KL散度对离散支持的概率进行拟合,不能作用于累积分布函数,不能保证Bellman更新收敛;且C51算法使用价值分布的若干个固定离散支持,通过调整它们的概率来构建价值分布。 而分位数回归(q ...
分类:
其他好文 时间:
2020-11-06 01:13:28
阅读次数:
22
1. 变分自编码器(Variational Auto-Encoder,VAE) https://blog.csdn.net/jackytintin/article/details/53641885 2. 高斯分布的KL散度 https://blog.csdn.net/HEGSNS/article/d ...
分类:
其他好文 时间:
2020-07-06 00:47:33
阅读次数:
67
信息熵 信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典著作《A Mathematical Theory of Communication》中提出的。如今,这些概念不仅仅是通信领域中的基础概念,也被广泛的应用到了其他的领域中,比如机器学习。 信息量用来度量一个信息的 ...
分类:
其他好文 时间:
2020-01-17 21:30:11
阅读次数:
86
KL散度&互信息 KL散度(KL divergence) 假设我们是一组正在广袤无垠的太空中进行研究的科学家。我们发现了一些太空蠕虫,这些太空蠕虫的牙齿数量各不相同。现在我们需要将这些信息发回地球。但从太空向地球发送信息的成本很高,所以我们需要用尽量少的数据表达这些信息。我们有个好方法:我们不发送单 ...
分类:
其他好文 时间:
2020-01-16 01:09:59
阅读次数:
70
KL散度(Kullback–Leibler divergence):用于刻画概率分布Q拟合概率分布P的程度,P为真实数据的概率分布,Q为随机噪声生成数据的概率分布,对抗的目的是让Q充分拟合P,如果Q拟合P不充分,就会产生信息损耗,整个信息损耗就是P和Q的KL散度。 离散的概率分布公式定义: 连续的概 ...
分类:
其他好文 时间:
2020-01-12 18:17:52
阅读次数:
124
参考:https://blog.csdn.net/b1055077005/article/details/100152102 (文中所有公式均来自该bolg,侵删) 信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,我们需要寻找一个量来衡量信息的有用程度。首先要先明确,这里的 ...
分类:
其他好文 时间:
2020-01-04 12:52:48
阅读次数:
93
机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系,查了一些资料发现优化这3个东西其实是等价的。 熵和交叉熵 提到交叉熵就需要了解下信息论中熵的定义。信息论认为: 确定的事件没有信息,随机事件包含最多的信息。 事件信息的定义为:$I(x) ...
分类:
其他好文 时间:
2019-03-13 18:02:58
阅读次数:
265