交叉熵

时间：2017-06-27 17:01:26 阅读：326 评论：0 收藏：0 [点我收藏+]

标签：ext 技术分享 gen 注意 maximum 根据 .com ble 函数

交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量真实分布p与当前训练得到的概率分布q有多么大的差异。

相对熵（relative entropy）就是KL散度（Kullback–Leibler divergence），用于衡量两个概率分布之间的差异。

对于两个概率分布 $技术分享$ 和 $技术分享$ ，其相对熵的计算公式为：

$技术分享$

注意：由于 $技术分享$ 和 $技术分享$ 在公式中的地位不是相等的，所以 $技术分享$ 。

相对熵的特点，是只有 $技术分享$ 时，其值为0。若 $技术分享$ 和 $技术分享$ 略有差异，其值就会大于0。

相对熵公式的前半部分 $技术分享$ 就是交叉熵（cross entropy）。

若 $技术分享$ 是数据的真实概率分布， $技术分享$ 是由数据计算得到的概率分布。机器学习的目的就是希望 $技术分享$ 尽可能地逼近甚至等于 $技术分享$ ，从而使得相对熵接近最小值0。由于真实的概率分布是固定的，相对熵公式的后半部分 $技术分享$ 就成了一个常数。那么相对熵达到最小值的时候，也意味着交叉熵达到了最小值。对 $技术分享$ 的优化就等效于求交叉熵的最小值。另外，对交叉熵求最小值，也等效于求最大似然估计（maximum likelihood estimation）。

注意：交叉熵是衡量分布p与分布q的相似性，以前认为交叉熵的相似性越大，交叉熵的值就应该越大。但通过上面的推到可以看出，交叉熵得到两个分布的相似性是根据相对熵来的，所以相似性越大，交叉熵的值应该越小。

交叉熵

标签：ext 技术分享 gen 注意 maximum 根据 .com ble 函数

原文地址：http://www.cnblogs.com/ymjyqsx/p/7085931.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行