码迷,mamicode.com
首页 > 其他好文 > 详细

交叉熵

时间:2017-06-27 17:01:26      阅读:326      评论:0      收藏:0      [点我收藏+]

标签:ext   技术分享   gen   注意   maximum   根据   .com   ble   函数   

交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量真实分布p与当前训练得到的概率分布q有多么大的差异。

相对熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用于衡量两个概率分布之间的差异。

对于两个概率分布技术分享技术分享 ,其相对熵的计算公式为:

技术分享

注意:由于技术分享技术分享 在公式中的地位不是相等的,所以技术分享

相对熵的特点,是只有技术分享 时,其值为0。若技术分享技术分享 略有差异,其值就会大于0。

相对熵公式的前半部分技术分享 就是交叉熵(cross entropy)。

技术分享 是数据的真实概率分布,技术分享 是由数据计算得到的概率分布。机器学习的目的就是希望技术分享尽可能地逼近甚至等于技术分享 ,从而使得相对熵接近最小值0。由于真实的概率分布是固定的,相对熵公式的后半部分技术分享 就成了一个常数。那么相对熵达到最小值的时候,也意味着交叉熵达到了最小值。对技术分享 的优化就等效于求交叉熵的最小值。另外,对交叉熵求最小值,也等效于求最大似然估计(maximum likelihood estimation)。

注意:交叉熵是衡量分布p与分布q的相似性,以前认为交叉熵的相似性越大,交叉熵的值就应该越大。但通过上面的推到可以看出,交叉熵得到两个分布的相似性是根据相对熵来的,所以相似性越大,交叉熵的值应该越小。

交叉熵

标签:ext   技术分享   gen   注意   maximum   根据   .com   ble   函数   

原文地址:http://www.cnblogs.com/ymjyqsx/p/7085931.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!