码迷,mamicode.com
首页 > 其他好文 > 详细

信息量,信息熵,交叉熵

时间:2018-03-20 21:43:19      阅读:234      评论:0      收藏:0      [点我收藏+]

标签:就是   简单   变量   blog   特征   标记   分布   定义   back   

1、信息量

公式:I(x) = -logp(x),单从公式上也可以看出,概率越低熵越大(低概率事件带来的高信息量)。通俗一点来说的话,就是概率论中很简单的推广就行了。

2、熵的定义

(1)上面的 I(x) 是指在某个概率分布之下,某个概率值对应的信息量的公式。那么我们要知道这整个概率分布对应的信息量的平均值。这个平均值叫做随机变量x的熵。

(2)熵是接收的每条信息中包含的信息的平均量,又被称为信息熵、信源熵、平均信息量。直白的解释就是信息中含的信息量的大小。

熵公式:I(x) = -∑p(x) logp(x),单从公式上也可以看出,概率越低熵越大(低概率事件带来的高信息量)。通俗一点来说的话,就是概率论中很简单的推广就行了。

注意: 
1.熵只依赖于X的分布,与X的取值无关,因此服从某个分布的X的熵也可以等价于这个分布的熵. 
2.定义0log0=0(因为可能出现某个取值概率为0的情况) 
3.熵越大,随机变量的不确定性就越大(因为之前说了,越是不确定,信息量就越大,要是平均信息量很大,那么也可以代表这个变量的不确定性越大)

交叉熵的公式:交叉熵就是把上面信息熵里正确信息量的p(x),换成了q(x)(而这里的p就代表了机器学习里的预测,那么他的值越接近p,预测的越准确)

H(p,q)= -∑p(x) logq(x)

p为真实分布,q为非真实分布

在机器学习中p为真实标记的分布,q为训练后的模型的预测标记分布,

例如某一样本的标签为1,即p = 1,预测概率为0.7,即q=0.7;-log(0.7)表示0.7与1的差异,预测越接近1,-log(0.7)就越小越接近0。可以结合log()函数图形进行分析

例如某一样本的标签为0,即p = 0,预测概率为0.4,即q=0.4;-log(1-0.4)表示0.4与1(1-p)的差异,预测越接近1(1-p),-log(1-0.4)就越小越接近0。

综合以上,损失函数合并起来的公式为:L = -∑y log(f(y))+(1-y)log(1-f(y))

即分类预测结果越正确,计算出来的交叉熵越小。

交叉熵作为损失函数的优势:在特征工程中,可以用来衡量两个随机变量之间的相似度。

信息量,信息熵,交叉熵

标签:就是   简单   变量   blog   特征   标记   分布   定义   back   

原文地址:https://www.cnblogs.com/baibaibaiyou/p/8602619.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!