码迷,mamicode.com
首页 > 系统相关 > 详细

CS281: Advanced Machine Learning 第二节 information theory 信息论

时间:2015-07-31 20:28:17      阅读:333      评论:0      收藏:0      [点我收藏+]

标签:机器学习   信息论   machine learning   

信息论

如果离散随机变量有P(X)分布,那么x所携带的熵(信息量):

技术分享

之所以用log2来作为底,是为了方便衡量该信息可以用多少bit来表示。因为1个bit非0即1. 从上公式可以推导出:当k个状态发生的几率一样时,随机变量X所携带的熵越大。正如下图表示的伯努利分布所携带的熵随着概率变化的结果:

技术分享

KL divergence

KL divergence 全称Kullback-Leibler divergence , 用来衡量两个分布之间的离散程度。公式如下:

技术分享

技术分享

H (p, q)  是cross entropy。

技术分享

KL divergence可以理解为因为咱们使用分布q,而不是用分布p去编码数据,而造成的额外的增加的bit。

mutual information

互信息用来衡量P(x,y)与P(x)P(y)之间的KL divergence,表达式如下,如果他们之间的divergence越大,说明联系就越多。特别的,当divergence为0的时候,P(x)与p(y)恰好独立。p(X,Y) = p(X)p(Y) 。

技术分享

用另一种形式表示:

技术分享


References 

PRML

MLAPP

版权声明:本文为博主原创文章,未经博主允许不得转载。

CS281: Advanced Machine Learning 第二节 information theory 信息论

标签:机器学习   信息论   machine learning   

原文地址:http://blog.csdn.net/frog_in_a_well/article/details/47173145

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!