码迷,mamicode.com
首页 > 其他好文 > 详细

AI机器学习-信息熵,条件熵,信息增益

时间:2018-04-20 00:23:10      阅读:253      评论:0      收藏:0      [点我收藏+]

标签:人工智能   其他   

信息熵

信息熵是系统有序化程度的一个度量。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。

所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。1948 年,香农提出了“信息熵”(shāng) 的概念,所以信息熵也叫香农熵,假设在一个集合D中第i类样本所占的比例为pi(i=1,2,3…n),则D的信息熵可表示为:

技术分享图片


条件熵

现在我们假设将训练数据D按属性A进行划分,假设属性A有v个可能的取值,则按A属性进行分裂出的v个子集(即树中的v个分支),每个可能取值集合为Dj则A属性的条件熵计算方法为(|Dj|和|D|表示集合中元素的个数):

技术分享图片


信息增益

信息熵减去条件熵,表示此条件对于信息熵减少的程度,即可以对信息的判断减少多少不确定性,数值越大,表示某个条件熵对信息熵减少程序越大,也就是说,这个属性对于信息的判断起到的作用越大。属性A的信息增益的计算公式为:

技术分享图片


关注微信公众号“挨踢学霸”,获取更多精彩文章

技术分享图片

AI机器学习-信息熵,条件熵,信息增益

标签:人工智能   其他   

原文地址:http://blog.51cto.com/12482328/2105558

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!