信息熵是系统有序化程度的一个度量。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。
所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。1948 年,香农提出了“信息熵”(shāng) 的概念,所以信息熵也叫香农熵,假设在一个集合D中第i类样本所占的比例为pi(i=1,2,3…n),则D的信息熵可表示为:
条件熵
现在我们假设将训练数据D按属性A进行划分,假设属性A有v个可能的取值,则按A属性进行分裂出的v个子集(即树中的v个分支),每个可能取值集合为Dj,则A属性的条件熵计算方法为(|Dj|和|D|表示集合中元素的个数):
信息增益
信息熵减去条件熵,表示此条件对于信息熵减少的程度,即可以对信息的判断减少多少不确定性,数值越大,表示某个条件熵对信息熵减少程序越大,也就是说,这个属性对于信息的判断起到的作用越大。属性A的信息增益的计算公式为:
关注微信公众号“挨踢学霸”,获取更多精彩文章
原文地址:http://blog.51cto.com/12482328/2105558