码迷,mamicode.com
首页 > 其他好文 > 详细

熵——信息增益

时间:2018-05-17 23:14:40      阅读:221      评论:0      收藏:0      [点我收藏+]

标签:计算   完全   数值   lan   数据集   title   公式   信息增益   过程   

整理自:https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw

    南大周志华老师的西瓜书—第四章


公式

信息增益是决策树ID3算法在进行特征切割时使用的划分准则,其物理意义和互信息完全相同,并且公式也是完全相同。

技术分享图片

其中D表示数据集,A表示特征,信息增益表示得到A的信息而使得类X的不确定度下降的程度,在ID3中,需要选择一个A使得信息增益最大,这样可以使得分类系统进行快速决策。 

需要注意的是:在数值上,信息增益和互信息完全相同,但意义不一样,需要区分,当我们说互信息时候,两个随机变量的地位是相同的,可以认为是纯数学工具,不考虑物理意义,当我们说信息增益时候,是把一个变量看成是减少另一个变量不确定度的手段。

 

计算过程

技术分享图片

 技术分享图片

技术分享图片


 技术分享图片

以色泽属性为例,他有三个可能的取值{青绿,乌黑,浅白},对应{D1,D2,D3

  青绿 乌黑 浅白
正例 3 4 1
反例 3 2 4
总计 6 6 5

技术分享图片

技术分享图片

 

熵——信息增益

标签:计算   完全   数值   lan   数据集   title   公式   信息增益   过程   

原文地址:https://www.cnblogs.com/helloworld0604/p/9053693.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!