标签:nbsp 决策 bsp split 取值 .com png 信息 广度
ID3采用的信息增益度量存在一个内在偏置,它优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益?(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大).避免这个不足的一个度量就是不用信息增益来选择Feature,而是用信息增益比率(gain ratio),增益比率通过引入一个被称作分裂信息(Split information)的项来惩罚取值较多的Feature,分裂信息用来衡量Feature分裂数据的广度和均匀性:
另外ID3只能处理离散型数据
其中,对数据不需要任何加工指的是对缺失值的处理
标签:nbsp 决策 bsp split 取值 .com png 信息 广度
原文地址:http://www.cnblogs.com/wuxiangli/p/6291018.html