特征降维（2）：特征选择中特征评估函数详解

时间：2015-07-16 13:34:54 阅读：149 评论：0 收藏：0 [点我收藏+]

标签：

t:代表特征，|C|:代表类别总数,c_i代表第i个类别

CF[i][j]:代表term class frequency,即表示在第j个类别的文档中出现了第i个term的文档数

DF[i]:代表term document frequency,即表示样本集中出现了该term的文档数

docsPerClass[i]:代表属于第i个类别的文档数

docs:代表训练文档总数

注意以上CF[i][j]、DF[i]、docsPersClass[i]的值都是文档数

信息增益

P(c_i)为文档集中出现类别c_i的概率；P(t)为特征出现在文档集中的概率；P(c_i |t)表示当t出现在文档集中，文档属于类c_i的概率；表示当t不出现在文档集中时，文档属于类c_i的概率。
具体计算方式如下：

为了计算上的便利，当前特征t等价于第i个特征t_i

技术分享

互信息
与信息增益不同的是，互信息是计算特征与某个类别的互信息，而信息增益是计算特征与所有类别的信息增益，在具体的应用当中，可以选取互信息的期望或则选取特征与某个类别互信息最大的那个值作为该特征的互信息的值。
计算公式如下：

其中P(t)为特征出现在文档集中的概率，P(t|c)表示类别c中，包含特征t的文档数。具体计算方式如下：
卡方统计量