在文本分类中,用于特征选择的统计量主要有这些:特征频度(term frequency,tf)原理是:低频的往往对分类影响不大,从而可以被排除掉。同时,不是所以高频都是影响大的,比如在文本中分布均匀的高频的贡献是不大的。应用: 主要用在文本标引时直接删除某些低频特征 2. 文本频度(documen.....
分类:
其他好文 时间:
2015-03-20 12:36:57
阅读次数:
148
本节课要点:VC维:模型选择算法 特征选择vc维:个人还是不太理解。个人的感觉就是为核函数做理论依据,低维线性不可分时,映射到高维就可分,那么映射到多高呢?我把可分理解为“打散”。参考的资料:http://www.cnblogs.com/boostable/p/iage_VC_dimension.h...
分类:
其他好文 时间:
2015-03-11 19:07:30
阅读次数:
138
学习机器学习有一段时间了,却连这个最基本的理论问题都没弄懂,这里我简单的阐述一下。 比如这里我有L个度量值集合{X1, X2, X3, ... XL}; 特征选择:从已有的L个度量值中按照一定的标准选择m(m<L)个子集,{X1, X2, X3,... Xm};这m个度量值就是作为降维后的特征。 特...
分类:
其他好文 时间:
2015-03-04 16:34:06
阅读次数:
168
http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转...
分类:
其他好文 时间:
2015-02-04 20:08:48
阅读次数:
185
http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息...
分类:
编程语言 时间:
2015-02-04 20:05:44
阅读次数:
282
http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选...
分类:
其他好文 时间:
2015-02-04 20:05:04
阅读次数:
277
(1)什么是特征选择特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection ),是指从全部特征中选取一个特征子集,使构造出来的模型更好。(2)为什么要做特征选择在机器...
分类:
编程语言 时间:
2015-01-01 21:09:14
阅读次数:
251
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越...
分类:
其他好文 时间:
2014-10-30 18:33:54
阅读次数:
130
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越...
分类:
其他好文 时间:
2014-10-21 22:55:49
阅读次数:
276