对于一个监督学习模型来说,过小的特征集合使得模型过于简单,过大的特征集合使得模型过于复杂。对于特征集过小的情况,称之为欠拟合(underfitting);对于特征集过大的情况,称之为过拟合(overfitting)解决此类学习问题的方法:1)特征选择算法:一类自动化算法,在这类回归问题中选择用到的特...
分类:
其他好文 时间:
2014-10-19 18:20:05
阅读次数:
332
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越...
分类:
其他好文 时间:
2014-10-16 20:39:23
阅读次数:
164
本文以百度关键词搜索推荐工具字面相关性模型为基础,介绍一个机器学习任务的具体设计实现。包括目标的设定,训练数据准备,特征选择及筛选, 以及模型的训练及优化。该模型可扩展到语意相关性模型,搜索引擎相关性及LTR学习任务的设计实现。该模型的设计调研实现,也可以很容易移植解决其他包括语义相关性的问题...
分类:
其他好文 时间:
2014-09-24 00:24:45
阅读次数:
321
在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原...
分类:
其他好文 时间:
2014-09-17 11:52:32
阅读次数:
928
常用相似性度量(距离 相似系数)在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,.....
分类:
其他好文 时间:
2014-09-05 19:48:51
阅读次数:
595
目前,很多特征选择文献主要是依据对共信息的直观认识使用它,即:正值表示表型的存在使特征间依赖程度增加,是特征间存在相互作用的证据;负值表示表型的存在使特征间冗余性增加;零表示特征是相互独立的,或者说,是特征间的增益与冗余相互抵消了。因此,从理论上深入认识共信息是一项创新工作。识别阶段的第一项工作是使...
分类:
其他好文 时间:
2014-09-01 12:11:43
阅读次数:
213
对于事件A和事件B同时出现的,一种信息论的描述方法就是互信息,计算方式如下其意义:由于事件A发生与事件B发生相关联而提供的信息量。在处理分类问题提取特征的时候就可以用互信息来衡量某个特征和特定类别的相关性,如果信息量越大,那么特征和这个类别的相关性越大。反之也是成立的。以搜狗实验室的语料为例。选取金...
分类:
其他好文 时间:
2014-08-31 01:38:40
阅读次数:
205
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越...
分类:
其他好文 时间:
2014-08-23 21:32:11
阅读次数:
230
这一节不论是思想还是实现都比较容易。
主成分分析(PCA)就是模式识别里面说的K-L变换,思想是完全相同的。
详情可见我的博文:特征选择(三)-K-L变换
这里简单介绍几个概念。顺便贴出代码和效果图。
xRot = zeros(size(x));
xRot=u'*x;
figure(2);
scatter(xRot(1, :), xRot(2, :));
title('xRot');得到原...
分类:
其他好文 时间:
2014-08-11 18:04:42
阅读次数:
309
互信息已广泛应用于特征选择问题,但应用在 SNP 选择上还存在着一些局限。第一,互信息只能衡量一个 SNP 组合与表型的相关性, 无法衡量多个 SNP 与表型的相关性。第二, 利用互信息排序 SNP 时,隐含着一个假设,即: SNP 间是相互独立的,不存在着依赖关系。然而事实上,SNP 间存在着广泛...
分类:
其他好文 时间:
2014-08-04 20:54:57
阅读次数:
192