码迷,mamicode.com
首页 >  
搜索关键字:特征选择    ( 398个结果
用opencv实现的PCA算法,非API调用
理论参考文献:但此文没有代码实现,这里自己实现一下,让理解更为深刻 问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?        《模型选择和规则化》谈到的特征选择的问题,就是要剔除的特征主要是和类标签无关的特征。比如...
分类:Windows程序   时间:2014-07-31 13:24:06    阅读次数:634
[模式识别].(希腊)西奥多里蒂斯<第四版>笔记10之__聚类:基本概念
一,引言 之前几个章节讨论的都是监督聚类,从本章开始讨论非监督聚类,即训练模式不带标签的情形。     聚类的步骤: 1,特征选择。选取最能够表示我们目标物体信息的特征。 2,相似性度量。给出两个特征量相似点或者不想似的地方。 3,聚类标准。聚类标准。可能由损耗函数(cost function)或者其他形式表达。 4,聚类算法。根据相似性度量和聚类标准,阐明数据的结构。 5,...
分类:其他好文   时间:2014-07-28 16:10:33    阅读次数:181
特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越...
分类:其他好文   时间:2014-07-24 17:34:45    阅读次数:184
特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越...
分类:其他好文   时间:2014-07-23 16:49:21    阅读次数:153
[模式识别].(希腊)西奥多里蒂斯<第四版>笔记5之__特征选取
1,引言 有关模式识别的一个主要问题是维数灾难。我们将在第7章看到维数很容易变得很大。     降低维数的必要性有几方面的原因。计算复杂度是一个方面。另一个有关分类器的泛化性能。     因此,本章的主要任务是:在尽可能保留特征的分类判别信息前提下,来选择重要的和维数少的特征量。这个过程被称作特征选择或者特征降维。     定量描述来讲,选择的特征应该使得类内距离减小,类间距离增大。...
分类:其他好文   时间:2014-07-20 10:14:09    阅读次数:207
文本分类入门,推荐播客
http://www.blogjava.net/zhenandaci/推荐这个博客,博主真的很厉害,把基础的用到的文本分类方法都写上了!比较推荐的文章:文本分类入门(十)特征选择算法之开方检验文本分类入门(番外篇)特征选择与特征权重计算的区别其他都同样很好!!
分类:其他好文   时间:2014-07-14 23:06:52    阅读次数:235
特征选择(四)-分散度
度量类别可分离性的量主要有: 欧氏距离(正态分布,协方差相等,且为单位阵) 是最简单的一种描述方法。它把两个类别中心之间的欧式距离作为两个不同类别间不相似性的度量。 马氏(Mahalanobis)距离(正态分布,协方差相等) 它用来描述两个具有相同的协方差矩阵C,不同的期望值和的类别之间的不相似性,具体表达式是: Mahalanobis距离...
分类:其他好文   时间:2014-05-13 09:08:38    阅读次数:337
特征选择(三)-K-L变换
上一讲说到,各个特征(各个分量)对分类来说,其重要性当然是不同的。 舍去不重要的分量,这就是降维。   聚类变换认为:重要的分量就是能让变换后类内距离小的分量。 类内距离小,意味着抱团抱得紧。   但是,抱团抱得紧,真的就一定容易分类么? 如图1所示,根据聚类变换的原则,我们要留下方差小的分量,把方差大(波动大)的分量丢掉,所以两个椭圆都要向y轴投影,这样悲剧了,两个重叠在一起,根本...
分类:其他好文   时间:2014-05-11 20:17:34    阅读次数:313
398条   上一页 1 ... 38 39 40
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!