1. TF-IDF的误区
TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。
1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀...
分类:
其他好文 时间:
2015-06-04 19:27:23
阅读次数:
1273
随机森林是一个最近比较火的算法,它有很多的优点: 在数据集上表现良好 在当前的很多数据集上,相对其他算法有着很大的优势 它能够处理很高维度(feature很多)的数据,并且不用做特征选择 在训练完后,它能够给出哪些feature比较重要 在创建随机森林的时候,对generlization error...
分类:
其他好文 时间:
2015-06-03 21:07:26
阅读次数:
137
上一讲说到,各个特征(各个分量)对分类来说,其重要性当然是不同的。舍去不重要的分量,这就是降维。聚类变换觉得:重要的分量就是能让变换后类内距离小的分量。类内距离小,意味着抱团抱得紧。可是,抱团抱得紧,真的就一定easy分类么?如图1所看到的,依据聚类变换的原则,我们要留下方差小的分量,把方差大(波动...
分类:
其他好文 时间:
2015-06-03 19:09:49
阅读次数:
173
内容概要
如何使用pandas读入数据如何使用seaborn进行数据的可视化scikit-learn的线性回归模型和使用方法线性回归模型的评估测度特征选择的方法
作为有监督学习,分类问题是预测类别结果,而回归问题是预测一个连续的结果。
1. 使用pandas来读取数据
Pandas是一个用于数据...
分类:
其他好文 时间:
2015-06-03 09:45:15
阅读次数:
278
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是非常有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而怎样量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越...
分类:
其他好文 时间:
2015-05-10 20:27:44
阅读次数:
140
引言 之前了解到决策树在选择最好的特征进行数据集的划分就说到这种方法可以用来进行特征选择,然后看了breiman主页上相关的介绍,觉得这不愧是权威啊,不愧是随机森林算法的提出者,讲的很清楚,网址如下 http://www.stat.berkeley.edu/~breiman/RandomForest...
分类:
其他好文 时间:
2015-04-28 22:32:08
阅读次数:
143
监控视频中对象跟踪问题,不少学者投入大量精力进行研究,已经产生各种不同的跟踪方法。对于跟踪方法,我们可以根据算法提取的视觉特征、定位跟踪目标的方法、算法同时跟踪目标的数量这几个方面进行分类叙述。以下就跟踪方法中的要点逐一进行说明。
跟踪对象的视觉特征
选择合适的视觉特征对于跟踪算法而言至关重要。通常选取的视觉特征可作为目标唯一描述,使得其在特征空间中显著可分。值得注意的是,特征的选...
分类:
其他好文 时间:
2015-04-27 18:33:10
阅读次数:
133
一 创建元素标签集1.基本css方法 $("a") $(".lzy") $("#lzy")2.子选择器$("div > ul > li") 特征选择器 $("a[href='www.baidu.com']") 容器选择器$("div:has(ul)")3.伪选择器 $("a:first") $("a...
分类:
Web程序 时间:
2015-04-10 19:40:39
阅读次数:
138
前面两篇回归(一)(二)复习了线性回归,以及L1与L2正则——lasso和ridge regression。特别描述了lasso的稀疏性是如何产生的。在本篇中介绍一下和lasso可以产生差不多效果的两种方法:stagewise和LARS...
分类:
其他好文 时间:
2015-04-06 14:15:37
阅读次数:
3088
Viola-Jones人脸检测算法是第一个实时的人脸检测算法。其影响力就不用多说了,即便是现在,该算法的应用仍然非常广泛。众所周知,Viola-Jones算法分为三个部分,Harr特征和积分图,特征选择的AdaptBoost以及用于训练的Cascade模型。对于Cascade模型,它更多的表示的是一种Strat..
分类:
其他好文 时间:
2015-04-01 13:30:19
阅读次数:
164