特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
特征选择主要有两个功能:
减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解
拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择...
分类:
其他好文 时间:
2015-08-04 19:29:04
阅读次数:
312
为什么会产生过拟合,有哪些方法可以预防或克服过拟合?
什么是过拟合:
所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。
过拟合产生的原因:
出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。
预防或克服措施:...
分类:
其他好文 时间:
2015-08-04 19:20:03
阅读次数:
646
CART:Classification and regression tree,分类与回归树。(是二叉树)CART是决策树的一种,主要由特征选择,树的生成和剪枝三部分组成。它主要用来处理分类和回归问题,下面对分别对其进行介绍。1、回归树:使用平方误差最小准则训练集为:D={(x1,y1), (x2,...
分类:
其他好文 时间:
2015-07-30 10:51:21
阅读次数:
310
主要从普通的相关性和空间的自相关性分析。普通的相关性如变量之间的相关性,特别是目标变量与因子变量之间的相关性分析,本身也是预处理中特征选择的重要方法;而空间的相关性分析则分析则相关性,其中空间关联是其显著的特点;时间序列之间也存在空间相关性,对其进行探索性分析可考察空间数据(栅格)的时间联动性。1普通相关性分析就是分析变量之间的相关性,包括以下5个方面
1. Pearson相关系数探索连续变量相关...
分类:
其他好文 时间:
2015-07-28 21:21:28
阅读次数:
190
引言上一节中介绍了《随机森林算法》,该算法使用bagging的方式作出一些决策树来,同时在决策树的学习过程中加入了更多的随机因素。该模型可以自动做到验证过程同时还可以进行特征选择。
这一节,我们将决策树和AdaBoost算法结合起来,在AdaBoost中每一轮迭代,都会给数据更新一个权重,利用这个权重,我们学习得到一个g,在这里我们得到一个决策树,最终利用线性组合的方式得到多个决策树组成的G。...
分类:
其他好文 时间:
2015-07-26 12:38:46
阅读次数:
149
具体代码实现参考:手动设置选择特征的个数http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html#sklearn.feature_selection.RFE通过交叉验证自动选择最优特征个数:...
分类:
其他好文 时间:
2015-07-16 21:23:41
阅读次数:
130
t:代表特征,|C|:代表类别总数,ci 代表第i个类别 CF[i][j]:代表term class frequency,即表示在第j个类别的文档中出现了第i个term的文档数 DF[i]:代表term document frequency,即表示样本集中出现了该term的文档数 docsPerCl...
分类:
其他好文 时间:
2015-07-16 16:31:35
阅读次数:
132
t:代表特征,|C|:代表类别总数,ci 代表第i个类别 CF[i][j]:代表term class frequency,即表示在第j个类别的文档中出现了第i个term的文档数 DF[i]:代表term document frequency,即表示样本集中出现了该term的文档数 docsPerCl...
分类:
其他好文 时间:
2015-07-16 13:34:54
阅读次数:
149
CART:分类回归树分类树和回归树的区别:分裂节点时使用的节点非纯度量(最小化准则、特征选择)不一样,修剪树的准则不一样分类树: 节点非纯度量:平方误差和 区域估计值:均值(在给定的划分下,均值带来的平方误差和最小)回归树: 节点非纯度量:误分类误差、Gini指数、熵 区域估计值:多数类G...
分类:
其他好文 时间:
2015-07-15 01:10:41
阅读次数:
338
在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法。
令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,
1.欧几里得距离(Euclidean distance)-EuclideanDistance...
分类:
其他好文 时间:
2015-07-12 23:23:09
阅读次数:
957