维数约简特征选择,依据某一标准选择性质最突出的特征特征抽取,经已有特征的某种变换获取约简特征增加特征数:可以增加信息量,进而提高准确度增加训练分类器的难度,进而带来维数灾难。解决办法: 选取尽可能多的、可能有用的特征,然后根据需要进行特征约简。主成分分析(PCA)目的: 寻找能够表示采样数据的最.....
分类:
其他好文 时间:
2015-09-18 23:15:11
阅读次数:
382
文本分类实战分类任务算法流程数据标注特征抽取特征选择分类器训练与评估坑分词特征重要度有偏训练集模型大小优化One More Thing…term 扩展Distributed Representation分类任务其实工程上对于文本分类的需求还是挺多的,主要可以分为下面两类,并对每类给了两个例子。二分类...
分类:
其他好文 时间:
2015-09-09 08:32:02
阅读次数:
163
你可能不知道的一些机器学习事儿
最近零零碎碎地看了很多机器学习方法的东西,增长了不少新知识。有很多小技巧虽然不会出现在教科书中,但它们真的很实用。
(1)随机森林模型不适合用稀疏特征。
(2)测试集必须使用与训练集相同的方法进行预处理。
(3)L1正则(特征选择)最小样本数目m与特征n呈log关系,m = O(log n) ;
L2正则(旋转不变)最小样本...
分类:
其他好文 时间:
2015-08-31 21:44:15
阅读次数:
234
前言:用途:分类。类似于if-then集合优点:速度快。原则:损失函数最小化,这是所有机器学习算法的原则。步骤:1> 特征选择 2> 决策树生成 3> 决策树修剪决策树模型内部结点和叶结点,太好理解了,无需讨论。if-then 集合if-then 需要保证重要的一点:就是互斥且完备。很好理解。完备保...
分类:
其他好文 时间:
2015-08-29 00:35:39
阅读次数:
279
机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例,着重从特征选择、剪枝等方面描述决策树的构建,讨论并研究决策树模型评估准则。最后基于
R 语言和 SPSS 这两个工具,分别设计与实现了决策树模型的应用实例。
机器学习概念
...
分类:
编程语言 时间:
2015-08-25 16:51:14
阅读次数:
283
参考:JMLR的paper《an introduction to variable and feature selection》
we summarize the steps that may be taken to solve a feature selection problem in a check list:
1. Do you have domain knowle...
分类:
其他好文 时间:
2015-08-12 21:48:59
阅读次数:
127
print "Performing greedy feature selection..."
score_hist = []
N = 10
good_features = set([])
# Greedy feature selection loop
while len(score_hist) score_hist[-2][0]:
scores = []
for f in ran...
分类:
编程语言 时间:
2015-08-11 21:31:26
阅读次数:
269
最近看到的“特征工程”相关文章,特汇总在一起方便浏览~对于搞数据的和玩深度学习的特征工程是不可少的一环,尤其是特征选择,好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。这里先上一篇总括《特征工程技术与方法》这篇文章详细梳理了特征工程所包含...
分类:
其他好文 时间:
2015-08-09 22:19:19
阅读次数:
432
在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,1.欧...
分类:
其他好文 时间:
2015-08-09 15:27:47
阅读次数:
178
参考:http://scikit-learn.org/stable/modules/feature_selection.html
The classes in the sklearn.feature_selection module
can be used for feature selection/dimensionality reduction on sample sets, e...
分类:
其他好文 时间:
2015-08-07 09:38:23
阅读次数:
225