http://www.jianshu.com/p/ab697790090f 特征选择与特征学习 在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现。在现实世 ...
分类:
其他好文 时间:
2016-12-22 18:47:14
阅读次数:
309
特征工程 一、特征处理 1. 正负样本不均衡问题 a) Oversampleing b) 修改损失函数 c) 取n份正样本 与 负样本 分别构建分类器,然后vote 2. 数值特征处理 a) 归一化 b) Log变换 c) 统计max min mean std d) 离散化 e) HASH分桶 f) ...
分类:
其他好文 时间:
2016-12-11 12:24:54
阅读次数:
343
1.常见问题 1.1 什么是偏差与方差? 1.2 为什么会产生过拟合,有哪些方法可以预防或克服过拟合? 2.模型选择 3.特征选择 4.特征工程与数据预处理 ...
分类:
其他好文 时间:
2016-12-06 13:33:33
阅读次数:
675
摘要: 1.各种算法的推导 2.各种算法的比较(或优缺点) 3.经验风险最小化与结构风险最小化 4.特征选择方法 5.模型选择方法 6.特征工程 7.应用例子 内容: 1.各种算法的推导 2.各种算法的比较(或优缺点) http://blog.csdn.net/Bryan__/article/det ...
分类:
其他好文 时间:
2016-12-04 07:04:34
阅读次数:
128
特征选择(Feature Selection,FS)和特征抽取(Feature Extraction, FE)是特征工程(Feature Engineering)的两个重要的方面。 他们之间最大的区别就是是否生成新的属性。 FS仅仅对特征进行排序(Ranking)和选择, FE更为复杂,需要重新认识 ...
分类:
其他好文 时间:
2016-11-25 12:19:49
阅读次数:
230
http://bbs.pkbigdata.com//static/348_detail.html 我是bryan,来自重庆邮电大学的X-Data项目组研二学生。 本次分享活动由我和wepon(来自北大)来做解答。 首先简单介绍下我们的比赛解决方案: 1. 预处理 2. 特征工程 3. 算法模型 4. ...
分类:
其他好文 时间:
2016-10-09 13:03:17
阅读次数:
405
特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:1. 计算每 ...
分类:
其他好文 时间:
2016-08-27 22:08:28
阅读次数:
497
最近想拿一个DateCastle比赛上的关于预测客户人品的项目实际操作下我的sas,拿到数据后发现,最急需解决的问题是特征工程的问题,有1300多个维度的特征,自己想到的思路是由于这些特征是什么,都没有中文的说明,所以无法根据业务经验进行特征筛选,所以需要先通过相关性分析,然后再考虑PCA等方法,正 ...
分类:
其他好文 时间:
2016-08-18 21:23:18
阅读次数:
183
按照我做项目的经验,来了项目,首先是分析项目的目的和需求,了解这个项目属于什么问题,要达到什么效果。然后提取数据,做基本的数据清洗。第三步是特征工程,这个属于脏活累活,需要耗费很大的精力,如果特征工程做的好,那么,后面选择什么算法其实差异不大,反之,不管选择什么算法,效果都不会有突破性的提高。第四步... ...
分类:
其他好文 时间:
2016-08-02 19:11:45
阅读次数:
211
L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数值型特征:幅度调整,归一化,离散化 类别型特征:one-hot 编码 组合特征 文本特征中的TF-IDF:TF(t)=(t在当前文中出现 ...
分类:
其他好文 时间:
2016-06-29 20:40:42
阅读次数:
501