码迷,mamicode.com
首页 >  
搜索关键字:特征工程    ( 223个结果
机器学习之(四)特征工程以及特征选择的工程方法
关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。纵观Kaggle、KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作...
分类:其他好文   时间:2016-06-24 10:57:22    阅读次数:838
工作流程与模型调优
七月在线4月机器学习算法班课程笔记——No.7 前言  我们知道,机器学习的过程是非常繁琐的。上一篇介绍了机器学习中特征处理重要而耗时,然而特征处理仅属于机器学习前序的工作内容。特征工程之后,需要选择机器学习模型、交叉验证、寻找最佳超参数等建模步骤。搭建模型之后呢,还需要进行模型的优化,模型调优是实际生产中一个必要的环节,也是不断去改进的一个事情。   这一篇会以小的数据集为例,讲一下机器学习在实...
分类:其他好文   时间:2016-06-16 14:49:03    阅读次数:173
大数据:“人工特征工程+线性模型”的尽头
大数据:“人工特征工程+线性模型”的尽头 作者:李沐 来源:http://qing.blog.sina.com.cn/1953709481/74733da9330036o7.html 11年的时候我加入百度,在凤巢使用机器学习来做广告点击预测。当时非常惊讶于过去两年内训练数据如此疯狂的增长。大家都在 ...
分类:其他好文   时间:2016-06-13 19:08:54    阅读次数:367
待学习文档
常用算法: 一、HMM及CRF相关 二、特征工程 1.总概的一篇文章:http://weibo.com/p/1001593872942714153228 2. 很全面的一篇http://blog.csdn.net/jasonding1354/article/details/47171115 3. 特 ...
分类:其他好文   时间:2016-05-21 14:28:52    阅读次数:140
Amazon Employee Access 数据分析报告
Amazon Employee Access 数据分析报告报告摘要 目标:本分析旨在利用Amazon的员工编号相关信息,来分析和预测当员工申请访问某个编号的资源时,是否被允许访问。 方法: 在原有部分变量的基础上,利用特征工程的方法,新增了单变量、双变量、三变量、四变量出现的频率和变量出现的条件概率等变量,利用随机森林模型,对目标变量进行预测。 结论: 一、对于训练集数据分析发现,各变量之间存在着...
分类:数据库   时间:2016-05-13 03:22:59    阅读次数:402
使用Python做单机特征工程
目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 无量纲化与正则化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 ...
分类:编程语言   时间:2016-05-02 18:31:47    阅读次数:476
(七)机器学习里的特征工程
不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践,进行一个实战系列的介绍,介绍机器学习在解决工业界问题的实战中所需的基本技术、经验和技巧。本文 ...
分类:其他好文   时间:2016-04-26 10:58:13    阅读次数:653
[特征选择] DIscover Feature Engineering, How to Engineer Features and How to Get Good at It 翻译
本文是对Jason Brownlee的关于特征工程的翻译,http://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/ ...
分类:其他好文   时间:2016-03-30 07:05:14    阅读次数:301
基于R语言的梯度推进算法介绍
通常来说,我们可以从两个方面来提高一个预测模型的准确性:完善特征工程(feature engineering)或是直接使用Boosting算法。通过大量数据科学竞赛的试炼,我们可以发现人们更钟爱于Boosting算法,这是因为和其他方法相比,它在产生类似的结果时往往更加节约时间。 Boosting算 ...
分类:编程语言   时间:2016-03-30 01:32:32    阅读次数:190
机器学习:特征工程
特征选择直接影响模型灵活性、性能及是否简洁。好特征的灵活性在于它允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护。 特征选择 四个过程:产生过程,评价函数,停止准则,验证过程。 目的:过滤特征集合中不重要特征,挑选一组最具统计意义的特征子集,从而达到降维的效果。 选择标准:特征项和类别项之间的相关性(特征重要性)。 - - -搜索特征子空间的...
分类:其他好文   时间:2016-03-28 00:23:49    阅读次数:693
223条   上一页 1 ... 19 20 21 22 23 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!