真理之言 特征工程决定了机器学习的上限,而算法和模型只是逼近这个上限。 特征工程是什么 模型设计、算法训练之前的所有针对数据的准备工作,都称之为特征工程。 特征工程包含哪些工作 分析任务、获取数据、特征数据处理-异常值、空值、重复值、标准化等、特征处理-衍化、二值化、哑编码、降维等。这个过程中很多环 ...
分类:
其他好文 时间:
2019-12-28 19:25:13
阅读次数:
95
提取方差大于阀值的特征数据VarianceThreshold https://blog.csdn.net/weixin_42575020/article/details/82887014 假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大 ...
分类:
其他好文 时间:
2019-12-28 19:17:17
阅读次数:
73
一、概述 1.1【降维】 【维降】:把三维降成二维,本质就是减少特征数量; 1.2【特征选择】 什么是特征选择: 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。 为什 ...
分类:
其他好文 时间:
2019-11-27 10:46:17
阅读次数:
85
一、基础概述 1、机器学习开发流程 2、机器学习模型是什么 3、机器学习算法分类 二、需明确问题 (1)算法是核心,数据和计算是基础 (2)找准定位 大部分复杂模型的算法设计都是算法工程师在做,而我们要做的是: 1.分析很多的数据 2.分析具体的业务 3.应用常见的算法 4.特征工程、调参数、优化 ...
分类:
其他好文 时间:
2019-11-25 11:19:24
阅读次数:
100
本篇是机器学习小组第3周的学习内容输出,参考资料包括: 机器学习的敲门砖:归一化与KD树 https://mp.weixin.qq.com/s?__biz=MzI4MjkzNTUxMw==&mid=2247483857&idx=3&sn=5a4573e5fe074241a45f6affb969448 ...
分类:
其他好文 时间:
2019-11-24 15:36:12
阅读次数:
80
数据映射, 离散化, 异常值, 重采样, one-hot coding.... ...
分类:
其他好文 时间:
2019-11-21 22:56:35
阅读次数:
102
集成学习 集成学习通过构建并结合多个学习器来完成学习任务。 集成学习的思路是通过合并多个模型来提升机器学习性能,这种方法相较于当个单个模型通常能够获得更好的预测结果。这也是集成学习在众多高水平的比赛如奈飞比赛,KDD和Kaggle,被首先推荐使用的原因。 分类 用于减少方差的bagging 用于减少 ...
分类:
其他好文 时间:
2019-11-16 12:16:46
阅读次数:
70
背景 特征工程是绕不开的话题,巧妙的特征组合也许能够为模型带来质的提升。但同时,特征工程耗费的资源也是相当可观的,对于后期模型特征的维护、模型线上部署不太友好。2016年,微软提出Deep Crossing模型,旨在解决特征工程中特征组合的难题,降低人力特征组合的时间开销,通过模型自动学习特征的组合 ...
分类:
其他好文 时间:
2019-11-09 21:49:49
阅读次数:
234
02 特征工程和文本特征提取 数据集的构成 数据存放形式 1. CSV 文件 2. mysql: 性能瓶颈,读取速度; 格式不符合机器学习的格式 3. pandas:读取工具 4. numpy为什么读取速度快: 动态语言 全局解释性锁 GIL : 释放了 (GIL数据安全),真正的多线程 可用的数据 ...
分类:
其他好文 时间:
2019-11-09 15:53:23
阅读次数:
127
1、Featuretools 1.1 Featuretools介绍 Featuretools使用一种称为深度特征合成(Deep Feature Synthesis,DFS)的算法,该算法遍历通过关系数据库的模式描述的关系路径。当DFS遍历这些路径时,它通过应用于数据的操作(包括和、平均值和计数)生成 ...
分类:
其他好文 时间:
2019-10-30 13:36:29
阅读次数:
358