0 - 引入 并行处理、流水线处理、自动化调参、持久化是sklearn优雅地进行数据挖掘的核心。 并行处理和流水线处理是将多个特征处理工作,甚至包括模型训练工作组合成一个工作。 在组合的前提下,自动化调参技术帮我们省去了人工调参的繁琐。 训练好的模型是贮存在内存中的数据,持久化能够将这些数据保存到文 ...
分类:
其他好文 时间:
2019-04-26 13:15:25
阅读次数:
160
功能 通过tensorflow 预定义的feature column 达到特征处理的功能. 工作流程: 1. tesnsorflow dataset 产生迭代器返回解析后的tensor dict (即input_fn) 2. 预定义 tensor dict 中(key, tensor) 的转化方式, ...
分类:
其他好文 时间:
2019-03-17 16:59:45
阅读次数:
229
课程目录:第1章 个性化推荐算法综述个性化推荐算法综述部分,主要介绍个性化推荐算法综述,本课程内容大纲以及本课程所需要准备的编程环境与基础知识。1-1 个性化推荐算法课程导学 试看1-2 个性化推荐算法综述 试看1-3 个性化召回算法综述 试看第2章 基于邻域的个性化召回算法LFM本章节重点介绍一种 ...
分类:
编程语言 时间:
2019-01-12 17:55:48
阅读次数:
151
这两篇文章(上,下)已经总结得很好了 http://www.cnblogs.com/pinard/p/6050306.html https://www.cnblogs.com/pinard/p/6053344.html 1. 数学基础 1.信息论的信息熵:Entropy 2.基尼不纯度:Gini i ...
分类:
编程语言 时间:
2018-12-26 15:53:58
阅读次数:
183
特征的预处理:对数据进行处理 特征处理:通过特定的统计方法(数学方法)将数据转换成算法要求的数据 归一化: 多个特征同等重要的时候需要进行归一化处理目的:使得某一个特征对最终结果不会造成更大影响 归一化API: 标准化: 归一化及标准化实例代码: 运行结果: ...
分类:
其他好文 时间:
2018-12-24 02:56:18
阅读次数:
164
1)利用已有的属性构造出新的属性,并加入到现有的属性集合中。 举例:在进行防窃漏电诊断建模时,已有属性有供入电量、供出电量。理论上供入电量和供出电量是相等的,但是由于传输过程中存在电能损耗,使得供入电量略大于供出电量,那为了判断用户的是否存在窃漏电行为,可以构造一个新的指标 线损率 线损率 = (供 ...
分类:
其他好文 时间:
2018-12-10 14:08:10
阅读次数:
241
从互联网时代到物联网时代,数据成为了企业的核心资产,挖掘数据价值成为了企业数据探索、技术应用的重中之重,甚至将影响到企业未来的发展和商业模式。但大数据体量大、多样性、价值密度低、速度快等特征,也给大数据的应用研发工作带来了不少挑战。 ? 如何应对大数据不断生长的有机特征,处理超大规模的数据挖掘? 如 ...
分类:
其他好文 时间:
2018-10-30 14:50:04
阅读次数:
193
特征处理相关的算法,大体分为以下三类: 特征抽取:从原始数据中抽取特征 特征转换:特征的维度、特征的转化、特征的修改 特征选取:从大规模特征集中选取一个子集 #导入相关的库 from pyspark.ml.feature import HashingTF,IDF,Tokenizer from pys ...
分类:
其他好文 时间:
2018-08-12 14:21:10
阅读次数:
550
目录 一、 特征工程是什么? 2 ①特征使用方案 3 ②特征获取方案 4 ③特征处理 4 1. 特征清洗 4 2. 数据预处理 4 3. 特征监控 4 二、 数据预处理 5 1. 无量纲化 5 1.1标准化 5 1.2区间缩放法 7 1.3归一化方法有两种 7 2. 对定量特征二值化 8 1. 为什 ...
分类:
其他好文 时间:
2018-07-19 23:26:41
阅读次数:
818
特征工程的整体思路: 1. 对于特征的理解、评估 2. 特征处理: 2.1 特征处理 2.1.1 特征清洗 清洗异常、采样 2.1.2 预处理 单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。 多特征情况: 降维:PCA、LDA(这个不太了解、待学习) 特征选择 ...
分类:
其他好文 时间:
2018-07-03 16:57:21
阅读次数:
187