数据清洗 不可信样本丢弃 缺省值极多的字段考虑不用 数据采样 下/上采样 保证样本均衡 特征处理 数值型 类别型 时间型 文本型 统计型 组合特征 特征选择 过滤型 sklearn.feature_selection.SelectKBest 包裹型 sklearn.feature_selection ...
分类:
其他好文 时间:
2017-02-17 00:01:57
阅读次数:
456
在对数据进行预处理时,我们经常会遇到数据的维数非常之大,如果不进行相应的特征处理,那么算法的资源开销会很大,这在很多场景下是我们不能接受的。而对于数据的若干维度之间往往会存在较大的相关性,如果能将数据的维度之间进行相应的处理,使它们在保留最大数据信息的同时降低维度之间的相关性,就可以达到降维的效果。 ...
分类:
其他好文 时间:
2016-12-24 19:55:12
阅读次数:
552
特征工程 一、特征处理 1. 正负样本不均衡问题 a) Oversampleing b) 修改损失函数 c) 取n份正样本 与 负样本 分别构建分类器,然后vote 2. 数值特征处理 a) 归一化 b) Log变换 c) 统计max min mean std d) 离散化 e) HASH分桶 f) ...
分类:
其他好文 时间:
2016-12-11 12:24:54
阅读次数:
343
http://tech.meituan.com/machinelearning-data-feature-process.html (转) 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务 ...
分类:
其他好文 时间:
2016-08-27 21:59:43
阅读次数:
212
今天看到有个同学分享了关于算法学习的思路,觉得对于我来说启发很大,因此决定把他说的一些东西写下来以提醒自己: 首先是算法的产生背景,适用场合(数据规模,特征维度,是否有Online算法,离散/连续特征处理) 原理推导(最大间隔,软间隔,对偶) 求解方法(随机梯度下降,拟牛顿法等优化算法); 优缺点, ...
分类:
编程语言 时间:
2016-08-11 00:39:36
阅读次数:
168
L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数值型特征:幅度调整,归一化,离散化 类别型特征:one-hot 编码 组合特征 文本特征中的TF-IDF:TF(t)=(t在当前文中出现 ...
分类:
其他好文 时间:
2016-06-29 20:40:42
阅读次数:
501
七月在线4月机器学习算法班课程笔记——No.7
前言 我们知道,机器学习的过程是非常繁琐的。上一篇介绍了机器学习中特征处理重要而耗时,然而特征处理仅属于机器学习前序的工作内容。特征工程之后,需要选择机器学习模型、交叉验证、寻找最佳超参数等建模步骤。搭建模型之后呢,还需要进行模型的优化,模型调优是实际生产中一个必要的环节,也是不断去改进的一个事情。
这一篇会以小的数据集为例,讲一下机器学习在实...
分类:
其他好文 时间:
2016-06-16 14:49:03
阅读次数:
173
通过SHA-1加密算法原理的介绍,会了解到SHA-1在加密的过程中,有几个固定的流程(特征),在逆向分析的过程中通过这些特征可以识别出当前使用的是SHA-1的加密算法,从而更高效的分析还原算法。 整理下SHA-1加密的几个特征: 1. 处理的数据是512位为1组,补位数据的填充方式 2. 5个初始常 ...
分类:
编程语言 时间:
2016-06-03 01:05:07
阅读次数:
516
通过MD5加密算法原理的介绍,会了解到MD5在加密的过程中,有几个固定的流程(特征),在逆向分析的过程中通过这些特征可以识别出当前使用的是MD5的加密算法,从而更高效的分析还原算法。 整理下MD5加密的几个特征: 1. 处理的数据是512位为1组,补位数据的填充方式 2. 4个初始常数 A=0X67 ...
分类:
编程语言 时间:
2016-05-28 15:54:25
阅读次数:
372
前置知识:1、事务的特征:1)、处理且仅被处理一次;2)、输出且只被输出一次2、SparkStreaming进行事务处理有没有可能处理完全失败?这个可能性不大,因为Spark是批处理的方式来进行流处理,在SparkStreaming应用程序启动的时候,已经为应用程序分配了相关的资源,而且在调度的..
分类:
其他好文 时间:
2016-05-08 01:23:36
阅读次数:
390