搜索关键字：特征处理，搜索到59个结果！码迷,mamicode.com！

模型优化

数据清洗不可信样本丢弃缺省值极多的字段考虑不用数据采样下/上采样保证样本均衡特征处理数值型类别型时间型文本型统计型组合特征特征选择过滤型 sklearn.feature_selection.SelectKBest 包裹型 sklearn.feature_selection ...

分类：其他好文时间：2017-02-17 00:01:57 阅读次数：456

PCA原理与实践

在对数据进行预处理时，我们经常会遇到数据的维数非常之大，如果不进行相应的特征处理，那么算法的资源开销会很大，这在很多场景下是我们不能接受的。而对于数据的若干维度之间往往会存在较大的相关性，如果能将数据的维度之间进行相应的处理，使它们在保留最大数据信息的同时降低维度之间的相关性，就可以达到降维的效果。 ...

分类：其他好文时间：2016-12-24 19:55:12 阅读次数：552

特征处理

特征工程一、特征处理 1. 正负样本不均衡问题 a) Oversampleing b) 修改损失函数 c) 取n份正样本与负样本分别构建分类器，然后vote 2．数值特征处理 a) 归一化 b) Log变换 c) 统计max min mean std d) 离散化 e) HASH分桶 f) ...

分类：其他好文时间：2016-12-11 12:24:54 阅读次数：343

机器学习中的数据清洗与特征处理综述

http://tech.meituan.com/machinelearning-data-feature-process.html （转）背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘，不仅能给美团业务 ...

分类：其他好文时间：2016-08-27 21:59:43 阅读次数：212

算法的掌握途径及角度

今天看到有个同学分享了关于算法学习的思路，觉得对于我来说启发很大，因此决定把他说的一些东西写下来以提醒自己：首先是算法的产生背景，适用场合（数据规模，特征维度，是否有Online算法，离散/连续特征处理）原理推导（最大间隔，软间隔，对偶）求解方法（随机梯度下降，拟牛顿法等优化算法）；优缺点， ...

分类：编程语言时间：2016-08-11 00:39:36 阅读次数：168

特征工程

L1正则化和L2正则化的区别：L1起截断作用，L2起缩放作用（不让参数θ过大）数据和特征处理数据清洗正负样本不平衡的处理方法：上采样，下采样，修改损失函数数值型特征：幅度调整，归一化，离散化类别型特征：one-hot 编码组合特征文本特征中的TF-IDF:TF(t)=(t在当前文中出现 ...

分类：其他好文时间：2016-06-29 20:40:42 阅读次数：501

工作流程与模型调优

七月在线4月机器学习算法班课程笔记——No.7 前言　　我们知道，机器学习的过程是非常繁琐的。上一篇介绍了机器学习中特征处理重要而耗时，然而特征处理仅属于机器学习前序的工作内容。特征工程之后，需要选择机器学习模型、交叉验证、寻找最佳超参数等建模步骤。搭建模型之后呢，还需要进行模型的优化，模型调优是实际生产中一个必要的环节，也是不断去改进的一个事情。　　这一篇会以小的数据集为例，讲一下机器学习在实...

分类：其他好文时间：2016-06-16 14:49:03 阅读次数：173

SHA-1加密算法的识别

通过SHA-1加密算法原理的介绍，会了解到SHA-1在加密的过程中，有几个固定的流程(特征)，在逆向分析的过程中通过这些特征可以识别出当前使用的是SHA-1的加密算法，从而更高效的分析还原算法。整理下SHA-1加密的几个特征： 1. 处理的数据是512位为1组，补位数据的填充方式 2. 5个初始常 ...

分类：编程语言时间：2016-06-03 01:05:07 阅读次数：516

MD5加密算法的识别

通过MD5加密算法原理的介绍，会了解到MD5在加密的过程中，有几个固定的流程(特征)，在逆向分析的过程中通过这些特征可以识别出当前使用的是MD5的加密算法，从而更高效的分析还原算法。整理下MD5加密的几个特征： 1. 处理的数据是512位为1组，补位数据的填充方式 2. 4个初始常数 A=0X67 ...

分类：编程语言时间：2016-05-28 15:54:25 阅读次数：372

第4课：Spark Streaming的Exactly-Once的事务处理和不重复输出彻底掌握

前置知识：1、事务的特征：1)、处理且仅被处理一次；2)、输出且只被输出一次2、SparkStreaming进行事务处理有没有可能处理完全失败？这个可能性不大，因为Spark是批处理的方式来进行流处理，在SparkStreaming应用程序启动的时候，已经为应用程序分配了相关的资源，而且在调度的..

分类：其他好文时间：2016-05-08 01:23:36 阅读次数：390

共59条上一页 1 ... 3 4 5 6 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)