码迷,mamicode.com
首页 >  
搜索关键字:数据预处理    ( 485个结果
数据预处理
数据预处理章节,整理于《数据挖掘·概念与技术》第三章,如有错误,请指正,谢谢~1、概述 数据清理可以去除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据进行存储,如数据仓库。数据规约可以通过如聚集,删除冗余特征或聚类降低数据的规模。数据变换(如规约化)可以把数据压缩到较小的....
分类:其他好文   时间:2015-01-31 15:59:47    阅读次数:238
Matlab中的数据预处理-归一化(mapminmax)与标准化(mapstd)
最近遇到数据预处理的一些问题,本来很简单的东西,但是却搞的烦烦的,痛定思痛,决定自己实现一下。 一、mapminmax Process matrices by mapping row minimum and maximum values to [-1 1] 意思是将矩阵的每一行处理成[-1,1]区间,此时对于模式识别或者其他统计学来说,数据应该是每一列是一个样本,每一行是多个样本的同一维,即...
分类:其他好文   时间:2015-01-21 13:27:01    阅读次数:416
报表系统性能提升之预先计算
报表应用中当数据量较大或计算过程较复杂时,会导致报表数据源准备过慢,从而影响报表性能。这时常常需要事先将报表需要的数据计算好,在呈现时直接引用即可,这样用户在访问报表时就可以迅速地获得响应。 当前的手段及弊端         由于报表在访问时还需要参数,显然不可能把所有参数组合对应的报表数据源都准备好,所以预先计算并不是最终的报表结果,在呈现的时刻仍然要再次进行一些简单的计算(如过滤、分组汇总...
分类:其他好文   时间:2015-01-06 15:35:41    阅读次数:214
[Scikit-Learn] - 数据预处理 - 归一化/标准化/正则化
reference:http://www.cnblogs.com/chaosimple/p/4153167.html一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,...
分类:其他好文   时间:2015-01-03 14:36:44    阅读次数:241
[Scikit-Learn] - 数据预处理 - 缺失值(Missing Value)处理
reference :http://www.cnblogs.com/chaosimple/p/4153158.html关于缺失值(missing value)的处理在sklearn的preprocessing包中包含了对数据集中缺失值的处理,主要是应用Imputer类进行处理。首先需要说明的是,nu...
分类:其他好文   时间:2015-01-03 14:31:39    阅读次数:221
sas回归分析
数据预处理->数据探索->模型选择->残差检验、共线性争端,强影响点判断->模型修正(否->模型选择,是->模型预测)一:数据预处理二:数据探索看y是否服从正态分布(PP图)proc univariate data=reg.b_fitness; var Runtime -- Performan...
分类:其他好文   时间:2014-12-25 16:22:35    阅读次数:260
BigData预处理(步骤)
一:为什么要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成) (3)原始数据中存在的问题: 不一致 —— 数据内含出现不一致情况 重复 不完整 —— 感兴趣的属性没有 含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据 高维度...
分类:其他好文   时间:2014-12-23 12:31:19    阅读次数:193
标准化与归一化
标准化(Standardization) 是按某个维度进行标准化,例如有下面的矩阵 >>> X = np.array([[ 1., -1., 2.], ... [ 2., 0., 0.], ... [ 0., 1., -1.]]) 正态分布标准化后的结果就是 array([[ 0. ..., -1.22...,...
分类:其他好文   时间:2014-12-13 23:23:21    阅读次数:278
dplyr的使用
做数据预处理一直用Hardly Wickham的plyr软件包,数据量稍微大点,基本就用data.table软件包。Hardly WickHam的dplyr软件包出来有一段时间了,在性能上又有了更大的提高。为了以后使用,做些笔记。These five functions provide the ba...
分类:其他好文   时间:2014-12-07 14:56:33    阅读次数:130
数据预处理
数据预处理数据挖掘是从大量的,不完全的,有噪声的,模糊的,随即的数据中,提取隐含在其中的,人们事先不知道的,但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集,数据预处理,数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅仅占工工作量...
分类:其他好文   时间:2014-12-05 10:45:34    阅读次数:309
485条   上一页 1 ... 45 46 47 48 49 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!