码迷,mamicode.com
首页 >  
搜索关键字:数据脱敏 datamasker 数据漂白 数据清洗    ( 383个结果
【数据清洗】2007-数据清洗研究综述
王曰芬 章成志 张蓓蓓 吴婷婷 定义:数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 目的:数据清洗的目的是为信息系统提供准确而有效的数据。 基本原理:利用有关技术,如统计方法、数据...
分类:其他好文   时间:2015-01-02 22:25:20    阅读次数:309
【数据清洗】2012-数据清洗及其一般性系统框架
(1)准备。包括需求分析、信息环境分析、任务定义、方法定义、基本配置,以及基于以上工作获得数据清洗方案等。通过需求分析明确信息系统的数据清洗需求,通过信息环境分析明确数据所处的信息环境特点,任务定义要明确具体的数据清洗任务目标,方法定义确定合适的数据清洗方法,基本配置完成数据接口等的配置,要形成完整...
分类:其他好文   时间:2015-01-02 22:17:33    阅读次数:200
Clojure数据分析秘笈 笔记
Clojure数据分析秘笈 目录 1 导入分析数据2 清洗和校验数据3 使用并发编程管理复杂度4 使用并行编程提高性能5 Cascalog6 使用Incanter数据集7 使用Incanter准备并执行数据分析8 使用Mathematica和R9 聚类、分类和使用Weka10 使用Incanter绘图11 创建网页图表 导入分析数据 ...
分类:其他好文   时间:2014-11-10 10:02:17    阅读次数:241
《数据挖掘概念与技术》--第三章 数据预处理
一、数据预处理1、数据如果能够满足其应用的要求,那么他是高质量的。 数据质量涉及许多因素:准确性、完整性、一致性、时效性、可信性、可解释性。2、数据预处理的主要任务:数据清洗、数据集成、数据规约、数据变换。二、数据清理:试图填充缺失值,光滑噪声、识别利群点、纠正数据中的不一致。1、缺失值的处理:1)...
分类:其他好文   时间:2014-10-25 22:56:59    阅读次数:291
BI数据仓库数据分层
为什么要对数据仓库分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个...
分类:其他好文   时间:2014-10-09 19:39:37    阅读次数:528
使用SSIS进行数据清洗
简介 OLTP系统的后端关系数据库用于存储不同种类的数据,理论上来讲,数据库中每一列的值都有其所代表的特定含义,数据也应该在存入数据库之前进行规范化处理,比如说“age”列,用于存储人的年龄,设置的数据类型为INT类型。存入数据库的值是2000虽然看起来没有任何问题,但结合业务规则,这样的”Nois...
分类:其他好文   时间:2014-10-08 11:45:45    阅读次数:364
自制数据挖掘工具分析北京房价 (二) 数据清洗
上一节我们通过爬虫工具爬取了近七万条二手房数据,那么这一节就对这些数据进行预处理,也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性 数据分析的前提是数据清洗。不论如何高大上的算法,遇到错误数据,一个异常抛出来,绝对尸横遍野。而你不能指望核心算法为你处理错.....
分类:其他好文   时间:2014-09-01 22:32:33    阅读次数:347
Java 并发专题 : Timer的缺陷 用ScheduledExecutorService替代
继续并发,上篇博客对于ScheduledThreadPoolExecutor没有进行介绍,说过会和Timer一直单独写一篇Blog.1、Timer管理延时任务的缺陷a、以前在项目中也经常使用定时器,比如每隔一段时间清理项目中的一些垃圾文件,每个一段时间进行数据清洗;然而Timer是存在一些缺陷的,因...
分类:编程语言   时间:2014-08-25 11:22:54    阅读次数:331
SAS数据清洗之字符和数字处理
SAS数据清洗:由于SAS数据集之间的关系一般不会用到,只是在proc sql中有所涉及,至今尚未运用过用于数据分析,所以在这里只讲单个数据集的处理。在proc sql中我们可以看到:在定义数据集时涉及到字段名,字段属性,字段标签这三个最常用。我们在数据清洗时涉及到的数据集字段的处理,主要也就是围绕...
分类:其他好文   时间:2014-08-22 12:28:36    阅读次数:752
Amazon电商数据分析——数据获取
最近一段时间主要重心在Amazon电商数据分析上,这是一个偏数据分析和可视化的项目。具体来说就是先获取Amazon的商品数据,数据清洗和持久化存储后作为我们自己的数据源。分析模块和可视化模块基于数据进行一系列的操作。 显然,整个项目中最基本,也是最重要的就是前期数据的获取,本篇文章就是针对数据...
分类:其他好文   时间:2014-07-22 22:53:35    阅读次数:293
383条   上一页 1 ... 36 37 38 39 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!