数据预处理的目的:提高数据质量,数据质量的三要素:准确性、完整性、一致性。 数据预处理的任务: 数据清理 数据集成 数据规约 数据变换 数据清理——填充缺失的值、光滑噪声、识别离群点、纠正数据中的不一致 缺失值: 忽略元组 人工填写缺失值 使用一个全局常量 使用属性的中心度量 使用与给定元组属同一类...
分类:
其他好文 时间:
2015-03-12 00:57:10
阅读次数:
143
最近参与了一个信托行业的BI项目,由于信托业务系统设计的问题,很多都是用户手工录入的数据,也有一些是需要分析的但是用户没有录入的数据,针对这样的数据质量,我们就要在ETL抽取的过程中来对数据流进行校验,今天我们就说一下如何利用ETL开源工具kettle来完成对数据的基础性校验1:非空校验if(INT...
分类:
Web程序 时间:
2015-03-07 15:29:02
阅读次数:
229
DW组成部分简介 DW的组成部分有:针对数据源的分析、数据的ETL、数据的存储结构,元数据管理等。 数据源分析 主要是分析要抽取哪些数据,如何抽取(全量还是增量)?它的更新周期是怎么样的?它的数据质量如何? 确定数据的格式,数据的域。 ETL ETL之前需要知道以下内容,数据源有哪些系统,各个业务系...
分类:
其他好文 时间:
2015-02-19 10:44:53
阅读次数:
154
一、收货到质检库存三种方法1、物料主数据——质量管理视图2、PO,项目明细,交货——X质量检查3、migo,项目明细,何时——2质量检验个人认为测试用3最好,但如果上线了QM的话,就只能用1了二、GR冻结库存与已冻结区别1、GR冻结库存:不属于自己公司的物料(比如东西到了,但已经下班了,先收着,明天...
分类:
其他好文 时间:
2015-02-06 20:27:51
阅读次数:
275
Teradata数据中包含换行符导致查询结果导出串行问题 系统在日常运行期间,有部分数据是读取EXCEL导入到生产系统中的。这就导致了数据质量良莠不齐。有的Excel单元格中有换行符,数据导入后,再次查询时,就有可能出现导出结果数据串行的问题。 先来还原这一问题。(还未找到解决方案……T_T) .....
分类:
其他好文 时间:
2015-01-20 17:50:03
阅读次数:
151
数据质量问题分类 本文主要讨论实例层数据质量问题 数据质量评价(12个维度) 1)数据规范(Data specification):对数据标准、 数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准; 2)数据完整性准则(Data integrity fundamenta...
分类:
其他好文 时间:
2015-01-02 23:37:56
阅读次数:
348
一、营销mis系统抽取数据按月抽取的表的方法:营销表按月抽取的方法:1。没有增量,全量抽取,入库目标地址为ods_yx,数据集成平台。不用入库到镜像库的。要先进行表数据的抽取,把81.34里面的log日志文件删除,然后使用到的程序为:F:\FTP\2013KHPZ里面的入库程序。勾选循环执行LDR,...
分类:
其他好文 时间:
2014-12-08 00:46:36
阅读次数:
235
1.cognos报表的部署。参数制作的步骤:1.先在cognos里面把做好的报表路径拷贝,然后再拷贝陈工给的报表路径。开始做替换,把陈工给的报表路径头拿到做好的报表路径中,如下面的链接http://10.194.40.11:9300/p2pd/servlet/dispatch?b_action=xt...
分类:
其他好文 时间:
2014-12-08 00:32:04
阅读次数:
204
在典型的大数据解决方案里,除了以ODPS这样的离线分布式计算引擎为核心,周边还需要日志收集、开发IDE、工作流调度、数据质量监控、BI报表等等一系列配套机制。因此ODPS用户往往还会对SLS和DPC等服务感兴趣。 先说SLS(简单日志服务),这是阿里云提供的针对日志收集、存储、查询和分析的云服务。用...
分类:
其他好文 时间:
2014-11-12 21:08:16
阅读次数:
402
应用场景:本周在进行SIT,我帮助仅有的一个测试妹妹对部分表进行数据质量验证,第一步需要做的就是比对source与stage表的table definition 与 数据内容的一致性。本项目使用的是oracle作为DW,source是oracle,sqlserver和xls.没有权限建立databa...
分类:
数据库 时间:
2014-10-30 00:07:14
阅读次数:
328