无论是小数据时代还是大数据时代,数据治理都是个非常重要的工作,数据质量问题是个非常普遍的问题。对于传统企业来说,核心业务还是流程驱动的,需要而且有条件把数据做准确,这就需要在数据管理上面下功夫。 介绍一个欧盟的数据管理知识体系,DAMA-DMBOK,由DAMA国际发布,DAMA是数据管理学会的简称, ...
分类:
其他好文 时间:
2017-02-08 21:58:41
阅读次数:
584
转自:http://www.tipdm.org/ganhuofenxiang/1026.jhtml 数据质量分析是数据挖掘中的重要一环,错误的假设和糟糕的数据问题都是导致数据挖掘结果产生偏差的重要原因。数据挖掘从业者常常会说“Garbage In ,Garbage Out”即“垃圾进,垃圾出”,装入 ...
分类:
其他好文 时间:
2017-01-13 11:12:15
阅读次数:
188
1、定义目标 调研业务目标 评析环境 确定挖掘目标 制定计划2、数据理解 收集原始数据 探索数据 检验数据质量3、数据准备 数据选取 抽取建模数据 数据预处理4、建立模型 选择建模技术 建立模型 评估和改进模型 模型评价5、部署实施 制定实施计划 模型实施 项目总结和评价 ...
分类:
其他好文 时间:
2016-12-12 19:47:43
阅读次数:
191
都到了年根底下了,业务线黄了,成了惨兮兮的茶几。不说了。 换到了新的业务线,搞大数据质量评估。自动化质检和监控平台是用django,MR也是通过python实现的。(后来发现有odc压缩问题,python不知道怎么解决,正在改成java版本) 这里展示一个python编写MR的例子吧。 抄一句话:H ...
分类:
编程语言 时间:
2016-12-10 13:54:47
阅读次数:
241
问题到数据 理解问题 理解客户的问题:谁是客户(某航空公司)?交流,交流,交流! 问题要具体 某航空公司: 乘客体验如何?哪方面需要提高? 类别:比较、描述、聚类,判别还是回归 需要什么样的数据:现有数据,数据质量,需要收集的数据,自变量,因变量 哪些方面的满意度?哪些主要竞争对手? 内部数据?外部 ...
分类:
其他好文 时间:
2016-10-27 21:00:00
阅读次数:
347
现在对数据质量的要求越来越高,面对一个动辄上亿条数据的报表如何快速对它的数据质量做出分析呢?给大家分享下我们测试时用到的Data Profiling方法。 Data Profiling,可以大概翻译“数据概要分析”,维基百科对Data Profiling的解释如下:Data profiling is ...
分类:
其他好文 时间:
2016-10-17 20:18:13
阅读次数:
155
数据预处理 1. 数据质量的三个要素:准确性、完整性、一致性 2. 数据预处理的主要任务: 数据清理、数据集成、数据归约、数据变换 一. 数据清理 数据清理主要:填补缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性。 通常是一个两步的迭代过程,包括偏差检测和数据变换 注意:在某些情况下,缺失值 ...
分类:
其他好文 时间:
2016-10-13 14:01:57
阅读次数:
151
从数据使用者的角度定义,高质量的数据应该是能充分满足用户使用要求的数据。 完整性:数据记录是否缺失;字段内容是否缺失。 一致性:字段内容是否满足应有的规则,比如电话号码,IP等;数据之间存在的逻辑关系是否满足,比如pv>=uv,百分比不能超过100%等。 准确性:乱码;异常大或者异常小 及时性:SL ...
分类:
其他好文 时间:
2016-09-12 18:41:28
阅读次数:
212
5W1H法来实现源数据的优化 做数据仓库项目的朋友都能感到数据质量和数据抽取展现的性能是整个数据仓库项目的重点。下面谈谈我在DW项目中处理源数据质量问题的5W1H方法。 5W : WHO ,WHAT,WHY,WHEN,WHERE WHO:(谁来对源数据负责) ETL抽取的数据各种各样,有些是按业务, ...
分类:
其他好文 时间:
2016-08-24 17:14:42
阅读次数:
144
三种图片格式的区别: jpg:1.支持摄影图像或写实图像的高级压缩,并且可利用压缩比例控制图像文件大小。 2.有损压缩会使图像数据质量下降,并且在编辑和重新保存JPG格式图像时,这种下降损失会累积。 3.不适用于所含颜色很少、具有大块颜色相近的区域或亮度差异十分明显的较简单的图片(用于色彩丰富的图片 ...
分类:
其他好文 时间:
2016-07-31 14:20:19
阅读次数:
125