1.1 产品特性 UniEAP DataQuality(以下简称DataQuality)是UniEAP最新推出的数据质量管理平台。基于数据监控服务、数据质量校验引擎、数据清洗引擎以及面向服务数据质量架构实现了数据质量管理平台,产品关键特性主要有: 通过图形化的页面支持所有主流数据库的数据质量校验,校 ...
分类:
其他好文 时间:
2019-10-24 15:10:54
阅读次数:
120
数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘 数值类数据 缺失值 在处理缺失值之前,首先要理解为什么数据会有缺失。 丢弃 直接丢弃含有缺失值的行或者列 适用情况 1. 错误导致的数据缺失(GSP中跑步速度的缺失) 2. 要建模预测的数据列有数据缺失 3. 无用数据(调查车辆的价格,要排除 ...
分类:
其他好文 时间:
2019-09-30 21:47:37
阅读次数:
107
生物医学大数据-组学数据资源 困境: 经过human genome project之后得到了Book of life,但是测得base仅仅是生物信息学分析的开始,因为发现了数据的几个重要特点。首先是数据量过大,虽然科学家想通过不同组学角度(组学也随着数据量的增多层层细化和深入)来简化和系统解读过程, ...
分类:
数据库 时间:
2019-09-05 18:57:20
阅读次数:
298
1 数据质量分析 数据质量分析是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。其主要任务是检查原始数据中是否存在脏数据: (1)缺失值 (2)异常值(outliers) (3)不一致的值 (4)重复数据及含有特殊符号的数据 1.1 缺失值分析 1.2 异常值分析 异常值是指样本中数值明 ...
分类:
其他好文 时间:
2019-08-27 01:14:51
阅读次数:
112
tcp的优点:可靠,提体现在tcp在传递数据之前会有三次握手来建立连接,而且在传输数据时,有确认,窗口,重传,拥塞控制机制,在数据传完后,还会断开连接用来节约系统资源,采用四次挥手断开连接。 tcp的缺点:慢,效率低,占用系统资源高,易被攻击tcp在传递数据之前,要先建立连接,这会消耗时间。 UDP ...
分类:
其他好文 时间:
2019-08-13 21:09:18
阅读次数:
97
本文主要讲数据治理中的重要工作:数据质量管理。从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些个人观点。
分类:
其他好文 时间:
2019-08-07 16:14:09
阅读次数:
112
待处理数据的缺失和错误会极大地影响后续的数据分析,因:我们首先需要评估数据质量,进行诸如缺失值发现、极端值诊断、统计分布(样本数据的分布情况)观察和描述性统计(包括均值、方差、标准差、偏度、峰度等)等操作。 在本课节中,老师从北京市空气质量监测数据集入手,系统介绍以上知识点,帮助学员获得洞察数据的能 ...
分类:
其他好文 时间:
2019-07-15 16:02:00
阅读次数:
158
什么是大数据?大数据有什么特点?大数据与传统的数据有什么关系?大数据和我们有什么关系?虽然很多书籍上直接说明了大数据的概念和特点,但是根据个人的体会,如果我们先了解数据的概念和特点,那么我们将会更加容易理解大数据。关于数据的几个问题什么是数据?狭义上讲数据就是数值,也就是我们通过观察、实验或计算得出的结果;从广义上讲,数据的含义更加广阔,也可以是文字、图像、声音等。当前我们所说的数据一般是指广义上
分类:
其他好文 时间:
2019-06-30 17:19:12
阅读次数:
80
现在,为了改善您的服务,找到一个外部API变得越来越容易。越来越多的公司提供API。问题是许多开发人员/ CTO立即启动API集成,而这应该是最后一步!在此之前,您需要确定此API的质量是否符合某些最低要求。我告诉你我是怎么做到的。我希望它能帮助其他CTO和开发人员。 数据质量 许多API公开数据以 ...