一、基本概念 ETL,它是Extract、Transform、Load三个单词的首写字母。ETL是建立数据仓库最重要的处理过程,也是工作量最大的环节,一般会占到整个数据仓库建立的一半工作量。 建立一个数据仓库,就是要把来自多个异构的源系统的数据集成在一起,然后放置于一个集中的位置,用于数据分析。 二 ...
分类:
其他好文 时间:
2019-08-13 13:19:30
阅读次数:
69
今天小编向大家推荐的是两个开发环节的主流数据库管理品牌,那么你知道这两款数据库管理软件品牌与数据库引擎配套的管理软件有什么区别吗?小编这就360°全方位为您解答: Devart:拥有超过20年的经验,利用最新的技术创造创新的软件产品,专注于创建数据库工具、ALM解决方案、数据提供商、数据集成和备份解 ...
分类:
数据库 时间:
2019-07-22 13:51:47
阅读次数:
163
Java中XML XML解析——Java中XML的四种解析方式 XML是一种通用的数据交换格式,它的平台无关性、语言无关性、系统无关性、给数据集成与交互带来了极大的方便。XML在不同的语言环境中解析方式都是一样的,只不过实现的语法不同而已。 XML的解析方式分为四种:1、DOM解析;2、SAX解析; ...
分类:
编程语言 时间:
2019-05-18 09:55:21
阅读次数:
138
3.1 数据预处理 数据质量的三个要素:准确性、完整性和一致性。 3.1.2 数据预处理的主要任务 数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据。 数据集成:相关性分析,卡方,协方差,相关系数 数据归约:大->小,维归约,数据压小 数据变换和数据离散化:规范化 ...
分类:
其他好文 时间:
2019-04-06 22:47:56
阅读次数:
253
BIML 101 - BIML 快速入门教程 做大数据的项目,最花时间的就是数据清洗。 没有一个相对可靠的数据,数据分析就是无木之舟,无水之源。 如果你已经进了ETL这个坑,而且预算有限,并且有大量的活要做; 时间紧,任务多,是不是有点菊花一紧的感觉。 多少次,你对着几个月前自己写的代码在挠头, 多 ...
分类:
其他好文 时间:
2019-04-04 09:38:57
阅读次数:
140
企业中,70%的员工可访问本不应对其公开的数据*…这一现象正迅速成为各企业共同面临的合规问题。云技术的兴起和数据隐私相关法律的制定使数据治理成为数据集成架构最重要的功能之一。强有力的数据治理计划可确保您制定有完备的政策、标准和控制措施来对数据进行有效保护,并访问这些数据以便做出决策。 *见Harva ...
分类:
其他好文 时间:
2019-03-15 14:42:40
阅读次数:
222
XML是一种通用的数据交换格式,它的平台无关性、语言无关性、系统无关性、给数据集成与交互带来了极大的方便。XML在不同的语言环境中解析方式都是一样的,只不过实现的语法不同而已。 XML的解析方式分为四种:1、DOM解析;2、SAX解析;3、JDOM解析;4、DOM4J解析。其中前两种属于基础方法,是 ...
分类:
编程语言 时间:
2019-02-26 17:39:12
阅读次数:
191
一、产品简介《翔云智能智能车间系统(X-Mes)》是上海首祥大数据科技有限公司研发的,面向工厂车间执行层的采购、生产加工、制造、装备、检验的信息化管理系统。系统可以为企业提供包括制造数据管理、计划排程管理、生产调度管理、生产报工、生产过程控制、底层数据集成分析、上层数据集成分解等模块管理。产品旨在采用极其简单的操作(普通员工只要会刷卡就可以使用)、完全满足车间管理流程的设计风格、并支持远程升级维护
分类:
其他好文 时间:
2019-02-24 13:31:12
阅读次数:
239
主动学习通过“选择策略”主动从未标注的样本集中挑选部分(1个或N个)样本让相关领域的专家进行标注;然后将标注过的样本增加到训练数据集给“学习模块”进行训练;当“学习模块”满足终止条件时即可结束程序,否则不断重复上述步骤获得更多的标注样本进行训练。 参考文献: 【1】Active Learning: ...
分类:
其他好文 时间:
2019-02-18 20:32:26
阅读次数:
150
数据预处理主要包括数据清洗、数据集成、数据变换和数据规约,处理过程如图所示。 一、数据清洗 1.缺失值处理:删除、插补、不处理 ## 拉格朗日插值代码(使用缺失值前后各5个未缺失的数据建模) 2.异常值处理 3.数据变换 1)函数变换:将不具有正态分布的数据变换成正态分布的数据 2)规范化/归一化: ...
分类:
编程语言 时间:
2019-01-22 21:51:21
阅读次数:
293