推荐阅读: 论主数据的重要性(正确理解元数据、数据元) CDC+ETL实现数据集成方案 Java实现impala操作kudu 实战kudu集成impala 对于impala而言,开发人员是可以通过JDBC连接impala的,有了JDBC,开发人员可以通过impala来间接操作 kudu; 引入mav ...
分类:
编程语言 时间:
2020-01-21 20:13:58
阅读次数:
134
推荐阅读: 论主数据的重要性(正确理解元数据、数据元) CDC+ETL实现数据集成方案 Java实现impala操作kudu 实战kudu集成impala impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍 ...
分类:
其他好文 时间:
2020-01-21 19:54:21
阅读次数:
198
大数据时代,数据作为基础性战略资源,随着信息技术发展***到各行业,拉动了大数据产业的发展。加之国家各项政策的支持与推进,大数据产业与应用逐步深化,数据挖掘和应用成备受重视,于是乎数据中心如雨后春笋般出现。首先,捋一下什么是数据中心,以及建数据中心的目的是什么?数据中心,通过统一的数据标准规范,与各业务软件系统之间建立相互的联系,把分布在各级单位网络中信息孤岛上的数据集成到一起,实现数据的统一存储、
分类:
其他好文 时间:
2020-01-16 12:56:03
阅读次数:
95
数据集成有两种方案: 一种是通过ESB接口方式进行数据集成,优点是数据的时效性高,但最大的弊端是依赖于业务系统的接口改造,往往会涉及和厂商的接口费用。另一种方式就是通过ETL方式抽取数据,并通过CDC方式实现数据实时同步,优点是不依赖于业务系统,只需要获取业务系统数据库权限便可实现集成。 ...
分类:
其他好文 时间:
2020-01-08 19:24:15
阅读次数:
130
20多天后,我们将步入2020年。在即将过去的2019年,人工智能、5G、数字货币等技术不断冲击着传统的数据治理模式,你所在的企业是否同样感受到了冲击?在这些难以言说的痛中间,又有多少是传统数据集成所带来的? 今年,随着数据驱动决策的理念逐渐深入人心,越来越多的企业开始逐步对存量的数据资产进行消费, ...
分类:
其他好文 时间:
2019-12-05 19:13:46
阅读次数:
103
数据采集过程包括集成、导入、格式化。数据采集过程中首先集成来自不同来源的数据。数据集成要考虑存储架构、采集方式、接口方式、采集周期等。在存储架构方面,可以考虑在数据源侧设置数据暂存区(StagingArea),也可以考虑在采集平台侧设置的暂存区。靠根据数据量和累计速度来设置合理大小的数据暂存区,防止数据溢出。在存取方式方面,可以根据应用的需要采用不同的存取方式。采集方式包括单个采集和批量采集两种类
分类:
其他好文 时间:
2019-11-09 00:31:54
阅读次数:
83
数据采集过程包括集成、导入、格式化。数据采集过程中首先集成来自不同来源的数据。数据集成要考虑存储架构、采集方式、接口方式、采集周期等。在存储架构方面,可以考虑在数据源侧设置数据暂存区(StagingArea),也可以考虑在采集平台侧设置的暂存区。靠根据数据量和累计速度来设置合理大小的数据暂存区,防止数据溢出。在存取方式方面,可以根据应用的需要采用不同的存取方式。采集方式包括单个采集和批量采集两种类
分类:
其他好文 时间:
2019-11-09 00:04:23
阅读次数:
173
从三个点来说: 1)提供服务的对象 2)业务域 3)层次的划分 1)提供服务的对象 a、数据仓库的服务对象基本上是人。明细数据,聚合指标,转化率模型, 他们的目前用户都是人 b、数据中台的服务对象变成 人+机器。 用户标签、机器学习模型,数据挖掘模型,他们的目标是系统。比如说广告系统,推荐系统,风控 ...
分类:
其他好文 时间:
2019-09-29 18:15:16
阅读次数:
106
我以为我对Kafka很了解,直到我看了这篇文章 2019-08-12 18:05 我以为我对Kafka很了解,直到我看了这篇文章 2019-08-12 18:05 Kafka 是一个消息系统,原本开发自 LinkedIn,用作 LinkedIn 的活动流(Activity Stream)和运营数据处 ...
分类:
其他好文 时间:
2019-08-18 10:08:52
阅读次数:
146