规划:nn1.hadoop nn2.hadoop s1.hadoop s2.hadoop ZK: nn1 nn2 s1journalnode: nn1 nn2 s1DataNode: nn1 nn2 s1 s2NodeManager: nn1 nn2 s1 s2NameNode: nn1 nn2Re ...
分类:
系统相关 时间:
2020-05-09 21:12:33
阅读次数:
83
需求: 做数据仓库时,需要将业务系统CRM抽取到数据仓库的缓冲层,业务系统使用的是SqlServer数据库,数据仓库的缓冲层使用的是mysql数据库,为实现数据库的迁移,即将SqlServer数据库中的所有表与数据迁移到Mysql。 解决办法一:利用kettle的复制多表复制向导 过程如下: 1、选 ...
分类:
数据库 时间:
2020-05-09 19:11:54
阅读次数:
156
Kettle版本:3.2GAJDK版本:1.6.0_41OS:NT由于组件涉及非常多,我这就只举例几个常用的组件来进行介绍。需要了解全部组件下载Kettle用户手册下载 本弹给大家详细说明的组件:表输入、获取系统信息、表输出、字符选择、过滤记录、执行SQL语句、设置变量、获取变量 表输入(Table ...
分类:
其他好文 时间:
2020-05-09 18:46:01
阅读次数:
113
二者对比 1.Hive 数据仓库:本质其实就相当于将hdfs中已经存储的文件在Mysql中做了一个双射关系,以方便用HQL去管理查询。 用于数据分析、清洗:Hive适用于离线的数据分析和清洗,延迟较高。 基于HDFS、MapReduce:Hive存储的数据依旧在DataNode上,编写的HQL语句终 ...
分类:
其他好文 时间:
2020-05-09 01:23:51
阅读次数:
63
1,Pinpoint的架构: Pinpoint的组件介绍: Pinpoint-Collector:收集各种性能数据 Pinpoint-Web:将收集到的数据显示成WEB网页形式 HBase Storage:收集到的数据存到HBase中 Pinpoint-Agent:和自己运行的应用关联起来的探针 P ...
分类:
其他好文 时间:
2020-05-09 00:26:14
阅读次数:
114
JAVA版本低于1.8不能使用 kettle 7以上版本使用5.0.1版本并解压用root重新解压,看sh文件是否有执行权限运行 ./kitchen.sh下载javahttps://www.oracle.com/java/technologies/javase-jdk13-downloads.htm ...
将jar包放置服务器运行 1.环境配置 + 在/etc/profile中配置 + 在hadoop env.sh配置,==在for循环后面添加== 直接在开发平台运行,连接到HBase服务端(以IDEA为例) 1.环境配置,添加hbase site.xml,将远程的hbase site.xml文件内容 ...
分类:
其他好文 时间:
2020-05-07 22:58:36
阅读次数:
83
Hbase API删除数据详解 一:代码实现如下: 二:分析和实践 ==javaAPI删除Hbase的数据有三种方式,hbase删除数据,并不是马上删掉,只是对数据打一个删除标记,真正删除数据是等到下一次major_compact(除非KEEP_DELETED_CELLS=true)。== 1) 删 ...
NoSQL的四大种类 NoSQL数据库在整个数据库领域的江湖地位已经不言而喻。在大数据时代,虽然RDBMS很优秀,但是面对快速增长的数据规模和日渐复杂的数据模型,RDBMS渐渐力不从心,无法应对很多数据库处理任务,这时NoSQL凭借易扩展、大数据量和高性能以及灵活的数据模型成功的在数据库领域站稳了脚 ...
分类:
数据库 时间:
2020-05-06 12:12:17
阅读次数:
86
本文源码:GitHub·点这里||GitEE·点这里一、DataX工具简介1、设计理念DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当
分类:
其他好文 时间:
2020-05-06 10:30:40
阅读次数:
73