为什么要选择列式存储 行式存储和列式存储主要是在物理存储的选择上面,这里主要是选择从实体的完整性角度进行存储,还是从实体特征维度进行存储,行式存储就是以实体为单位进行存储,在物理存储上,一个实体(的特征属性)紧挨着另外一个实体;列式存储就是从实体特征维度进行存储,通常是以列为物理存储单元,这种存储模 ...
分类:
其他好文 时间:
2020-01-05 09:37:15
阅读次数:
76
一.说明 将Apache NiFi做为关系型数据与非关系型数据库的数据同步工具使用,在此场景中需要将mysql导出的avro数据格式转化为json入库HBase 二.开拔 Ⅰ).配置ExecuteSQLRecord a).选择ExecuteSQLRecord b).配置ExecuteSQLRecor ...
分类:
数据库 时间:
2020-01-04 18:52:42
阅读次数:
223
一.说明 在大数据平台的业务场景中,处理实时kafka数据流数据,以成为必要的能力;此篇将尝试通过Apache NiFi来接入Kafka数据然后处理后存储之HBase 二.开拔 Ⅰ).配置ConsumeKafka_0_10 a).选择ConsumeKafka_0_10 b).配置ConsumeKaf ...
分类:
Web程序 时间:
2020-01-04 18:52:05
阅读次数:
238
kettle的安装很简单,到官网下载解压即可。只是启动时可能碰到一些问题,需要注意一下: 1. 启动时执行Spoon.bat一闪而退 2. jar包缺失 创建数据库连接时,以mysql为例,如果连接测试时提示下面信息,说明缺少数据库连接的jar包,需要安装mysql的驱动jar包,下载地址:http ...
一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 Hadoop 的文件系 ...
分类:
其他好文 时间:
2020-01-04 12:52:32
阅读次数:
105
启动顺序 Hadoop及hbase集群启动顺序 zookeepeer -> hadoop -> hbase 停止顺序 Hadoop及hbase集群关闭顺序 hbase -> hadoop -> zookeepeer 启动和停止ZK /home/zookeeper-3.4.6/bin/zkServer ...
分类:
其他好文 时间:
2020-01-03 23:06:57
阅读次数:
157
一、项目介绍 在图书馆,尤其是在各大图书馆,对于图书的管理是相当重要的,而且也是相当麻烦,它是图书管理中最基本的一项常规性的工作。而长期以来,图书管理都是依赖人工进行的,面对如此多的借阅信息就造成相当一部分的资源的浪费。图书管理系统是为了解决图书馆的管理和图书借阅的相关信息的更新操作,包括管理员的调 ...
分类:
其他好文 时间:
2020-01-03 15:36:14
阅读次数:
89
Hbase数据管理 Hbase就是Hadoop database Hbase是列式数据库 因此Hbase特别适合寻找按照时间排序寻找Top n的场景 Hive数据管理 基于 Hadoop 文件系统的数据仓库 Hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具,用来进行数据提取、转 ...
分类:
其他好文 时间:
2020-01-02 15:24:13
阅读次数:
66
HBase是大数据中的数据库,是一种列级存储的数据库,支持秒级查询,下面安装记录一下,基于centos6,后面查看用。 安装hadoop hbase存储的数据在hadoop中,因此需要先安装hadoop,可以安装伪分布式就可以,用作学习用,参考 https://www.cnblogs.com/you ...
分类:
其他好文 时间:
2020-01-02 00:04:07
阅读次数:
121
package com.zy; import java.io.IOException; import org.apache.commons.lang.time.StopWatch; import org.apache.hadoop.conf.Configuration; import org.apa ...
分类:
编程语言 时间:
2020-01-01 11:46:04
阅读次数:
94