1、认识Hadoop和Hbase 1.1 hadoop简单介绍 Hadoop是一个使用java编写的Apache开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作。Hadoop旨在从单一服务 ...
分类:
其他好文 时间:
2020-01-16 13:00:17
阅读次数:
97
接下来记录一下HBase存储原理相关的知识,理解尚浅,后续再补充。 索引 hbase中没有索引,但是mysql有,区别在于mysql是行级存储,hbase是列级存储,索引对行级存储有意义,对于列级存储意义不大。 如下图所示,不管是mysql还是hbase,最终数据都会落地成文件,当给行级存储建立索引 ...
分类:
其他好文 时间:
2020-01-16 01:15:32
阅读次数:
86
HBase行健的设计 在设计HBase表的时候,行健是唯一重要的事情。应该基于预期的访问模式来为行健进行建模 行健决定了访问HBase表时可以得到的性能。这个结论根植于两个事实: 1、region基于行健为一个区间的行提供服务,并且负责区间内的每一行。 2、HFile在硬盘上存储有序的行。 当reg ...
分类:
其他好文 时间:
2020-01-16 01:05:01
阅读次数:
74
1 Hbase特点 容量大:Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个纬度所支持的数据量级都非常具有弹性。 面向列 :Hbase是面向列的存储和权限控制,并支持独立检索。列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能大大减少读取的数据量。 多版本: H ...
分类:
其他好文 时间:
2020-01-15 19:57:46
阅读次数:
78
问题:列族中列名的数量不固定,随时变化问题分析:这种情况,在hive中提前做好映射是不可能的;解决:可以用hive中的map映射案例:hbase中建表:create 'user_profile','cf'hive建表:CREATE EXTERNAL TABLE user_profile ( user... ...
分类:
其他好文 时间:
2020-01-15 19:49:40
阅读次数:
85
持久化的作用 什么是持久化 redis所有的数据保存在内存中,对数据的更新将异步地保存到磁盘上。 持久化的实现方式 快照 mysql dump redis RDB 写日志 Mysql Binlog Hbase HLog Redis AOF RDB 什么是RDB 快照 备份 主从复制 触发机制-主要三 ...
分类:
其他好文 时间:
2020-01-14 12:57:17
阅读次数:
97
[TOC] 1 目的 记录Spark集群框架搭建及实验自学心得。 2 准备工作 1. "VMware 15 Pro" 2. "Centos7" 3. "JDK 1.8" 4. "Hadoop 2.7.2" 5. "SecureCRT version 8.5" 6. "Scala 2.12.7" 7. ...
分类:
其他好文 时间:
2020-01-13 20:16:53
阅读次数:
106
1. HBase连接的方式概况 主要分为: 纯Java API读写HBase的方式; Spark读写HBase的方式; Flink读写HBase的方式; HBase通过Phoenix读写的方式; 第一种方式是HBase自身提供的比较原始的高效操作方式,而第二、第三则分别是Spark、Flink集成H ...
分类:
其他好文 时间:
2020-01-13 12:28:18
阅读次数:
99
EROR: Version file does not exist in root dir hdfs://XXXXXXX:8020/tmp/hbase-hbase/hbase 出错原因是hbck在gateway执行的,gateway的配置与hmaster的不一致,在hmaster执行hbck并无不一 ...
分类:
其他好文 时间:
2020-01-12 13:48:15
阅读次数:
170
1 解压软件包 2 copy server包到对应节点 3 scp /mnt/software/phoenix-4.14.1-cdh5.16.1-server.jar hadoop002:/opt/cloudera/parcels/CDH/lib/hbase/lib/ 4 添加配置 <propert ...
分类:
其他好文 时间:
2020-01-12 13:34:10
阅读次数:
105