在HFILE文件中的存储 BloomFilterChunk 使用 实际存储bit数组,因此 和`set`过程都需要进行相应的转换,计算byte[]的index再计算byte内bit的index。 由于hash函数个数是不定地,该类中使用一个hash函数通过不同的 计算出 和`hash2 hash1+ ...
分类:
其他好文 时间:
2019-10-24 15:42:02
阅读次数:
84
http://www.kettle.net.cn/ https://www.cnblogs.com/mq0036/p/9238646.html 。。。。 直接到百度下搜索kettle即可 ...
分类:
其他好文 时间:
2019-10-24 13:25:18
阅读次数:
62
Hive和HBase的区别 ? hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,H ...
分类:
数据库 时间:
2019-10-24 12:01:06
阅读次数:
71
数据层的存储一般如下: Data Source 数据源一般是业务库和埋点,当然也会有第三方购买数据等多种数据来源方式。业务库的存储一般是Mysql 和 PostgreSql。 ODS 层 ODS 的数据量一般非常大,所以大多数公司会选择存在HDFS上,即Hive或者Hbase,Hive居多。 可将O ...
分类:
其他好文 时间:
2019-10-22 13:07:13
阅读次数:
124
深度分析HBase架构 https://zhuanlan.zhihu.com/p/30414252 https://zhuanlan.zhihu.com/p/30414252 https://zhuanlan.zhihu.com/p/30414252 https://zhuanlan.zhihu.c ...
分类:
其他好文 时间:
2019-10-19 12:48:01
阅读次数:
75
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、集群管理等。 因为Kafka集群是把状态信息保存在Zooke ...
分类:
其他好文 时间:
2019-10-19 09:20:57
阅读次数:
76
前言 Kettle 除了常规的数据处理之外,还可以模拟发送HTTP client/post ,REST client。 实验背景 这周二老师布置了一项实验: 建立一个转换,实现一个猫眼API热映电影的json,生成为xls文件。 猫眼的热门电影接口为: "?http://m.maoyan.com/ ...
创建hbase表 pwd/opt/open-tsdb/opentsdbenv COMPRESSION=NONE HBASE_HOME=/opt/cloudera/parcels/CDH ./src/create_table.sh创建metrice indicator pwd/opt/open-tsd ...
分类:
数据库 时间:
2019-10-18 19:22:43
阅读次数:
97
最近学习大数据Hadoop和hbase,但是奈何虚拟机速度更不上就想使用Windows下的eclipse链接Linux下的Hadoop等文件,但是使用Hadoop的控件可以连接好,而且也能链接hadoop的相关文件,但是到了hbase就会卡住不动,出现以下界面就一直不动。 经过修改别的虚拟机下的ho ...
分类:
系统相关 时间:
2019-10-16 23:26:04
阅读次数:
235
今天有空闲时间看一下HBASE的写入代码 MutiAction类,是一个action的container,包括get . put. delete。并且是根据region name分组的。其中核心的就是add方法,根据传进来的region name将action分组 接下来介绍AyncProcess类 ...
分类:
其他好文 时间:
2019-10-16 11:35:37
阅读次数:
86