本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。
安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。
我将要安装的hbase是hbase-0.94.11版本,需要的hadoop是hadoop-1.2.1版本。
hbase下载地址:http://mirror.bit.edu.cn/apache/hbase/hbase-0...
分类:
其他好文 时间:
2014-10-08 01:23:44
阅读次数:
279
kettle性能调优,详细介绍转换的优化设置及步骤多线程。...
分类:
编程语言 时间:
2014-10-07 22:08:24
阅读次数:
431
kettle的子转换,及映射类的步骤详细介绍。是重用转换的一种有用的方式,让一些公共算法重构成子转换,供其它转换调用。...
分类:
其他好文 时间:
2014-10-05 19:07:08
阅读次数:
220
一、快照机制snapshots简单在hbase上做个表做测试:hbase(main):044:0>scan‘student‘ROWCOLUMN+CELLnum1column=shuxing:name,timestamp=1412189531346,value=jaybingnum2column=shuxing:name,timestamp=1412189623682,value=jaychounum3column=shuxing:like,timestamp=14121..
分类:
其他好文 时间:
2014-10-05 11:43:28
阅读次数:
293
起因:最近需要从hbase中向 ES中导一批数据,使用multiprocessing 启动多个程序同时向ES导数据,可以大大提高效率,因为导数的任务是可以按照时间分割的。
令我十分不解的,multiprocessing 是如何实现任务的分发,以及结果的回传的。我希望能够把它的实现机制与操作系统的进程机制对应起来。
经过阅读代码,得出的结论如下:
1. 父进程作为整个任务的分发器,每个worker是一个子进程
2. 子进程和父进程之间通过管道通讯,包括任务的分发和结果的回传(2个【管道】) ,管道通过【信号量...
分类:
其他好文 时间:
2014-10-03 13:57:04
阅读次数:
284
尤其在互联网世界,图计算越来越受到人们的关注,而图计算相关的软件也越来越丰富。本文将快速展示 Titan这个open source 的图数据库。...
分类:
数据库 时间:
2014-10-01 23:11:41
阅读次数:
525
业务模型: 在关系型数据库中有张很大的表,被设计成奇偶库存储,每个库100张一模一样的表,每张表存储1000W,字段切换到下一个表。现需要同步这个数据到hive中(hdfs),循环抽取这些数据。如果是抽取增量的带上增量字段(每天增量数据存储在哪个表,奇数库还是偶数库是不知道的)。...
分类:
其他好文 时间:
2014-10-01 09:25:40
阅读次数:
367
HBase为可伸缩海量数据存储而设计,实现面向在线业务的实时数据访问延迟。HBase的伸缩性主要依赖其可分裂的HRegion及可伸缩的分布式文件系统HDFS实现。HBase中,数据以HRegion为单位进行管理,也就是说应用程序如果想要访问一个数据,必须先找到HRegion,然后将数据读写操作提..
分类:
其他好文 时间:
2014-10-01 00:39:00
阅读次数:
249
需求
在推荐系统场景中,如果基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果很可能达不到要求的数量。
比如,希望针对每个item或user推荐20个item,但是通过计算只得到8个,剩下的12个就需要补全。
欢迎转载,请注明出处:
策略
数据补全的具体策略是:
补全时机:在挖掘计算结束后,挖掘结果导入HBase(最终web系...
分类:
数据库 时间:
2014-09-29 21:15:51
阅读次数:
295
环境: 操作系统:ubuntu 12.10 64bit jdk:sun jdk 1.6 64bit hadoop:apache hadoop 1.02 hbase:apache hbase 0.92 先决条件:配置apache hadoop append,默认这个属性是false...
分类:
其他好文 时间:
2014-09-28 13:55:02
阅读次数:
181